CN115022711A

CN115022711A - 一种电影场景内镜头视频排序系统及方法

Info

Publication number: CN115022711A
Application number: CN202210460469.8A
Authority: CN
Inventors: 马诗洁; 陈萌; 毛瑞琛
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-09-06
Anticipated expiration: 2042-04-28
Also published as: CN115022711B

Abstract

本发明属于视频制作领域，公开了一种电影场景内镜头视频排序系统及方法，包括电影数据预处理模块、镜头特征提取模块、镜头排序模块；电影数据预处理模块包括镜头检测与分割，用于将输入的整个电影按照镜头进行切分；镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征；镜头排序模块，用于将一个场景下的图像时序特征进行组合为一组特征图，多个场景的多组特征图进行输入；选定一个视频片段作为初始片段，预测出下一个视频片段是其中的哪一个镜头，直至完成所有视频片段的排序。本发明可实现以每一个分镜的多个镜头作为输入，自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。

Description

一种电影场景内镜头视频排序系统及方法

技术领域

本发明属于视频制作领域，尤其涉及一种电影场景内镜头剪辑合成系统及方法。

背景技术

随着互联网的发展，人民生活水平的不断提高，电影作为一种新型的内容记录和媒体表达的方式，丰富着人们的物质文化生活。

在视频生产领域。传统的视频制作剪辑过程比较繁琐，随着视频剪辑软件的越来越普及、数码设备功能的强大，一个电影通常包含成千上万个镜头，使电影剪辑制作需求也不断提升，缺乏一种对电影场景图镜头视频的剪辑合成方法。

发明内容

本发明目的在于提供一种电影场景内镜头视频排序系统及方法,以解决上述的技术问题。

为解决上述技术问题，本发明的一种电影场景内镜头视频排序系统及方法的具体技术方案如下：

一种电影场景内镜头视频排序系统，包括电影数据预处理模块、镜头特征提取模块、镜头排序模块；

所述电影数据预处理模块包括镜头检测与分割，用于将输入的整个电影按照镜头进行切分；

所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征；

所述镜头排序模块，用于将一个场景下的图像时序特征进行组合为一组特征图，多个场景的多组特征图进行输入；选定一个视频片段作为初始片段，预测出下一个视频片段是其中的哪一个镜头，直至完成所有视频片段的排序。

本发明还公开了一种电影场景内镜头视频排序方法，包括如下步骤：

步骤101：通过TransNet模型对输入的电影进行分割：基于TransNet方法对完整的电影视频进行镜头边界帧的识别，并按照镜头边界帧的时间节点，实现对电影视频的切分，得到多个镜头片段；

步骤102：使用TransNet对步骤101中得到的镜头视频片段提取多帧图片：基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧；

步骤103：基于ResNet50对多图像进行特征提取并拼接获得视频片段特征：基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取，并将得到的特征向量进行拼接，作为代表该镜头片段的特征向量；

步骤104：使用Transformer模型对电影片段进行预测分类：随机选出初始镜头片段，基于Transformer方法将代表镜头片段的特征向量作为输入，通过时序分类的方法预测下一个镜头片段，然后根据开端选定的镜头特征和已预测的镜头特征，继续进行预测下一镜头，直至将其串联成一个完整的视频。

进一步地，所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分；电影视频通过TransNet模型中的4个DDCNN单元进行处理，4个DDCNN单元具有相同的卷积核大小和不同的扩张率，将经过4个卷积操作之后分别得到的4个输出进行拼接，再经过1层池化层和2层全连接层，最终输出对电影视频中的每一帧的判别，即该帧是否为边界帧，由此得到边界帧的时间节点；然后根据得到的边界帧时间节点对电影视频进行切分，从而获取每一个镜头的视频。

进一步地，所述步骤101的具体步骤为：

TransNet的输入为N帧长的电影视频，输出为预测得到的视频边界帧，TransNet共有4个DDCNN单元，其中4个单元的卷积运算均为3×3×3，每个单元的扩张率分别为1、2、4、8，输入的视频先经过4个DDCNN，将4个DDCNN得到的4个输出拼接起来，再经过1层池化层与2层全连接层，输出每一帧的判别结果；

训练时，网络的输入为长度为N的完整电影视频，且被统一调整大小为N×W×H×3，其中W表示图像的宽度，H表示图像的高度，N帧序列视频帧通过4个DDCNN单元，再经过1层池化层和两层全连接层，最后输出N×2维向量，表示对每一帧图像是否为边界帧的判别，TransNet的模型的训练具体为：训练集为N个编码向量图像帧的视频序列，通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值，具体loss函数如下：

训练：采用Adam优化器，初始学习率为0.001；

预测：对于按照上述步骤训练完成的TransNet，输入任意电影M_test全部帧，判断每一帧是否是镜头边界，进而得到边界帧，通过边界帧对视频进行划分进而获取每一个镜头的视频，用于步骤102。

进一步地，所述步骤102对校验后的镜头视频片段进行提取多帧图片，需要提取的内容包含第一帧、中间关键帧、结尾转场帧，将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧，中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度，其中余弦相似度最大的作为关键帧；将每个视频片段提取的帧进行拼接，用于表示该片段；以此组合成一个新的时序视频序列。

进一步地，所述步骤102余弦相似度的计算公式如下：

其中θ表示视频片段特征向量集合，A表示进行平均余弦相似度计算的视频片段特征向量，B表示视频片段集合θ中非A的视频片段的视频片段特征，m为集合θ的大小，n为单个特征向量的维度。

进一步地，所述步骤103选定一个镜头作为起始镜头，将开始图像I_strat，中间关键帧图像I_middle1...n，结尾转场图像I_end送入ResNet50预训练模型中，进行图像特征向量提取，然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量，获得该镜头片段的特征向量F_{n embedding}，重复以上步骤，提取当前电影视频下所有镜头的特征向量。

进一步地，所述步骤103包括如下具体步骤：为了获得镜头视频片段的特征向量F_{n embedding}，使用预训练模型ResNet50对图像进行特征提取，再将同一片段的图像特征进行拼接得到片段特征，其中ResNet50的基本结构描述如下：

ResNet50模型由5个阶段组成，第1阶段是1个卷积操作，其余4个阶段都由Bottleneck组成，第2至5阶段分别包含3、4、6、3个Bottleneck；第1个阶段：输入为(N,H,W,C)，其中N表示批量样本个数，H表示高度、W表示宽度、C表示通道数,H＝224，W＝224，C＝3；该阶段包括4个先后操作：卷积，卷积核大小为7×7；Batch Normalization；ReLU和MaxPooling，输出大小为(N,112,112,64)；

第2个阶段由3个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N,112,112,64)，输出大小为(N,56,56,256)；

第3个阶段由4个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N,55,55,256)，输出大小为(N,28,28,512)；

第4个阶段由6个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N,28,28,512)，输出大小为(N,14,14,1024)；

第5个阶段由3个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N,14,14,1024)，输出大小为(N,7,7,2048)；

训练：使用ResNet50预训练模型；

预测：输入为步骤102中得到的每个镜头片段中包含的图像，通过对ResNet50中第5阶段得到的特征向量进行提取，提取之后将每个片段所包含的图像的特征向量进行拼接，拼接之后得到片段的特征向量F_{n embedding}。

进一步地，所述步骤104使用Transformer模型进行视频片段的排序，使用Transformer中的decoder部分来实现，使用多头注意力机制和mask实现下一视频片段的预测，模型的输入为步骤103中得到的视频片段的编码向量F_{n embedding}，先对编码向量F_{n embedding}加入positional encoding，将特征F_{n embedding}的顺序位置信息记作P_nx；在模型训练阶段，输入特征F_{n embedding}与位置信息P_nx，并使用mask方法来辅助实现训练过程，在训练过程中使用mask掩盖掉后续未知片段；在测试阶段，任意选定一个视频片段的特征作为初始片段P₀，从视频资源集合中分别输入视频预测模型中，选择概率最大的作为第二个视频片段，以第一个和第二个视频片段特征作为已知输入，从视频资源中通过模型选择概率最大的第三个视频片段，并以此类推，直到合成一个完整的视频；Transformer模型训练：通过Adam随机梯度反向传播算法降低Transformer训练损失函数值，得到最优解的模型；测试：将选定的作为开端的镜头特征作为输入，通过模型对一镜头的视频片段进行预测，直至完成当前电影场景内镜头视频的排序。

进一步地，模型训练阶段的训练损失函数为交叉熵损失函数：

本发明的一种电影场景内镜头视频排序系统及方法具有以下优点：本发明以TransNet、ResNet50以及Transformer为基础建立模型，实现对电影中镜头的剪辑合成。TransNet对电影视频进行镜头边界帧的识别，然后按照镜头边界帧的时间节点实现电影镜头片段的切分，使用ResNet50对电影镜头片段进行表征；Transformer则是对镜头片段顺序进行预测排序，当已知前序序列对其余片段进行预测判断为后续片段的概率，从而找到后续片段。在本发明中主要使用了Transformer中的decoder部分，以此类推直到合成一个完整的视频。本发明可实现以每一个分镜的多个镜头作为输入，自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。

附图说明

图1为本发明系统结构示意图；

图2为本发明方法的流程图；

图3为电影数据预处理模块整体架构图；

图4为多图像时序特征生成模块整体架构图；

图5为Transfomer结构图；

图6为镜头视频排序示例展示图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种电影场景内镜头视频排序系统及方法做进一步详细的描述。

如图1所示，本发明的一种电影场景内镜头视频排序系统，包括：

电影数据预处理模块，包括镜头检测与分割，将输入的整个电影按照镜头进行切分；

镜头特征提取模块，提取单个镜头的多个关键帧图像的内容特征；

镜头排序模块，将一个场景下的图像时序特征进行组合为一组特征图，多个场景的多组特征图进行输入。选定一个视频片段作为初始片段，预测出下一个视频片段是其中的哪一个镜头，直至完成所有视频片段的排序。

参照图2所示，本发明的一种电影场景内镜头视频排序的方法包括如下几个步骤：

步骤101、通过TransNet模型对输入的电影进行分割。

本发明采用TransNet模型对输入的电影进行镜头边界的检测，得到电影镜头的边界帧，再通过边界帧对电影视频进行切分。如图3所示，TransNet算法的详情如下：

TransNet的输入为N帧长的电影视频，输出为预测得到的视频边界帧。TransNet主要部分为DDCNN单元，共有4个DDCNN单元，其中4个单元的卷积运算均为3×3×3，每个单元的扩张率分别为1、2、4、8。输入的视频先经过4个DDCNN，将4个DDCNN得到的4个输出拼接起来，再经过1层池化层与2层全连接层，输出每一帧的判别结果。

训练时，网络的输入为长度为N的完整电影视频，且被统一调整大小为N×W×H×3，其中W表示图像的宽度，H表示图像的高度。N帧序列视频帧通过4个DDCNN单元，再经过1层池化层和两层全连接层，最后输出N×2维向量，表示对每一帧图像是否为边界帧的判别。TransNet的模型的训练具体为：训练集为N个编码向量图像帧的视频序列，通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值，具体loss函数如下：

训练：采用Adam优化器，初始学习率为0.001。

步骤102、使用TransNet对步骤101中得到的镜头视频片段提取多帧图片。

对校验后的镜头视频片段进行提取多帧图片，需要提取的内容包含第一帧、中间关键帧、结尾转场帧，将每个视频片段提取的帧进行拼接，用于表示该片段；以此组合成一个新的时序视频序列，以此方式来避免无效帧图片与减少重复帧图片，提高后续步骤的准确度、减少模型的计算量。在此步骤中具体使用的方法为将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧，中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧的表征向量计算平均余弦相似度，其中余弦相似度最大的作为关键帧。余弦相似度的计算公式如下：

通过该步骤，本发明用每个视频片段第一帧、中间关键帧、结尾转场帧组合得到的序列代表该视频片段。

步骤103、基于ResNet50对多图像进行特征提取并拼接获得视频片段特征。选定一个镜头作为起始镜头，将开始图像I_start，中间关键帧图像I_middle1...n，结尾转场图像I_end送入ResNet50预训练模型中，进行图像特征向量提取，然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量，获得该镜头片段的特征向量F_nembedding。重复以上步骤，提取当前电影视频下所有镜头的特征向量。具体的：

如图4所示，该步骤输入步骤102中得到的镜头视频片段中的图片序列，输出镜头视频片段的特征。对输入的多图像时序序列中的每一图像使用ResNet50预训练神经网络模型进行编码，获取每张图像的特征向量，将每个片段中的多张图像的特征向量进行拼接从而得到代表视频片段的特征向量F_{n embedding}。

为了获得镜头视频片段的特征向量F_{n embedding}，使用预训练模型ResNet50对图像进行特征提取，再将同一片段的图像特征进行拼接得到片段特征。其中ResNet50的基本结构描述如下：

ResNet的核心思想是引入一个恒等快捷连接的结构，直接跳过一个或多个层。ResNet50模型主要由5个阶段组成，第1阶段是1个卷积操作，其余4个阶段都由Bottleneck组成，第2至5阶段分别包含3、4、6、3个Bottleneck。下面对ResNet50的5个阶段进行详细的描述：

第1个阶段：输入为(N,H,W,C)，其中N表示批量样本个数，H表示高度、W表示宽度、C表示通道数,H＝224，W＝224，C＝3。该阶段包括4个先后操作：卷积，卷积核大小为7×7；Batch Normalization；ReLU和MaxPooling。输出大小为(N,112,112,64)。

第2个阶段由3个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1。输入大小为(N,112,112,64)，输出大小为(N,56,56,256)。

第3个阶段由4个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1。输入大小为(N,55,55,256)，输出大小为(N,28,28,512)。

第4个阶段由6个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1。输入大小为(N,28,28,512)，输出大小为(N,14,14,1024)。

第5个阶段由3个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1。输入大小为(N,14,14,1024)，输出大小为(N,7,7,2048)。

训练：本发明中使用ResNet50预训练模型。

预测：在本发明中输入为步骤102中得到的每个镜头片段中包含的图像，通过对ResNet50中第5阶段得到的特征向量进行提取，提取之后将每个片段所包含的图像的特征向量进行拼接，拼接之后得到片段的特征向量F_{n embedding}。

步骤104、使用Transformer模型对电影片段进行预测分类。

随机选择某一镜头片段的特征向量作为视频镜头拼接的开端，将剩余镜头片段与其组合，判断剩余镜头片段是当前镜头片段特征向量下一特征向量的概率，概率最大的则为下一镜头场景。如图5所示，本发明使用了Transformer模型。

特征编码解码器Transformer主要分为两个部分:编码器部分与解码器部分。编码器部分有N个相同的layer，每个layer由两个sub-layer组成，分别是multi-head self-attention和feed-forward network。其中每个sub-layer都增加了residual connection和normalization。因此可以将sub-layer的输出表示为：

sub_layer_output＝LayerNorm(x+(SubLayer(x)))

传统的attention可由以下形式表示：

attention_output＝Attention(Q,K,V)

Multi-head self-attention通过h个不同的线性变换对Q,K,V进行投影，最后将不同的attention结果拼接起来:

MulitHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

Self-attention中Q、K、V相同。

Transformer中还采取了scaled dot-product，即：

Feed-forward networks层进行非线性变换。

Decoder与encoder结构相类似，同样具有N个layer，不同之处在于Decoder的layer有三个sub-layer，相较于encoder,其多了一层masked multi-head attention。

在本发明中，将Transformer模型应用到图像领域，本发明中只使用Transformer中的encoder。

将步骤103中得到的图像特征向量作为输入，使用Transformer的decoder进行训练。首先对输入的特征向量F_{n embedding}加上位置信息P_nx。在训练阶段，使用mask,当输入第一个和第二个镜头的图像特征时，对余下的镜头特征向量的位置信息进行mask操作，判断当前镜头是否为正确的镜头序列和同一风格的镜头。当输入为第一个，第二个，第三个镜头的特征时，对余下的镜头特征的位置信息进行mask操作，判断当前的三个镜头是否为正常排序和同一风格。训练损失函数为交叉熵损失函数：

训练：优化器采用Adam optimizer，学习率为0.0001。

预测：在步骤103中得到的片段中随机选取一个片段作为初始片段P₀，输入到训练完的模型中，然后选取余下的片段作为其后续的片段，选取输出概率最大的一个片段作为其后续片段。如图6所示，继续使用Transformer将选定的初始镜头和已经的预测的镜头作为输入，预测其他镜头特征向量是当前镜头序列的下一镜头特征向量的概率，概率最大的则为下一镜头场景，以此类推进行3、4、5、6…个片段的选择，直到合成一个完整的视频。

本发明以TransNet、ResNet50以及Transformer为基础建立模型，实现对电影中镜头的剪辑合成。TransNet对电影视频进行镜头边界帧的识别，然后按照镜头边界帧的时间节点实现电影镜头片段的切分，在本发明中使用了TransNet模型，但不限制于TransNet模型，可以使用TransNetv2进行同等替换；使用ResNet50对电影镜头片段进行表征；Transformer则是对镜头片段顺序进行预测排序，当已知前序序列对其余片段进行预测判断为后续片段的概率，从而找到后续片段。在本发明中主要使用了Transformer中的decoder部分，以此类推直到合成一个完整的视频。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种电影场景内镜头视频排序系统，其特征在于，包括电影数据预处理模块、镜头特征提取模块、镜头排序模块；

所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征；所述镜头排序模块，用于将一个场景下的图像时序特征进行组合为一组特征图，多个场景的多组特征图进行输入；选定一个视频片段作为初始片段，预测出下一个视频片段是其中的哪一个镜头，直至完成所有视频片段的排序。

2.一种利用如权利要求1所述的电影场景内镜头视频排序系统进行视频排序的方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的电影场景内镜头视频排序方法，其特征在于，所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分；电影视频通过TransNet模型中的4个DDCNN单元进行处理，4个DDCNN单元具有相同的卷积核大小和不同的扩张率，将经过4个卷积操作之后分别得到的4个输出进行拼接，再经过1层池化层和2层全连接层，最终输出对电影视频中的每一帧的判别，即该帧是否为边界帧，由此得到边界帧的时间节点；然后根据得到的边界帧时间节点对电影视频进行切分，从而获取每一个镜头的视频。

4.根据权利要求2所述的电影场景内镜头视频排序方法，其特征在于，所述步骤101的具体步骤为：

训练：采用Adam优化器，初始学习率为0.001；

5.根据权利要求4所述的电影场景内镜头视频排序方法，其特征在于，所述步骤102对校验后的镜头视频片段进行提取多帧图片，需要提取的内容包含第一帧、中间关键帧、结尾转场帧，将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧，中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度，其中余弦相似度最大的作为关键帧；将每个视频片段提取的帧进行拼接，用于表示该片段；以此组合成一个新的时序视频序列。

6.根据权利要求5所述的电影场景内镜头视频排序方法，其特征在于，所述步骤102余弦相似度的计算公式如下：

7.根据权利要求5所述的电影场景内镜头视频排序方法，其特征在于，所述步骤103选定一个镜头作为起始镜头，将开始图像I_strat，中间关键帧图像I_middle1...n，结尾转场图像I_end送入ResNet50预训练模型中，进行图像特征向量提取，然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量，获得该镜头片段的特征向量F_nembedding，重复以上步骤，提取当前电影视频下所有镜头的特征向量。

8.根据权利要求5所述的电影场景内镜头视频排序方法，其特征在于，所述步骤103包括如下具体步骤：为了获得镜头视频片段的特征向量F_nembedding，使用预训练模型ResNet50对图像进行特征提取，再将同一片段的图像特征进行拼接得到片段特征，其中ResNet50的基本结构描述如下：

ResNet50模型由5个阶段组成，第1阶段是1个卷积操作，其余4个阶段都由Bottleneck组成，第2至5阶段分别包含3、4、6、3个Bottleneck；第1个阶段：输入为(N，H，W，C)，其中N表示批量样本个数，H表示高度、W表示宽度、C表示通道数，H＝224，W＝224，C＝3；该阶段包括4个先后操作：卷积，卷积核大小为7×7；Batch Normalization；ReLU和MaxPooling，输出大小为(N，112，112，64)；

第2个阶段由3个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N，112，112，64)，输出大小为(N，56，56，256)；

第3个阶段由4个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N，55，55，256)，输出大小为(N，28，28，512)；

第4个阶段由6个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N，28，28，512)，输出大小为(N，14，14，1024)；

第5个阶段由3个Bottleneck模块组成，每个Bottleneck中经过三个卷积操作，卷积核大小分别为1×1，3×3，1×1，输入大小为(N，14，14，1024)，输出大小为(N，7，7，2048)；

训练：使用ResNet50预训练模型；

预测：输入为步骤102中得到的每个镜头片段中包含的图像，通过对ResNet50中第5阶段得到的特征向量进行提取，提取之后将每个片段所包含的图像的特征向量进行拼接，拼接之后得到片段的特征向量F_nembedding。

9.根据权利要求7所述的电影场景内镜头视频排序方法，其特征在于，所述步骤104使用Transformer模型进行视频片段的排序，使用Transformer中的decoder部分来实现，使用多头注意力机制和mask实现下一视频片段的预测，模型的输入为步骤103中得到的视频片段的编码向量F_nembedding，先对编码向量F_nembedding加入positional encoding，将特征F_nembedding的顺序位置信息记作P_nx；在模型训练阶段，输入特征F_nembedding与位置信息P_nx，并使用mask方法来辅助实现训练过程，在训练过程中使用mask掩盖掉后续未知片段；在测试阶段，任意选定一个视频片段的特征作为初始片段P₀，从视频资源集合中分别输入视频预测模型中，选择概率最大的作为第二个视频片段，以第一个和第二个视频片段特征作为已知输入，从视频资源中通过模型选择概率最大的第三个视频片段，并以此类推，直到合成一个完整的视频；Transformer模型训练：通过Adam随机梯度反向传播算法降低Transformer训练损失函数值，得到最优解的模型；测试：将选定的作为开端的镜头特征作为输入，通过模型对一镜头的视频片段进行预测，直至完成当前电影场景内镜头视频的排序。

10.根据权利要求9所述的电影场景内镜头视频排序方法，其特征在于，模型训练阶段的训练损失函数为交叉熵损失函数：