CN115100581B

CN115100581B - 基于文本辅助的视频重构模型训练方法及装置

Info

Publication number: CN115100581B
Application number: CN202211019289.2A
Authority: CN
Inventors: 黄于晏; 陈畅新
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-12-20
Anticipated expiration: 2042-08-24
Also published as: CN115100581A

Abstract

本发明公开了一种基于文本辅助的视频重构模型训练方法及装置，该方法包括：确定目标训练样本集合；根据所有目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，并判断训练后视频模型是否收敛，若是，则将训练后视频模型确定为视频重构模型；该视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与目标视频素材相匹配的视频。可见，实施本发明能够通过视频重构模型直接生成与视频素材相匹配的视频，无需用户通过指定的视频模板对视频素材进行查找、合成以及剪辑等繁琐的相关处理操作，这样，不仅有利于缩短视频制作的周期，还有利于提高制作出的视频与用户之间的匹配度，从而满足用户的视频制作需求。

Description

基于文本辅助的视频重构模型训练方法及装置

技术领域

本发明涉及模型训练技术领域，尤其涉及一种基于文本辅助的视频重构模型训练方法及装置。

背景技术

近年来，随着计算机视觉领域的飞速发展，视频生成技术的研究受到了越来越广泛的关注，使得个人、自媒体及企业能够快速以及智能地制作生动有趣的视频作品。

当前，视频生成技术主要通过人工对关联视频素材进行查找、合成以及剪辑等相关处理操作来实现。然而，通过实践发现，这种传统的视频生成技术需要制作者依据自身的视频制作经验以及采用指定的视频模板来对关联视频素材进行处理以及反复修正，使得视频的制作周期过长且使得制作出的视频与用户实际需求的匹配度较低，可见，提供一种能够快速地生成与用户实际需求的匹配度高的视频的方法尤为重要。

发明内容

本发明所要解决的技术问题在于，提供一种基于文本辅助的视频重构模型训练的方法及装置，不仅能够缩短视频制作的周期，还能够提高制作出的视频与用户之间的匹配度，从而满足用户的视频制作需求。

为了解决上述技术问题，本发明第一方面公开了一种基于文本辅助的视频重构模型训练方法，所述方法包括：

确定目标训练样本集合；所述目标训练样本集合包括若干个目标训练样本，每个所述目标训练样本至少包括样本视频帧集合；

根据所有所述目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，并判断所述训练后视频模型是否收敛；

当判断结果为是时，将所述训练后视频模型确定为视频重构模型；所述视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与所述目标视频素材相匹配的视频。

作为一种可选的实施方式，在本发明第一方面中，对于任一所述目标训练样本，其包括的所述样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧；或者，

对于任一所述目标训练样本，其包括的所述样本视频帧集合包括按照预设的抽帧间隔对该目标训练样本对应的样本视频进行抽帧处理后得到的视频帧；

其中，所述抽帧间隔是通过以下方式确定出的：

确定该目标训练样本对应的所述样本视频中所需分析的场景对象，并确定所述场景对象对应的变化程度值；所述场景对象对应的变化程度值越大，所述场景对象的运动变化越明显；

判断所述场景对象对应的变化程度值是否大于等于预设变化程度值阈值，若是，则根据所述变化程度值，确定所述样本视频的抽帧光流值；

根据所述样本视频的抽帧光流值，确定用于对所述样本视频进行抽帧处理的抽帧间隔。

作为一种可选的实施方式，在本发明第一方面中，所述确定目标训练样本集合，包括：

确定包括若干个原始训练样本的原始训练样本集合；

对于每个所述原始训练样本，确定该原始训练样本中的原始样本视频帧集合的视频帧数，并判断所述视频帧数是否大于预设帧数阈值；

当判断出所述视频帧数大于所述预设帧数阈值时，根据所述预设帧数阈值，从所述原始样本视频帧集合中确定出与所述预设帧数阈值相匹配的至少两个原始样本视频帧序列，分别将每个所述原始样本视频帧序列确定为目标训练样本；一个所述原始样本视频帧序列为一个所述目标训练样本；

当判断出所述视频帧数小于所述预设帧数阈值时，从所述原始样本视频帧集合中确定出至少一个待复制样本视频帧，并对所有所述待复制样本视频帧进行复制；根据预设的植入位置，将复制后的所有所述待复制样本视频帧植入至所述原始样本视频帧集合中，得到该原始训练样本对应的目标训练样本；

根据所有所述目标训练样本，确定目标训练样本集合。

作为一种可选的实施方式，在本发明第一方面中，所述根据所有所述目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，包括：

将所有所述目标训练样本输入至待训练的初始视频模型中，以使所述初始视频模型的嵌入层执行如下操作：对于每个所述目标训练样本，根据该目标训练样本中的所述样本视频帧集合的图像参数，确定所述样本视频帧集合的初始向量，并对所述样本视频帧集合的初始向量执行卷积操作，得到所述样本视频帧集合的第一视频特征向量；通过预设的掩码参数，对所述第一视频特征向量中与所述掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到所述目标训练样本对应的第二视频特征向量；所述掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置，所述样本视频帧集合的图像参数包括所述样本视频帧集合的视频帧数、所述样本视频帧集合的图像尺寸以及所述样本视频帧集合的色彩模式中的至少一种；

对于输入的每个所述目标训练样本，通过所述初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量；

对于输入的每个所述目标训练样本，通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

作为一种可选的实施方式，在本发明第一方面中，对于输入的每个所述目标训练样本，预先对应生成的文本特征向量是通过以下方式得到的：

当该目标训练样本中包括与所述样本视频帧集合对应的样本文本时，由所述初始视频模型的嵌入层对该目标训练样本包括的所述样本文本执行向量转换操作之后得到的；

当该目标训练样本中不包括与所述样本视频帧集合对应的样本文本时，由所述初始视频模型的嵌入层对初始化生成的样本文本执行向量转换操作之后得到的。

作为一种可选的实施方式，在本发明第一方面中，所述对于输入的每个所述目标训练样本，通过所述初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量，包括：

对于输入的每个所述目标训练样本，通过所述初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量进行拼接，得到该目标训练样本对应的拼接后特征向量，并对该目标训练样本对应的拼接后特征向量执行特征维度变换操作，得到变换后的该目标训练样本对应的拼接后特征向量，作为该目标训练样本对应的融合后特征向量。

作为一种可选的实施方式，在本发明第一方面中，所述对于输入的每个所述目标训练样本，通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容，包括：

对输入的每个所述目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行向量秩序变换操作，以更新每个所述目标训练样本对应的融合后特征向量中被掩码的所述向量内容；

将更新后的所有所述目标训练样本对应的融合后特征向量中被掩码的所述向量内容输入至所述初始视频模型的视频重构层中，以使所述初始视频模型的视频重构层执行如下操作：对于每个所述目标训练样本，根据该目标训练样本对应的融合后特征向量中被掩码的所述向量内容，提取该目标训练样本的语义特征信息，并根据该目标训练样本的语义特征信息，对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行向量秩序恢复操作，以再次更新该目标训练样本对应的融合后特征向量中被掩码的所述向量内容；根据该目标训练样本的语义特征信息，对再次更新后的该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

本发明第二方面公开了一种基于文本辅助的视频重构模型训练装置，所述装置包括：

确定模块，用于确定目标训练样本集合；所述目标训练样本集合包括若干个目标训练样本，每个所述目标训练样本至少包括样本视频帧集合；

训练模块，用于根据所有所述目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型；

判断模块，用于判断所述训练后视频模型是否收敛；

所述确定模块，还用于当所述判断模块判断结果为是时，将所述训练后视频模型确定为视频重构模型；所述视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与所述目标视频素材相匹配的视频。

作为一种可选的实施方式，在本发明第二方面中，对于任一所述目标训练样本，其包括的所述样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧；或者，

其中，所述抽帧间隔是通过以下方式确定出的：

作为一种可选的实施方式，在本发明第二方面中，所述确定模块确定目标训练样本集合的方式具体为：

确定包括若干个原始训练样本的原始训练样本集合；

根据所有所述目标训练样本，确定目标训练样本集合。

作为一种可选的实施方式，在本发明第二方面中，所述训练模块，包括：

掩码子模块，用于将所有所述目标训练样本输入至待训练的初始视频模型中，以使所述初始视频模型的嵌入层执行如下操作：对于每个所述目标训练样本，根据该目标训练样本中的所述样本视频帧集合的图像参数，确定所述样本视频帧集合的初始向量，并对所述样本视频帧集合的初始向量执行卷积操作，得到所述样本视频帧集合的第一视频特征向量；通过预设的掩码参数，对所述第一视频特征向量中与所述掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到所述目标训练样本对应的第二视频特征向量；所述掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置，所述样本视频帧集合的图像参数包括所述样本视频帧集合的视频帧数、所述样本视频帧集合的图像尺寸以及所述样本视频帧集合的色彩模式中的至少一种；

特征融合子模块，用于对于输入的每个所述目标训练样本，通过所述初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量；

预测重构子模块，用于对于输入的每个所述目标训练样本，通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

作为一种可选的实施方式，在本发明第二方面中，对于输入的每个所述目标训练样本，预先对应生成的文本特征向量是通过以下方式得到的：

作为一种可选的实施方式，在本发明第二方面中，所述特征融合子模块对于输入的每个所述目标训练样本，通过所述初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量的方式具体为：

作为一种可选的实施方式，在本发明第二方面中，所述预测重构子模块对于输入的每个所述目标训练样本，通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容的方式具体为：

本发明第三方面公开了另一种基于文本辅助的视频重构模型训练装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的基于文本辅助的视频重构模型训练方法。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于文本辅助的视频重构模型训练方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，确定目标训练样本集合；根据所有目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，并判断训练后视频模型是否收敛；当判断结果为是时，将训练后视频模型确定为视频重构模型；视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与目标视频素材相匹配的视频。可见，实施本发明能够通过视频重构模型直接生成与视频素材相匹配的视频，无需用户通过指定的视频模板对视频素材进行查找、合成以及剪辑等繁琐的相关处理操作，体现了视频生成方式的智能化，这样，不仅可以加快视频制作的制作效率，从而缩短视频制作的制作周期，还可以提高制作出的视频与用户之间的匹配度，进而满足用户的视频制作需求，从而提高视频重构模型的用户粘度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于文本辅助的视频重构模型训练方法的流程示意图；

图2是本发明实施例公开的另一种基于文本辅助的视频重构模型训练方法的流程示意图；

图3是本发明实施例公开的一种基于文本辅助的视频重构模型训练装置的结构示意图；

图4是本发明实施例公开的另一种基于文本辅助的视频重构模型训练装置的结构示意图；

图5是本发明实施例公开的又一种基于文本辅助的视频重构模型训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于文本辅助的视频重构模型训练方法及装置，不仅能够缩短视频制作的周期，还能够提高制作出的视频与用户之间的匹配度，从而满足用户的视频制作需求。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于文本辅助的视频重构模型训练方法的流程示意图。其中，通过图1所描述的基于文本辅助的视频重构模型训练方法所训练出来视频重构模型，可以对目标视频素材进行视频帧补充，以生成与目标视频素材相匹配的视频，也可以利用其所输出的模型结果，对目标视频素材进行后续的分类工作，本发明实施例不做限定。可选的，该方法可以由视频重构模型训练系统实现，该视频重构模型训练系统可以集成在视频重构模型训练设备中，还可以是用于对视频重构模型训练流程进行管理的本地服务器或云端服务器等，本发明实施例不做限定。如图1所示，该基于文本辅助的视频重构模型训练方法可以包括以下操作：

101、确定目标训练样本集合。

在本发明实施例中，其中，目标训练样本集合包括若干个目标训练样本，每个目标训练样本至少包括样本视频帧集合。可选的，每个目标训练样本可以只包括样本视频帧集合，也可以包括该样本视频帧集合以及该样本视频帧集合对应的样本文本，其中，该样本视频帧集合包括若干个样本视频帧。

具体的，对于任一目标训练样本，其包括的样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧；或者，

对于任一目标训练样本，其包括的样本视频帧集合包括按照预设的抽帧间隔对该目标训练样本对应的样本视频进行抽帧处理后得到的视频帧；

其中，抽帧间隔是通过以下方式确定出的：

确定该目标训练样本对应的样本视频中所需分析的场景对象，并确定场景对象对应的变化程度值；

判断场景对象对应的变化程度值是否大于等于预设变化程度值阈值，若是，则根据变化程度值，确定样本视频的抽帧光流值；

根据样本视频的抽帧光流值，确定用于对样本视频进行抽帧处理的抽帧间隔。

可选的，即某一目标训练样本所包括的样本视频帧集合可以是直接获取对应的样本视频中的所有视频帧而得到的，也可以是通过预设的抽帧间隔对对应的样本视频进行抽帧处理后而得到的，其中，需要做抽帧处理操作的各目标训练样本对应的样本视频所对应的抽帧间隔可以不尽相同，如确定出来的目标训练样本A对应的样本视频所对应的抽帧间隔可以为每秒k帧，而确定出来的目标训练样本B对应的样本视频所对应的抽帧间隔可以为每秒j帧（其中，k与j均可为任意自然数）。需要说明的是，任一目标训练样本对应的样本视频为其画面镜头移动参数小于等于预设移动参数阈值的视频，如没有发生镜头切换的视频或者画面镜头为连续性缓慢移动的视频。

进一步的，作为一种可选的实施方式，该方法还可以包括：

当判断出场景对象对应的变化程度值小于预设变化程度值阈值时，将该目标训练样本对应的样本视频发送至相关处理人员，以使相关处理人员依据该样本视频中所需分析的场景对象，确定用于对样本视频进行抽帧处理的抽帧间隔。

具体的，该场景对象对应的变化程度值越大，场景对象的运动变化越明显，也即该场景对象的运动幅度在短时间内变化越大，如与赛车相关的样本视频的场景对象和与口播相关的样本视频的场景对象相比较，前者场景对象的运动变化程度值大于后者，即前者场景对象的运动变化更明显。

102、根据所有目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，并判断训练后视频模型是否收敛。

在本发明实施例中，具体的，该待训练的初始视频模型包括嵌入层、特征融合层以及预测重构层，其中，该嵌入层用于确定每个目标训练样本的视频特征向量、该特征融合层用于将每个目标训练样本的视频特征向量与预先对应生成的文本向量进行融合以及该预测重构层用于对每个目标训练样本的融合后特征向量中被掩码的向量内容进行预测重构。进一步具体的，在该预测重构层完成相应的预测重构操作后，即可完成对待训练的初始视频模型的模型训练操作，得到训练后视频模型。

103、当判断结果为是时，将训练后视频模型确定为视频重构模型。

在本发明实施例中，其中，视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与目标视频素材相匹配的视频。举例来说，当待生成视频的目标视频素材中包括视频帧A以及视频帧B时，将该目标视频素材所包括的所有视频帧直接输入至训练好的视频重构模型中，通过该视频重构模型对目标视频素材的视频帧补充工作，可以对该目标视频素材补充相匹配的视频帧C，以生成与目标视频素材相匹配的视频（其包括视频帧A、B、C）。

进一步的，作为一种可选的实施方式，该方法还可以包括：

当判断出训练后视频模型不收敛时，将训练后视频模型更新为初始视频模型以及更改该更新后的初始视频模型的模型参数，并触发执行步骤102中的根据所有目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，并判断训练后视频模型是否收敛的步骤。

可见，实施本发明实施例能够通过视频重构模型直接生成与视频素材相匹配的视频，无需用户通过指定的视频模板对视频素材进行查找、合成以及剪辑等繁琐的相关处理操作，体现了视频生成方式的智能化，这样，不仅可以加快视频制作的制作效率，从而缩短视频制作的制作周期，还可以提高制作出的视频与用户之间的匹配度，进而满足用户的视频制作需求，从而提高视频重构模型的用户粘度。

在一个可选的实施例中，上述步骤101中的确定目标训练样本集合，包括：

确定包括若干个原始训练样本的原始训练样本集合；

对于每个原始训练样本，确定该原始训练样本中的原始样本视频帧集合的视频帧数，并判断视频帧数是否大于预设帧数阈值；

当判断出视频帧数大于预设帧数阈值时，根据预设帧数阈值，从原始样本视频帧集合中确定出与预设帧数阈值相匹配的至少两个原始样本视频帧序列，分别将每个原始样本视频帧序列确定为目标训练样本；

当判断出视频帧数小于预设帧数阈值时，从原始样本视频帧集合中确定出至少一个待复制样本视频帧，并对所有待复制样本视频帧进行复制；根据预设的植入位置，将复制后的所有待复制样本视频帧植入至原始样本视频帧集合中，得到该原始训练样本对应的目标训练样本；

根据所有目标训练样本，确定目标训练样本集合。

在该可选的实施例中，一个原始样本视频帧序列为一个目标训练样本。举例来说，对于某个原始训练样本，若该原始训练样本中的原始样本视频帧集合的视频帧数为N帧以及预设帧数阈值为N-2帧时，此时可以从原始样本视频帧集合中截取第1至第N-2帧的原始样本视频帧子集作为原始样本视频帧序列A，以及截取第3至第N帧的原始样本视频帧子集作为原始样本视频帧序列B，并分别将原始样本视频帧序列A以及原始样本视频帧序列B确定为目标训练样本，也即得到了两个目标训练样本；而若该原始训练样本中的原始样本视频帧集合的视频帧数为N帧以及预设帧数阈值为N+2帧时，此时可以随机从原始样本视频帧集合中确定出两个待复制样本视频帧A（其原始拍摄时间顺序为第a帧）与B（其原始拍摄时间顺序为第b帧），并对待复制样本视频帧A与B进行复制，然后按照两者的原始拍摄时间顺序，将复制后的待复制样本视频帧A与B插入至植入至原始样本视频帧集合中的相应位置，如将复制后的待复制样本视频帧A作为第a+1帧以及将复制后的待复制样本视频帧B作为第b+1帧植入至原始样本视频帧集合中，以更新原始样本视频帧集合中所有原始样本视频帧的排列顺序，从而得到该原始训练样本对应的目标训练样本，其中，上述的相关字母均可为任意自然数。

可见，该可选的实施例能够通过对原始训练样本中的原始样本视频帧集合进行视频帧处理来得到对应的目标训练样本，不仅有利于保证所得到的每个目标训练样本均可以满足初始视频模型的训练条件，从而可以提高对初始视频模型的训练可靠性以及训练准确性，还有利于在对初始视频模型进行训练的过程中减少某个目标训练样本占用内存过多的情况发生，从而可以提高对初始视频模型的训练效率，以快速得到视频重构模型。

实施例二

请参阅图2，图2是本发明实施例公开的一种基于文本辅助的视频重构模型训练方法的流程示意图。其中，通过图2所描述的基于文本辅助的视频重构模型训练方法所训练出来视频重构模型，可以对目标视频素材进行视频帧补充，以生成与目标视频素材相匹配的视频，也可以利用其所输出的模型结果，对目标视频素材进行后续的分类工作，本发明实施例不做限定。可选的，该方法可以由视频重构模型训练系统实现，该视频重构模型训练系统可以集成在视频重构模型训练设备中，还可以是用于对视频重构模型训练流程进行管理的本地服务器或云端服务器等，本发明实施例不做限定。如图2所示，该基于文本辅助的视频重构模型训练方法可以包括以下操作：

201、确定目标训练样本集合。

202、将所有目标训练样本输入至待训练的初始视频模型中，以使初始视频模型的嵌入层执行如下操作：对于每个目标训练样本，根据该目标训练样本中的样本视频帧集合的图像参数，确定样本视频帧集合的初始向量，并对样本视频帧集合的初始向量执行卷积操作，得到样本视频帧集合的第一视频特征向量；通过预设的掩码参数，对第一视频特征向量中与掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到目标训练样本对应的第二视频特征向量。

在本发明实施例中，可选的，该样本视频帧集合的图像参数包括样本视频帧集合的视频帧数、样本视频帧集合的图像尺寸以及样本视频帧集合的色彩模式中的至少一种。进一步可选的，掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置。举例来说，该初始视频模型的嵌入层所执行的操作可以理解如下：如某样本视频帧集合中有n帧视频帧，每帧视频帧的图像尺寸为a*a且每帧视频帧的色彩模式为m通道，则该样本视频帧集合的初始向量可以表示为（n, m, a, a）。然后对该样本视频帧集合的初始向量（n, m, a,a ）进行卷积（如卷积核尺寸为（c, c），步长为e），可以得到该样本视频帧集合的第一视频特征向量（n, m*c*c, a^2/e^2）。接着从该样本视频帧集合中随机确定出预设视频帧比例（即预设掩码参数）的视频帧，并针对第一视频特征向量（n, m*c*c, a^2/e^2）中的这预设视频帧比例的视频帧所对应的向量内容进行掩码，得到掩码结果（n, a^2/e^2, m*c*c）并作为该目标训练样本对应的第二视频特征向量，其中，上述的相关字母均可为任意自然数。

203、对于输入的每个目标训练样本，通过初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量。

在本发明实施例中，该融合操作可以理解为对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行拼接以及维度变换操作。

具体的，对于输入的每个目标训练样本，预先对应生成的文本特征向量是通过以下方式得到的：

当该目标训练样本中包括与样本视频帧集合对应的样本文本时，由初始视频模型的嵌入层对该目标训练样本包括的样本文本执行向量转换操作之后得到的；当该目标训练样本中不包括与样本视频帧集合对应的样本文本时，由初始视频模型的嵌入层对初始化生成的样本文本执行向量转换操作之后得到的。

需要说明的是，即该融合操作需要将样本视频帧集合的视频特征向量与对应的样本文本的文本向量成对融合，也即若该目标训练样本中本身包括了样本视频帧集合对应的样本文本时，则可直接对对应的样本文本进行向量转换，然后再执行特征向量融合操作；而若该目标训练样本中本身不包括样本视频帧集合对应的样本文本时，则需要先生成初始化的样本文本，作为该样本视频帧集合对应的样本文本，接着对该初始化的样本文本进行向量转换，然后再执行特征向量融合操作，这样，能够减少在特征向量融合操作过程中模态缺失的情况发生。

204、对于输入的每个目标训练样本，通过初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

在本发明实施例中，具体的，该初始视频模型的视频重构层可以包括若干个编码器以及若干个解码器，其中，该预测重构操作可以理解为：对于输入的每个目标训练样本，通过该视频重构层中的所有编码器以及该目标训练样本对应的融合后特征向量中被掩码的向量内容，提取该目标训练样本的语义特征信息，并通过该视频重构层中的所有解码器以及所提取到的该目标训练样本的语义特征信息，对该目标训练样本对应的融合后特征向量中被掩码的向量内容进行预测，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

205、判断训练后视频模型是否收敛。

206、当判断结果为是时，将训练后视频模型确定为视频重构模型。

在本发明实施例中，针对步骤201、步骤205、步骤206的其它描述，请参照实施例一中针对步骤101-步骤103的详细描述，本发明实施例不再赘述。

可见，实施本发明实施例能够分别通过初始视频模型的嵌入层、特征融合层及视频重构层对每个目标训练样本进行特征向量转换、特征向量融合以及特征向量重构预测，以使初始视频模型能够构建出可见视频的画面变化信息与文本的语序信息之间的关系，这样，有利于提高训练好的视频重构模型的可靠性、准确性以及有效性，进而有利于后续通过该视频重构模型准确生成与相关视频素材相匹配的视频，从而有利于提高所生成的视频与用户制作需求之间匹配度。

在一个可选的实施例中，上述步骤203中的对于输入的每个目标训练样本，通过初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量，包括：

对于输入的每个目标训练样本，通过初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量进行拼接，得到该目标训练样本对应的拼接后特征向量，并对该目标训练样本对应的拼接后特征向量执行特征维度变换操作，得到变换后的该目标训练样本对应的拼接后特征向量，作为该目标训练样本对应的融合后特征向量。

在该可选的实施例中，具体的，该特征融合层可以包括拼接层以及维度转换层。举例来说，该融合操作可以理解为：对于输入的某个目标训练样本，当其对应的第二视频特征向量为（n, a^2/e^2, m*c*c）以及预先对应生成的文本特征向量为（i, a^2/e^2, m*c*c）时，首先通过该特征融合层中的拼接层，对两者向量进行拼接，得到该目标训练样本对应的拼接后特征向量（n, a^2/e^2+ a^2/e^2, m*c*c），然后通过该特征融合层中的维度转换层对该目标训练样本对应的拼接后特征向量（n, a^2/e^2+ a^2/e^2, m*c*c）进行第一维度变换操作，得到第一变换后的该目标训练样本对应的拼接后特征向量（n, m*c*c, a^2/e^2+ a^2/e^2），接着继续通过该维度转换层对（n, m*c*c, a^2/e^2+ a^2/e^2）进行第二维度变换操作，得到第二变换后的该目标训练样本对应的拼接后特征向量（n, m*c*c, a^2/e^2），最后继续通过该维度转换层对（n, m*c*c, a^2/e^2）进行第三维度变换操作，如非线性变换操作，得到第三变换后的该目标训练样本对应的拼接后特征向量（n, a^2/e^2, m*c*c），作为该目标训练样本对应的融合后特征向量，其中，上述的相关字母均可为任意自然数。

可见，该可选的实施例能够有针对性地通过初始视频模型的特征融合层将对应的视频特征向量与文本向量进行融合，有利于提高特征融合层的向量融合可靠性以及向量融合准确性，从而有利于后续初始视频模型的视频重构层对融合后特征向量中被掩码的向量内容进行准确预测重构，保证了整个模型训练过程的训练可靠性、准确性及有效性。

在另一个可选的实施例中，上述步骤204中的对于输入的每个目标训练样本，通过初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容，包括：

对输入的每个目标训练样本对应的融合后特征向量中被掩码的向量内容执行向量秩序变换操作，以更新每个目标训练样本对应的融合后特征向量中被掩码的向量内容；

将更新后的所有目标训练样本对应的融合后特征向量中被掩码的向量内容输入至初始视频模型的视频重构层中，以使初始视频模型的视频重构层执行如下操作：对于每个目标训练样本，根据该目标训练样本对应的融合后特征向量中被掩码的向量内容，提取该目标训练样本的语义特征信息，并根据该目标训练样本的语义特征信息，对该目标训练样本对应的融合后特征向量中被掩码的向量内容执行向量秩序恢复操作，以再次更新该目标训练样本对应的融合后特征向量中被掩码的向量内容；根据该目标训练样本的语义特征信息，对再次更新后的该目标训练样本对应的融合后特征向量中被掩码的向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

在该可选的实施例中，其中，该向量秩序变换操作以及向量秩序恢复操作可以分别理解为对上述步骤中所获取到的与掩码参数相匹配的多个待处理样本视频帧进行视频帧顺序打乱操作以及视频帧顺序恢复操作。具体的，该视频重构层包括可以包括若干个编码器以及若干个解码器，其中，由所有的编码器对目标训练样本进行语义特征信息提取和对目标训练样本对应的融合后特征向量中被掩码的向量内容进行向量秩序恢复操作，以及由所有的解码器对再次更新后的目标训练样本对应的融合后特征向量中被掩码的向量内容进行预测重构。需要说明的是，通过该预测重构操作，能够让初始视频模型学习到在有对应文本或者没有对应文本的情况下，根据已有的视频帧信息，对已有的视频帧信息进行视频帧补充，以生成与已有的视频帧信息相匹配的、更加完整的视频。

可见，该可选的实施例能够有针对性地通过初始视频模型的视频重构层对目标训练样本中被掩码向量内容进行重构预测，有利于提高对初始视频模型的训练可靠性以及训练准确性，从而有利于提高所训练出来的视频重构模型的可靠性以及准确性，以保证通过该视频重构模型能够得到与用户制作需求相匹配的视频。

在又一个可选的实施例中，上述步骤205中的判断训练后视频模型是否收敛，包括：

获取通过视频重构层所计算出的每个目标训练样本对应的融合后特征向量中的预测重构向量内容与对应的第一特征向量之间的距离回归损失参数，作为每个目标训练样本的视频重构损失值，并根据所有目标训练样本的视频重构损失值，确定目标训练样本集合对应的目标重构损失值；

判断目标重构损失值是否小于等于预设重构损失阈值；

当判断结果为是时，确定训练后视频模型收敛；

当判断结果为否时，确定训练后视频模型不收敛。

在该可选的实施例中，具体的，该距离回归损失参数的计算可以理解为该视频重构层对该目标训练样本对应的融合后特征向量中被掩码的向量内容进行预测重构，并将得到的预测重构向量内容与对应的真实值（即第一特征向量中被掩码前的向量内容）进行对比，进而得到该目标训练样本的视频重构损失值，从而可以依据所得到的所有目标训练样本的视频重构损失值来确定目标训练样本集的目标重构损失值并判定是否能够提前终止模型训练，即若目标重构损失值小于等于预设重构损失值阈值时，则可自动提前终止模型训练。进一步的，在判断出训练后视频模型不收敛之后，可以将训练后视频模型更新为初始训练模型，并更改更新后的初始训练模型的模型参数；通过该初始训练模型的嵌入层以及预设的掩码参数，对第一视频特征向量中与掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到目标训练样本对应的第二视频特征向量，并触发执行上述步骤203-步骤205，即重新执行掩码、特征向量融合以及向量内容预测重构操作。

可见，该可选的实施例能够智能化地对训练后视频模型进行重复训练，直至训练后视频模型收敛，这样，有利于提高整个模型训练过程的训练可靠性、训练准确性以及训练有效性，从而有利于训练出可靠的视频重构模型，以使得通过视频重构模型所生成的视频能够与用户的视频制作需求相匹配。

实施例三

请参阅图3，图3是本发明实施例公开的一种基于文本辅助的视频重构模型训练装置的结构示意图。如图3所示，该基于文本辅助的视频重构模型训练装置可以包括：

确定模块301，用于确定目标训练样本集合；

训练模块302，用于根据所有目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型；

判断模块303，用于判断训练后视频模型是否收敛；

确定模块301，还用于当判断模块303判断结果为是时，将训练后视频模型确定为视频重构模型。

在本发明实施例中，其中，目标训练样本集合包括若干个目标训练样本，每个目标训练样本至少包括样本视频帧集合；视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与目标视频素材相匹配的视频。

可选的，对于任一目标训练样本，其包括的样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧；或者，

其中，抽帧间隔是通过以下方式确定出的：

确定该目标训练样本对应的样本视频中所需分析的场景对象，并确定场景对象对应的变化程度值；场景对象对应的变化程度值越大，场景对象的运动变化越明显；

可见，实施图3所描述的基于文本辅助的视频重构模型训练装置能够通过视频重构模型直接生成与视频素材相匹配的视频，无需用户通过指定的视频模板对视频素材进行查找、合成以及剪辑等繁琐的相关处理操作，体现了视频生成方式的智能化，这样，不仅可以加快视频制作的制作效率，从而缩短视频制作的制作周期，还可以提高制作出的视频与用户之间的匹配度，进而满足用户的视频制作需求，从而提高视频重构模型的用户粘度。

在一个可选的实施例中，该确定模块301确定目标训练样本集合的方式具体为：

确定包括若干个原始训练样本的原始训练样本集合；

根据所有目标训练样本，确定目标训练样本集合。

在该可选的实施例中，一个原始样本视频帧序列为一个目标训练样本。

可见，实施图3所描述的基于文本辅助的视频重构模型训练装置能够通过对原始训练样本中的原始样本视频帧集合进行视频帧处理来得到对应的目标训练样本，不仅有利于保证所得到的每个目标训练样本均可以满足初始视频模型的训练条件，从而可以提高对初始视频模型的训练可靠性以及训练准确性，还有利于在对初始视频模型进行训练的过程中减少某个目标训练样本占用内存过多的情况发生，从而可以提高对初始视频模型的训练效率，以快速得到视频重构模型。

在另一个可选的实施例中，该训练模块302，包括：

掩码子模块3021，用于将所有目标训练样本输入至待训练的初始视频模型中，以使初始视频模型的嵌入层执行如下操作：对于每个目标训练样本，根据该目标训练样本中的样本视频帧集合的图像参数，确定样本视频帧集合的初始向量，并对样本视频帧集合的初始向量执行卷积操作，得到样本视频帧集合的第一视频特征向量；通过预设的掩码参数，对第一视频特征向量中与掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到目标训练样本对应的第二视频特征向量；

特征融合子模块3022，用于对于输入的每个目标训练样本，通过初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量；

预测重构子模块3023，用于对于输入的每个目标训练样本，通过初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。

在该可选的实施例中，可选的，掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置，样本视频帧集合的图像参数包括样本视频帧集合的视频帧数、样本视频帧集合的图像尺寸以及样本视频帧集合的色彩模式中的至少一种。

当该目标训练样本中包括与样本视频帧集合对应的样本文本时，由初始视频模型的嵌入层对该目标训练样本包括的样本文本执行向量转换操作之后得到的；

当该目标训练样本中不包括与样本视频帧集合对应的样本文本时，由初始视频模型的嵌入层对初始化生成的样本文本执行向量转换操作之后得到的。

可见，实施图4所描述的基于文本辅助的视频重构模型训练装置能够分别通过初始视频模型的嵌入层、特征融合层及视频重构层对每个目标训练样本进行特征向量转换、特征向量融合以及特征向量重构预测，以使初始视频模型能够构建出视频的画面变化信息与文本的语序信息之间的关系，这样，有利于提高训练好的视频重构模型的可靠性、准确性以及有效性，进而有利于后续通过该视频重构模型准确生成与相关视频素材相匹配的视频，从而有利于提高所生成的视频与用户制作需求之间匹配度。

在又一个可选的实施例中，该特征融合子模块3022对于输入的每个目标训练样本，通过初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量的方式具体为：

可见，实施图4所描述的基于文本辅助的视频重构模型训练装置能够有针对性地通过初始视频模型的特征融合层将对应的视频特征向量与文本向量进行融合，有利于提高特征融合层的向量融合可靠性以及向量融合准确性，从而有利于后续初始视频模型的视频重构层对融合后特征向量中被掩码的向量内容进行准确预测重构，保证了整个模型训练过程的训练可靠性、准确性及有效性。

在又一个可选的实施例中，该预测重构子模块3023对于输入的每个目标训练样本，通过初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容的方式具体为：

可见，实施图4所描述的基于文本辅助的视频重构模型训练装置能够有针对性地通过初始视频模型的视频重构层对目标训练样本中被掩码向量内容进行重构预测，有利于提高对初始视频模型的训练可靠性以及训练准确性，从而有利于提高所训练出来的视频重构模型的可靠性以及准确性，以保证通过该视频重构模型能够得到与用户制作需求相匹配的视频。

实施例四

请参阅图5，图5是本发明实施例公开的又一种基于文本辅助的视频重构模型训练装置的结构示意图。如图5所示，该基于文本辅助的视频重构模型训练装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一或本发明实施例二所描述的基于文本辅助的视频重构模型训练方法中的步骤。

实施例五

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或本发明实施例二所描述的基于文本辅助的视频重构模型训练方法中的步骤。

实施例六

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于文本辅助的视频重构模型训练方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于文本辅助的视频重构模型训练方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于文本辅助的视频重构模型训练方法，其特征在于，所述方法包括：

当判断结果为是时，将所述训练后视频模型确定为视频重构模型；所述视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与所述目标视频素材相匹配的视频；

其中，所述根据所有所述目标训练样本，对待训练的初始视频模型执行模型训练操作，得到训练后视频模型，包括：

将所有所述目标训练样本输入至待训练的初始视频模型中，以使所述初始视频模型的嵌入层执行如下操作：对于每个所述目标训练样本，根据该目标训练样本中的所述样本视频帧集合的图像参数，确定所述样本视频帧集合的初始向量，并对所述样本视频帧集合的初始向量执行卷积操作，得到所述样本视频帧集合的第一视频特征向量；通过预设的掩码参数，对所述第一视频特征向量中与所述掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到所述目标训练样本对应的第二视频特征向量；

2.根据权利要求1所述的基于文本辅助的视频重构模型训练方法，其特征在于，对于任一所述目标训练样本，其包括的所述样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧；或者，

其中，所述抽帧间隔是通过以下方式确定出的：

3.根据权利要求1或2所述的基于文本辅助的视频重构模型训练方法，其特征在于，所述确定目标训练样本集合，包括：

确定包括若干个原始训练样本的原始训练样本集合；

根据所有所述目标训练样本，确定目标训练样本集合。

4.根据权利要求3所述的基于文本辅助的视频重构模型训练方法，其特征在于，所述掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置，所述样本视频帧集合的图像参数包括所述样本视频帧集合的视频帧数、所述样本视频帧集合的图像尺寸以及所述样本视频帧集合的色彩模式中的至少一种。

5.根据权利要求4所述的基于文本辅助的视频重构模型训练方法，其特征在于，对于输入的每个所述目标训练样本，预先对应生成的文本特征向量是通过以下方式得到的：

6.根据权利要求5所述的基于文本辅助的视频重构模型训练方法，其特征在于，所述对于输入的每个所述目标训练样本，通过所述初始视频模型的特征融合层，对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作，得到该目标训练样本对应的融合后特征向量，包括：

7.根据权利要求4-6任一项所述的基于文本辅助的视频重构模型训练方法，其特征在于，所述对于输入的每个所述目标训练样本，通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作，得到该目标训练样本对应的融合后特征向量中的预测重构向量内容，包括：

8.一种基于文本辅助的视频重构模型训练装置，其特征在于，所述装置包括：

判断模块，用于判断所述训练后视频模型是否收敛；

所述确定模块，还用于当所述判断模块判断结果为是时，将所述训练后视频模型确定为视频重构模型；所述视频重构模型用于对待生成视频的目标视频素材进行视频帧补充，以生成与所述目标视频素材相匹配的视频；

其中，所述训练模块，包括：

掩码子模块，用于将所有所述目标训练样本输入至待训练的初始视频模型中，以使所述初始视频模型的嵌入层执行如下操作：对于每个所述目标训练样本，根据该目标训练样本中的所述样本视频帧集合的图像参数，确定所述样本视频帧集合的初始向量，并对所述样本视频帧集合的初始向量执行卷积操作，得到所述样本视频帧集合的第一视频特征向量；通过预设的掩码参数，对所述第一视频特征向量中与所述掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码，得到所述目标训练样本对应的第二视频特征向量；

9.一种基于文本辅助的视频重构模型训练装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于文本辅助的视频重构模型训练方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于文本辅助的视频重构模型训练方法。