CN112712094A

CN112712094A - 模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112712094A
Application number: CN201911016119.7A
Authority: CN
Inventors: 秦暕
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-04-27

Abstract

本发明提供一种模型的训练方法、装置、设备及存储介质，该方法，包括：将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，所述T帧图像和所述T+J帧图像为未进行标注处理的图像，所述预训练模型是已具备图像特征提取功能的神经网络模型；通过所述预训练模型提取所述T帧图像和所述T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化所述预训练模型的特征提取功能。从而通过未标注的视频数据对模型进行非监督学习，提高模型对特定场景的预测能力，缩短模型的训练周期，提高模型的训练效率。

Description

模型的训练方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种模型的训练方法、装置、设备及存储介质。

背景技术

计算机视觉在图像处理技术中占有重要的地位，而计算机视觉一般都是通过训练神经网络模型来达到对图像的检测、分类、预测的目的。

目前，一般通过大量的标注数据对神经网络模型进行监督学习，以得到符合要求的神经网络模型。

但是，这种方式需要预先生成大量的训练数据，训练周期长，对训练数据的依赖度高，模型训练过程复杂，效率低下。

发明内容

本发明提供一种模型的训练方法、装置、设备及存储介质，可以通过未标注的视频数据对模型进行非监督学习，提高模型对特定场景的预测能力，缩短模型的训练周期，提高模型的训练效率。

第一方面，本发明实施例提供一种模型的训练方法，包括：

将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，所述T帧图像和所述T+J帧图像为未进行标注处理的图像，所述预训练模型是已具备图像特征提取功能的神经网络模型；

通过所述预训练模型提取所述T帧图像和所述T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；

根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化所述预训练模型的特征提取功能。

第二方面，本发明实施例提供一种模型的训练装置，包括：

第一输入模块，用于第一输入模块，用于将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，所述T帧图像和所述T+J帧图像为未进行标注处理的图像，所述预训练模型是已具备图像特征提取功能的神经网络模型；

第一提取模块，用于通过所述预训练模型提取所述T帧图像和所述T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；

第一优化模块，用于根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化所述预训练模型的特征提取功能。

第三方面，本发明实施例提供一种模型的训练设备，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，包括：计算机程序，当其在计算机上运行时，使得计算机执行第一方面中任一所述的方法。

本发明提供的模型的训练方法、装置、设备及存储介质，通过将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，所述T帧图像和所述T+J帧图像为未进行标注处理的图像，所述预训练模型是已具备图像特征提取功能的神经网络模型；通过所述预训练模型提取所述T帧图像和所述T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化所述预训练模型的特征提取功能。从而通过未标注的视频数据对模型进行非监督学习，提高模型对特定场景的预测能力，缩短模型的训练周期，提高模型的训练效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一应用场景的原理示意图；

图2为本发明实施例一提供的模型的训练方法的流程图；

图3为本发明实施例二提供的模型的训练方法的流程图；

图4为本发明实施例三提供的模型的训练装置的结构示意图；

图5为本发明实施例四提供的模型的训练装置的结构示意图；

图6为本发明实施例五提供的模型的训练设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

计算机视觉在图像处理技术中占有重要的地位，而计算机视觉一般都是通过训练神经网络模型来达到对图像的检测、分类、预测的目的。现有的非监督学习希望使用未标注的数据完成模型训练，以专注于更好的特征学习。但是单纯的非监督学习难以达到监督学习的准确率。因此，现有技术一般通过大量的标注数据对神经网络模型进行监督学习，以得到符合要求的神经网络模型。但是，这种方式需要预先生成大量的训练数据，训练周期长，对训练数据的依赖度高，模型训练过程复杂，效率低下。

本发明的目的并不是为了通过完全的非监督学习来训练神经网络，而是在监督学习后的神经网络模型基础上，利用视频数据进行非监督学习，以提升神经网络针对特定场景的预测能力，是利用非监督学习进行迁移学习的过程。本发明使用的训练方法无需提前额外生成训练数据，通过神经网络直接预测前后帧无需额外的数据生成，方便大规模使用。

由于已标注数据规模远远小于未标注数据，利用未标注数据的需求变得十分明显。对于视频采集的数据，具有序列相关的特点。本发明利用这一特点，使用生成模型训练的方法，将未标注的大量视频数据引入训练，可以更好的提升神经网络的特征提取能力，尤其是通用神经网络迁移到特定场景下的特征提取能力。最终，会提升神经网络在特定场景中的各项任务的能力。

图1为本发明一应用场景的原理示意图，如图1所示，本发明的目的并不是为了通过完全的非监督学习来训练神经网络，而是在监督学习后的神经网络模型基础上，利用视频数据进行非监督学习，以提升神经网络针对特定场景的预测能力，是利用非监督学习进行迁移学习的过程。首先，构造包括：图像以及图像对应的图像特征的训练集。然后，构建神经网络模型，通过训练集中的图像对神经网络模型进行监督学习训练，得到预训练模型。具体地，以图像作为神经网络模型的输入，以图像特征作为初始神经网络模型的输出，迭代训练，直到得到具备图像特征提取功能的预训练模型。将预训练模型作为目标调优网络，虽然预训练模型已经具备了一定的特征提取能力，但是需要针对特定场景进一步的调优。而本发明的核心就是对预训练模型作进一步优化训练，充分利用视频采集的数据具有序列相关的特点，将未标注的大量视频数据引入训练，从而可以更好的提升神经网络的特征提取能力。

具体地，在视频中提取连续两帧，也即T帧图像和T+1帧图像，并将采集到的到的T帧图像和T+1帧图像输入预训练模型；T为大于0的自然数。然后，通过预训练模型提取T帧图像和T+1帧图像的图像特征，得到T帧图像特征和T+1帧图像特征。通过神经网络的反向传递功能，根据第一约束损失函数的输出值，不断优化预训练模型的特征提取功能，直到第一约束损失函数的输出值小于第一预设阈值；其中，第一约束损失函数用于评估T帧的图像特征和T+1帧的图像特征的相似度；T帧的图像特征和T+1帧的图像特征的相似度越高，则第一约束损失函数的输出值越小；第一约束损失函数可以选择L1损失函数、L2损失函数、余弦相似度损失函数等中的任一种。

进一步地，还可以将T帧特征和T+1帧特征输入至少一个重构模型；其中，重构模型用于根据前序的图像特征预测后续的图像特征；通过重构模型预测T+N帧的图像特征，得到预测的T+N帧特征；其中，N为大于1的自然数；从视频中提取真实的T+N帧的图像特征，得到真实的T+N帧特征；构建用于表征预测的T+N帧特征和真实的T+N帧特征之间相似度的第二约束损失函数；第二约束损失函数可以选择L1损失函数、L2损失函数、余弦相似度损失函数等中的任一种。通过神经网络的反向传递功能，根据第二约束损失函数的输出值，不断优化预训练模型的特征提取功能，直到第二约束损失函数的输出值小于第二预设阈值。需要说明的是，本发明不限定重建模型的数量，重构模型可以是一个，也可以是多个。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例一提供的模型的训练方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、将采集到的T帧图像和T+J帧图像输入预训练模型。

本实施例中，预训练模型是指通过训练集训练的，已具备图像特征提取功能的神经网络模型；其中，训练集包括：图像以及图像对应的图像特征；在训练过程中，以图像作为神经网络模型的输入，以图像特征作为初始神经网络模型的输出，迭代训练，得到预训练模型。

具体地，构造包括图像以及图像对应的图像特征的训练集。然后，进行监督学习训练模型。具体地，以图像作为神经网络模型的输入，以图像特征作为神经网络模型的输出，迭代训练，得到预训练模型；该预训练模型是已具备图像特征提取功能的神经网络模型。进一步地，在视频中提取T帧和T+J帧，并将采集到的到的T帧图像和T+J帧图像输入预训练模型；其中，T和J为大于0的自然数；且T帧图像和T+J帧图像为未进行标注处理的图像。

S102、通过预训练模型提取T帧图像和T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征。

本实施例中，将T帧图像和T+J帧图像输入预训练模型进行图像特征提取，对应的结果分别为：T帧的图像特征、T+J帧的图像特征。

S103、根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化预训练模型的特征提取功能。

本实施例中，设置表征T帧特征和T+1帧特征之间相似度的第一约束损失函数；第一约束损失函数包括：L1损失函数、L2损失函数、余弦相似度损失函数中的任一种。通过神经网络的反向传递功能，根据第一约束损失函数的输出值，不断优化预训练模型的特征提取功能，直到第一约束损失函数的输出值小于第一预设阈值；其中，第一约束损失函数用于评估T帧的图像特征和T+J帧的图像特征的相似度；T帧的图像特征和T+J帧的图像特征的相似度越高，则第一约束损失函数的输出值越小。

示例性的，当使用T帧的图像特征和T+1帧的图像特征时，由于连续帧图像的相似度较高，因此可以使用连续帧的余弦相似度来评估两帧图像的相似度，此时可以将第一约束损失函数设置为余弦相似度损失函数。

具体地，神经网络模型包含多个功能层，可以采用本发明中的方法训练任何一个功能层。即可以针对神经网络某部分训练，而非整体。如，可以通过预测更接近的视频帧来单独训练卷积网络的底层特征。或者锁定底层参数，单独训练更加抽象的层次。还可以使用额外的约束条件，如，视频帧相关性较强，可以约束两帧之间的隐藏层特征的相似性，最直接的，可以最小化两者之间的余弦差距。也可以多任务训练作为约束。利用部分的标注数据同时进行训练，可以在非监督学习的过程中同时加入监督学习，由于部分数据属于已标注样本，针对这些标注的训练任务可以更好的约束神经网络的学习方向。

本实施例，通过将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，T帧图像和T+J帧图像为未进行标注处理的图像，预训练模型是已具备图像特征提取功能的神经网络模型；通过预训练模型提取T帧图像和T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化预训练模型的特征提取功能。从而通过未标注的视频数据对模型进行非监督学习，提高模型对特定场景的预测能力，缩短模型的训练周期，提高模型的训练效率。

图3为本发明实施例二提供的模型的训练方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、将采集到的T帧图像和T+J帧图像输入预训练模型。

S202、通过预训练模型提取T帧图像和T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征。

S203、根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化预训练模型的特征提取功能。

本实施例中，步骤S201～步骤S203的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S103中的相关描述，此处不再赘述。

S204、将T帧的图像特征和T+J帧的图像特征输入至少一个重构模型，得到预测的T+N帧的图像特征。

本实施例中，还可以将T帧的图像特征和T+1帧的图像特征融合之后输入到至少一个重构模型。其中，重建模型是指重新初始化的未经过训练的神经网络模型，该重构模型用于根据T帧的图像特征和T+J帧的图像特征的融合特征，预测T+N帧的图像特征；N为大于J的自然数。需要说明的是，本发明不限定重建模型的数量，重构模型可以是一个，也可以是多个。例如，两个重构模型分别用于预测T+10帧的图像、T+20帧的图像。

S205、从视频中提取出真实的T+N帧的图像特征。

本实施例中，可以通过现有的特征提取模型从视频中提取出真实的T+N帧的图像特征。

S206、根据真实的T+N帧的图像特征和预测的T+N帧的图像特征所对应的第二优化函数，优化预训练模型的特征提取功能。

本实施例中，通过神经网络的反向传递功能，根据第二约束损失函数的输出值，不断优化预训练模型的特征提取功能，直到第二约束损失函数的输出值小于第二预设阈值；其中，第二约束损失函数用于评估真实的T+N帧的图像特征和预测的T+N帧的图像特征的相似度；真实的T+N帧的图像特征和预测的T+N帧的图像特征的相似度越高，则第二约束损失函数的输出值越小；第二约束损失函数包括：L1损失函数、L2损失函数、余弦相似度损失函数中的任一种。需要说明的是，真实的T+N帧图像和预测的T+N帧图像的帧率可以不同。因为可以通过下采样处理来使得真实的T+N帧图像与预测的T+N帧相同。

本实施例，通过将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，T帧图像和T+J帧图像为未进行标注处理的图像，预训练模型是已具备图像特征提取功能的神经网络模型；通过预训练模型提取T帧图像和T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化预训练模型的特征提取功能。并T帧的图像特征和T+J帧的图像特征输入至少一个重构模型，根据真实的T+N帧的图像特征和预测的T+N帧的图像特征所对应的第二优化函数，优化预训练模型的特征提取功能。从而通过未标注的视频数据对模型进行非监督学习，提高模型对特定场景的预测能力，缩短模型的训练周期，提高模型的训练效率。

图4为本发明实施例三提供的模型的训练装置的结构示意图，如图4所示，本实施例中的装置可以包括：

第一输入模块31，用于将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，T帧图像和T+J帧图像为未进行标注处理的图像，预训练模型是已具备图像特征提取功能的神经网络模型；

第一提取模块32，用于通过预训练模型提取T帧图像和T+J帧图像的图像特征，得到T帧的图像特征和T+J帧的图像特征；

第一优化模块33，用于根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化预训练模型的特征提取功能。

可选地，第一优化模块33，具体用于：

通过神经网络的反向传递功能，根据第一约束损失函数的输出值，不断优化预训练模型的特征提取功能，直到第一约束损失函数的输出值小于第一预设阈值；其中，第一约束损失函数用于评估T帧的图像特征和T+J帧的图像特征的相似度；T帧的图像特征和T+J帧的图像特征的相似度越高，则第一约束损失函数的输出值越小；第一约束损失函数包括：L1损失函数、L2损失函数、余弦相似度损失函数中的任一种。

可选地，预训练模型是通过训练集训练的具备图像特征提取功能的神经网络模型，训练集包括：图像以及图像对应的图像特征；

在训练过程中，以图像作为神经网络模型的输入，以图像特征作为神经网络模型的输出进行迭代训练，得到预训练模型。

本实施例的模型的训练装置，可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

图5为本发明实施例四提供的模型的训练装置的结构示意图，如图5所示，本实施例的模型的训练装置在图4所示装置的基础上，还可以包括：

第二输入模块34，用于将T帧的图像特征和T+J帧的图像特征输入至少一个重构模型，得到预测的T+N帧的图像特征；其中，重构模型为未经训练的神经网络模型，用于根据T帧的图像特征和T+J帧的图像特征的融合特征，预测T+N帧的图像特征；N为大于J的自然数。

可选地，还包括：第二优化模块35，用于：

从视频中提取出真实的T+N帧的图像特征；

通过神经网络的反向传递功能，根据第二约束损失函数的输出值，不断优化预训练模型的特征提取功能，直到第二约束损失函数的输出值小于第二预设阈值；其中，第二约束损失函数用于评估真实的T+N帧的图像特征和预测的T+N帧的图像特征的相似度；真实的T+N帧的图像特征和预测的T+N帧的图像特征的相似度越高，则第二约束损失函数的输出值越小；第二约束损失函数包括：L1损失函数、L2损失函数、余弦相似度损失函数中的任一种。

本实施例的模型的训练装置，可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

图6为本发明实施例五提供的模型的训练设备的结构示意图，如图6所示，本实施例中的模型的训练设备40可以包括：处理器41和存储器42。

存储器42，用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等；

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

本实施例的模型的训练设备可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据T帧的图像特征和T+J帧的图像特征所对应的第一约束损失函数，优化所述预训练模型的特征提取功能，包括：

通过神经网络的反向传递功能，根据所述第一约束损失函数的输出值，不断优化所述预训练模型的特征提取功能，直到所述第一约束损失函数的输出值小于第一预设阈值；其中，所述第一约束损失函数用于评估所述T帧的图像特征和T+J帧的图像特征的相似度；所述T帧的图像特征和T+J帧的图像特征的相似度越高，则所述第一约束损失函数的输出值越小；所述第一约束损失函数包括：L1损失函数、L2损失函数、余弦相似度损失函数中的任一种。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

将所述T帧的图像特征和所述T+J帧的图像特征输入至少一个重构模型，得到预测的T+N帧的图像特征；其中，所述重构模型为未经训练的神经网络模型，用于根据所述T帧的图像特征和所述T+J帧的图像特征的融合特征，预测T+N帧的图像特征；N为大于J的自然数。

4.根据权利要求3所述的方法，其特征在于，还包括：

从视频中提取出真实的T+N帧的图像特征；

通过神经网络的反向传递功能，根据第二约束损失函数的输出值，不断优化所述预训练模型的特征提取功能，直到所述第二约束损失函数的输出值小于第二预设阈值；其中，所述第二约束损失函数用于评估所述真实的T+N帧的图像特征和预测的T+N帧的图像特征的相似度；所述真实的T+N帧的图像特征和预测的T+N帧的图像特征的相似度越高，则所述第二约束损失函数的输出值越小；所述第二约束损失函数包括：L1损失函数、L2损失函数、余弦相似度损失函数中的任一种。

5.根据权利要求1所述的方法，其特征在于，所述预训练模型是通过训练集训练的具备图像特征提取功能的神经网络模型，所述训练集包括：图像以及所述图像对应的图像特征；

在训练过程中，以所述图像作为所述神经网络模型的输入，以所述图像特征作为所述神经网络模型的输出进行迭代训练，得到所述预训练模型。

6.一种模型的训练装置，其特征在于，包括：

第一输入模块，用于将采集到的T帧图像和T+J帧图像输入预训练模型；T和J为大于0的自然数；其中，所述T帧图像和所述T+J帧图像为未进行标注处理的图像，所述预训练模型是已具备图像特征提取功能的神经网络模型；

7.根据权利要求6所述的装置，其特征在于，还包括：

第二输入模块，用于将所述T帧的图像特征和所述T+J帧的图像特征输入至少一个重构模型，得到预测的T+N帧的图像特征；其中，所述重构模型为未经训练的神经网络模型，用于根据所述T帧的图像特征和所述T+J帧的图像特征的融合特征，预测T+N帧的图像特征；N为大于J的自然数。

8.根据权利要求7所述的装置，其特征在于，还包括：第二优化模块，用于：

从视频中提取出真实的T+N帧的图像特征；

9.一种模型的训练设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括：计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一项所述的方法。