CN112949456B

CN112949456B - 视频特征提取模型训练、视频特征提取方法和装置

Info

Publication number: CN112949456B
Application number: CN202110217152.7A
Authority: CN
Inventors: 吴翔宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-12-12
Anticipated expiration: 2041-02-26
Also published as: CN112949456A

Abstract

本公开关于一种视频特征提取模型训练、视频特征提取方法、装置、服务器及存储介质，所述方法包括：获取样本视频，生成所述样本视频的视频帧集合和对应的样本标签；所述样本标签用于标记所述视频帧集合中的异常帧；将所述视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果；根据所述异常帧识别结果和所述样本标签之间的差异，对所述待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；将所述调整后的异常帧识别模型中的所述特征提取网络，作为训练好的视频特征提取模型，用于提取待处理视频的目标视频特征。采用本公开能够降低视频特征处理模型的训练成本。

Description

视频特征提取模型训练、视频特征提取方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频特征提取模型训练、视频特征提取方法、装置、服务器及存储介质。

背景技术

随着计算机技术的发展，出现了视频拍摄和视频处理技术。通过视频处理技术可对拍摄的视频进行一系列特征处理，使得提取到的视频特征可满足用户的各种需求。例如，实现视频分类、视频分割和视频描述等多种不同类型的视频任务。

相关技术中，往往会采用基于有监督学习进行训练得到的深度学习网络来对视频进行一系列特征提取处理，然而采用有监督学习的模型训练方式往往需要依赖具有高质量的标注数据，这提高了模型训练投入的成本。

发明内容

本公开提供一种视频特征提取模型训练、视频特征提取方法、装置、服务器及存储介质，以至少解决相关技术中的模型训练成本高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频特征提取模型训练方法，所述方法包括：

获取样本视频，生成所述样本视频的视频帧集合和对应的样本标签；所述样本标签用于标记所述视频帧集合中的异常帧；

将所述视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果；所述异常帧识别结果为通过所述待训练的异常帧识别模型中的特征提取网络，对所述视频帧集合进行特征提取，得到样本视频特征，并通过所述待训练的异常帧识别模型中的特征识别网络，根据所述样本视频特征对所述视频帧集合中的异常帧进行识别所得到的结果；

根据所述异常帧识别结果和所述样本标签之间的差异，对所述待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；

将所述调整后的异常帧识别模型中的所述特征提取网络，作为训练好的视频特征提取模型，用于提取待处理视频的目标视频特征。

在一种可能实现方式中，所述生成所述样本视频的视频帧集合和对应的样本标签，包括：

从所述样本视频中提取出预设数目的样本视频帧；

根据所述预设数目的样本视频帧，生成所述样本视频的视频帧集合。

在一种可能实现方式中，所述根据所述预设数目的样本视频帧，生成所述样本视频的视频帧集合，包括：

当所述视频帧集合的样本类型为正样本时，将所述预设数目的样本视频帧，作为所述样本视频的视频帧集合；

当所述视频帧集合的样本类型为负样本时，将所述预设数目的样本视频帧中的至少一帧视频帧替换为所述异常帧，得到预设数目的替换后样本视频帧；

将所述预设数目的替换后样本视频帧，作为所述样本视频的视频帧集合。

在一种可能实现方式中，所述异常帧识别模型中的所述特征提取网络包括图像特征提取层和特征融合层；

所述将所述视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果，包括：

通过所述特征提取网络的图像特征提取层，分别对所述视频帧集合中的各视频帧进行图像特征提取，得到各所述视频帧对应的图像特征；

通过所述特征提取网络的特征融合层，对各所述视频帧的图像特征进行融合，得到融合后特征；

将所述融合后特征，作为所述样本视频特征。

在一种可能实现方式中，所述通过所述特征提取网络的特征融合层，对各所述视频帧的图像特征进行融合，得到融合后特征，包括：

获取各所述视频帧的图像特征对应的权重值；

基于所述权重值，对各所述视频帧的图像特征进行加权处理；

对加权后的各所述视频帧的图像特征进行融合处理，得到所述融合后特征。

在一种可能实现方式中，所述根据所述异常帧识别结果和所述样本标签之间的差异，对所述待训练的异常帧识别模型的网络参数进行调整，包括：

根据所述异常帧识别结果和所述样本标签之间的差异，获取所述待训练的异常帧识别模型的模型损失值；

根据所述模型损失值调整所述待训练的异常帧识别模型的网络参数，直至所述模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足所述训练条件。

根据本公开实施例的第二方面，提供一种视频特征提取方法，所述方法包括：

获取待处理视频，

从所述待处理视频中抽取至少一帧视频帧，得到所述待处理视频的视频帧集合；

将所述视频帧集合输入至训练好的视频特征提取模型，得到所述待处理视频的目标视频特征；所述训练好的视频特征提取模型为根据如第一方面或第一方面的任一种可能实现方式所述的视频特征提取模型训练方法训练得到的。

根据本公开实施例的第三方面，提供一种视频特征提取模型训练装置，包括：

第一获取单元，被配置为执行获取样本视频，生成所述样本视频的视频帧集合和对应的样本标签；所述样本标签用于标记所述视频帧集合中的异常帧；

输入单元，被配置为执行将所述视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果；所述异常帧识别结果为通过所述待训练的异常帧识别模型中的特征提取网络，对所述视频帧集合进行特征提取，得到样本视频特征，并通过所述待训练的异常帧识别模型中的特征识别网络，根据所述样本视频特征对所述视频帧集合中的异常帧进行识别所得到的结果；

参数调整单元，被配置为执行根据所述异常帧识别结果和所述样本标签之间的差异，对所述待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；

确定单元，被配置为执行将所述调整后的异常帧识别模型中的所述特征提取网络，作为训练好的视频特征提取模型，用于提取待处理视频的目标视频特征。

在一种可能实现方式中，所述第一获取单元，具体被配置为执行从所述样本视频中提取出预设数目的样本视频帧；根据所述预设数目的样本视频帧，生成所述样本视频的视频帧集合。

在一种可能实现方式中，所述第一获取单元，具体被配置为执行当所述视频帧集合的样本类型为正样本时，将所述预设数目的样本视频帧，作为所述样本视频的视频帧集合；当所述视频帧集合的样本类型为负样本时，将所述预设数目的样本视频帧中的至少一帧视频帧替换为所述异常帧，得到预设数目的替换后样本视频帧；将所述预设数目的替换后样本视频帧，作为所述样本视频的视频帧集合。

在一种可能实现方式中，所述异常帧识别模型中的所述特征提取网络包括图像特征提取层和特征融合层；所述输入单元，具体被配置为执行通过所述特征提取网络的图像特征提取层，分别对所述视频帧集合中的各视频帧进行图像特征提取，得到各所述视频帧对应的图像特征；通过所述特征提取网络的特征融合层，对各所述视频帧的图像特征进行融合，得到融合后特征；将所述融合后特征，作为所述样本视频特征。

在一种可能实现方式中，所述输入单元，具体被配置为执行获取各所述视频帧的图像特征对应的权重值；基于所述权重值，对各所述视频帧的图像特征进行加权处理；对加权后的各所述视频帧的图像特征进行融合处理，得到所述融合后特征。

在一种可能实现方式中，所述参数调整单元，具体被配置为执行根据所述异常帧识别结果和所述样本标签之间的差异，获取所述待训练的异常帧识别模型的模型损失值；根据所述模型损失值调整所述待训练的异常帧识别模型的网络参数，直至所述模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足所述训练条件。

根据本公开实施例的第四方面，提供一种视频特征提取装置，包括：

第二获取单元，被配置为执行获取待处理视频，

抽取单元，被配置为执行从所述待处理视频中抽取的至少一帧视频帧，得到所述待处理视频的视频帧集合；

提取单元，被配置为执行将所述视频帧集合输入至训练好的视频特征提取模型，得到所述待处理视频的目标视频特征；所述训练好的视频特征提取模型为根据如第一方面或第一方面的任一种可能实现方式所述的视频特征提取模型训练方法训练得到的。

根据本公开实施例的第五方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的视频特征提取模型训练方法，以及，第二方面所述的视频特征提取方法。

根据本公开实施例的第六方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的视频特征提取模型训练方法，以及，第二方面所述的视频特征提取方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面或第一方面的任一种可能实现方式所述的视频特征提取模型训练方法，以及，第二方面所述的视频特征提取方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取样本视频，生成样本视频的视频帧集合和对应的样本标签；样本标签用于标记视频帧集合中的异常帧；通过将视频帧集合输入至待训练的异常帧识别模型，通过待训练的异常帧识别模型中的特征提取网络，对视频帧集合进行特征提取，得到样本视频特征，并通过待训练的异常帧识别模型中的特征识别网络，根据样本视频特征对视频帧集合中的异常帧进行识别所得到的异常帧识别结果；并根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；最后，再将调整后的异常帧识别模型中的特征提取网络，作为训练好的视频特征提取模型；如此，实现在训练视频特征提取模型的过程中，可以利用到样本视频本身的信息来作为该视频特征提取模型深度学习时的监督信号，而无需依赖具有高质量的标注数据的同时可以得到一个具有良好表达能力与泛化能力的视频特征提取模型，降低了视频特征处理模型的训练成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频特征提取模型训练方法的应用环境图。

图2是根据一示例性实施例示出的一种视频特征提取模型训练方法的流程图。

图3是根据一示例性实施例示出的一种异常帧识别模型的网络结构示意图。

图4是根据一示例性实施例示出的一种视频特征提取方法的流程图。

图5是根据一示例性实施例示出的一种视频特征提取模型训练装置的框图。

图6是根据一示例性实施例示出的一种视频特征提取装置的框图。

图7是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开所提供的视频特征提取模型训练方法，可以应用于如图1所示的应用环境中。其中，服务器110获取样本视频，生成样本视频的视频帧集合和对应的样本标签；样本标签用于标记视频帧集合中的异常帧；然后，服务器110将视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果；异常帧识别结果为通过待训练的异常帧识别模型中的特征提取网络，对视频帧集合进行特征提取，得到样本视频特征，并通过待训练的异常帧识别模型中的特征识别网络，根据样本视频特征对视频帧集合中的异常帧进行识别所得到的结果；再然后，服务器110根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；最后，服务器110将调整后的异常帧识别模型中的特征提取网络，作为训练好的视频特征提取模型，用于提取待处理视频的目标视频特征。实际应用中，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种视频特征提取模型训练方法的流程图，如图2所示，该视频特征提取模型训练方法用于图1的服务器110中，包括以下步骤。

在步骤S210中，获取样本视频，生成样本视频的视频帧集合和对应的样本标签。

其中，样本标签用于标记视频帧集合中的异常帧。

其中，异常帧可以是指在视频帧集合中不属于样本视频的视频帧。

具体实现中，服务器在对待训练的的异常帧识别模型进行训练之前，服务器需要获取用于训练待训练的的异常帧识别模型的样本视频。

其中，样本视频可以是指某短视频平台中的1000万条随机视频。

然后，对各个样本视频进行抽帧处理生成对应的视频帧集合。由于，短视频的时长在几秒至数分钟不等，包含了几百至几万的视频帧。类似关键帧提取等复杂的抽帧策略意味着更高的资源消耗，难以应对每日数以千万计的视频。出于随机抽取数帧较大概率能够从中识别出视频特征的考虑，本方案对视频帧采用的是均匀抽取8帧的策略。因此，我们得到了1000万*8＝8000万个视频帧。

在步骤S220中，将视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果。

其中，异常帧识别结果为通过待训练的异常帧识别模型中的特征提取网络，对视频帧集合进行特征提取，得到样本视频特征，并通过待训练的异常帧识别模型中的特征识别网络，根据样本视频特征对视频帧集合中的异常帧进行识别所得到的结果。

具体实现中，服务器将视频帧集合输入至待训练的异常帧识别模型，通过待训练的异常帧识别模型中的特征提取网络，对视频帧集合进行特征提取，得到样本视频特征；具体来说，该特征提取网络可以对视频帧集合中的各个视频帧图像进行图像特征识别，得到各个视频帧图像对应的图像特征，

然后，再对各个视频帧图像对应的图像特征进行融合，得到该样本视频对应的样本视频特征。

再然后，服务器将该样本视频对应的样本视频特征输入至待训练的异常帧识别模型中的特征识别网络，通过该特征识别网络，根据样本视频特征对视频帧集合中的异常帧进行识别所得到的结果。

具体来说，特征识别网络可以是多分类网络；实际应用中，该多分类网络可以由全连接层构成；具体来说，服务器可以将样本视频对应的样本视频特征输入一个512*9的全连接网络，得到该样本在对应位置帧上可能存在异常帧的激活值。该激活值后续可以通过Softmax函数，转换为对应的概率；作为对应的异常帧识别结果。

在步骤S230中，根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件。

具体实现中，服务器在确定异常帧识别结果后，服务器可以基于深度学习中的反向传播算法，通过基于异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件，如，模型损失值小于预设阈值。

在步骤S240中，将调整后的异常帧识别模型中的特征提取网络，作为训练好的视频特征提取模型，用于提取待处理视频的目标视频特征。

具体实现中，服务器将调整后的异常帧识别模型中的特征提取网络，作为训练好的视频特征提取模型；该训练好的视频特征提取模型用于提取待处理视频的目标视频特征，供给下游任务。

上述视频特征提取模型训练方法中，通过获取样本视频，生成样本视频的视频帧集合和对应的样本标签；样本标签用于标记视频帧集合中的异常帧；通过将视频帧集合输入至待训练的异常帧识别模型，通过待训练的异常帧识别模型中的特征提取网络，对视频帧集合进行特征提取，得到样本视频特征，并通过待训练的异常帧识别模型中的特征识别网络，根据样本视频特征对视频帧集合中的异常帧进行识别所得到的异常帧识别结果；并根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；最后，再将调整后的异常帧识别模型中的特征提取网络，作为训练好的视频特征提取模型；如此，实现在训练视频特征提取模型的过程中，可以利用到样本视频本身的信息来作为该视频特征提取模型深度学习时的监督信号，而无需依赖具有高质量的标注数据的同时可以得到一个具有良好表达能力与泛化能力的视频特征提取模型，降低了视频特征处理模型的训练成本。

在其中一个实施例中，生成样本视频的视频帧集合和对应的样本标签，包括：从样本视频中提取出预设数目的样本视频帧；根据预设数目的样本视频帧，生成样本视频的视频帧集合。

具体实现中，服务器在生成样本视频的视频帧集合和对应的样本标签的过程中，具体包括：服务器可以从样本视频中提取出预设数目的样本视频帧；然后，服务器再根据预设数目的样本视频帧，生成样本视频的视频帧集合。

具体来说，服务器可以采用均匀抽取视频帧的方式，从样本视频中提取出预设数目的样本视频帧。其中，预设数目可以是8。然后，服务器在根据该预设数目的样本视频帧中的视频帧，生成样本视频的视频帧集合。

本实施例的技术方案，通过从样本视频中提取出预设数目的样本视频帧，并根据预设数目的样本视频帧，生成样本视频的视频帧集合，采用抽取样本视频的预设数目的视频帧来生成样本视频的视频帧集合的方式，可以大概率地能够从视频帧集合中识别出用于表征该视频的视频内容的视频特征。

在其中一个实施例中，根据预设数目的样本视频帧，生成样本视频的视频帧集合，包括：当视频帧集合的样本类型为正样本时，将预设数目的样本视频帧，作为样本视频的视频帧集合；当视频帧集合的样本类型为负样本时，将预设数目的样本视频帧中的至少一帧视频帧替换为异常帧，得到预设数目的替换后样本视频帧；将预设数目的替换后样本视频帧，作为样本视频的视频帧集合。

具体实现中，服务器在根据预设数目的样本视频帧，生成样本视频的视频帧集合的过程中，具体包括：服务器在生成样本类型为正样本的视频帧集合时，服务器则直接将预设数目的样本视频帧，作为样本视频的视频帧集合。

服务器在生成样本类型为负样本的视频帧集合时，服务器将预设数目的样本视频帧中的至少一帧视频帧替换为异常帧，得到预设数目的替换后样本视频帧；将预设数目的替换后样本视频帧，作为样本视频的视频帧集合。同时，记录下各个样本视频的视频帧集合对应的样本标签。

具体来说，以样本视频的视频帧集合的帧数为8帧为例，对于每一组训练样本，以视频A的8帧为基础，从以下两种操作中选择一种：

操作1.不进行替换，即输入样本为原始的8帧。

操作2.从视频A以外的其他视频随机选取一帧，替换A的某一帧。

当采取操作1时，该训练样本的标签为0，说明该样本的8帧来自同一个视频；当采取操作2时，该训练样本的标签为被替换的帧的帧号，即1-8。

本实施例的技术方案，在根据预设数目的样本视频帧，生成样本视频的视频帧集合的过程中，通过当视频帧集合的样本类型为正样本时，将预设数目的样本视频帧，作为样本视频的视频帧集合；当视频帧集合的样本类型为负样本时，将预设数目的样本视频帧中的至少一帧视频帧替换为异常帧，得到预设数目的替换后样本视频帧；将预设数目的替换后样本视频帧，作为样本视频的视频帧集合；生成样本视频的视频帧集合的过程中无需专门进行人工标注，而是直接利用视频自身的信息，来得到了模型训练需要的监督信号，作为后续对异常帧识别模型进行自监督学习的基础。

在其中一个实施例中，异常帧识别模型中的特征提取网络包括图像特征提取层和特征融合层；将视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果，包括：通过特征提取网络的图像特征提取层，分别对视频帧集合中的各视频帧进行图像特征提取，得到各视频帧对应的图像特征；通过特征提取网络的特征融合层，对各视频帧的图像特征进行融合，得到融合后特征；将融合后特征，作为样本视频特征。

其中，异常帧识别模型中的特征提取网络包括图像特征提取层和特征融合层。

具体实现中，服务器在将视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果的过程中，具体包括：服务器通过特征提取网络的图像特征提取层，分别对视频帧集合中的各视频帧进行图像特征提取，得到各视频帧对应的图像特征；然后，服务器通过特征提取网络的特征融合层，对各视频帧的图像特征进行融合，得到融合后特征；最后，服务器将融合后特征，作为样本视频特征。

本实施例的技术方案，过特征提取网络的图像特征提取层，分别对视频帧集合中的各视频帧进行图像特征提取，得到各视频帧对应的图像特征；通过特征提取网络的特征融合层，对各视频帧的图像特征进行融合，得到融合后特征，作为样本视频特征；如此，可以准确地对视频帧集合携带的特征进行识别确定对应的异常帧分类结果。

在其中一个实施例中，通过特征提取网络的特征融合层，对各视频帧的图像特征进行融合，得到融合后特征，包括：获取各视频帧的图像特征对应的权重值；基于权重值，对各视频帧的图像特征进行加权处理；对加权后的各视频帧的图像特征进行融合处理，得到融合后特征。

具体实现中，服务器在通过特征提取网络的特征融合层，对各视频帧的图像特征进行融合，得到融合后特征的过程中，具体包括：服务器获取各视频帧的图像特征对应的权重值；然后，服务器在基于该权重值，对各视频帧的图像特征进行加权处理；最后，服务器再对加权后的各视频帧的图像特征进行融合处理，得到融合后特征。具体来说，服务器可以将特征提取层提取得到的8个视频帧的图像特征即共4096(8*512)维的图像特征，以多头注意力机制(Multi-Head Attention)进行特征融合，产生新的512维的特征。该特征即可以代表原视频的特征即融合后特征。

本实施例的技术方案，在对各视频帧的图像特征进行融合，得到融合后特征，通过获取各视频帧的图像特征对应的权重值；基于权重值，对各视频帧的图像特征进行加权处理；对加权后的各视频帧的图像特征进行融合处理，得到融合后特征，如此，考虑到视频中不同视频帧表达视频内容的程度不同，将加权后的各视频帧的图像特征进行融合处理，使得得到融合后特征可以更加客观地表达出该视频的视频内容。

在其中一个实施例中，根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，包括：根据异常帧识别结果和样本标签之间的差异，获取待训练的异常帧识别模型的模型损失值；根据模型损失值调整待训练的异常帧识别模型的网络参数，直至模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足训练条件。

其中，模型损失值用于衡量待训练的异常帧识别模型输出的异常帧识别结果与样本标签之间的误差；其中，模型损失值越小，则说明该待训练的异常帧识别模型越接近模型训练目标。

具体实现中，服务器在根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整的过程中，具体包括：服务器首先根据异常帧识别结果和样本标签之间的差异，获取待训练的异常帧识别模型的模型损失值。具体来说，服务器可以根据异常帧识别结果和样本标签之间的差异，获取待训练的异常帧识别模型的模型损失值；然后，服务器在基于该模型损失值确定针对待训练的异常帧识别模型的损失函数；然后，利用反向传播算法对调整待训练的异常帧识别模型的网络参数，直至模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足训练条件。

本实施例的技术方案，通过根据异常帧识别结果和样本标签之间的差异，准确地获取待训练的异常帧识别模型的模型损失值；并通过根据模型损失值调整待训练的异常帧识别模型的网络参数，直至模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足训练条件，实现基于模型损失值准确地评价调整后的异常帧识别模型是否满足训练条件。

为了本领域技术人员的理解，图3提供了一种异常帧识别模型的网络结构示意图；其中，该异常帧识别模型包括特征提取层(图像特征提取网络)、特征融合层、特征分类层(全连接层)。其中，以样本视频的视频帧集合包括8帧视频帧图像为例，可以将异常帧识别的问题转化为一个9分类的问题，任务即找出被替换的视频帧(1-8)，或判断所有视频帧为同一来源(0)。首先，将视频帧输入(Frame 1-8)

Frame 1,Frame 2,…,Frame 8即为2.2.1中构造的8帧为1组的训练样本。

其中，图像特征提取网络(Image Model)

本方案采用的图像特征提取网络是ResNet-50图像分类模型，且8帧图片共享一个图像特征提取模型。每次前向运算过程中，该模型对8帧图像各自进行了包括50次卷积操作在内的一系列神经网络运行，得到8个512维的封面图像特征，即Feature 1-8。

下表一为ResNet-50的网络结构。

表一

其中，特征融合层(Fusion Layer)

对于图像特征提取网络中产生的8个，共4096(8*512)维的图像特征，以多头注意力机制(Multi-Head Attention)进行特征融合，产生新的512维的特征。该特征即可以代表原视频的特征。

其中，全连接层(Full Connect Layer)

将特征融合层中产生的512位特征，输入一个512*9的全连接网络，得到该样本在对应位置帧上可能存在异常帧的激活值。该激活值后续可以通过Softmax函数，转换为对应的概率。

图4是根据一示例性实施例示出的一种视频特征提取方法的流程图，如图4所示，该方法视频特征提取可以用于图1的服务器110中，包括以下步骤。

在步骤S410中，获取待处理视频。

在步骤S420中，从待处理视频中抽取至少一帧视频帧，得到待处理视频的视频帧集合。

具体实现中，在服务器获取待处理视频后，服务器可以从待处理视频中抽取至少一帧视频帧，得到待处理视频的视频帧集合。具体来说，服务器可以按照预设的抽帧数目，在待处理视频中均与抽取视频帧，得到待处理视频的视频帧集合。

在步骤S430中，将视频帧集合输入至训练好的视频特征提取模型，得到待处理视频的目标视频特征；训练好的视频特征提取模型为根据上述的视频特征提取模型训练方法训练得到的。

上述视频特征提取方法中，通过获取样本视频，生成样本视频的视频帧集合和对应的样本标签；样本标签用于标记视频帧集合中的异常帧；通过将视频帧集合输入至待训练的异常帧识别模型，通过待训练的异常帧识别模型中的特征提取网络，对视频帧集合进行特征提取，得到样本视频特征，并通过待训练的异常帧识别模型中的特征识别网络，根据样本视频特征对视频帧集合中的异常帧进行识别所得到的异常帧识别结果；并根据异常帧识别结果和样本标签之间的差异，对待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；最后，再将调整后的异常帧识别模型中的特征提取网络，作为训练好的视频特征提取模型；如此，实现在训练视频特征提取模型的过程中，可以利用到样本视频本身的信息来作为该视频特征提取模型深度学习时的监督信号，而无需依赖具有高质量的标注数据的同时可以得到一个具有良好表达能力与泛化能力的视频特征提取模型，降低了视频特征处理模型的训练成本。

应该理解的是，虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图5是根据一示例性实施例示出的一种视频特征提取模型训练装置框图。参照图5，该装置包括：

第一获取单元510，被配置为执行获取样本视频，生成所述样本视频的视频帧集合和对应的样本标签；所述样本标签用于标记所述视频帧集合中的异常帧；

输入单元520，被配置为执行将所述视频帧集合输入至待训练的异常帧识别模型，得到异常帧识别结果；所述异常帧识别结果为通过所述待训练的异常帧识别模型中的特征提取网络，对所述视频帧集合进行特征提取，得到样本视频特征，并通过所述待训练的异常帧识别模型中的特征识别网络，根据所述样本视频特征对所述视频帧集合中的异常帧进行识别所得到的结果；

参数调整单元530，被配置为执行根据所述异常帧识别结果和所述样本标签之间的差异，对所述待训练的异常帧识别模型的网络参数进行调整，直至调整后的异常帧识别模型满足预设的模型训练条件；

确定单元540，被配置为执行将所述调整后的异常帧识别模型中的所述特征提取网络，作为训练好的视频特征提取模型，用于提取待处理视频的目标视频特征。

在一示例性实施例中，所述第一获取单元510，具体被配置为执行从所述样本视频中提取出预设数目的样本视频帧；根据所述预设数目的样本视频帧，生成所述样本视频的视频帧集合。

在一示例性实施例中，所述第一获取单元510，具体被配置为执行当所述视频帧集合的样本类型为正样本时，将所述预设数目的样本视频帧，作为所述样本视频的视频帧集合；当所述视频帧集合的样本类型为负样本时，将所述预设数目的样本视频帧中的至少一帧视频帧替换为所述异常帧，得到预设数目的替换后样本视频帧；将所述预设数目的替换后样本视频帧，作为所述样本视频的视频帧集合。

在一示例性实施例中，所述异常帧识别模型中的所述特征提取网络包括图像特征提取层和特征融合层；所述输入单元520，具体被配置为执行通过所述特征提取网络的图像特征提取层，分别对所述视频帧集合中的各视频帧进行图像特征提取，得到各所述视频帧对应的图像特征；通过所述特征提取网络的特征融合层，对各所述视频帧的图像特征进行融合，得到融合后特征；将所述融合后特征，作为所述样本视频特征。

在一示例性实施例中，所述输入单元520，具体被配置为执行获取各所述视频帧的图像特征对应的权重值；基于所述权重值，对各所述视频帧的图像特征进行加权处理；对加权后的各所述视频帧的图像特征进行融合处理，得到所述融合后特征。

在一示例性实施例中，所述参数调整单元530，具体被配置为执行根据所述异常帧识别结果和所述样本标签之间的差异，获取所述待训练的异常帧识别模型的模型损失值；根据所述模型损失值调整所述待训练的异常帧识别模型的网络参数，直至所述模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足所述训练条件。

图6是根据一示例性实施例示出的一种视频特征提取装置框图。参照图6，该装置包括:

第二获取单元510，被配置为执行获取待处理视频，

抽取单元520，被配置为执行从所述待处理视频中抽取的至少一帧视频帧，得到所述待处理视频的视频帧集合；

提取单元530，被配置为执行将所述视频帧集合输入至训练好的视频特征提取模型，得到所述待处理视频的目标视频特征；所述训练好的视频特征提取模型为根据上述的视频特征提取模型训练方法训练得到的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行视频特征提取模型训练方法或者视频特征提取方法的设备700的框图。例如，设备700可以为一服务器。参照图7，设备700包括处理组件720，其进一步包括一个或多个处理器，以及由存储器722所代表的存储器资源，用于存储可由处理组件720的执行的指令，例如应用程序。存储器722中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件720被配置为执行指令，以执行上述的视频特征提取模型训练方法或者视频特征提取方法。

设备700还可以包括一个电源组件724被配置为执行设备700的电源管理，一个有线或无线网络接口726被配置为将设备700连接到网络，和一个输入输出(I/O)接口728。设备700可以操作基于存储在存储器722的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器Z04，上述指令可由电子设备Z00的处理器Z20执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序存储在计算机可读存储介质中，所述计算机程序可由设备700的处理器执行以完成上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频特征提取模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频特征提取模型训练方法，其特征在于，所述生成所述样本视频的视频帧集合和对应的样本标签，包括：

从所述样本视频中提取出预设数目的样本视频帧；

3.根据权利要求2所述的视频特征提取模型训练方法，其特征在于，所述根据所述预设数目的样本视频帧，生成所述样本视频的视频帧集合，包括：

4.根据权利要求1所述的视频特征提取模型训练方法，其特征在于，所述异常帧识别模型中的所述特征提取网络包括图像特征提取层和特征融合层；

将所述融合后特征，作为所述样本视频特征。

5.根据权利要求4所述的视频特征提取模型训练方法，其特征在于，所述通过所述特征提取网络的特征融合层，对各所述视频帧的图像特征进行融合，得到融合后特征，包括：

获取各所述视频帧的图像特征对应的权重值；

6.根据权利要求1所述的视频特征提取模型训练方法，其特征在于，所述根据所述异常帧识别结果和所述样本标签之间的差异，对所述待训练的异常帧识别模型的网络参数进行调整，包括：

7.一种视频特征提取方法，其特征在于，所述方法包括：

获取待处理视频，

将所述视频帧集合输入至训练好的视频特征提取模型，得到所述待处理视频的目标视频特征；所述训练好的视频特征提取模型为根据如权利要求1至6中任一项所述的视频特征提取模型训练方法训练得到的。

8.一种视频特征提取模型训练装置，其特征在于，包括：

9.根据权利要求8所述的视频特征提取模型训练装置，其特征在于，所述第一获取单元，具体被配置为执行从所述样本视频中提取出预设数目的样本视频帧；根据所述预设数目的样本视频帧，生成所述样本视频的视频帧集合。

10.根据权利要求9所述的视频特征提取模型训练装置，其特征在于，所述第一获取单元，具体被配置为执行当所述视频帧集合的样本类型为正样本时，将所述预设数目的样本视频帧，作为所述样本视频的视频帧集合；当所述视频帧集合的样本类型为负样本时，将所述预设数目的样本视频帧中的至少一帧视频帧替换为所述异常帧，得到预设数目的替换后样本视频帧；将所述预设数目的替换后样本视频帧，作为所述样本视频的视频帧集合。

11.根据权利要求8所述的视频特征提取模型训练装置，其特征在于，所述异常帧识别模型中的所述特征提取网络包括图像特征提取层和特征融合层；所述输入单元，具体被配置为执行通过所述特征提取网络的图像特征提取层，分别对所述视频帧集合中的各视频帧进行图像特征提取，得到各所述视频帧对应的图像特征；通过所述特征提取网络的特征融合层，对各所述视频帧的图像特征进行融合，得到融合后特征；将所述融合后特征，作为所述样本视频特征。

12.根据权利要求11所述的视频特征提取模型训练装置，其特征在于，所述输入单元，具体被配置为执行获取各所述视频帧的图像特征对应的权重值；基于所述权重值，对各所述视频帧的图像特征进行加权处理；对加权后的各所述视频帧的图像特征进行融合处理，得到所述融合后特征。

13.根据权利要求8所述的视频特征提取模型训练装置，其特征在于，所述参数调整单元，具体被配置为执行根据所述异常帧识别结果和所述样本标签之间的差异，获取所述待训练的异常帧识别模型的模型损失值；根据所述模型损失值调整所述待训练的异常帧识别模型的网络参数，直至所述模型损失值低于预设阈值时，确定调整后的异常帧识别模型满足所述训练条件。

14.一种视频特征提取装置，其特征在于，包括：

第二获取单元，被配置为执行获取待处理视频，

提取单元，被配置为执行将所述视频帧集合输入至训练好的视频特征提取模型，得到所述待处理视频的目标视频特征；所述训练好的视频特征提取模型为根据如权利要求1至6中任一项所述的视频特征提取模型训练方法训练得到的。

15.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。