CN113139560A

CN113139560A - 视频处理模型的训练方法和装置、视频处理方法和装置

Info

Publication number: CN113139560A
Application number: CN202010051964.4A
Authority: CN
Inventors: 王华彦; 陈昕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-07-20

Abstract

本公开实施例提供了一种视频处理模型的训练方法和装置、视频处理方法和装置，方法包括：将样本视频数据的每一帧图像分别输入预设单帧模型，得到每一网络层输出的每一帧图像中目标对象的第一识别结果；按照样本视频数据中图像的时间顺序，将每一帧图像分别输入待训练的时序模型，得到每一网络层输出的每一帧图像中目标对象的第二识别结果；分别比较每一网络层输出的每一帧图像的第一识别结果和第二识别结果，确定时序模型识别图像的总损失值；若基于总损失值确定时序模型收敛，则结束训练。应用本公开实施例提供的技术方案，解决因视频数据的图像间存在帧间冗余，导致视频处理进行了大量近似于重复的计算，服务资源成本大大增加的问题。

Description

视频处理模型的训练方法和装置、视频处理方法和装置

技术领域

本公开涉及视频处理技术领域，特别是涉及一种视频处理模型的训练方法和装置、视频处理方法和装置。

背景技术

在视频处理场景下，许多智能应用需要在服务端或移动端部署一个深度神经网络模型，采用该深度神经网络模型对视频数据的每一帧图像都要输出一个结果。例如，在使用魔法表情特效时，需要采用深度神经网络模型得到视频数据的每一帧图像上人脸的关键点；在使用背景虚化特效时，需要采用深度神经网络模型得到视频数据的每一帧图像上人物前景和背景的分割掩膜(mask)；在进行自适应的视频编码压缩时，需要采用深度神经网络模型得到视频数据的每一帧图像上显著区域的mask。

目前，为对视频进行处理，采用人工标注的单帧图像训练一个深度神经网络模型，作为单帧模型。进行视频处理时，将视频数据的每一帧图像均输入该单帧模型，得到每一帧图像对应的一个结果。

这里，视频数据的每一帧图像均单独应用了该单帧模型。但视频数据的图像间存在帧间冗余，这导致视频处理进行了大量近似于重复的计算，这大大增加了服务资源成本。

发明内容

本公开提供一种视频处理模型的训练方法和装置、视频处理方法和装置，以解决因视频数据的图像间存在帧间冗余，导致视频处理进行了大量近似于重复的计算，服务资源成本大大增加的问题。具体技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理模型的训练方法，所述方法包括：

获取样本视频数据；

将所述样本视频数据的每一帧图像分别输入预设单帧模型，得到所述预设单帧模型的每一网络层输出的所述每一帧图像中目标对象的第一识别结果，所述预设单帧模型为基于标注有所述目标对象的识别结果的单帧图像对深度神经网络训练得到的模型；

按照所述样本视频数据中图像的时间顺序，将所述每一帧图像分别输入待训练的时序模型，得到所述时序模型的每一网络层输出的所述每一帧图像中所述目标对象的第二识别结果；所述时序模型为：删除所述预设单帧模型中预设数量个网络层，并以帧间的时序连接代替所述预设数量个网络层所得到的模型；

分别比较每一网络层输出的所述每一帧图像的第一识别结果和第二识别结果，得到该网络层的比较结果；

根据所述每一网络层的比较结果，确定所述时序模型识别图像的总损失值；

若基于所述总损失值确定所述时序模型收敛，则结束训练，得到所述视频处理模型。

可选的，所述根据所述每一网络层的比较结果，确定所述时序模型识别图像的总损失值的步骤，包括：

根据所述每一网络层的比较结果，确定所述每一网络层识别图像的子损失值；

根据所述每一网络层识别图像的子损失值，确定所述时序模型识别图像的总损失值。

可选的，所述根据所述每一网络层识别图像的子损失值，确定所述时序模型识别图像的总损失值的步骤，包括：

根据所述每一网络层的权重，对所述每一网络层识别图像的子损失值进行加权求和，得到所述时序模型识别图像的总损失值。

可选的，所述若基于所述总损失值确定所述时序模型收敛，则结束训练，得到所述视频处理模型的步骤，包括：

若所述总损失值小于预设损失阈值，则确定所述时序模型收敛，结束训练，得到所述视频处理模型。

可选的，所述方法还包括：

若所述总损失值大于等于所述预设损失阈值，则确定所述时序模型未收敛，调整所述时序模型的参数，返回执行所述按照所述样本视频数据中图像的时间顺序，将所述每一帧图像分别输入待训练的时序模型，得到所述时序模型的每一网络层输出的所述每一帧图像中所述目标对象的第二识别结果的步骤。

根据本公开实施例的第二方面，提供一种视频处理方法，所述方法包括：

获取待识别视频数据；

按照所述待识别视频数据中图像的时间顺序，将所述待识别视频数据的每一帧图像分别输入上述第一方面提供的任一所述视频处理模型，得到所述每一帧图像中目标对象的识别结果。

根据本公开实施例的第三方面，提供一种视频处理模型的训练装置，所述装置包括：

获取单元，被配置为执行获取样本视频数据；

第一输入单元，被配置为执行将所述样本视频数据的每一帧图像分别输入预设单帧模型，得到所述预设单帧模型的每一网络层输出的所述每一帧图像中目标对象的第一识别结果，所述预设单帧模型为基于标注有所述目标对象的识别结果的单帧图像对深度神经网络训练得到的模型；

第二输入单元，被配置为执行按照所述样本视频数据中图像的时间顺序，将所述每一帧图像分别输入待训练的时序模型，得到所述时序模型的每一网络层输出的所述每一帧图像中所述目标对象的第二识别结果；所述时序模型为：删除所述预设单帧模型中预设数量个网络层，并以帧间的时序连接代替所述预设数量个网络层所得到的模型；

比较单元，被配置为执行分别比较每一网络层输出的所述每一帧图像的第一识别结果和第二识别结果，得到该网络层的比较结果

第一确定单元，被配置为执行根据所述每一网络层的比较结果，确定所述时序模型识别图像的总损失值；

第二确定单元，被配置为执行若基于所述总损失值确定所述时序模型收敛，则结束训练，得到所述视频处理模型。

可选的，所述第一确定单元，包括：

第一确定子单元，被配置为执行根据所述每一网络层的比较结果，确定所述每一网络层识别图像的子损失值；

第二确定子单元，被配置为执行根据所述每一网络层识别图像的子损失值，确定所述时序模型识别图像的总损失值。

可选的，所述第二确定子单元，被配置为具体执行根据所述每一网络层的权重，对所述每一网络层识别图像的子损失值进行加权求和，得到所述时序模型识别图像的总损失值。

可选的，所述第二确定单元，被配置为具体执行若所述总损失值小于预设损失阈值，则确定所述时序模型收敛，结束训练，得到所述视频处理模型

可选的，所述第二确定单元，被配置为还执行：

若所述总损失值大于等于所述预设损失阈值，则确定所述时序模型未收敛，调整所述时序模型的参数，触发所述第二输入单元。

根据本公开实施例的第四方面，提供一种视频处理装置，所述装置包括：

获取单元，被配置为执行获取待识别视频数据；

输入单元，被配置为执行按照所述待识别视频数据中图像的时间顺序，将所述待识别视频数据的每一帧图像分别输入上述第三方面提供的任一所述视频处理模型，得到所述每一帧图像中目标对象的识别结果。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面提供的任一所述的视频处理模型的训练方法，或实现第二方面提供的所述的视频处理方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面提供的任一所述的视频处理模型的训练方法，或使得所述电子设备能够执行第二方面提供的所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

以基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的单帧模型每一网络层的输出结果作为监督，基于样本视频数据对时序模型进行训练，得到视频处理模型。本公开的实施例中，不仅仅考虑最后一个网络层输出的结果进行监督，还使用多个中间网络层输出的识别结果进行知识提取，这大大提高了时序模型的训练成功率。

另外，由于训练时序模型时采用的是样本视频数据，因此，在训练时序模型时可充分利用每帧图像的前一帧图像已经得到的目标对象的识别结果。基于此，利用训练得到的时序模型进行视频处理时，可充分考虑视频数据中的帧间冗余信息，减少重复的计算，降低服务资源成本。

此外，时序模型是通过删除预设单帧模型中预设数量个网络层得到的模型，减少了时序模型的总网络层数，利用网络层数少的时序模型识别处理视频图像，进一步减少了计算量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种深度神经网络模型的训练和应用的简化框图。

图2是根据一示例性实施例示出的一种深度神经网络模型的训练方法的流程图。

图3是根据一示例性实施例示出的一种深度神经网络模型的结构框图。

图4是根据一示例性实施例示出的一种视频处理模型的训练方法的流程图。

图5是根据一示例性实施例示出的一种时序模型的训练和应用的简化框图。

图6是根据另一示例性实施例示出的一种视频处理模型的训练方法的流程图。

图7是根据一示例性实施例示出的一种单帧模型和时序模型联合的结构框图。

图8是根据一示例性实施例示出的一种视频处理方法的流程图。

图9是根据一示例性实施例示出的一种视频处理模型的训练装置框图。

图10是根据另一示例性实施例示出的一种视频处理模型的训练装置框图。

图11是根据一示例性实施例示出的一种视频处理装置框图。

图12根据一示例性实施例示出的一种电子设备的框图。

图13是根据另一示例性实施例示出的一种电子设备的框图。

图14是根据再一示例性实施例示出的一种电子设备的框图。

图15是根据又一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，采用该深度神经网络模型对视频数据的每一帧图像都要输出一个结果，以进行视频处理。例如，在使用魔法表情特效时，需要采用深度神经网络模型得到视频数据的每一帧图像上人脸的关键点；在使用背景虚化特效时，需要采用深度神经网络模型得到视频数据的每一帧图像上人物前景和背景的分割mask；在进行自适应的视频编码压缩时，需要采用深度神经网络模型得到视频数据的每一帧图像上显著区域的mask。

深度神经网络模型的训练和应用如图1所示。电子设备获取标注有目标对象的识别结果的单帧图像。根据需求不同，目标对象不同，单帧图像标注的识别结果不同。例如，为了使用魔法表情特，目标对象为人脸的关键点，单帧图像标注的目标对象的识别结果为单帧图像上人脸的关键点；为了使用背景虚化特效，目标对象为人物前景和背景的分割mask，训练深度神经网络模型所获取的单帧图像标注的识别结果为单帧图像中人物前景和背景的分割mask；为了进行自适应的视频编码压缩，目标对象为显著区域的mask，训练深度神经网络模型所获取的单帧图像标注的识别结果为单帧图像上显著区域的mask。

电子设备基于获取的单帧图像，训练深度神经网络，得到深度神经网络模型。为了保证训练得到的深度神经网络模型能够准确的识别图像，获取的标注有识别结果的单帧图像越多越好。

具体的深度神经网络模型的训练过程如图2所示，包括如下步骤。

步骤201，获取带标注的单帧图像。其中，带标注的单帧图像即为标注有目标对象的识别结果的单帧图像

例如，获取标注有人脸的关键点的单帧图像，获取标注有人物前景和背景的分割mask的单帧图像，标注有显著区域的mask的单帧图像，等等。

这里，获取的带标注的单帧图像可以为一张或多张。为保证训练得到的深度神经网络模型能够准确地从单帧图像上得到识别结果，获取的带标注的单帧图像越多越好。这里，获取的多张单帧图像标注的识别结果针对同一种目标对象。如获取的多张单帧图像标注的识别结果均为人脸的关键点、或人物前景和背景的分割mask、或显著区域的mask等。

步骤202，将单帧图像输入深度神经网络，得到深度神经网络最后一个网络层输出的单帧图像的预测识别结果。

其中，深度神经网络可以包括但不限于卷积神经网络(Convolutional NeuralNetworks，CNN)、支持向量机(Support Vector Machine，SVM)等。

本公开实施例中，电子设备将单帧图像输入深度神经网络，得到深度神经网络最后一个网络层输出的单帧图像的预测识别结果。

一个可选的实施例中，为了加快深度神经网络的训练速度，可依据经验预先设置深度神经网络的参数。

步骤203，基于单帧图像的预测识别结果以及单帧图像标注的识别结果，确定深度神经网络识别图像的损失值。

一个可选的实施例中，电子设备可计算单帧图像的预测识别结果以及单帧图像标注的识别结果之间的相似度，将计算得到的相似度的倒数作为深度神经网络识别图像的损失值。

另一个可选的实施例中，电子设备可将单帧图像的预测识别结果以及单帧图像标注的识别结果分别转换为特征向量，计算这两个特征向量之间的欧式距离，进而将计算得到的欧式距离的倒数作为深度神经网络识别图像的损失值。

本公开实施例中，还可以采用其他方式确定深度神经网络识别图像的损失值，对此不做具体限定。

步骤204，基于损失值确定深度神经网络是否收敛。若是，则结束训练，得到深度神经网络模型，即单帧模型。若否，则执行步骤205。

本公开实施例中，若深度神经网络识别图像的损失值小于预设损失阈值，则确定深度神经网络收敛，结束训练，当前的深度神经网络即为单帧模型。若深度神经网络识别图像的损失值大于等于预设损失阈值，则确定深度神经网络未收敛，执行步骤205。

本公开实施例中，基于确定损失值的方式不同，预设损失阈值的大小也有所不同，具体的预设损失阈值的大小可根据实际需求进行设定。

步骤205，调整深度神经网络的参数，返回执行步骤202。

电子设备可基于梯度下降算法、反向传播算法等优化算法，调整深度神经网络的参数，返回执行步骤202将单帧图像输入深度神经网络，继续训练深度神经网络。

一个可选的实施例中，深度神经网络为CNN。CNN包括多层网络，每一层网络又称为一个网络层。如图3所示的深度神经网络的结构图。深度神经网络包括N层网络，在第N层网络输出预测识别结果后，比较预测识别结果和单帧图像标注的识别结果，进而调整深度神经网络的N层网络的参数。

训练得到深度神经网络模型为单帧模型。电子设备可将待识别的视频数据中每一帧图像分别输入该单帧模型，得到每一帧图像的识别结果。

视频数据中包括多帧图像，每帧图像中目标对象的识别结果不同。因此，无法对整个视频数据标注一个目标对象的识别结果，训练得到单帧模型时无法采用整个视频数据，只能利用单帧图像。基于上述单帧模型识别视频数据时，视频数据的每一帧图像均单独应用该单帧模型。

但视频数据的图像间存在帧间冗余，这导致基于上述单帧模型识别视频数据，视频处理进行了大量近似于重复的计算，大大增加了服务资源成本。并且，对于计算能力有限的移动设备，这极大的限制了应用更强大的模型。

为解决上述问题，本公开实施例提供了一种视频处理模型的训练方法，该方法中，以基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的单帧模型每一网络层的输出结果作为监督，基于样本视频数据对时序模型进行训练，得到视频处理模型。本公开的实施例中，不仅仅考虑最后一个网络层输出的结果进行监督，还使用多个中间网络层输出的识别结果进行知识提取，这大大提高了时序模型的训练成功率。

另外，由于训练时序模型时采用的是样本视频数据，因此，在训练时序模型时可充分利用每帧图像的前一帧图像已经得到的目标对象的识别结果。基于此，利用训练得到的时序模型进行视频处理时，可充分考虑视频数据中的帧间冗余信息，减少重复的计算，降低服务资源成本，使得电子设备能够应用更强大的模型。

此外，时序模型是通过删除预设单帧模型中预设数量个网络层得到的模型，利用网络层数少的时序模型识别处理视频图像，进一步减少了时序模型的总层数，进一步减少了计算量。

具体的，参考图4所示，图4是根据一示例性实施例示出的一种视频处理模型的训练方法的流程图。该方法可以应用于移动终端、服务器等任一电子设备。为便于描述，下面以电子设备为执行主体进行说明，并不起限定作用。上述视频处理模型的训练方法包括如下步骤。

步骤401，获取样本视频数据。

其中，样本视频数据中包括多帧图像。该样本视频数据无标注信息。

上述样本视频数据可以为用户预先存储在电子设备中，也可以为电子设备从网络中随机抓取的。本公开实施例对此不做具体的限定。

步骤402，将样本视频数据的每一帧图像分别输入预设单帧模型，得到预设单帧模型的每一网络层输出的每一帧图像中目标对象的第一识别结果，预设单帧模型为基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的模型。具体的预设单帧模型的训练过程可参考图2所示，此处不再赘述。

由于样本视频数据是无标注的数据，为对时序模型的训练进行监督，电子设备获取预先训练得到的单帧模型，将样本视频数据的每一帧图像分别输入预设单帧模型，预测得到样本视频数据中每一帧图像中目标对象的第一识别结果，以第一识别结果监督时序模型的训练。

步骤403，按照样本视频数据中图像的时间顺序，将样本视频数据的每一帧图像分别输入待训练的时序模型，得到时序模型的每一网络层输出的每一帧图像中目标对象的第二识别结果。

其中，时序模型为：删除预设单帧模型中预设数量个网络层，并以帧间的时序连接代替预设数量个网络层所得到的模型。具体的，将预设单帧模型的结构在时序上展开，删除预设单帧模型中预设数量个网络层，并以帧间的时序连接代替这预设数量个网络层，进而所得到时序模型。其中，预设数量的大小可根据实际需求进行设定，删除的网络层也可以根据实际需求进行选定，本公开实施例对此不进行限定。本公开实施例中，删除预设单帧模型中预设数量个网络层得到时序模型，减少了时序模型的总网络层数，进一步减少了计算量。

上述时序模型可以理解为基于图像间时序关系的深度神经网络，例如循环神经网络(Recurrent Neural Networks，RNN)。电子设备中对预设单帧模型进行调整得到时序模型。因此，预设单帧模型中存在与时序模型中的每一网络层相同的网络层。

在获取到样本视频数据后，电子设备按照样本视频数据中图像的时间顺序，将样本视频数据的每一帧图像分别输入时序模型，预测得到时序模型的每一网络层输出的样本视频数据中每一帧图像中目标对象的第二识别结果。

本公开实施例中，不限定步骤403和步骤402的执行顺序。步骤403可以在步骤402之前执行，步骤403也可以在步骤402之后执行，步骤403还可以与步骤402同时执行。

步骤404，分别比较每一网络层输出的每一帧图像的第一识别结果和第二识别结果，得到每一网络层的比较结果。

对于每一网络层，电子设备比较该网络层输出的每一帧帧图像的第一识别结果和第二识别结果，得到该网络层的比较结果。

一个可选的实施例中，对于每一网络层，电子设备可计算该网络层输出的每一帧图像的第一识别结果和第二识别结果之间的相似度，将计算得到的相似度的倒数作为该网络层的比较结果。

另一个可选的实施例中，对于每一网络层，电子设备可将该网络层输出的每一帧图像的第一识别结果和第二识别结果分别转换为特征向量，计算这两个特征向量之间的欧式距离，进而将计算得到的欧式距离的倒数作为该网络层的比较结果。

本公开实施例中，还可以采用其他方式确定每一网络层的比较结果，对此不做具体限定。

步骤405，根据每一网络层的比较结果，确定时序模型识别图像的总损失值。

步骤406，若基于总损失值确定时序模型收敛，则结束时序模型训练，得到视频处理模型。

一个可选的实施例中，若时序模型识别图像的总损失值小于预设损失阈值，则可确定时序模型收敛，结束时序模型训练，将当前的时序模型作为视频处理模型。

本公开实施例中，基于确定网络层的比较结果的方式不同，预设损失阈值的大小也有所不同，具体的预设损失阈值的大小可根据实际需求进行设定。

一个可选的实施例中，若基于损失值确定时序网络未收敛，例如，时序模型识别图像的总损失值大于等于预设损失阈值，则确定时序网络未收敛，电子设备调整时序网络的参数，返回执行步骤403，按照样本视频数据中图像的时间顺序，将样本视频数据的每一帧图像分别输入待训练的时序模型，得到时序模型的每一网络层输出的每一帧图像的第二识别结果，进而基于每一帧图像的第一识别结果和第二识别结果，确定时序模型识别图像的总损失值，直至基于总损失值确定时序模型收敛。

本公开实施例中，时序模型训练及应用可简化为如图5所示。基于标注有目标对象的识别结果的单帧图像训练得到单帧模型，再基于无标注的视频数据，以单帧模型为监督，训练时序模型，调整时序模型的参数，得到视频处理模型，进而将视频处理模型应用于实际的视频应用。

本公开实施例中，以基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的单帧模型每一网络层的输出结果作为监督，基于样本视频数据对时序模型进行训练，得到视频处理模型。本公开的实施例中，不仅仅考虑最后一个网络层输出的结果进行监督，还使用多个中间网络层输出的识别结果进行知识提取，这大大提高了时序模型的训练成功率。

另外，本公开实施例中，利用视频数据训练时序模型，可充分利用帧间信息，保证实际应用中输出的结果更加平滑，变化更加自然。

结合基于预设单帧模型进行调整得到时序网络，本公开实施例还提供了一种视频处理模型的训练方法。参考图6所示，图6是根据另一示例性实施例示出的一种视频处理模型的训练方法的流程图。

步骤401，获取样本视频数据。

步骤402，将样本视频数据的每一帧图像分别输入预设单帧模型，得到预设单帧模型的每一网络层输出的每一帧图像中目标对象的第一识别结果，预设单帧模型为基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的模型。

步骤403，按照样本视频数据中图像的时间顺序，将每一帧图像分别输入待训练的时序模型，得到时序模型的每一网络层输出的每一帧图像中目标对象的第二识别结果；时序模型为：删除预设单帧模型中预设数量个网络层，并以帧间的时序连接代替预设数量个网络层所得到的模型。

步骤4051，根据每一网络层的比较结果，确定每一网络层识别图像的子损失值。

本公开实施例中，电子设备可以为每一网络层设置一个损失函数。对于每一网络层，将该网络层的比较结果，输入该网络层对应的损失函数中，得到该网络层识别图像的子损失值。进而基于每一网络层识别图像的子损失值，确定时序模型识别图像的总损失值。

步骤4052，根据每一网络层识别图像的子损失值，确定时序模型识别图像的总损失值。

一个可选的实施例中，电子设备可以设置每一网络层的权重。此时，上述根据每一网络层识别图像的子损失值，确定时序模型识别图像的总损失值的步骤，可以为：根据每一网络层的权重，对每一网络层识别图像的子损失值进行加权求和，得到时序模型识别图像的总损失值。

例如，时序模型包括第1网络层、第2网络层和第3网络层，其中，第1网络层的权重为0.1，第2网络层的权重为0.6，第3网络层的权重为0.3，若第1网络层识别图像的子损失值为s1，第2网络层识别图像的子损失值为s2，第3网络层识别图像的子损失值为s3，则时序模型识别图像的总损失值为：0.1*s1+0.6*s2+0.3*s3。

另一个可选的实施例中，电子设备可直接对每一网络层识别图像的子损失值进行求和，得到时序模型识别图像的总损失值。即上述根据每一网络层识别图像的子损失值，确定时序模型识别图像的总损失值的步骤，可以为：计算每一网络层识别图像的子损失值的和值，将计算得到的和值作为时序模型识别图像的总损失值。

例如，时序模型包括第1网络层、第2网络层和第3网络层。若第1网络层识别图像的子损失值为s1，第2网络层识别图像的子损失值为s2，第3网络层识别图像的子损失值为s3，则时序模型识别图像的总损失值为：s1+s2+s3。

本公开实施例中，对总损失值的确定的方式不做具体限定。

步骤406，若基于时序模型识别图像的总损失值确定时序模型收敛，则结束时序模型训练，得到视频处理模型。

本公开实施例中，重复利用原有的预设单帧模型的结果，便于在训练过程中调试时序模型。

下面结合图7，对本公开实施例提供的确定损失函数的方式进行说明。图7中左侧为预设单帧模型，右侧为时序模型，第X层表示第X个网络层。时序模型中的第2个网络层相当于与预设单帧模型中的第3个网络层，也就是，时序模型为删除预设单帧模型中的第2个网络层得到的模型。将样本视频数据中的第i帧图像分别输入预设单帧模型和时序模型中。比较时序模型中的第2个网络层输出的目标对象的识别结果和预设单帧模型中的第3个网络层输出的目标对象的识别结果，进而确定相应的子损失值。根据每一网络层输出的目标对象的识别结果的比较结果，确定总损失值，进而调整每一网络层的参数。如图7中，合成函数用于指示删除预设单帧模型中的第2个网络层，将预设单帧模型中的第3个网络层转换为时序模型中的第2个网络层。

一个可选的实施例中，电子设备可以为时序模型设置一个总损失函数。此时，上述步骤405也可以为，将每一网络层的比较结果均输入总损失函数中，得到时序模型识别图像的总损失值。

基于图1-7所示的视频处理模型的训练方法实施例，本公开实施例提供了一种视频处理方法，参考图8，图8是根据一示例性实施例示出的一种视频处理方法的流程图，该方法包括如下步骤。

步骤801，获取待识别视频数据。

步骤802，按照待识别视频数据中图像的时间顺序，将待识别视频数据的每一帧图像分别输入视频处理模型，得到每一帧图像中目标对象的识别结果。其中，视频处理模型的训练可参考图1-7部分的描述。

本公开实施例中，按照待识别视频数据中图像的时间顺序，将待识别视频数据的每一帧图像分别输入视频处理模型，得到视频处理模型最后一个网络层输出的每一帧图像中目标对象的识别结果。

本公开实施例中，时序模型是通过删除预设单帧模型中预设数量个网络层得到的模型，减少了时序模型的总网络层数，利用网络层数少的时序模型识别处理视频图像，进一步减少了计算量。

另外，视频处理模型可充分考虑视频数据中的帧间冗余信息，利用该视频处理模型获得待识别视频数据的每一帧图像中目标对象的识别结果，可减少重复的计算，降低服务资源成本。

基于图1-7所示的视频处理模型的训练方法实施例，本公开实施例提供了一种视频处理模型的训练装置。参考图9，图9是根据一示例性实施例示出的一种视频处理模型的训练装置框图，该装置包括：

获取单元901，被配置为执行获取样本视频数据；

第一输入单元902，被配置为执行将样本视频数据的每一帧图像分别输入预设单帧模型，得到预设单帧模型的每一网络层输出的每一帧图像中目标对象的第一识别结果，预设单帧模型为基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的模型；

第二输入单元903，被配置为执行按照样本视频数据中图像的时间顺序，将每一帧图像分别输入待训练的时序模型，得到时序模型的每一网络层输出的每一帧图像中目标对象的第二识别结果；时序模型为：删除预设单帧模型中预设数量个网络层，并以帧间的时序连接代替预设数量个网络层所得到的模型；

比较单元904，被配置为执行分别比较每一网络层输出的每一帧图像的第一识别结果和第二识别结果，得到该网络层的比较结果；

第一确定单元905，被配置为执行根据每一网络层的比较结果，确定时序模型识别图像的总损失值；

第二确定单元906，被配置为执行若基于总损失值确定时序模型收敛，则结束训练，得到视频处理模型。

一个可选的实施例中，如图10所示，第一确定单元905可以包括：

第一确定子单元9051，被配置为执行根据每一网络层的比较结果，确定每一网络层识别图像的子损失值；

第二确定子单元9052，被配置为执行根据每一网络层识别图像的子损失值，确定时序模型识别图像的总损失值。

一个可选的实施例中，第二确定子单元，被配置为具体执行根据每一网络层的权重，对每一网络层识别图像的子损失值进行加权求和，得到时序模型识别图像的总损失值。

一个可选的实施例中，第二确定单元906，被配置为具体执行若总损失值小于预设损失阈值，则确定时序模型收敛，结束训练，得到视频处理模型。

一个可选的实施例中，第二确定单元906，被配置为还可以执行：若总损失值大于等于预设损失阈值，则确定时序模型未收敛，调整时序模型的参数，触发第二输入单元903。

本公开的实施例中，以基于标注有目标对象的识别结果的单帧图像对深度神经网络训练得到的单帧模型每一网络层的输出结果作为监督，基于样本视频数据对时序模型进行训练，得到视频处理模型。本公开的实施例中，不仅仅考虑最后一个网络层输出的结果进行监督，还使用多个中间网络层输出的识别结果进行知识提取，这大大提高了时序模型的训练成功率。

基于图8所示的视频处理方法实施例，本公开实施例提供了一种视频处理装置。参考图11，图11是根据一示例性实施例示出的一种视频处理装置框图，该装置包括：

获取单元1101，被配置为执行获取待识别视频数据；

输入单元1102，被配置为执行按照待识别视频数据中图像的时间顺序，将待识别视频数据的每一帧图像分别输入图9-10所示的视频处理模型，得到每一帧图像中目标对象的识别结果。

图12是根据一示例性实施例示出的一种电子设备的框图。该电子设备包括：处理器1201和用于存储处理器1201可执行指令的存储器1202。其中，其中，处理器1201被配置为执行存储器1202中存储的指令，以实现上述视频处理模型的训练方法的任一步骤。

图13是根据另一示例性实施例示出的一种电子设备的框图。该电子设备包括：处理器1301和用于存储处理器1301可执行指令的存储器1302。其中，其中，处理器1301被配置为执行存储器1302中存储的指令，以实现上述视频处理方法的任一步骤。

图14是根据再一示例性实施例示出的一种具备视频处理模型的训练方法的电子设备1400的框图。例如，电子设备1400可以是移动电话、小型计算机、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图14，电子设备1400可以包括以下一个或多个组件：处理组件1405、存储器1401、电源组件1402、多媒体组件1403、音频组件1404、输入/输出(Input/Output，I/O)接口1408、传感器组件1407以及通信组件1406。

处理组件1405通常控制电子设备1400的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1405可以包括一个或多个处理器1410来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1405可以包括一个或多个模块，便于处理组件1405和其他组件之间的交互。例如，处理组件1405可以包括多媒体模块，以方便多媒体组件1403和处理组件1405之间的交互。

存储器1401被配置为存储各种类型的数据以支持在电子设备1400的操作。这些数据的示例包括用于在电子设备1400上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read OnlyMemory，ROM)、磁存储器、快闪存储器、磁盘或光盘等。

电源组件1402为电子设备1400的各种组件提供电力。电源组件1402可以包括电源管理系统，一个或多个电源，及其他与为电子设备1400生成、管理和分配电力相关联的组件。

多媒体组件1403包括在电子设备1400和用户之间提供的一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，LCD)和触摸面板(Touch Panel，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器不仅可以感测触摸或滑动动作的边界，而且还可以检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1403包括一个前置摄像头和/或后置摄像头。当电子设备1400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1404被配置为输出和/或输入音频信号。例如，音频组件1404包括一个麦克风(Microphone，MIC)，当电子设备1400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1401或经由通信组件1406发送。在一些实施例中，音频组件1404还可以包括一个扬声器，用于输出音频信号。

I/O接口1408为处理组件1405和外围接口模块之间提供接口。上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1407包括一个或多个传感器，用于为电子设备1400提供各个方面的状态评估。例如，传感器组件1407可以检测电子设备1400的打开/关闭状态、组件的相对定位，例如所述组件为电子设备1400的显示器和小键盘。传感器组件1407还可以检测电子设备1400或电子设备1400的其中一个组件的位置改变，用户与电子设备1400接触的存在或不存在，电子设备1400方位或加速/减速和电子设备1400的温度变化等。传感器组件1407可以包括接近传感器，接近传感器被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1407还可以包括光传感器，如互补金属氧化物半导体(Complementary MetalOxide Semiconductor，CMOS)传感器或电荷耦合器件(Charge Coupled Device，CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1407还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器等。

通信组件1406被配置为便于电子设备1400和其他设备之间有线或无线方式的通信。电子设备1400可以接入基于通信标准的无线网络，如WiFi、运营商网络(如2G、3G、4G或5G)、或它们的组合。在一个示例性实施例中，通信组件1406经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件1406还可以包括近场通信(Near Field Communication，NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，RFID)技术，红外数据协会(InfraredData Association，IrDA)技术，超宽带(Ultra Wide Band，UWB)技术，蓝牙(Blue Tooth，BT)技术和其他技术来实现。

在示例性实施例中，电子设备1400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital SignalProcessor DSP)、数字信号处理设备(Digital Signal Processor Device，DSPD)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频处理模型的训练方法的任一步骤。

对于电子设备实施例而言，由于其基本相似于视频处理模型的训练方法实施例，所以描述的比较简单，相关之处参见图1-7所示的视频处理模型的训练方法实施例的部分说明即可。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1401，上述指令可由电子设备1400的处理器1410执行以完成上述视频处理模型的训练方法的步骤。具体可参考上述图1-7所示实施例。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory，RAM)、只读光盘(CompactDisc ROM，CD-ROM)、磁带、软盘和光数据存储设备等。

对于非临时性计算机可读存储介质实施例而言，由于其基本相似于视频处理模型的训练方法实施例，所以描述的比较简单，相关之处参见图1-7所示的视频处理模型的训练方法实施例的部分说明即可。

在示例性实施例中，本公开实施例还提供了一种计算机程序产品，计算机程序产品包括程序指令，当程序指令被电子设备执行时，使电子设备执行上述视频处理模型的训练方法的步骤。

对于计算机程序产品实施例而言，由于其基本相似于视频处理模型的训练方法实施例，所以描述的比较简单，相关之处参见图1-7所示的视频处理模型的训练方法实施例的部分说明即可。

图15是根据又一示例性实施例示出的一种具备视频处理方法的电子设备1500的框图。例如，电子设备1500可以是移动电话、小型计算机、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图15，电子设备1500可以包括以下一个或多个组件：处理组件1505、存储器1501、电源组件1502、多媒体组件1503、音频组件1504、输入/输出(Input/Output，I/O)接口1508、传感器组件1507以及通信组件1506。

处理组件1505通常控制电子设备1500的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1505可以包括一个或多个处理器1510来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1505可以包括一个或多个模块，便于处理组件1505和其他组件之间的交互。例如，处理组件1505可以包括多媒体模块，以方便多媒体组件1503和处理组件1505之间的交互。

存储器1501被配置为存储各种类型的数据以支持在电子设备1500的操作。这些数据的示例包括用于在电子设备1500上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read OnlyMemory，ROM)、磁存储器、快闪存储器、磁盘或光盘等。

电源组件1502为电子设备1500的各种组件提供电力。电源组件1502可以包括电源管理系统，一个或多个电源，及其他与为电子设备1500生成、管理和分配电力相关联的组件。

多媒体组件1503包括在电子设备1500和用户之间提供的一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，LCD)和触摸面板(Touch Panel，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器不仅可以感测触摸或滑动动作的边界，而且还可以检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1503包括一个前置摄像头和/或后置摄像头。当电子设备1500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1504被配置为输出和/或输入音频信号。例如，音频组件1504包括一个麦克风(Microphone，MIC)，当电子设备1500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1501或经由通信组件1506发送。在一些实施例中，音频组件1504还可以包括一个扬声器，用于输出音频信号。

I/O接口1508为处理组件1505和外围接口模块之间提供接口。上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1507包括一个或多个传感器，用于为电子设备1500提供各个方面的状态评估。例如，传感器组件1507可以检测电子设备1500的打开/关闭状态、组件的相对定位，例如所述组件为电子设备1500的显示器和小键盘。传感器组件1507还可以检测电子设备1500或电子设备1500的其中一个组件的位置改变，用户与电子设备1500接触的存在或不存在，电子设备1500方位或加速/减速和电子设备1500的温度变化等。传感器组件1507可以包括接近传感器，接近传感器被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1507还可以包括光传感器，如互补金属氧化物半导体(Complementary MetalOxide Semiconductor，CMOS)传感器或电荷耦合器件(Charge Coupled Device，CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1507还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器等。

通信组件1506被配置为便于电子设备1500和其他设备之间有线或无线方式的通信。电子设备1500可以接入基于通信标准的无线网络，如WiFi、运营商网络(如2G、3G、4G或5G)、或它们的组合。在一个示例性实施例中，通信组件1506经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件1506还可以包括近场通信(Near Field Communication，NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，RFID)技术，红外数据协会(InfraredData Association，IrDA)技术，超宽带(Ultra Wide Band，UWB)技术，蓝牙(Blue Tooth，BT)技术和其他技术来实现。

在示例性实施例中，电子设备1500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital SignalProcessor DSP)、数字信号处理设备(Digital Signal Processor Device，DSPD)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频处理方法的任一步骤。

对于电子设备实施例而言，由于其基本相似于视频处理方法实施例，所以描述的比较简单，相关之处参见图8所示的视频处理方法实施例的部分说明即可。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1501，上述指令可由电子设备1500的处理器1510执行以完成上述视频处理方法的步骤。具体可参考上述图8所示实施例。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc ROM，CD-ROM)、磁带、软盘和光数据存储设备等。

对于非临时性计算机可读存储介质实施例而言，由于其基本相似于视频处理方法实施例，所以描述的比较简单，相关之处参见图8所示的视频处理方法实施例的部分说明即可。

在示例性实施例中，本公开实施例还提供了一种计算机程序产品，计算机程序产品包括程序指令，当程序指令被电子设备执行时，使电子设备执行上述视频处理方法的步骤。

对于计算机程序产品实施例而言，由于其基本相似于视频处理方法实施例，所以描述的比较简单，相关之处参见图8所示的视频处理方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于视频处理模型的训练装置、视频处理方法、视频处理装置、电子设备、存储介质、计算机程序产品实施例而言，由于其基本相似于视频处理模型的训练方法实施例，所以描述的比较简单，相关之处参见视频处理模型的训练方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频处理模型的训练方法，其特征在于，所述方法包括：

获取样本视频数据；

分别比较每一网络层输出的所述每一帧图像的第一识别结果和第二识别结果，得到每一网络层的比较结果；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每一网络层的比较结果，确定所述时序模型识别图像的总损失值的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每一网络层识别图像的子损失值，确定所述时序模型识别图像的总损失值的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述若基于所述总损失值确定所述时序模型收敛，则结束训练，得到所述视频处理模型的步骤，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

若基于所述总损失值确定所述时序模型未收敛，则调整所述时序模型的参数，返回执行所述按照所述样本视频数据中图像的时间顺序，将所述每一帧图像分别输入待训练的时序模型，得到所述时序模型的每一网络层输出的所述每一帧图像中所述目标对象的第二识别结果的步骤。

6.一种视频处理方法，其特征在于，所述方法包括：

获取待识别视频数据；

按照所述待识别视频数据中图像的时间顺序，将所述待识别视频数据的每一帧图像分别输入如权利要求1-5任一项所述的方法得到的视频处理模型，得到所述每一帧图像中目标对象的识别结果。

7.一种视频处理模型的训练装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取样本视频数据；

比较单元，被配置为执行分别比较每一网络层输出的所述每一帧图像的第一识别结果和第二识别结果，得到该网络层的比较结果；

8.一种视频处理装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取待识别视频数据；

输入单元，被配置为执行按照所述待识别视频数据中图像的时间顺序，将所述待识别视频数据的每一帧图像分别输入如权利要求7所述的视频处理模型，得到所述每一帧图像中目标对象的识别结果。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的视频处理模型的训练方法，或实现如权利要求6所述的视频处理方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的视频处理模型的训练方法，或使得所述电子设备能够执行如权利要求6所述的视频处理方法。