CN116206131B

CN116206131B - 图像处理方法、深度学习模型的训练方法及装置

Info

Publication number: CN116206131B
Application number: CN202310271054.0A
Authority: CN
Inventors: 黄军; 杜宇宁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-09-19
Anticipated expiration: 2043-03-16
Also published as: CN116206131A

Abstract

本公开提供了一种图像处理方法、深度学习模型的训练方法，涉及计算机技术领域、数据处理技术领域，尤其涉及人工智能、深度学习技术领域。具体实现方案为：针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对待处理图像进行处理，得到第一图像特征，第一图像特征具有时序维度，目标深度学习模型还包括至少一个第二网络；利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征；根据全局注意力概率，确定至少一个目标时序；利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征；根据第二图像特征，确定待处理图像的图像处理结果。

Description

图像处理方法、深度学习模型的训练方法及装置

技术领域

本公开涉及计算机技术领域、数据处理技术领域，尤其涉及人工智能、深度学习技术领域，具体涉及一种图像处理方法、深度学习模型的训练方法、装置、设备、存储介质以及程序产品。

背景技术

随着计算机技术的发展，图像处理成为计算机技术领域的一个重要应用分支。图像处理可以服务于生产、生活的各个方面，例如图像处理可以用于识别视频数据显示的对象作出的行为动作的类别。

发明内容

本公开提供了一种图像处理方法、深度学习模型的训练方法、装置、设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种图像处理方法，包括：针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对待处理图像进行处理，得到第一图像特征，其中，第一图像特征具有时序维度，目标深度学习模型还包括至少一个第二网络；利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征，其中，时序注意力特征表征时序维度的全局注意力概率；根据全局注意力概率，确定至少一个目标时序；利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征；以及根据第二图像特征，确定待处理图像的图像处理结果。

根据本公开的另一方面，提供了一种深度学习模型的训练方法，包括：针对训练图像序列的任意一个训练图像，利用深度学习模型的至少一个第一网络对训练图像进行处理，得到第一图像特征，其中，第一图像特征具有时序维度，深度学习模型还包括至少一个第二网络；利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征，其中，时序注意力特征表征时序维度的全局注意力概率；根据全局注意力概率，确定至少一个目标时序；利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征；根据第二图像特征，确定训练图像的输出结果；根据输出结果和损失函数，确定反馈数值；以及根据反馈数值调整深度学习模型的模型参数，得到目标深度学习模型。

根据本公开的另一方面，提供了一种图像处理装置，包括：第一图像特征第一确定模块，用于针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对待处理图像进行处理，得到第一图像特征，其中，第一图像特征具有时序维度，目标深度学习模型还包括至少一个第二网络；时序注意力特征第一确定模块，用于利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征，其中，时序注意力特征表征时序维度的全局注意力概率；目标时序第一确定模块，用于根据全局注意力概率，确定至少一个目标时序；第二图像特征第一确定模块，用于利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征；以及图像处理结果确定模块，用于根据第二图像特征，确定待处理图像的图像处理结果。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：第一图像特征第二确定模块，用于针对训练图像序列的任意一个训练图像，利用深度学习模型的至少一个第一网络对训练图像进行处理，得到第一图像特征，其中，第一图像特征具有时序维度，深度学习模型还包括至少一个第二网络；时序注意力特征第二确定模块，用于利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征，其中，时序注意力特征表征时序维度的全局注意力概率；目标时序第二确定模块，用于根据全局注意力概率，确定至少一个目标时序；第二图像特征第二确定模块，用于利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征；输出结果确定模块，用于根据第二图像特征，确定训练图像的输出结果；反馈数值确定模块，用于根据输出结果和损失函数，确定反馈数值；以及目标深度学习模型确定模块，用于根据反馈数值调整深度学习模型的模型参数，得到目标深度学习模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序存储于可读存储介质和电子设备其中至少之一上，计算机程序存储于可读存储介质和电子设备其中至少之一上，计算机程序在被处理器执行时实现本公开实施例的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的图像处理方法、深度学习模型的训练方法和装置的系统架构图；

图2示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图；

图3示意性示出了根据本公开另一实施例的深度学习模型的训练方法的示意图；

图4示意性示出了根据PP-LCNetV2的示意图；

图5示意性示出了根据本公开又一实施例的深度学习模型的训练方法的第二网络的示意图；

图6示意性示出了根据本公开实施例的图像处理方法的流程图；

图7示意性示出了根据本公开实施例的图像处理装置的框图；

图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图；以及

图9示意性示出了可以实现本公开实施例的图像处理方法、深度学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

以下将以识别行为动作的类别为例进行说明，识别行为动作的类别例如可以应用于体育领域的体育动作分析、还可以用于工业生产领域的工作人员的动作合规检测等。

一些实施方式可以基于骨骼点进行行为动作类别的识别，一些实施方式可以基于RGB(RGB的R、G、B分别指Red、Green、Blue，即红绿蓝三原色)图像进行行为动作的识别。

由于基于RGB图像进行行为动作的识别可以综合利用时空信息，通用性更佳，以下将以基于RGB图像进行行为动作的识别为例进行说明。

以下示出了一些实施方式的基于RGB图像识别行为动作的类别的具体示例：

(1)一些实施方式通过双流深度学习模型(双流即Two-Stream)识别行为动作的类别，双流深度学习模型具有两个网络分支，其中一个网络分支输入RGB单帧图像，另一个网络分支输入光流，被输入RGB单帧图像的网络分支关注表观信息，被输入光流的网络分支关注时序信息。双流深度学习模型适用于背景杂乱静止，只有人物对象在运动的情况，但是光流计算量大，占用存储空间，难以落地应用。

(2)一些实施方式通过多流深度学习模型(多流即Multi-Stream)识别行为动作的类别，多流深度学习模型包括例如用于输入RGB单帧图像、光流、位姿、深度、音频等多种模态信息。多种模态的信息互相融合，提升识别精度，但是模型的体量较大，难以落地应用。

(3)一些实施方式通过循环神经网络(Recurrent Neural Network)识别行为动作的类别，例如可以将单帧图像经过卷积神经网络(ConvolutionalNeural Network，简称为CNN)提取特征，然后把特征序列输入到RNN中提取时序信息。

(4)一些实施方式通过三维卷积神经网络识别行为动作的类别，通过卷积神经网络可以获得空间二维特征和时间维度特征。

(5)一些实施方式通过例如VideoSwin等Transformer模型识别行为动作的类别，但是模型运算量大、占用空间大。

图1示意性示出了根据本公开一实施例的图像处理方法、深度学习模型的训练方法及装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，本公开实施例中系统架构100可以包括：

用于获取训练图像的终端101、用于训练深度学习模型的终端102和用于图像处理的终端103。

本公开实施例中，终端101可以用于获取训练集，训练集可以包括训练图像。终端102可以根据终端101获得的训练集执行对应的深度学习模型的训练方法，训练得到目标深度学习模型。终端103可以基于终端102获得的目标深度学习模型对待处理图像进行图像处理，例如可以确定待处理图像的行为动作的类别。

需要说明的是，获取训练图像和模型训练可以在同一终端上实现，也可在不同终端实现。

终端101、终端102和终端103可以是服务器，还可以是服务器集群。

应该理解，图1中终端101、终端102和终端103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端101、终端102和终端103。

应注意，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

本公开实施例提供了一种深度学习模型的训练方法，下面结合图1的系统架构，参考图2～图5来描述根据本公开示例性实施方式的深度学习模型的训练方法。本公开实施例的深度学习模型的训练方法例如可以由图1所示的终端102来执行。

图2示意性示出了根据本公开一实施例的深度学习模型的训练方法的流程图。

如图2所示，本公开实施例的深度学习模型的训练方法200例如可以包括操作S210～操作S270。

在操作S210，针对训练图像序列的任意一个训练图像，利用深度学习模型的至少一个第一网络对训练图像进行处理，得到第一图像特征。

第一图像特征具有时序维度，深度学习模型还包括至少一个第二网络。

训练图像序列可以理解为包括多个训练图像的集合，该集合中的多个训练图像具有时序关联关系。

第一网络可以用于特征提取，第一网络例如可以包括卷积神经网络。

以下将以第一图像特征为H*W*C*T的4维特征为例进行说明，H高度维度，W表征宽度维度，T(Temporal即T)表征时序维度，C(Channel即C)表征通道维度，H*T还可以表征图像分辨率。在第一图像特征为H*W*C*T的4维特征为例，针对训练图像序列，对应的特征为H*W*C*T*N的5维特征，N表征训练图像序列包括的训练图像的数量。

在操作S220，利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征。

时序注意力子网络可以理解为用于对第一图像特征的时序维度进行注意力机制处理的网络。

时序注意力特征表征时序维度的全局注意力概率。全局注意力概率可以理解为以概率数值表征时序维度的全局的注意力分布。

在操作S230，根据全局注意力概率，确定至少一个目标时序。

全局注意力概率可以表征时序维度的全局的注意力分布，因此，可以根据全局注意力概率，确定时序维度的与输出结果更相关的时序，例如可以通过全局注意力概率，将具有更高的概率数值的时序确定为目标时序。

在操作S240，利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征。

时序位移子网络可以用于对对应目标时序的第一图像特征进行时序位移操作。

以对对应目标时序的第一图像特征进行时序位移操作为例进行说明，例如可以基于第一图像特征，移动对应目标时序的第一图像特征的至少一部分通道，得到第二图像特征。

在操作S250，根据第二图像特征，确定训练图像的输出结果。

在操作S260，根据输出结果和损失函数，确定反馈数值。

损失函数可以用于评估任意一个训练图像在当前训练阶段的深度学习模型的输出结果与真值之间的差异程度。

在操作S270，根据反馈数值调整深度学习模型的模型参数，得到目标深度学习模型。

示例性地，深度学习模型的模型参数例如可以包括深度学习模型的网络层的权重和偏置量。

示例性地，目标深度学习模型例如可以是经过预定数量的训练图像训练得到的。目标深度学习模型例如还可以是损失函数收敛的情况下对应的具有相应模型参数的深度学习模型。

根据本公开实施例的深度学习模型的训练方法，通过至少一个第一网络对训练图像进行处理，得到第一图像特征以及利用第二网络的时序注意力子网络对第一图像特征进行处理，得到的时序注意力特征可以表征时序维度的全局注意力概率，根据全局注意力概率可以对确定目标时序的过程进行准确指导，还通过利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，可以精准地进行时序位移，相比于例如对每个时序对应的第一图像特征进行时序位移操作，计算量更小，处理速度更快，计算机存储空间占用更小。通过根据第二图像特征，确定训练图像的输出结果可以将时序维度作为确定输出结果的参考因素，得到准确的输出结果，适应于例如动作行为识别的与时序相关的应用场景。通过输出结果和损失函数，确定的反馈数值可以反馈至调整深度学习模型的模型参数过程中，实现后向传播，得到的目标深度学习模型具有更优的性能。

图3示意性示出了根据本公开另一实施例的深度学习模型的训练方法300的示意图。

示例性地，根据本公开另一实施例的深度学习模型的训练方法，训练图像例如可以是对候选训练图像序列中的多个候选训练图像基于像素值进行加权运算得到的。

在图3的示例中，示意性示出了针对训练图像S-i，训练图像S-i例如可以是对候选训练图像序列310中的多个候选训练图像基于像素值进行加权运算得到的。如图3所示，候选训练图像序列310包括候选图像C-1至候选图像C-y的共计y个候选训练图像。训练图像序列301包括训练图像S-1至训练图像S-x的共计x个训练图像，x和y均为大于等于1的整数。

图3的示例中，以针对训练图像S-i为例进行说明，训练图像S-i例如可以是对候选训练图像序列310的y个候选训练图像基于像素值进行加权运算得到的。例如，y个候选训练图像的分辨率与训练图像S-i的分辨率可以是相同的，针对y个候选训练图像的任意一个像素点，可以按照权重比例将y个候选训练图像的同一像素点的像素值进行加权和，得到训练图像S-1的对应像素点的像素值。示例性地，权重比例例如可以是预先经过实验得到的。

图3还示意性示出了深度学习模型包括一个第一网络N1和一个第二网络，第二网络包括时序注意力子网络N2-1和时序位移子网络N2-2的具体示例。

需要说明的是，深度学习模型还可以包括至少一个组合网络，任意一个组合网络可以包括至少一个第一网络和一个第二网络。图3即示出了深度学习模型包括一个组合网络的具体示例。示例性地，针对任意一个组合网络，第二网络可以位于第一网络下游，即经过第一网络处理的数据输入第二网络进行处理。

示例性地，深度学习模型还可以包括至少一个第一网络和至少一个组合网络。

以上只是具体举例了一些第一网络、第二网络的数量以及第一网络与第二网络的组合方式，例如可以通过实验确定第一网络、第二网络的数量以及第一网络与第二网络的组合方式。

图3还示意性示出了操作S310的针对训练图像序列310的训练图像S-i，利用深度学习模型的至少一个第一网络N1对训练图像S-i进行处理，得到第一图像特征302的具体示例。还示意性示出了操作S320的利用第二网络的时序注意力子网络N2-1对第一图像特征302进行处理，得到时序注意力特征303的具体示例。还示意性示出了操作S330的根据全局注意力概率，确定至少一个目标时序304的具体示例。还示意性示出了操作S340的利用第二网络的时序位移子网络N2-2对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征305。还示意性示出了操作S350的根据第二图像特征305，确定训练图像的输出结果306的具体示例(例如可以利用分类器N3对第二图像特征305进行分类，确定训练图像的输出结果306，深度学习模型例如还可以包括分类器N3)。还示意性示出了操作S360的根据输出结果306和损失函数307，确定反馈数值308的具体示例。还示意性示出了根据反馈数值308调整深度学习模型的模型参数，得到目标深度学习模型309的具体示例。

示例性地，根据本公开又一实施例的深度学习模型的训练方法，与多个视频片段的序列对应的候选训练图像序列例如是从多个视频片段中抽取视频帧得到的，多个视频片段是对候选视频进行视频分段得到的。

示例性地，例如可以对候选视频基于预设的分割数量进行分段，得到预设数量的视频片段。例如可以对每一个视频片段进行抽取关键帧或者随机抽取视频帧，得到候选训练图像序列。

根据本公开实施例的深度学习模型的训练方法，通过从多个视频片段中抽取视频帧得到候选训练图像序列，可以综合多个视频分段的信息，同时可以控制候选训练图像的数量。根据候选训练图像序列确定训练图像，利用深度学习模型对训练图像进行处理时准确性更高、运算更快，具有更高的效率。准确性更高体现在候选训练图像序列综合了多个视频分段的信息，运算更快体现在相比于对某一个视频中的每一帧图像进行处理，选取其中的一部分图像进行处理，可以减少输入图像的数量，运算量更少，运算速度也更快。

示例性地，根据本公开又一实施例的深度学习模型的训练方法，深度学习模型例如可以是经过预训练得到的预训练深度学习模型。

示例性地，根据本公开又一实施例的深度学习模型的训练方法，预训练深度学习模型例如可以是对初始深度学习模型进行模型蒸馏操作得到的。

示例性地，初始深度学习模型例如可以包括PP-LCNet、PP-LCNetV2、MobileNet、MobileNetV2以及MobileNetV3中的至少一个。PP-LCNet、PP-LCNetV2、MobileNet、MobileNetV2以及MobileNetV3均为轻量级的深度学习模型，例如可以应用于移动端或者处理器端(处理器端即CPU端)。

根据本公开实施例的深度学习模型的训练方法，通过将经过预训练得到的预训练深度学习模型作为深度学习模块，可以降低深度学习模型的训练难度，并且可以直接使用业务数据样本对深度学习模型进行训练，训练得到的目标深度学习模型可以在涉及具体业务的任务性能更佳。

根据本公开实施例的深度学习模型的训练方法，通过对初始深度学习模型进行模型蒸馏操作得到预训练深度学习模型，可以得到模型参数更少且模型性能较优的预训练深度学习模型，将预训练深度学习模型作为深度学习模型训练得到的目标深度学习模型更加轻量级且模型性能更优，可以广泛应用。

示例性地，如图4所示，以深度学习模型为PP-LCNetV2为例，图4示意性示出了PP-LCNetV2的具体示例，PP-LCNetV2包括多个卷积网络层(Conv3*3、Conv1*1)、多个深度可分离卷积层(Depthwise SeparableConvolution)、全局平均池化层(GAP)、全连接层(FC)。

如图4所示，例如可以将PP-LCNetV2中的一些网络层划分为四个阶段，例如stage1至stage4，根据本公开实施例的第二网络例如可以设置在每一个阶段之后。示例性地，经过实验例如基于PP-LCnetV2中设置一个第二网络，并将该第二网络设置在stage3与stage4之间，第二网络之前的网络层可以理解为一种第一网络的示例。由此，可以使得第二网络的数量更少，相应地，增加的计算量也更少，基于PP-LCNetV2这一轻量级模型得到的目标深度学习模型也更加轻量级，可以适用于移动端或者处理器端，便于广泛应用。

图5示意性示出了根据本公开又一实施例的深度学习模型的训练方法的第二网络的示意图。

在图5的示例中，针对任意一个训练图像，经过第一网络得到的第一图像特征为H*W*C*T。第二网络的时序注意力子网络包括全局池化层、全连接层FC以及sigmoid网络层，全局池化层可以沿时序维度进行求均值(Mean)，由此，经过sigmoid网络层得到的向量可以与第一图像特征确定表征全局注意力概率的时序注意力特征。图5的示例中，还示意性示出了第二网络的时序位移子网络TSM。

例如，以时序维度T为t-9至t以及t至t+9的19个时刻为例进行说明，例如由第二网络的时序注意力子网络确定t为数值最大的注意力概率对应的目标时序，则通过时序位移子网络TSM例如可以针对该目标时序，将目标时序、与目标时序相邻的相邻时序两者的一部分通道进行移动，以使得目标时序的通道维度可以融合相邻时序的通道信息。

示例性地，根据本公开另一实施例的深度学习模型的训练方法，例如可以利用以下实施例实现根据第二图像特征，确定训练图像的输出结果的具体示例：对第二图像特征进行分类处理，得到训练图像的输出结果。

示例性地，深度学习模型还可以包括用于分类的第三网络，第三网络例如可以包括二分类分类器、多分类分类器等。

示例性地，根据本公开另一实施例的深度学习模型的训练方法，例如可以利用以下实施例实现根据第二图像特征，确定训练图像的输出结果的具体示例：根据至少一个第一网络对第二图像特征进行处理，得到第三图像特征；对第三图像特征进行分类处理，得到训练图像的输出结果。

本公开实施例提供了一种图像处理方法，下面结合图1的系统架构，参考图6来描述根据本公开示例性实施方式的图像处理方法。本公开实施例的图像处理方法例如可以由图1所示的终端103来执行。

图6示意性示出了根据本公开一实施例的图像处理方法的流程图。

如图6所示，本公开实施例的图像处理方法600例如可以包括操作S610～操作S660。

在操作S610，针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对待处理图像进行处理，得到第一图像特征。

第一图像特征具有时序维度，目标深度学习模型还包括至少一个第二网络。

在操作S620，利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征.

时序注意力特征表征时序维度的全局注意力概率。

在操作S630，根据全局注意力概率，确定至少一个目标时序。

在操作S640，利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征。

在操作S650，根据第二图像特征，确定待处理图像的图像处理结果。

需要说明的是，本公开实施例的图像处理方法可以将待处理图像序列中的任意一个待处理图像输入目标深度学习模型，得到待处理图像的图像处理结果。目标深度学习模型是根据上述实施例的深度学习模型的训练方法训练得到的，有关于基于深度学习模型训练得到目标深度学习模型的过程已在上述实施例详细说明，在此不再赘述。根据本公开实施例的图像处理方法得到的图像处理结果更加准确，并且图像处理速度更快，相关说明与上述实施例类似，在此也不再赘述。

可以理解的是，目标深度学习模型具有与深度学习模型一致的模型结构，目标深度学习模型具有确定的模型参数。

示例性地，根据本公开另一实施例的图像处理方法，例如可以利用以下实施例实现根据第二图像特征，确定待处理图像的图像处理结果的具体示例：对第二图像特征进行分类处理，得到待处理图像的图像处理结果。

示例性地，根据本公开又一实施例的图像处理方法，例如可以利用以下实施例实现根据第二图像特征，确定待处理图像的图像处理结果的具体示例：根据至少一个第一网络对第二图像特征进行处理，得到第三图像特征；以及对第三图像特征进行分类处理，得到待处理图像的图像处理结果。

示例性地，根据本公开又一实施例的图像处理方法，与多个待处理视频片段的序列对应的待处理图像序列是从多个待处理视频片段中抽取视频帧得到的，多个待处理视频片段是对待处理视频进行视频分段得到的。

图7示意性示出了根据本公开一实施例的图像处理装置的框图。

如图7所示，本公开实施例的图像处理装置700例如包括第一图像特征第一确定模块710、时序注意力特征第一确定模块720、目标时序第一确定模块730、第二图像特征第一确定模块740以及图像处理结果确定模块750。

第一图像特征第一确定模块710，用于针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对待处理图像进行处理，得到第一图像特征，其中，第一图像特征具有时序维度，目标深度学习模型还包括至少一个第二网络。

时序注意力特征第一确定模块720，用于利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征，其中，时序注意力特征表征时序维度的全局注意力概率。

目标时序第一确定模块730，用于根据全局注意力概率，确定至少一个目标时序。

第二图像特征第一确定模块740，用于利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征。

图像处理结果确定模块750，用于根据第二图像特征，确定待处理图像的图像处理结果。

示例性地，图像处理结果确定模块包括：图像处理结果第一确定子模块，用于对第二图像特征进行分类处理，得到待处理图像的图像处理结果。

示例性地，图像处理结果确定模块包括：第三图像特征第一确定子模块，用于根据至少一个第一网络对第二图像特征进行处理，得到第三图像特征；图像处理结果第二确定子模块，用于对第三图像特征进行分类处理，得到待处理图像的图像处理结果。

示例性地，与多个待处理视频片段的序列对应的待处理图像序列是从多个待处理视频片段中抽取视频帧得到的，多个待处理视频片段是对待处理视频进行视频分段得到的。

图8示意性示出了根据本公开一实施例的深度学习模型的训练装置的框图。

如图8所示，本公开实施例的深度学习模型的训练装置800例如包括第一图像特征第二确定模块810、时序注意力特征第二确定模块820、目标时序第二确定模块830、第二图像特征第二确定模块840、输出结果确定模块850、反馈数值确定模块860以及目标深度学习模型确定模块870。

第一图像特征第二确定模块810，用于针对训练图像序列的任意一个训练图像，利用深度学习模型的至少一个第一网络对训练图像进行处理，得到第一图像特征，其中，第一图像特征具有时序维度，深度学习模型还包括至少一个第二网络。

时序注意力特征第二确定模块820，用于利用第二网络的时序注意力子网络对第一图像特征进行处理，得到时序注意力特征，其中，时序注意力特征表征时序维度的全局注意力概率。

目标时序第二确定模块830，用于根据全局注意力概率，确定至少一个目标时序。

第二图像特征第二确定模块840，用于利用第二网络的时序位移子网络对对应目标时序的第一图像特征进行时序位移操作，得到第二图像特征。

输出结果确定模块850，用于根据第二图像特征，确定训练图像的输出结果。

反馈数值确定模块860，用于根据输出结果和损失函数，确定反馈数值。

目标深度学习模型确定模块870，用于根据反馈数值调整深度学习模型的模型参数，得到目标深度学习模型。

示例性地，输出结果确定模块包括：输出结果第一确定子模块，用于对第二图像特征进行分类处理，得到训练图像的输出结果。

示例性地，输出结果确定模块包括：第三图像特征第二确定子模块，用于根据至少一个第一网络对第二图像特征进行处理，得到第三图像特征；输出结果第二确定子模块，用于对第三图像特征进行分类处理，得到训练图像的输出结果。

示例性地，训练图像是对候选训练图像序列中的多个候选训练图像基于像素值进行加权运算得到的。

示例性地，与多个视频片段的序列对应的候选训练图像序列是从多个视频片段中抽取视频帧得到的，多个视频片段是对候选视频进行视频分段得到的。

示例性地，深度学习模型是经过预训练得到的预训练深度学习模型。

示例性地，预训练深度学习模型是对初始深度学习模型进行模型蒸馏操作得到的。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像处理方法、深度学习模型的训练方法。例如，在一些实施例中，图像处理方法、深度学习模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像处理方法、深度学习模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法、深度学习模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对所述待处理图像进行处理，得到第一图像特征，其中，所述第一图像特征具有时序维度，所述目标深度学习模型还包括至少一个第二网络；

利用所述第二网络的时序注意力子网络对所述第一图像特征进行处理，得到时序注意力特征，其中，所述时序注意力特征表征所述时序维度的全局注意力概率；

根据所述全局注意力概率，确定至少一个目标时序，其中，将全局注意力概率具有更高概率数值的时序确定为目标时序；

利用所述第二网络的时序位移子网络对对应所述目标时序的所述第一图像特征进行时序位移操作，得到第二图像特征；以及

根据所述第二图像特征，确定所述待处理图像的图像处理结果。

2.根据权利要求1所述的方法，其中，所述根据所述第二图像特征，确定所述待处理图像的图像处理结果包括：

对所述第二图像特征进行分类处理，得到所述待处理图像的图像处理结果。

3.根据权利要求1所述的方法，其中，所述根据所述第二图像特征，确定所述待处理图像的图像处理结果包括：

根据至少一个所述第一网络对所述第二图像特征进行处理，得到第三图像特征；

对所述第三图像特征进行分类处理，得到所述待处理图像的图像处理结果。

4.根据权利要求1-3中任一项所述的方法，其中，与多个待处理视频片段的序列对应的所述待处理图像序列是从所述多个待处理视频片段中抽取视频帧得到的，所述多个待处理视频片段是对待处理视频进行视频分段得到的。

5.一种深度学习模型的训练方法，包括：

针对训练图像序列的任意一个训练图像，利用深度学习模型的至少一个第一网络对所述训练图像进行处理，得到第一图像特征，其中，所述第一图像特征具有时序维度，所述深度学习模型还包括至少一个第二网络；

利用所述第二网络的时序位移子网络对对应所述目标时序的所述第一图像特征进行时序位移操作，得到第二图像特征；

根据所述第二图像特征，确定所述训练图像的输出结果；

根据所述输出结果和损失函数，确定反馈数值；以及

根据所述反馈数值调整所述深度学习模型的模型参数，得到目标深度学习模型。

6.根据权利要求5所述的方法，其中，所述根据所述第二图像特征，确定所述训练图像的输出结果包括：

对所述第二图像特征进行分类处理，得到所述训练图像的输出结果。

7.根据权利要求5所述的方法，其中，所述根据所述第二图像特征，确定所述训练图像的输出结果包括：

对所述第三图像特征进行分类处理，得到所述训练图像的输出结果。

8.根据权利要求5-7中任一项所述的方法，其中，所述训练图像是对候选训练图像序列中的多个候选训练图像基于像素值进行加权运算得到的。

9.根据权利要求8所述的方法，其中，与多个视频片段的序列对应的所述候选训练图像序列是从多个视频片段中抽取视频帧得到的，所述多个视频片段是对候选视频进行视频分段得到的。

10.根据权利要求5-7中任一项所述的方法，其中，所述深度学习模型是经过预训练得到的预训练深度学习模型。

11.根据权利要求10所述的方法，其中，所述预训练深度学习模型是对初始深度学习模型进行模型蒸馏操作得到的。

12.一种图像处理装置，包括：

第一图像特征第一确定模块，用于针对待处理图像序列中的任意一个待处理图像，利用目标深度学习模型的至少一个第一网络对所述待处理图像进行处理，得到第一图像特征，其中，所述第一图像特征具有时序维度，所述目标深度学习模型还包括至少一个第二网络；

时序注意力特征第一确定模块，用于利用所述第二网络的时序注意力子网络对所述第一图像特征进行处理，得到时序注意力特征，其中，所述时序注意力特征表征所述时序维度的全局注意力概率；

目标时序第一确定模块，用于根据所述全局注意力概率，确定至少一个目标时序，其中，将全局注意力概率具有更高概率数值的时序确定为目标时序；

第二图像特征第一确定模块，用于利用所述第二网络的时序位移子网络对对应所述目标时序的所述第一图像特征进行时序位移操作，得到第二图像特征；以及

图像处理结果确定模块，用于根据所述第二图像特征，确定所述待处理图像的图像处理结果。

13.根据权利要求12所述的装置，其中，所述图像处理结果确定模块包括：

图像处理结果第一确定子模块，用于对所述第二图像特征进行分类处理，得到所述待处理图像的图像处理结果。

14.根据权利要求12所述的装置，其中，所述图像处理结果确定模块包括：

第三图像特征第一确定子模块，用于根据至少一个所述第一网络对所述第二图像特征进行处理，得到第三图像特征；

图像处理结果第二确定子模块，用于对所述第三图像特征进行分类处理，得到所述待处理图像的图像处理结果。

15.根据权利要求12-14中任一项所述的装置，其中，与多个待处理视频片段的序列对应的所述待处理图像序列是从所述多个待处理视频片段中抽取视频帧得到的，所述多个待处理视频片段是对待处理视频进行视频分段得到的。

16.一种深度学习模型的训练装置，包括：

第一图像特征第二确定模块，用于针对训练图像序列的任意一个训练图像，利用深度学习模型的至少一个第一网络对所述训练图像进行处理，得到第一图像特征，其中，所述第一图像特征具有时序维度，所述深度学习模型还包括至少一个第二网络；

时序注意力特征第二确定模块，用于利用所述第二网络的时序注意力子网络对所述第一图像特征进行处理，得到时序注意力特征，其中，所述时序注意力特征表征所述时序维度的全局注意力概率；

目标时序第二确定模块，用于根据所述全局注意力概率，确定至少一个目标时序，其中，将全局注意力概率具有更高概率数值的时序确定为目标时序；

第二图像特征第二确定模块，用于利用所述第二网络的时序位移子网络对对应所述目标时序的所述第一图像特征进行时序位移操作，得到第二图像特征；

输出结果确定模块，用于根据所述第二图像特征，确定所述训练图像的输出结果；

反馈数值确定模块，用于根据所述输出结果和损失函数，确定反馈数值；以及

目标深度学习模型确定模块，用于根据所述反馈数值调整所述深度学习模型的模型参数，得到目标深度学习模型。

17.根据权利要求16所述的装置，其中，所述输出结果确定模块包括：

输出结果第一确定子模块，用于对所述第二图像特征进行分类处理，得到所述训练图像的输出结果。

18.根据权利要求16所述的装置，其中，所述输出结果确定模块包括：

第三图像特征第二确定子模块，用于根据至少一个所述第一网络对所述第二图像特征进行处理，得到第三图像特征；

输出结果第二确定子模块，用于对所述第三图像特征进行分类处理，得到所述训练图像的输出结果。

19.根据权利要求16-18中任一项所述的装置，其中，所述训练图像是对候选训练图像序列中的多个候选训练图像基于像素值进行加权运算得到的。

20.根据权利要求19所述的装置，其中，与多个视频片段的序列对应的所述候选训练图像序列是从多个视频片段中抽取视频帧得到的，所述多个视频片段是对候选视频进行视频分段得到的。

21.根据权利要求16-18中任一项所述的装置，其中，所述深度学习模型是经过预训练得到的预训练深度学习模型。

22.根据权利要求21所述的装置，其中，所述预训练深度学习模型是对初始深度学习模型进行模型蒸馏操作得到的。

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法或者5-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法或者5-11中任一项所述的方法。