CN111382647A

CN111382647A - 一种图片处理方法、装置、设备及存储介质

Info

Publication number: CN111382647A
Application number: CN201811648151.2A
Authority: CN
Inventors: 张壮辉; 梁柱锦; 王俊东; 梁德澎; 张树业
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-07-07
Anticipated expiration: 2038-12-29
Also published as: WO2020135554A1; CN111382647B; SG11202107121VA; RU2770748C1; US20220083808A1

Abstract

本发明公开了一种图片处理方法、装置、设备及存储介质。该方法包括：获取原始图片和原始图片的辅助信息。将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图。将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。本发明实施通过将原始图片的辅助信息参与到生成原始图片的响应图的过程中，由于原始图片的辅助信息可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

Description

一种图片处理方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种图片处理方法、装置、设备及存储介质。

背景技术

计算机视觉是一门研究如何利用机器来模拟人和生物视觉处理功能的科学。具体而言，就是用摄像机代替人眼收集视觉信息，利用计算机代替大脑对信息进行处理和分析，从而完成图像分类、图像分割、物体检测、关键点定位、姿态估计和人脸识别等任务。

随着计算机硬件性能的提升和大规模图像数据的出现，使得深度学习在计算机视觉领域得到广泛应用。深度学习源于人工神经网络的研究，是机器学习的一个重要分支，形成了一种端到端的新模式，其动机在于模拟人脑的学习方式建立深层次的卷积神经网络，对数据进行理解。深度学习一般指的是深度卷积神经网络，传统的计算机视觉识别方法通常是对图片中的不同颜色、纹理和边缘模块的感知提取手工特征，而深度卷积神经网络是由多种不同的线性层和非线性层组合成的深度网络结构，能够由浅入深，由具体到抽象地对特征进行提取，这些通过网络自动提取出的高层特征具有很强的表达能力，能够提炼图片中很多抽象概念和语义信息，如图片中目标对象以及目标对象所在的位置。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：虽然深度学习在图像分类、图像分割、物体检测、关键点定位、姿态估计和人脸识别等方面得到广泛应用，但是由于存在着场景复杂多变和/或物体较难识别等情况，使得基于深度学习训练生成的视觉任务处理模型，在处理视觉任务时预测精度不高。

发明内容

本发明实施例提供一种图片处理方法、装置、设备及存储介质，以提升视觉任务处理模型的预测精度。

第一方面，本发明实施例提供了一种图片处理方法，该方法包括：

获取原始图片和原始图片的辅助信息；

将所述原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将所述辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图；

将所述对象特征图和所述辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

进一步的，所述原始图片的辅助信息包括所述原始图片对应的背景图片。

进一步的，所述原始图片为当前视频帧，所述原始图片的辅助信息为上一视频帧和上一视频帧的响应图辅助信息。

进一步的，通过如下方式获取所述上一视频帧的响应图：

所述上一视频帧属于视频的前N视频帧之一，则所述上一视频帧的响应图为将所述上一视频帧输入第二视觉任务处理模型得到的响应图；

所述上一视频帧不属于视频的前N视频帧之一，则所述上一视频帧的响应图为将所述上一视频帧输入第一视觉任务处理模型得到的响应图；

其中，所述第二视觉任务处理模型比所述第一视觉任务处理模型的预测精度高。

进一步的，通过如下方式获取所述上一视频帧的响应图：

所述上一视频帧属于对应的视频帧序列的前T视频帧之一，则所述上一视频帧的响应图为将所述上一视频帧输入第二视觉任务处理模型得到的响应图；

所述上一视频帧不属于对应的视频帧序列的前T视频帧之一，则所述上一视频帧的响应图为将所述上一视频帧输入第一视觉任务处理模型得到的响应图；

其中，所述视频帧序列为将所述视频划分后得到的视频帧序列，所述第二视觉任务处理模型比所述第一视觉任务处理模型的预测精度高。

进一步的，通过如下方式训练所述第一视觉任务处理模型：

获取原始训练图片、原始训练图片的标注信息和所述原始训练图片的辅助训练信息；

将原始训练图片输入卷积神经网络的主路，得到对象训练特征图，并且将辅助训练信息输入卷积神经网络的支路，得到辅助训练特征图；

将所述对象训练特征图和所述辅助训练特征图融合后输入卷积神经网络的主路，得到原始训练图片的响应图；

根据所述原始训练图片的标注信息和所述原始训练图片的响应图，得到卷积神经网络的损失函数；

根据所述损失函数调整卷积神经网络的网络参数，直至所述损失函数的输出值小于等于预设阈值，则将所述卷积神经网络作为所述第一视觉任务处理模型。

进一步的，所述辅助训练信息为通过数据增强处理后得到的辅助训练信息。

进一步的，所述数据增强处理包括平移、旋转、裁剪、非刚性变换、噪声扰动和颜色变换中的至少一种。

第二方面，本发明实施例还提供了一种图片处理装置，该装置包括：

原始图片和辅助信息获取模块，用于获取原始图片和原始图片的辅助信息；

特征图获取模块，用于将所述原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将所述辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图；

原始图片的响应图获取模块，用于将所述对象特征图和所述辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

进一步的，所述原始图片为当前视频帧，所述原始图片的辅助信息为上一视频帧和上一视频帧的响应图。

进一步的，通过如下方式获取所述上一视频帧的响应图：

其中，所述各视频帧序列为将所述视频划分后得到的视频帧序列；所述第二视觉任务处理模型比所述第一视觉任务处理模型的预测精度高。

进一步的，通过如下方式训练所述第一视觉任务处理模型：

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例第一方面所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例第一方面所述的方法。

本发明实施例通过获取原始图片和原始图片的辅助信息，将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将原始图片的辅助信息参与到生成原始图片的响应图的过程中，由于原始图片的辅助信息可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

附图说明

图1是本发明实施例中的一种图片处理方法的流程图；

图2是本发明实施例中的另一种图片处理方法的流程图；

图3是本发明实施例中的一种图片处理方法的应用示意图；

图4是本发明实施例中的再一种图片处理方法的流程图；

图5是本发明实施例中的另一种图片处理方法的应用示意图；

图6是本发明实施例中的一种图片处理装置的结构示意图；

图7是本发明实施例中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例

为了解决上述基于深度学习训练生成的视觉处理模型，在处理视觉任务时预测精度不高的问题，可考虑增加先验知识，所谓先验知识可以理解为是与原始图片相关的辅助信息，下面将结合具体实施例对上述内容进行进一步说明。

图1为本发明实施例提供的一种图片处理方法的流程图，本实施例可适用于处理视觉任务的情况，该方法可以由图片处理装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图1所示，该方法具体包括如下步骤：

步骤110、获取原始图片和原始图片的辅助信息。

在本发明的实施例中，为了提升视觉任务处理模型的预测精度，在采集原始图片的同时，也采集与原始图片相关的辅助信息，其中，与原始图片相关的辅助信息可以作为先验知识。

原始图片可以理解为需要对该图片执行视觉任务的图片，视觉任务可以包括图像分类、图像分割、物体检测、关键点定位和姿态估计等。需要说明的是，原始图片可以为单张图片，也可以为视频中的视频帧。

如果原始图片为单张图片，则原始图片的辅助信息具体可以包括原始图片对应的背景图片，其中，原始图片对应的背景图片可作如下理解：原始图片中包括目标对象，而背景图片为不包括目标对象的图片。换个角度理解，背景图片为移除原始图片中目标对象所得的图片。示例性的，如摄像头拍摄室内某一角落正在睡觉的小猫所得的图片为原始图片，而摄像头拍摄该室内该角落所得的图片为背景图片，其中，目标对象为正在睡觉的小猫。

如果原始图片为视频中的视频帧，并将该视频帧作为当前视频帧，则原始图片的辅助信息具体可以包括上一视频帧和上一视频帧的响应图。

步骤120、将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将原始图片的辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图。

步骤130、将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在本发明的实施例中，原始图片的响应图可以理解为对原始图片执行相应类型的视觉任务后得到的结果，原始图片的响应图的具体表现形式需要根据视觉任务的类型确定，示例性的，如视觉任务为图像分割，图像分割就是将图片中的每个像素按照其所属类别进行分类，则原始图片的响应图可以为原始图片中每个像素所属类别的概率图，也可以为通过设置概率阈值，将概率图转化成的图像语义分割图；视觉任务为物体检测，则原始图片的响应图为包含预选框的图，目标物体落入该预选框；视觉任务为关键点定位，则原始图片的响应图为基于关键点的位置生成的热力图。

第一视觉任务处理模型可以基于卷积神经网络训练生成，第一视觉任务处理模型可以包括主路和支路。卷积神经网络是一个多层的神经网络，具体可以包括卷积层、池化层、非线性激活层和全连接层。它的每一层都是由多个特征图组成，而每个特征图中的像素点代表一个神经元。特征图可以用W×H×K表示，其中，W表示特征图的宽度，H表示特征图的长度，K表示通道数，W×H即表示特征图的尺寸。在卷积神经网络中，通道数即指每个卷积层中卷积核的个数。上述卷积层、池化层、非线性激活层和全连接层为传统卷积神经网络的网络结构，上述网络结构的结构比较复杂且参数量较大，为了简化网络结构以及减少参数量，可采用轻量级的卷积神经网络，如全卷积神经网络，所谓全卷积神经网络为不包含全连接层的卷积神经网络，下面以基于全卷积神经网络训练生成的第一视觉任务处理模型，对第一视觉任务处理模型的结构进行说明，具体的：

第一视觉任务处理模型的主路包括第一下采样模块和上采样模块，第一下采样模块的输出端与上采样模块的输入端连接，第一视觉任务处理模型的支路包括第二下采样模块，第一下采样模块与第二下采样模块并联。每个下采样模块可以包括M个卷积层，每个上采样模块可以包括M个转置卷积层，每个卷积层后还可以连接批规范化层和非线性激活层，图片经过第一下采样模块和第二下采样模块后，得到下采样特征图，下采样特征图包含了图片的特征信息，并且由于下采样特征图尺寸相比于输入图片尺寸进行了尺寸缩小，因此，下采样特征图具有更大的感受野，可以提供更多的上下文信息。将下采样模块特征图输入上采样模块，得到上采样特征图，上采样特征图尺寸与输入图片尺寸相同。需要说明的是，第一视觉任务处理模型的结构的具体形式可以根据实际情况进行设计，在此不作具体限定。

将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，这里所述的对象特征图可以为前文所述的经过第一下采样模块后得到的下采样特征图，对象特征图中包含原始图片中的特征信息，将原始图片的辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图，这里所述的辅助特征图可以为前文所述的经过第二下采样模块后得到的下采样特征图，辅助特征图中包含原始图片的辅助信息的特征信息。

将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，这里所述的原始图片的响应图可以为前文所述的经过上采样模块后得到的上采样特征图。可以理解到，由于原始图片的辅助信息也参与了生成原始图片的响应图的过程，即先验知识也参与了生成原始图片的响应图的过程，换句话说，作为先验知识的原始图片的辅助信息在生成原始图片的响应图的过程中起到了提升模型预测精度的作用，因此，上述有原始图片的辅助信息参与生成的原始图片的响应图相比于仅原始图片参与，而没有原始图片的辅助信息参与生成的原始图片的响应图，更加精确。

需要说明的是，需要保证对象特征图尺寸和辅助特征图尺寸相同以及对象特征图的通道数与辅助特征图的通道数相同，为了实现对象特征图尺寸和辅助特征图尺寸相同，可以设置前文所述第一下采样模块和第二下采样模块的结构以及卷积核个数相同，即设置第一下采样模块和第二下采样模块包括同样个数的卷积层以及同样个数的卷积核。可以通过如下两种方式将对象特征图和辅助特征图进行融合，具体的：方式一、将对象特征图和辅助特征图以按位加的方式进行融合；方式二、将对象特征图和辅助特征图通过通道交互的方式进行融合。具体采用哪种方式将两者进行融合，可根据实际情况进行设定，在此不作具体限定。

可以理解到，如果原始图片为视频的视频帧，原始图片的辅助信息包括上一视频帧和上一视频帧的响应图，则上一视频帧的响应图可为上一视频帧作为输入变量输入第一视觉任务处理模型得到的图。此外，考虑到由于原始图片的辅助信息需要作为先验知识来提升模型的预测精度，因此，需要保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度，且精确度越高越好。为了进一步提升原始图片的辅助信息中上一视频帧的响应图的精确度，可考虑选用预测精度更高的视觉处理模型，即将符合预设条件的上一视频帧作为输入变量并不选择输入第一视觉任务处理模型，而是选择输入比第一视觉任务处理模型的预测精度更高的视觉处理模型。通常模型的预测精度越高，模型的结构越复杂且参数量越大，当模型的结构越复杂且参数量越大时，计算开销也就越大，相应的，模型的预测效率也就越低。上述为了获得更高精确度的上一视频帧的响应图，而选用预测精度的视觉模型，在提升了上一视频帧的响应图的精确度的同时，也降低了模型的预测效率。基于上述，可以根据实际情况确定是将上一视频帧作为输入变量输入第一视觉任务处理模型以得到上一视频帧的响应图，还是将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型以得到上一视频帧的响应图，具体有如下两种方式：

方式一、如果上一视频帧属于该视频的前N视频帧之一，便将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型，以得到上一视频帧的响应图；如果上一视频帧不属于该视频的前N视频帧之一，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图。可进行上述处理的原因在于：由于视频中各视频帧之间通常具有关联性，因此，前N视频帧的响应图是将各视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型得到的，便可以保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度。可以理解到，上述方式一是以视频为单位来确定上一视频帧的响应图的获取方式的。

方式二、如果视频的时长大于等于时长阈值，则采用方式一得到的上一视频帧的精确度可能无法满足实际要求，基于上述，可将视频中各视频帧按时间顺序划分为两个或两个以上视频帧序列，各视频帧序列之间不重叠，每个视频帧序列中所包括的视频帧的个数可以相同，也可以不同，具体可根据实际情况进行确定，在此不作具体限定。同时，可以理解到，在各视频帧序列中，按时间顺序可分为第一视频帧、第二视频帧、……、第P视频帧。还可以理解到，上一视频帧将属于各视频帧序列中的某一视频帧序列。视频经过上述处理得到各视频帧序列后，对上一视频帧的响应图的获取方式，将由方式一中以视频为单位进行考虑，转变为以视频帧序列为单位进行考虑。具体的：如果上一视频帧属于对应的视频帧序列的前T视频帧之一，便将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型，以得到上一视频帧的响应图；如果上一视频帧不属于对应的视频帧序列的前T视频帧之一，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图。可进行上述处理的原因在于：由于视频序列中各视频帧之间通常具有关联性，因此，每个视频序列中前T视频帧的响应图是将各视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型得到的，便可以保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度。同时，采用以视频帧序列为单位，而不是以视频为单位来确定上一视频帧的响应图的获取方式，进一步提高了原始图片的辅助信息中上一视频帧的响应图的精确度。

需要说明的是，如果原始图片为当前视频帧，原始图片的辅助信息包括上一视频帧和上一视频帧的响应图，则需要根据视觉任务的类型确定是否需要对上一视频帧的响应图的具体表现形式进行调整。示例性的，如视觉任务为图像分割，上一视频帧的响应图为上一视频帧中每个像素所属类别的概率图，或者，上一视频帧的响应图为通过设置概率阈值，将概率图转化成的图像语义分割图，图像分割的上述两种上一视频帧的响应图的具体表现形式可以直接作为输入变量输入第一视觉任务处理模型的支路，而无需再调整；视觉任务为物体检测，上一视频帧的响应图为包含预选框的图，则需要对包含预选框的图进行调整，可选择将预选框内的各像素的像素值设置为1，并将预选框外的各像素的像素值设置为0，将调整后的上一视频帧的响应图作为输入变量输入第一视觉任务处理模型的支路。当然可以理解到，预选框内外各像素的像素值可根据实际情况进行设定，在此不作具体限定；视觉任务为关键点定位，上一视频帧的响应图为基于关键点的位置生成的热力图，则可以直接将上一视频帧的响应图作为输入变量输入第一视觉任务处理模型的支路，而无需再对上一视频帧的响应图的具体表现形式进行调整。

本实施例的技术方案，通过获取原始图片和原始图片的辅助信息，将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将原始图片的辅助信息参与到生成原始图片的响应图的过程中，由于原始图片的辅助信息可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

可选的，在上述技术方案的基础上，原始图片的辅助信息包括原始图片对应的背景图片。

在本发明的实施例中，原始图片的辅助信息可以包括原始图片对应的背景图片，根据前文所述，原始图片的背景图片可以作如下理解：原始图片中包括目标对象，而背景图片为不包括目标对象的图片。换个角度理解，背景图片为移除原始图片中目标对象所得的图片，下面针对上述理解对背景图片所起到的作用进行进一步说明。具体的：

在处理视觉任务过程中，可能会出现如下情况：如当视觉任务为图像分割时，可能会出现前景和背景相混淆或生成原始图片的响应图的边缘粗糙的情况，此时，原始图片的响应图可以为图像语义分割图；如当视觉任务为物体检测时，可能会出现生成的预选框抖动比较严重的情况；如当视觉任务为关键点定位时，可能会出现无法识别到关键点或关键点抖动的情况。可以理解到，上述情况表明模型的预测精度不高，而导致模型的预测精度不高的主要原因并不是由于目标对象本身很难被识别，而是由于场景复杂且多变，相比于目标对象来说，可以将复杂且多变的场景理解为背景干扰信息。基于上述，由于背景图片为移除目标对象的图片，相比于原始图片来说，其仅包含背景干扰信息，将其作为输入变量输入第一视觉任务处理模型的支路，得到辅助特征图，辅助特征图将提取到背景干扰信息的体征，该辅助特征图参与到生成原始图片的响应图的过程中，使得生成的原始图片的响应图为抑制背景干扰的响应图。可以理解到，当背景图片为移除原始图片中目标对象所得的图片时，其作为先验知识所起到的作用为抑制背景干扰，进而提升模型的预测精度。

可选的，在上述技术方案的基础上，原始图片为当前视频帧，原始图片的辅助信息为上一视频帧和上一视频帧的响应图。

在本发明的实施例中，针对原始图片为视频中当前视频帧，原始图片的辅助信息为上一视频帧和上一视频帧的响应图的情况，在处理视觉任务的过程中，可能会出现如下情况：如当视觉任务为图像分割时，可能会出现不同视频帧之间，分割掩码闪烁比较严重的情况；当视觉任务为物体检测时，可能会出现连续几个视频帧中所生成的预选框抖动比较严重的情况；当视觉任务为关键点定位时，可能会出现相邻视频帧中关键点抖动的情况。可以理解到，上述情况表明模型的预测精度不高，而导致模型的预测精度不高的主要原因为物体和/或场景较难识别。基于上述，由于相邻两个视频帧之间具有一定的关联性，因此，相邻两个视频帧的响应图之间也具有一定的关联性，换句话说，上一视频帧的响应图对生成当前视频帧的响应图具有较高的参考性，即上一视频帧的响应图可以作为先验知识，参与到生成当前视频帧的响应图的过程中，具体为将上一视频帧的响应图作为输入变量输入第一视觉任务处理模型的支路，得到辅助特征图，辅助特征图将提取到上一视频帧的特征，该辅助特征图参与到生成当前视频帧的响应图的过程中。上一视频帧的响应图作为先验知识所起到的作用为增强帧间连续性，进而提升模型的预测精度。需要说明的是，由于上一视频帧和上一视频帧的响应图为模型提供了较强的先验知识，因此，基于卷积神经网络训练生成的第一视觉任务模型的结构可以尽量简化，以便于提升模型的预测效率。

需要说明的是，根据前文所述可知，可以根据实际情况确定是将上一视频帧作为输入变量输入第一视觉任务处理模型以得到上一视频帧的响应图，还是将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型以得到上一视频帧的响应图，在此不作具体限定。

可选的，在上述技术方案的基础上，可以通过如下方式获取上一视频帧的响应图：上一视频帧属于视频的前N视频帧之一，则上一视频帧的响应图为将上一视频帧输入第二视频任务处理模型得到的响应图。上一视频帧不属于视频的前N视频帧之一，则上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

在本发明的实施例中，考虑到由于原始图片的辅助信息需要作为先验知识来提升模型的预测精度，因此，需要保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度，且精确度越高越好。为了进一步提升原始图片的辅助信息中上一视频帧的响应图的精确度，可考虑选用预测精度更高的视觉处理模型，即上一视频帧作为输入变量并不选择输入第一视觉任务处理模型，而是选择输入比第一视觉任务处理模型的预测精度更高的视觉处理模型。通常模型的预测精度越高，模型的结构越复杂且参数量越大，当模型的结构越复杂且参数量越大时，计算开销也就越大，相应的，模型的预测效率也就越低。上述为了获得更高精确度的上一视频帧的响应图，而选用预测精度的视觉模型，在提升了上一视频帧的响应图的精确度的同时，也降低了模型的预测效率。基于上述，可以根据实际情况确定是将上一视频帧作为输入变量输入第一视觉任务处理模型以得到背景图片的响应图，还是将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型以得到上一视频帧的响应图。

可考虑如果上一视频帧属于该视频的前N视频帧，便将上一视频帧作为输入变量输入第二视觉任务处理模型，以得到上一视频帧的响应图；如果上一视频帧不属于该视频的前N视频帧，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图，其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。可以理解到，上述方式一是以视频为单位来确定上一视频帧的响应图的获取方式的。

可进行上述处理的原因在于：由于视频中相邻两个视频帧之间通常具有关联性，因此，前N视频帧的响应图是将各视频帧作为输入变量输入第二视觉任务处理模型得到的，便可以保证作为先验知识的视频帧的响应图的精确度，即保证模型的预测精度。此外，由于第二视觉任务处理模型的预测精度高于第一视觉任务处理模型，因此，第二视觉任务处理模型的结构将比第一视觉任务处理模型复杂，同时，第二视觉任务处理模型的参数量也将比第一视觉任务处理模型大。而计算开销将随着模型结构的复杂度的提升以及参数量的增大而增大，计算开销的增大意味着模型预测效率的降低。基于上述，采用上述方式，在保证了作为先验知识的上一视频帧的响应图的精确度的同时，也保证了模型的计算效率维持在一个较高的水平，即采用上述方式，兼顾了模型的预测精确度以及模型的预测效率。

需要说明的是，当视觉任务对象为视频时，采用上述方式处理后，在视觉效果上看，其将增强帧间一致性，换句话说，采用上述方式处理后，由于模型的预测精度得到提升，因此，一定程度上也实现了帧间一致性。

可选的，在上述技术方案的基础上，可以通过如下方式获取上一视频帧的响应图：上一视频帧属于对应的视频帧序列的前T视频帧之一，则上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的响应图。

应图娘12121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212121212上一视频帧不属于对应的视频帧序列的前T视频帧之一，则上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，各视频帧序列为将视频划分后得到的视频帧序列；第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

在本发明的实施例中，如果视频的时长大于等于时长阈值，则采用以视频为单位来确定上一视频帧的响应图的获取方式可能无法满足实际要求，基于上述，可将视频中各视频帧按时间顺序划分为两个或两个以上视频帧序列，各视频帧序列之间不重叠，每个视频帧序列中所包括的视频帧的个数可以相同，也可以不同，具体可根据实际情况进行确定，在此不作具体限定。同时，可以理解到，在各视频帧序列中，按时间顺序可分为第一视频帧、第二视频帧、……、第P视频帧。还可以理解到，上一视频帧将属于各视频帧序列中的某一视频帧序列。视频经过上述处理得到各视频帧序列后，对上一视频帧的响应图的获取方式，将由以视频为单位进行考虑，转变为以视频帧序列为单位进行考虑。具体的：如果上一视频帧属于对应的视频帧序列的前T视频帧之一，便将上一视频帧作为输入变量输入第二视觉任务处理模型，以得到上一视频帧的响应图；如果上一视频帧不属于对应的视频帧序列的前T视频帧之一，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图，其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

可进行上述处理的原因在于：由于视频序列中各视频帧之间通常具有关联性，因此，每个视频序列中前T视频帧的响应图是将各视频帧作为输入变量输入第二视觉任务处理模型得到的，便可以保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度。同时，采用以视频帧序列为单位，而不是以视频为单位来确定上一视频帧的响应图的获取方式，进一步提高了原始图片的辅助信息中上一视频帧的响应图的精确度。此外，由于第二视觉任务处理模型的预测精度高于第一视觉任务处理模型，因此，第二视觉任务处理模型的结构将比第一视觉任务处理模型复杂，同时，第二视觉任务处理模型的参数量也将比第一视觉任务处理模型大。而计算开销将随着模型结构的复杂度的提升以及参数量的增大而增大，计算开销的增大意味着模型预测效率的降低。基于上述，采用上述方式，在保证了作为先验知识的上一视频帧的响应图的精确度的同时，也保证了模型的计算效率维持在一个较高的水平，即采用上述方式，兼顾了模型的预测精确度以及模型的预测效率。

可选的，在上述技术方案的基础上，可以通过如下方式训练第一视觉任务处理模型：获取原始训练图片、原始训练图片的标注信息和原始训练图片的辅助训练信息。将原始训练图片输入卷积神经网络的主路，得到对象训练特征图，并且将辅助训练信息输入卷积神经网络的支路，得到辅助训练特征图。将对象训练特征图和辅助训练特征图融合后输入卷积神经网络的主路，得到原始训练图片的响应图。根据原始训练图片的标注信息和原始训练图片的响应图，得到卷积神经网络的损失函数。根据损失函数调整卷积神经网络的网络参数，直至损失函数的输出值小于等于预设阈值，则将卷积神经网络作为第一视觉任务处理模型。

在本发明的实施例中，为了提升第一视觉任务处理模型的预测精度，考虑将可作为先验知识的辅助训练信息作为第一视觉任务处理模型的输入变量，共同参与到第一视觉任务处理模型的训练过程，并且是作为第一视觉任务处理模型的一个分支的输入变量。同时，将原始训练图片作为输入变量输入的分支称为第一视觉任务处理模型的主路，将辅助训练信息作为输入变量输入的分支称为第一视觉任务处理模型的支路。当然可以理解到，由于第一视觉任务处理模型是基于卷积神经网络训练生成的，因此，在训练过程中原始训练图片作为输入变量输入的分支是卷积神经网络的主路，辅助训练信息作为输入变量输入的分支是卷积神经网络的支路。

原始图片的标注信息将根据视觉任务的类型的不同而不同，示例性的，如当视觉任务为图像分割时，原始图片的标注信息为原始图片中每个像素的真实标签，该真实标签表明像素所属分类；当视觉任务为物体检测时，原始图片的标注信息为目标框，该目标框包括目标对象；当视觉任务为关键点定位时，原始图片的标注信息为关键点的坐标信息。

将原始训练图片输入卷积神经网络的主路，得到对象训练特征图，并且将辅助训练信息输入卷积神经网络的支路，得到辅助训练特征图。需要说明的是，如果原始训练图片为当前训练视频帧，则原始训练图片的辅助训练信息可以包括上一训练视频帧和上一训练视频帧的响应图；如果原始训练图片为单张图片，则原始训练图片的辅助训练信息可以包括背景训练图片。当原始训练图片为当前训练视频帧，原始训练图片的辅助训练信息包括上一训练视频帧和上一训练视频帧的响应图时，上一训练视频帧的响应图可以作为输入变量输入第二视觉任务处理模型得到。

将对象训练特征图和辅助训练特征图融合后输入卷积神经网络的主路，得到原始训练图片的响应图，再根据原始训练图片的标注信息和原始训练图片的响应图得到卷积神经网络的损失函数，损失函数可以为交叉熵损失函数、0-1损失函数、平方损失函数、绝对损失函数和对数损失函数等，具体可根据实际情况进行设定，在此不作具体限定。

卷积神经网络的训练过程是经过前向传播计算卷积神经网络的损失函数，并计算损失函数对网络参数的偏导数，采用反向梯度传播方法，对卷积神经网络的网络参数进行调整，直至卷积神经网络的损失函数的输出值小于等于预设阈值。当卷积神经网络模型的损失函数的输出值小于等于预设阈值时，表示卷积神经网络已训练完成，此时，卷积神经网络的网络参数也得以确定。在此基础上，可将训练完成的卷积神经网络作为第一视觉任务处理模型。

需要说明的是，本发明实施例所述的卷积神经网络可以为全卷积神经网络，即前文所述的全卷积神经网络，全卷积神经网络的具体结构形式可以根据实际情况进行设计，在此不作具体限定。

还需要说明的是，可以理解到，针对原始训练图片的具体形式的不同，原始训练图片的辅助训练信息所包含的内容也将不同，在此基础上，通过上述方式训练得到的第一视觉任务处理模型也将不同，这里所述的不同可以指第一视觉任务处理模型的网络参数的不同。

另需要说明的是，由于原始训练图片的辅助训练信息也参与到了模型训练过程中，作为先验知识的原始图片的辅助训练信息模型训练过程中起到了使训练得到的第一视觉任务处理模型的预测精度更高的作用，因此，上述有原始训练图片的辅助训练信息参与生成的第一视觉任务处理模型相比于仅原始训练图片参与，而没有原始训练图片的辅助训练信息参与生成的第一视觉任务处理模型，模型的预测精度更高。

此外，本发明实施例所述的第二视觉任务处理模型为本身已经训练完成的模型，其可用于生成上一训练视频帧的响应图和上一视频帧的响应图。

可选的，在上述技术方案的基础上，辅助训练信息为通过数据增强处理后得到的辅助训练信息。

在本发明的实施例中，视觉任务处理模型是基于卷积神经网络训练生成的，卷积神经网络的一大优势就是在于对数据的吸收能力，并转化为对参数的不断学习更新，得到一个预测性能和泛化能力都很好的模型。为了得到预测性能和泛化能力都很好的模型，其对训练样本的数量以及质量都提出了要求，换句话说，训练样本的数量以及质量对模型的预测性能和泛化能力有着重要影响。基于上述，可考虑采用数据增强方法对训练样本进行处理，以增加训练样本的数量以及提高训练样本的质量，以此提升模型的预测性能和泛化能力。

需要说明的是，针对本发明实施例来说，由于将辅助训练信息作为先验知识，提升模型的预测性能，因此，这里所述的训练样本指的是辅助训练信息。即本发明实施例采用数据增强方法对辅助训练信息进行处理，换句话说，辅助训练信息为通过数据增强处理后得到的辅助训练信息。

采用数据增强方法对辅助训练信息进行处理，可以提高辅助训练信息的质量，具体可作如下理解：在实际应用中，由于多数情况下摄像头不是固定不动的，而原始训练图片和辅助训练信息中的背景训练图片并不是同时拍摄得到的，而是分别拍摄得到的，因此，使得原始训练图片和辅助训练信息中的背景训练图片的拍摄角度、亮度、形变和色调等无法保持一致，并且在不同情况下这种不一致性的程度可能并不相同，为了体现这种不同，使其尽量与实际情况相符，便需要在辅助训练信息中的背景图片上体现上述不同。数据增强方法便是可以实现体现上述不同的方式。即辅助训练信息中的背景训练图片经过数据增强处理后可以体现不同情况下与原始训练图片的拍摄角度、亮度、形变和色调的不一致性，使两者不一致性的程度尽量与实际情况相符。此外，如果原始训练图片为当前训练视频帧，原始训练图片的辅助训练信息包括上一训练视频帧和上一训练视频帧的响应图时，也需要对上一训练视频帧的响应图进行数据增强处理，使上一训练视频帧的响应图与上一训练视频帧保持一致。

基于上述，可以理解到，通过采用原始训练图片和数据增强处理后的辅助训练信息作为输入变量，训练得到的视觉任务处理模型相比于采用原始训练图片和未经数据增强处理后的辅助训练信息作为输入变量，训练得到的视觉任务处理模型，前者的预测性能和泛化能力要优于后者，使得后续在采用前者处理视觉任务时，对原始图片和原始图片的辅助信息的限制小，所谓限制小可以指无需保持两者的亮度、形变和色调等方面必须一致。同时，即使两者在上述方面不一致也可以得到精度较高的预测结果。

可选的，在上述技术方案的基础上，数据增强处理包括平移、旋转、裁剪、非刚性变换、噪声扰动和颜色变换中的至少一种。

在本发明的实施例中，刚性变换可以指只有图片的位置和朝向发生改变，而形状不变的变换，非刚性变换是相比于刚性变换更复杂的变换，非刚性变换可以包括斜切、扭曲和透视等。噪声扰动可以包括高斯噪声，颜色变换可以包括饱和度增强、亮度增强和对比度增强等。需要说明的是，可根据实际情况选择数据增强处理方式，在此不作具体限定。

图2为本发明实施例提供的一种图片处理方法的流程图，本实施例可适用于处理视觉任务的情况，该方法可以由图片处理装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图2所示，该方法具体包括如下步骤：

步骤210、获取原始图片和原始图片的背景图片。

步骤220、将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将背景图片输入第一视觉任务处理模型的支路，得到辅助特征图。

步骤230、将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在本发明实施例中，为了更好的理解本发明实施例所提供的技术方案，下面将以视觉任务为图像分割为例进行进一步说明，具体的：

如图3所示，给出了另一种图片处理方法的应用示意图，图3中将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，将背景图片输入第一视觉任务处理模型的支路，得到辅助特征图，再将对象特征图和辅助特征图进行融合，将融合后的特征图输入第一视觉任务处理模型的主路，得到原始图片的响应图，即得到图像语义分割图。

本实施例的技术方案，通过获取原始图片和背景图片，将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将背景图片输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将背景图片参与到生成原始图片的响应图的过程中，由于背景图片可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

图4为本发明实施例提供的再一种图片处理方法的流程图，本实施例可适用于处理视觉任务的情况，该方法可以由图片处理装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图4所示，该方法具体包括如下步骤：

步骤310、获取当前视频帧、上一视频帧和上一视频帧的响应图。

步骤320、将当前视频帧输入第一视觉任务处理模型的主路，得到对象特征图，并且将上一视频帧和上一视频帧的响应图输入第一视觉任务处理模型的支路，得到辅助特征图。

步骤330、将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在本发明的实施例中，需要说明的是，可以通过如下两种方式获取上一视频帧的响应图，具体的：

方式一、上一视频帧属于视频的前N视频帧之一，则上一视频帧的响应图为将上一视频帧输入第二视频任务处理模型得到的响应图。上一视频帧不属于视频的前N视频帧之一，则上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

方式二、上一视频帧属于对应的视频帧序列的前T视频帧之一，则上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的响应图。上一视频帧不属于对应的视频帧序列的前T视频帧之一，则上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，各视频帧序列为将所述视频划分后得到的视频帧序列；第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

需要说明的是，可以根据实际情况选择获取上一视频帧的响应图的方式，在此不作具体限定。

为了更好的理解本发明实施例所提供的技术方案，下面将以视觉任务为图像分割为例进行进一步说明，具体的：

如图5所示，给出了另一种图片处理方法的应用示意图。图5中将当前视频帧输入第一视觉任务处理模型的主路，得到对象特征图，将上一视频帧和上一视频帧的响应图输入第一视觉任务处理模型的支路，得到辅助特征图，其中，上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的，将对象特征图和辅助特征图进行融合，得到融合后的特征图，将融合后的特征图输入第一视觉任务处理模型的主路，得到原始图片的响应图，即得到图像语义分割图。

本实施例的技术方案，通过获取当前视频帧、上一视频帧和上一视频帧的响应图，将当前视频帧输入第一视觉任务处理模型的主路，得到对象特征图，并且将上一视频帧和上一视频帧的响应图输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将上一帧和上一视频帧的响应图参与到生成当前视频帧的响应图的过程中，由于上一视频帧和上一视频帧的响应图可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

图6为本发明实施例提供的一种图片处理装置的结构示意图，本实施例可适用于处理视觉任务的情况，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图6所示，该装置具体包括：

原始图片和辅助信息获取模块410，用于获取原始图片和所述原始图片的辅助信息。

特征图获取模块420，用于将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图。

原始图片的响应图获取模块430，用于将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

可选的，在上述技术方案的基础上，原始图片为当前视频帧，原始图片的的辅助信息为上一视频帧和上一视频帧的响应图。

可选的，在上述技术方案的基础上，可以通过如下方式获取上一视频帧的响应图：

上一视频帧属于视频的前N视频帧之一，则上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的响应图。

上一视频帧不属于视频的前N视频帧之一，则上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。

其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

可选的，可以通过如下方式获取上一视频帧的响应图：

上一视频帧属于对应的视频帧序列的前T视频帧之一，则上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的响应图。

上一视频帧不属于对应的视频帧序列的前T视频帧之一，则上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。

其中，各视频帧序列为将视频划分后得到的视频帧序列；第二视觉任务处理模型比第一视觉任务处理模型的预测精度高。

可选的，在上述技术方案的基础上，可以通过如下方式训练第一视觉任务处理模型：

获取原始训练图片、原始训练图片的标注信息和原始训练图片的辅助训练信息。

将对象训练特征图和辅助训练特征图融合后输入卷积神经网络的主路，得到原始训练图片的响应图。

根据原始训练图片的标注信息和原始训练图片的响应图，得到卷积神经网络的损失函数。

根据损失函数调整卷积神经网络的网络参数，直至损失函数的输出值小于等于预设阈值，则将卷积神经网络作为第一视觉任务处理模型。

本发明实施例所提供的配置于设备的图片处理装置可执行本发明任意实施例所提供的应用于设备的图片处理方法，具备执行方法相应的功能模块和有益效果。

图7为本发明实施例提供的一种设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性设备712的框图。图7显示的设备712仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，设备512以通用计算设备的形式表现。设备512的组件可以包括但不限于：一个或者多个处理器516，系统存储器528，连接于不同系统组件(包括系统存储器528和处理器516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Instruction Set Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型(Instruction Set Architecture，ISA)总线、视频电子标准协会(Video ElectronicsStandards Association，VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnect，PCI)总线。

设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被移动终端512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)530和/或高速缓存存储器532。设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如(Computer Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该设备512交互的设备通信，和/或与使得该设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与设备512的其它模块通信。应当明白，尽管图7中未示出，可以结合设备512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在系统存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种图片处理方法，该方法包括：

获取原始图片和原始图片的辅助信息。

将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图。

将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供应用于设备的图片处理方法的技术方案。该设备的硬件结构以及功能可参见实施例的内容解释。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种图片处理方法，该方法包括：

获取原始图片和原始图片的辅助信息。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然，本发明实施例所提供的一种计算机可读存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的设备的图片处理方法的相关操作。对存储介质的介绍可参见实施例中的内容解释。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图片处理方法，其特征在于，包括：

获取原始图片和所述原始图片的辅助信息；

2.根据权利要求1所述的方法，其特征在于，所述原始图片的辅助信息包括所述原始图片对应的背景图片。

3.根据权利要求1所述的方法，其特征在于，所述原始图片为当前视频帧，所述原始图片的辅助信息为上一视频帧和上一视频帧的响应图辅助信息。

4.根据权利要求3所述的方法，其特征在于，通过如下方式获取所述上一视频帧的响应图：辅助信息

所述上一视频帧属于视频的前N视频帧之一，则所述上一视频帧的响应图为将所述上一视频帧输入第二视频任务处理模型得到的响应图；

5.根据权利要求3所述的方法，其特征在于，通过如下方式获取所述上一视频帧的响应图：

6.根据权利要求1所述的方法，其特征在于，通过如下方式训练所述第一视觉任务处理模型：

7.根据权利要求6所述的方法，其特征在于，所述辅助训练信息为通过数据增强处理后得到的辅助训练信息。

8.根据权利要求7所述的方法，其特征在于，所述数据增强处理包括平移、旋转、裁剪、非刚性变换、噪声扰动和颜色变换中的至少一种。

9.一种图片处理装置，其特征在于，包括：

原始图片和辅助信息获取模块，用于获取原始图片和所述原始图片的辅助信息；

10.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一所述的方法。