CN113705307A

CN113705307A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN113705307A
Application number: CN202110348195.9A
Authority: CN
Inventors: 杨澍生; 李昱; 单瀛; 方羽新; 王兴刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-11-26

Abstract

本申请实施例公开了一种图像处理方法、装置、设备及存储介质，本申请实施例通过获取视频序列样本下连续的目标帧图像和相邻帧图像；提取目标帧图像中的实例信息对应的第一条件参数信息以及相邻帧图像中的实例信息对应的第二条件参数信息；将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；基于训练后的预设模型对待识别视频序列进行掩码识别处理。以此，可以获取视频序列样本中相邻的目标帧图像和相邻帧图像，分别提取两者相应的条件参数信息作为卷积核，以对其进行交叉掩码识别学习，得到掩膜识别更准确的训练后的预设模型进行识别，极大的提升了图像处理的准确率。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着计算机技术的不断发展，基于人工智能的图像处理技术也越来越成熟。图像分割是图像识别和计算机视觉至关重要的预处理，被广泛的应用于各个领域，例如能够有效用于辅助各种场景图像中的图像分类、物体检测和物体跟踪等任务。

现有技术中，通常是采用基于形态匹配或者模板匹配等方式对图像进行检测以及分割，然而，对于视频序列而言，对于单帧图像进行图像分割，会导致分割的过程缺失其他帧的图像上的参考细节，导致图像处理的准确率较低。

发明内容

本申请实施例提供一种图像处理方法、装置、设备及存储介质，可以提升图像处理的准确率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种图像处理方法，包括：

获取视频序列样本下连续的目标帧图像和相邻帧图像；

提取所述目标帧图像中的实例信息对应的第一条件参数信息以及所述相邻帧图像中的实例信息对应的第二条件参数信息；

将所述第一条件参数信息和所述第二条件参数信息输入至预设模型，对所述目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；

基于所述训练后的预设模型对待识别视频序列进行掩码识别处理。

一种图像处理装置，包括：

获取单元，用于获取视频序列样本下连续的目标帧图像和相邻帧图像；

提取单元，用于提取所述目标帧图像中的实例信息对应的第一条件参数信息以及所述相邻帧图像中的实例信息对应的第二条件参数信息；

输入单元，用于将所述第一条件参数信息和所述第二条件参数信息输入至预设模型，对所述目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；

识别单元，用于基于所述训练后的预设模型对待识别视频序列进行掩码识别处理。

在一些实施例中，所述获取单元，用于：

获取视频序列样本下间隔时间不超过预设时间阈值的目标帧图像和相邻帧图像。

在一些实施例中，所述识别单元，用于：

获取待识别视频序列中每一帧的待识别图像；

提取所述待识别图像中的实例信息对应的第三条件参数信息；

将所述第三条件参数信息输入至训练后的预设模型，输出对应的目标掩码信息。

在一些实施例中，所述图像处理装置，还包括：

样本识别单元，用于基于训练后的预设模型识别出视频序列样本下每一帧的样本图像中的实例信息对应的样本掩码信息；

分类训练单元，用于将所述样本掩码信息输入至预设分类模型进行分类训练，得到训练后的预设分类模型。

在一些实施例中，所述分类训练单元，用于：

将所述样本掩码信息输入至预设分类模型；

将所述样本掩码信息转化为对应的预设维度的向量表征空间；

根据所述向量表征空间之间的相似度对每一帧的样本图像中的实例信息进行分类；

根据分类结果与标签分类结果之间的第二差异值，对所述预设分类模型中的分类网络参数进行迭代调整，直至所述第二差异值收敛，得到训练后的预设分类模型。

在一些实施例中，所述图像处理装置，还包括：

分类单元，用于根据所述训练后的预设分类模型对待识别视频序列中的实例信息进行分类，以实现对所述待识别视频序列的实例分割。

一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述图像处理方法中的步骤。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像处理方法中的步骤。

一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机上述图像处理方法中的步骤。

本申请实施例通过获取待处理图像，并通过获取视频序列样本下连续的目标帧图像和相邻帧图像；提取目标帧图像中的实例信息对应的第一条件参数信息以及相邻帧图像中的实例信息对应的第二条件参数信息；将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；基于训练后的预设模型对待识别视频序列进行掩码识别处理。以此，可以获取视频序列样本中相邻的目标帧图像和相邻帧图像，分别提取两者相应的条件参数信息作为卷积核，以对其进行交叉掩码识别学习，得到掩膜识别更准确的训练后的预设模型进行识别，相对于单帧图像进行图像识别和分割的方案而言，本申请实施例可以学习到跨帧的图像信息，进而极大的提升了图像处理的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理系统的场景示意图；

图2是本申请实施例提供的图像处理方法的流程示意图；

图3是本申请实施例提供的图像处理方法的另一流程示意图；

图4为本申请实施例提供的图像处理方法的场景示意图；

图5是本申请实施例提供的图像处理装置的结构示意图；

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置、设备及存储介质。

请参阅图1，图1为本申请实施例所提供的图像处理系统的场景示意图，包括：终端A、和服务器(该图像处理系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A可以将待识别视频序列发送到服务器中。

该图像处理系统可以包括图像处理装置，该图像处理装置具体可以集成在服务器中，在一些实施方式中，该图像处理装置还可以集成在具有运算能力的终端中，在本实施例中，以该图像处理装置集成在服务器中进行说明，如图1所示，该服务器获取视频序列样本下连续的目标帧图像和相邻帧图像；提取该目标帧图像中的实例信息对应的第一条件参数信息以及该相邻帧图像中的实例信息对应的第二条件参数信息；将该第一条件参数信息和该第二条件参数信息输入至预设模型，对该目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；基于该训练后的预设模型对接收终端A发送的待识别视频序列进行掩码识别处理。

该图像处理系统还可以包括终端A，该终端A可以安装各种用户需要的应用，比如即时视频处理应用、媒体应用以及浏览器应用等，该终端A可以将待识别视频序列上传到服务器中进行审核。

需要说明的是，图1所示的图像处理系统的场景示意图仅仅是一个示例，本申请实施例描述的图像处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着图像处理系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

在本实施例中，将从图像处理装置的角度进行描述，该图像处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。

请参阅图2，图2是本申请实施例提供的图像处理方法的流程示意图。该图像处理方法包括：

在步骤101中，获取视频序列样本下连续的目标帧图像和相邻帧图像。

其中，该视频序列样本为用于训练使用预先准备的视频信息，该视频信息由连续播放的多帧图像组成，一般来说该视频信息播放的速率为一秒24帧，以形成连续的画面。

可以理解的是，视频实例分割通常指把视频中的视频帧中每一实例信息分割出来，该实例信息可以指视频帧中的对象信息，例如人物信息、动物信息等物体信息。然而在当前的视频实例分割研究方面，主要采用单帧的视频帧进行检测和分割，往往会忽略视频中固有的其他帧的实例细节，使得视频实例分割往往不精确。

本申请实施例为了解决上述技术问题，可以获取该视频序列样本下在帧播放上连续的目标帧图像和相邻帧图像，该目标帧图像和相邻帧图像由于时间上的连续，该目标帧图像和相邻帧图像上的实例信息由于在播放上是连续的，所以两者的实例信息具有大量相同的特征，同时又由于该目标帧图像和相邻帧图像在播放上是不同的，所以两者的实例信息又具有细微的特征区别，该细微的特征区别可以作为后续模型学习的方向。

在一些实施方式中，该获取视频序列样本下连续的目标帧图像和相邻帧图像，可以包括：获取视频序列样本下间隔时间不超过预设时间阈值的目标帧图像和相邻帧图像。

其中，为了增加图像选取的灵活性，可以设定预设时间阈值，该预设时间阈值为界定目标帧图像和相邻帧图像是否连续的临界值，可以为用户设置，例如播放20帧的图像对应的时间，以此，本申请实施例可以获取视频序列样本下间隔时间不超过预设时间阈值的目标帧图像和相邻帧图像。

在步骤102中，提取目标帧图像中的实例信息对应的第一条件参数信息以及相邻帧图像中的实例信息对应的第二条件参数信息。

其中，该第一条件参数信息可以理解为提取该目标帧图像中的实例信息对应特征的卷积核信息，该第二条件参数信息可以理解为提取该相邻帧图像中的实例信息对应特征的卷积核信息，该卷积核即为滤波器(filter)。

在一实施方式中，可以预先对该目标帧图像和相邻帧图像进行全卷积处理，得到相应的第一图像特征和第二图像特征，该全卷积(FCN)处理指对图像进行像素级的分类(也就是每个像素点都进行分类)，从而解决了语义级别的图像分割问题，该全卷积处理可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷基层的特征图(feature map)进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息。

以此，可以从该第一图像特征上进行卷积处理，提取该目标帧图像中关于实例信息的第一条件参数，从该第二图像特征上进行卷积处理，提取该目标帧图像中关于实例信息的第二条件参数信息，该卷积处理可以通过卷积神经网络(Convolutional NeuralNetworks，CNN)实现。

在步骤103中，将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，本申请实施例结合计算机视觉技术进行相应的图像语义处理，该掩码(Mask)可以为图像中的实例信息在图像上占的位图位置，可以通过该掩码对该实例信息进行实例抠图。该预设模型可以为特征提取网络模型，例如DLA-34网络模型等等。以此，将该第一条件参数信息和第二条件参数信息输入至预设模型，以该第一条件参数作为卷积核，对该目标帧图像和相邻帧图像中的实例信息分别进行掩码识别的学习，并以该第二条件参数作为卷积核，对该相邻帧图像和目标帧图像中的实例信息分别进行掩码识别的学习，使得该预设模型可以学习到不同姿态状态下实例信息的特征，即学习到不同位置下的实例信息的掩码信息，直至该掩码识别的学习表达趋于收敛，得到训练后的预设模型。

在一些实施方式中，该将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型的步骤，可以包括：

(1)对该第一图像特征进行掩码卷积处理，得到第一掩码特征信息；

(2)对该第二图像特征进行掩码卷积处理，得到第二掩码特征信息；

(3)将该第一条件参数信息、该第二条件参数信息输入至预设模型，对该第一掩码特征信息和第二掩码特征信息进行交叉掩码识别训练，得到训练后的预设模型。

其中，为了使得后续掩码识别的过程更准确，可以预先对该第一图像特征进行掩码卷积处理，该掩码卷积处理可以由第一预设卷积网络处理，该第一预设卷积网络可以由四个3乘3的卷积层堆叠组成，经过该卷积处理之后，可以得到偏向于掩码的语义表达的第一掩码特征。同理，对该第二图像特征进行掩码卷积处理，可以得到偏向于掩码的语义表达的第二掩码特征。

进一步的，以该第一条件参数作为卷积核，对该第一掩码特征和第二掩码特征中的实例信息分别进行掩码识别的学习，并以该第二条件参数作为卷积核，对该相邻帧图像和目标帧图像中的实例信息分别进行掩码识别的学习，使得该预设模型可以更好的学习到不同姿态状态下实例信息的特征，即学习到不同位置下的实例信息的掩码信息，直至该掩码识别的学习表达趋于收敛，得到训练后的预设模型。

在一些实施方式中，该训练的过程即对该第一掩码特征信息和第二掩码特征信息进行交叉掩码识别训练，得到训练后的预设模型，可以包括：

(1.1)通过该第一条件参数信息分别对该第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第一掩码信息和第一交叉掩码信息；

(1.2)通过该第二条件参数信息分别对该第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第二掩码信息和第二交叉掩码信息；

(1.3)计算该第一掩码信息、第一交叉掩码信息、第二掩码信息和第二交叉掩码信息与对应的标签信息之间的第一差异值；

(1.4)根据该第一差异值对该预设模型的网络模型参数进行迭代调整，直至该第一差异值收敛，得到训练后的预设模型。

其中，可以以该第一条件参数作为卷积核，分别对该第一掩码特征信息和第二掩码特征信息进行多次卷积处理，得到目标帧图像和相邻帧图像中实例信息对应的第一掩码信息和第一交叉掩码信息。同理，可以以该第二条件参数作为卷积核，分别对该第二掩码特征信息和第一掩码特征信息进行多次卷积处理，得到相邻帧图像和目标帧图像中实例信息对应的第二掩码信息和第二交叉掩码信息。

进一步的，该标签信息为目标帧图像和相邻帧图像中实例信息的真实掩码信息，该真实掩码信息可以为人工标定的，以此，可以计算该第一掩码信息、第一交叉掩码信息、第二掩码信息和第二交叉掩码信息与对应的标签信息之间的第一差异值，对该预设模型的网络模型参数进行迭代调整，直至该第一差异值收敛，得到训练后的预设模型。本申请实施例通过交叉学习视频帧之间的连续特征性质，使得训练后的预设模型可以学习到不同姿态状态下的掩码信息，使得该训练后的预设模型相对于单帧图像进行掩码识别的方案而言，可以极大的提升掩码信息识别的准确率，进而极大的提升图像分割处理的准确率。

在步骤104中，基于训练后的预设模型对待识别视频序列进行掩码识别处理。

其中，由于该训练后的预设模型对图像中的实例信息的掩码信息识别的准确率远远高于单帧图像进行进行掩码识别的准确率，以此可以基于该训练后的预设模型对该待识别视频序列中每一帧待识别图像中的实例信息进行识别，得到该待识别视频序列全部的实例信息，以实现后续对该带识别视频序列的实例分割。

在一些实施方式中，该基于训练后的预设模型对待识别视频序列进行掩码识别处理，可以包括：

(1)获取待识别视频序列中每一帧的待识别图像；

(2)提取该待识别图像中的实例信息对应的第三条件参数信息；

(3)将该第三条件参数信息输入至训练后的预设模型，输出对应的目标掩码信息。

其中，可以预先获取该待识别视频序列中每一帧的待识别图像，依照上述条件参数信息提取方法提取每一待识别图像中的实例信息对应的第三条件参数信息，以此，将该第三条件参数信息依次输入至训练后的预设模型，输出每一待识别图像中的实例信息对应的目标掩码信息，以实现后续对该带识别视频序列的实例分割。

由上述可知，本申请实施例通过获取待处理图像，并通过获取视频序列样本下连续的目标帧图像和相邻帧图像；提取目标帧图像中的实例信息对应的第一条件参数信息以及相邻帧图像中的实例信息对应的第二条件参数信息；将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；基于训练后的预设模型对待识别视频序列进行掩码识别处理。以此，可以获取视频序列样本中相邻的目标帧图像和相邻帧图像，分别提取两者相应的条件参数信息作为卷积核，以对其进行交叉掩码识别学习，得到掩膜识别更准确的训练后的预设模型进行识别，相对于单帧图像进行图像识别和分割的方案而言，本申请实施例可以学习到跨帧的图像信息，进而极大的提升了图像处理的准确率。

以下将举例作进一步详细说明。

在本实施例中，将以该图像处理装置具体集成在服务器中为例进行说明，本申请实施例以产品标识的识别场景为例进行举例说明，具体参照以下说明。

请参阅图3，图3为本申请实施例提供的图像处理方法的另一流程示意图。该方法流程可以包括：

在步骤201中，服务器获取视频序列样本下间隔时间不超过预设时间阈值的目标帧图像和相邻帧图像。

其中，为了更好的说明本申请实施例，请一并参阅图4所示，图4为本申请实施例提供的图像处理方法的场景示意图，该预设时间阈值为界定目标帧图像和相邻帧图像是否连续的临界值，可以为0.8秒，服务器可以随机获取视频序列样本下间隔时间不超过0.8秒的目标帧图像11和相邻帧图像12。可以看出的，该目标帧图像11和相邻帧图像12中的实例信息均为人类，但是两者的实例信息具有不同的姿态状态。

在步骤202中，服务器对目标帧图像和相邻帧图像进行全卷积处理，得到相应的第一图像特征和第二图像特征。

其中，为了更好的对目标帧图像和相邻帧图像进行后续的特征提取，可以对目标帧图像和相邻帧图像通过全卷积网络进行全卷积处理，两者的全卷积网络共享相同的权重，得到对每一像素都产生一定预测的第一图像特征和第二图像特征。

在步骤203中，服务器通过预设尺寸的卷积层对第一图像特征进行卷积处理，得到第一图像特征中的实例信息对应的第一条件参数信息，通过预设尺寸的卷积层对第二图像特征进行卷积处理，得到第二图像特征中的实例信息对应的第二条件参数信息。

其中，该预设尺寸可以为1乘1尺寸，该1乘1尺寸的卷积层可以加入激励层，提升该1乘1尺寸的卷积层可以添加非线性激励提升表达能力，以此，服务器可以通过预设尺寸的卷积层(即图中的控制头)对该第一图像特征进行卷积处理，得到第一图像特征中用于表达实例信息的特征对应的第一条件参数信息θ_x，y(t)。同理，通过预设尺寸的卷积层(即图中的控制头)对该第二图像特征进行卷积处理，得到第二图像特征中用于表达实例信息的特征对应的第二条件参数信息θ_x′，y′(t+δ)，该第一条件参数信息可以理解为提取该目标帧图像中的实例信息对应特征的卷积核信息，该第二条件参数信息可以理解为提取该相邻帧图像中的实例信息对应特征的卷积核信息。

在步骤204中，服务器对第一图像特征进行掩码卷积处理，得到第一掩码特征信息，对第二图像特征进行掩码卷积处理，得到第二掩码特征信息，将第一条件参数信息、第二条件参数信息输入至预设模型。

其中，为了使得后续掩码识别的过程更准确，可以预先对该第一图像特征进行掩码卷积处理，该掩码卷积处理可以由第一预设卷积网络(即为图中掩码特征分支)处理，该第一预设卷积网络可以由四个3乘3的卷积层堆叠组成，经过该卷积处理之后，可以得到偏向于掩码的语义表达的第一掩码特征

同理，对该第二图像特征进行掩码卷积处理，可以得到偏向于掩码的语义表达的第二掩码特征

进一步的，可以将该第一条件参数信息θ_x，y(t)和第二条件参数信息θ_x′，y′(t+δ)输入值该预设模型中进行训练准备。

在步骤205中，服务器通过第一条件参数信息分别对第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第一掩码信息和第一交叉掩码信息，通过第二条件参数信息分别对第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第二掩码信息和第二交叉掩码信息。

其中，服务器可以以该第一条件参数信息θ_x，y(t)作为卷积核，分别对该第一掩码特征信息

和第二掩码特征信息

进行多次卷积处理，得到目标帧图像和相邻帧图像中实例信息对应的第一掩码信息M_x，y(t)和第一交叉掩码信息

同理，可以以该第二条件参数信息θ_x′，y′(t+δ)作为卷积核，分别对该第二掩码特征信息

和该第一掩码特征信息

进行多次卷积处理，得到相邻帧图像和目标帧图像中实例信息对应的第二掩码信息M_x′，y′(t+δ)和第二交叉掩码信息

其具体计算过程可以如下公式(1)、(2)、(3)、(4)所示：

该*代表卷积操作。

在步骤206中，服务器计算第一掩码信息、第一交叉掩码信息、第二掩码信息和第二交叉掩码信息与对应的标签信息之间的第一差异值，根据第一差异值对预设模型的网络模型参数进行迭代调整，直至第一差异值收敛，得到训练后的预设模型。

其中，该标签信息为目标帧图像和相邻帧图像中实例信息的真实掩码信息，该真实掩码信息可以为人工标定的，以此，可以计算该第一掩码信息M_x，y(t)、第一交叉掩码信息

第二掩码信息M_x′，y′(t+δ)和第二交叉掩码信息

与对应的标签信息之间的第一差异值，对该预设模型的网络模型参数进行迭代调整，直至该第一差异值收敛，得到训练后的预设模型。即本申请实施例通过交叉学习视频帧之间的连续特征性质，使得训练后的预设模型可以学习到不同姿态状态下的掩码信息，使得该训练后的预设模型相对于单帧图像进行掩码识别的方案而言，可以极大的提升掩码信息识别的准确率，进而极大的提升图像分割处理的准确率。

在步骤207中，服务器获取待识别视频序列中每一帧的待识别图像，提取待识别图像中的实例信息对应的第三条件参数信息，将第三条件参数信息输入至训练后的预设模型，输出对应的目标掩码信息。

其中，由于该训练后的预设模型对图像中的实例信息的掩码信息识别的准确率远远高于单帧图像进行进行掩码识别的准确率，以此依照上述条件参数信息提取方法提取每一待识别图像中的实例信息对应的第三条件参数信息，以此，将该第三条件参数信息依次输入至训练后的预设模型，输出每一待识别图像中的实例信息对应的目标掩码信息，以实现后续对该待识别视频序列的实例分割。

在步骤208中，服务器基于训练后的预设模型识别出视频序列样本下每一帧的样本图像中的实例信息对应的样本掩码信息，将样本掩码信息输入至预设分类模型。

其中，服务器为了实现视频实例分割，可以基于训练后的预设模型识别出视频序列样本下每一帧的样本图像中的实例信息对应的样本掩码信息，即将视频序列样本中的实例信息对应的样本掩码信息进行标定。

为了实现后续的视频实例分割和物体跟踪，可以将该掩码信息输入值预设分类模型中进行非线性处理，该预设分类模型可以为卷积神经网络模型。

在步骤209中，服务器将样本掩码信息转化为对应的预设维度的向量表征空间，根据向量表征空间之间的相似度对每一帧的样本图像中的实例信息进行分类，根据分类结果与标签分类结果之间的第二差异值，对预设分类模型中的分类网络参数进行迭代调整，直至第二差异值收敛，得到训练后的预设分类模型。

其中，该预设维度为设置好的，可以为200维度等等，服务器可以通过预设分类模型将该掩码信息通过卷积处理统一表达为预设维度N的向量表征空间，根据该N维度的向量表征空间之间的余弦相似度对每一帧的样本图像中的实例信息进行分类，该余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。

以此，该标签分类结果为人工预先将同一类型的掩码信息归为同一类的分类结果，该标签分类结果可以作为标准进行参照。可以将余弦相似度小于预设余弦相似度的掩码信息归为一类，该预设余弦相似度为界定向量表征空间之间是否为同一类的临界值，例如，0.1，根据该预设分类模型的分类结果与标签分类结果之间的第二差异度，对预设分类模型中的分类网络参数进行迭代调整，直至第二差异值收敛，得到训练后的预设分类模型，该训练后的预设分类模型可以掩码信息识别得到准确的N维的向量表征空间。

在步骤210中，服务器根据训练后的预设分类模型对待识别视频序列中的实例信息进行分类。

其中，服务器将每一待识别图像中的实例信息对应的目标掩码信息输入至该训练后的预设分类模型，将每一目标掩码信息均转化为N维的向量表征空间，根据该N维的向量表征空间之间的余弦相似度对实例信息进行分类，确定不同帧图像中相同的实例以进行视频实例分割和视频跟踪等处理。在一实施方式中，可以参考以下公式进行分类：

其中，该p_i(n)为one-hot独热编码，又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。独热编码是利用0和1表示一些参数，该e_i指实例信息的向量表征空间，该T为转置矩阵，该w_j指分类器分类器的权重，该n指实例信息的数量，该exp()代表以自然常数e为底的指数函数。

为便于更好的实施本申请实施例提供的图像处理方法，本申请实施例还提供一种基于上述图像处理方法的装置。其中名词的含义与上述图像处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的图像处理装置的结构示意图，其中该图像处理装置可以包括获取单元301、提取单元302、输入单元303、及识别单元304等。

获取单元301，用于获取视频序列样本下连续的目标帧图像和相邻帧图像。

在一些实施方式中，该获取单元301，用于：获取视频序列样本下间隔时间不超过预设时间阈值的目标帧图像和相邻帧图像。

提取单元302，用于提取该目标帧图像中的实例信息对应的第一条件参数信息以及该相邻帧图像中的实例信息对应的第二条件参数信息。

在一些实施方式中，提取单元302，用于：对该目标帧图像和相邻帧图像进行全卷积处理，得到相应的第一图像特征和第二图像特征；通过预设尺寸的卷积层对该第一图像特征进行卷积处理，得到第一图像特征中的实例信息对应的第一条件参数信息；通过预设尺寸的卷积层对该第二图像特征进行卷积处理，得到第二图像特征中的实例信息对应的第二条件参数信息。

输入单元303，用于将该第一条件参数信息和该第二条件参数信息输入至预设模型，对该目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型。

在一些实施方式中，输入单元303，包括：

第一处理子单元，用于对该第一图像特征进行掩码卷积处理，得到第一掩码特征信息；

第二处理子单元，用于对该第二图像特征进行掩码卷积处理，得到第二掩码特征信息；

输入子单元，用于将该第一条件参数信息、该第二条件参数信息输入至预设模型，对该第一掩码特征信息和第二掩码特征信息进行交叉掩码识别训练，得到训练后的预设模型。

在一些实施方式中，该输入子单元，用于：将该第一条件参数信息、该第二条件参数信息输入至预设模型；通过该第一条件参数信息分别对该第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第一掩码信息和第一交叉掩码信息；通过该第二条件参数信息分别对该第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第二掩码信息和第二交叉掩码信息；计算该第一掩码信息、第一交叉掩码信息、第二掩码信息和第二交叉掩码信息与对应的标签信息之间的第一差异值；根据该第一差异值对该预设模型的网络模型参数进行迭代调整，直至该第一差异值收敛，得到训练后的预设模型。

识别单元304，用于基于该训练后的预设模型对待识别视频序列进行掩码识别处理。

在一些实施方式中，该确定单元304，该识别单元，用于：获取待识别视频序列中每一帧的待识别图像；提取该待识别图像中的实例信息对应的第三条件参数信息；将该第三条件参数信息输入至训练后的预设模型，输出对应的目标掩码信息。

在一些实施例中，该图像处理装置，还包括：

分类训练单元，用于将该样本掩码信息输入至预设分类模型进行分类训练，得到训练后的预设分类模型。

在一些实施例中，该分类训练单元，用于：将该样本掩码信息输入至预设分类模型；将该样本掩码信息转化为对应的预设维度的向量表征空间；根据该向量表征空间之间的相似度对每一帧的样本图像中的实例信息进行分类；根据分类结果与标签分类结果之间的第二差异值，对该预设分类模型中的分类网络参数进行迭代调整，直至该第二差异值收敛，得到训练后的预设分类模型。

在一些实施例中，该图像处理装置，还包括：分类单元，用于根据该训练后的预设分类模型对待识别视频序列中的实例信息进行分类，以实现对该待识别视频序列的实例分割。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过获取单元301获取待处理图像，并通过获取视频序列样本下连续的目标帧图像和相邻帧图像；提取单元302提取目标帧图像中的实例信息对应的第一条件参数信息以及相邻帧图像中的实例信息对应的第二条件参数信息；输入单元303将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；识别单元304基于训练后的预设模型对待识别视频序列进行掩码识别处理。以此，可以获取视频序列样本中相邻的目标帧图像和相邻帧图像，分别提取两者相应的条件参数信息作为卷积核，以对其进行交叉掩码识别学习，得到掩膜识别更准确的训练后的预设模型进行识别，相对于单帧图像进行图像识别和分割的方案而言，本申请实施例可以学习到跨帧的图像信息，进而极大的提升了图像处理的准确率。

本申请实施例还提供一种服务器，如图6所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读计算机存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取视频序列样本下连续的目标帧图像和相邻帧图像；提取该目标帧图像中的实例信息对应的第一条件参数信息以及该相邻帧图像中的实例信息对应的第二条件参数信息；将该第一条件参数信息和该第二条件参数信息输入至预设模型，对该目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；基于该训练后的预设模型对待识别视频序列进行掩码识别处理。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对图像处理方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的服务器可以通过获取待处理图像，并通过获取视频序列样本下连续的目标帧图像和相邻帧图像；提取目标帧图像中的实例信息对应的第一条件参数信息以及相邻帧图像中的实例信息对应的第二条件参数信息；将第一条件参数信息和第二条件参数信息输入至预设模型，对目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型；基于训练后的预设模型对待识别视频序列进行掩码识别处理。以此，可以获取视频序列样本中相邻的目标帧图像和相邻帧图像，分别提取两者相应的条件参数信息作为卷积核，以对其进行交叉掩码识别学习，得到掩膜识别更准确的训练后的预设模型进行识别，相对于单帧图像进行图像识别和分割的方案而言，本申请实施例可以学习到跨帧的图像信息，进而极大的提升了图像处理的准确率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读计算机存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像处理方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取视频序列样本下连续的目标帧图像和相邻帧图像；

2.根据权利要求1所述的图像处理方法，其特征在于，所述提取所述目标帧图像中的实例信息对应的第一条件参数信息以及所述相邻帧图像中的实例信息对应的第二条件参数信息，包括：

对所述目标帧图像和相邻帧图像进行全卷积处理，得到相应的第一图像特征和第二图像特征；

通过预设尺寸的卷积层对所述第一图像特征进行卷积处理，得到第一图像特征中的实例信息对应的第一条件参数信息；

通过预设尺寸的卷积层对所述第二图像特征进行卷积处理，得到第二图像特征中的实例信息对应的第二条件参数信息。

3.根据权利要求2所述的图像处理方法，其特征在于，所述将所述第一条件参数信息和所述第二条件参数信息输入至预设模型，对所述目标帧图像和相邻帧图像进行交叉掩码识别训练，得到训练后的预设模型，包括：

对所述第一图像特征进行掩码卷积处理，得到第一掩码特征信息；

对所述第二图像特征进行掩码卷积处理，得到第二掩码特征信息；

将所述第一条件参数信息、所述第二条件参数信息输入至预设模型，对所述第一掩码特征信息和第二掩码特征信息进行交叉掩码识别训练，得到训练后的预设模型。

4.根据权利要求3所述的图像处理方法，其特征在于，所述对所述第一掩码特征信息和第二掩码特征信息进行交叉掩码识别训练，得到训练后的预设模型，包括：

通过所述第一条件参数信息分别对所述第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第一掩码信息和第一交叉掩码信息；

通过所述第二条件参数信息分别对所述第一掩码特征信息和第二掩码特征信息进行卷积处理，得到第二掩码信息和第二交叉掩码信息；

计算所述第一掩码信息、第一交叉掩码信息、第二掩码信息和第二交叉掩码信息与对应的标签信息之间的第一差异值；

根据所述第一差异值对所述预设模型的网络模型参数进行迭代调整，直至所述第一差异值收敛，得到训练后的预设模型。

5.根据权利要求1至4任一项所述的图像处理方法，其特征在于，所述获取视频序列样本下连续的目标帧图像和相邻帧图像，包括：

6.根据权利要求1至4任一项所述的图像处理方法，其特征在于，所述基于所述训练后的预设模型对待识别视频序列进行掩码识别处理，包括：

获取待识别视频序列中每一帧的待识别图像；

7.根据权利要求1至4任一项所述的图像处理方法，其特征在于，所述图像处理方法，还包括：

基于训练后的预设模型识别出视频序列样本下每一帧的样本图像中的实例信息对应的样本掩码信息；

将所述样本掩码信息输入至预设分类模型进行分类训练，得到训练后的预设分类模型。

8.根据权利要求7所述的图像处理方法，其特征在于，所述将所述样本掩码信息输入至预设分类模型进行分类训练，得到训练后的预设分类模型，包括：

将所述样本掩码信息输入至预设分类模型；

9.根据权利要求8所述的图像处理方法，其特征在于，所述图像处理方法，还包括：

根据所述训练后的预设分类模型对待识别视频序列中的实例信息进行分类，以实现对所述待识别视频序列的实例分割。

10.一种图像处理装置，其特征在于，包括：

11.根据权利要求10所述的处理装置，其特征在于，所述提取单元，用于：

12.根据权利要求11所述的处理装置，其特征在于，所述输入单元，包括：

第一处理子单元，用于对所述第一图像特征进行掩码卷积处理，得到第一掩码特征信息；

第二处理子单元，用于对所述第二图像特征进行掩码卷积处理，得到第二掩码特征信息；

输入子单元，用于将所述第一条件参数信息、所述第二条件参数信息输入至预设模型，对所述第一掩码特征信息和第二掩码特征信息进行交叉掩码识别训练，得到训练后的预设模型。

13.根据权利要求12所述的处理装置，其特征在于，所述输入子单元，用于：

将所述第一条件参数信息、所述第二条件参数信息输入至预设模型；

14.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的图像处理方法中的步骤。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的图像处理方法中的步骤。