CN113361519A

CN113361519A - 目标处理方法、目标处理模型的训练方法及其装置

Info

Publication number: CN113361519A
Application number: CN202110556714.0A
Authority: CN
Inventors: 张伟; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-09-07
Anticipated expiration: 2041-05-21
Also published as: CN113361519B

Abstract

本申请提出了目标处理方法、目标处理模型的训练方法及其装置，涉及人工智能技术领域，具体涉及计算机视觉、深度学习技术领域，可应用于智能交通场景下。具体实现方案为：获取当前图像帧以及参考实例分割图；根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图；根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

Description

目标处理方法、目标处理模型的训练方法及其装置

技术领域

本申请涉及人工智能技术领域，具体涉及计算机视觉、深度学习技术领域，可应用于智能交通场景下，尤其涉及目标处理方法、目标处理模型的训练方法及其装置。

背景技术

目前，对目标进行处理(比如，目标跟踪)是计算机视觉领域中重要的研究方向和应用方法。目标处理是在给定视频中同时可对多个感兴趣的目标进行定位，维持对应ID、以及记录对应轨迹等。目前，目标处理技术已经广泛运用于生活以及军事等多个方面。

相关技术中，通过简单预测前后图像帧间实例之间的像素偏移，即可完成目标处理，但是，上述目标处理方法无法达到目标实时处理，并且处理方式单一，目标处理效果较差。

发明内容

本申请提供了一种用于目标处理方法、目标处理模型的训练方法及其装置。

根据本申请的一方面，提供了一种目标处理方法，包括：获取当前图像帧以及参考实例分割图；根据所述当前图像帧和所述参考实例分割图，生成所述当前图像帧对应的特征图；根据所述特征图，生成所述当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；根据所述实例中心图以及所述至少一种处理方式的偏移图，生成所述当前图像帧在所述至少一种处理方式下的目标处理结果。

根据本申请的另一方面，提供了一种目标处理模型的训练方法，包括：获取初始的目标处理模型，其中，所述目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合所述实例中心图生成目标处理结果的偏移解码模块；获取训练数据，其中，所述训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；以所述样本图像帧和所述样本参考实例分割图为输入数据，结合所述目标处理模型输出的预测目标处理结果以及所述样本目标处理结果构建损失函数，对所述初始的目标处理模型进行训练。

根据本申请的另一方面，提供了一种目标处理装置，包括：获取模块，用于获取当前图像帧以及参考实例分割图；第一生成模块，用于根据所述当前图像帧和所述参考实例分割图，生成所述当前图像帧对应的特征图；第二生成模块，用于根据所述特征图，生成所述当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；第三生成模块，用于根据所述实例中心图以及所述至少一种处理方式的偏移图，生成所述当前图像帧在所述至少一种处理方式下的目标处理结果。

根据本申请的另一方面，提供了一种目标处理模型的训练装置，包括：第一获取模块，用于获取初始的目标处理模型，其中，所述目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合所述实例中心图生成目标处理结果的偏移解码模块；第二获取模块，用于获取训练数据，其中，所述训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；训练模块，用于以所述样本图像帧和所述样本参考实例分割图为输入数据，结合所述目标处理模型输出的预测目标处理结果以及所述样本目标处理结果构建损失函数，对所述初始的目标处理模型进行训练。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的目标处理方法，或者，执行上述所述的目标处理模型的训练方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述所述的目标处理方法，或者，执行上述所述的目标处理模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，执行上述所述的目标处理方法，或者，执行上述所述的目标处理模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是根据本申请第五实施例的示意图；

图6是根据本申请第六实施例的示意图；

图7是根据本申请第七实施例的示意图；

图8是根据本申请第八实施例的示意图；

图9为根据本申请一个实施例的初始的目标处理模型结构示意图；

图10是根据本申请第九实施例的示意图；

图11是根据本申请第十实施例的示意图；

图12是用来实现本申请实施例的目标处理方法与目标处理模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图。需要说明的是，本申请实施例的目标处理方法可应用于本申请实施例的目标处理装置，该装置可被配置于电子设备中。其中，该电子设备可以是移动终端，例如，手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

如图1所示，该目标处理方法可包括如下步骤：

步骤101，获取当前图像帧以及参考实例分割图。

在本申请实施例中，可通过网络下载或者用户上传获取视频，将该视频进行解帧，可将视频中的某一图像帧作为当前图像帧。

为了便于当前图像帧中的实例分割，可选地，可获取当前图像帧对应的参考实例分割图，比如，可选取与当前图像帧相关性较高的图像帧进行实例分割，获取对应的实例分割图，将该实例分割图作为参考实例分割图。

步骤102，根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。

为了便于目标处理，在获取到当前图像帧以及参考实例分割图之后，可根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。比如，可根据参考实例分割图获取当前图像帧中的特征，进而生成当前图像帧对应的特征图。

步骤103，根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图。

为了可以更好地确定当前图像帧中实例的中心位置，更好地进行目标处理，在本申请实施例中，可根据特征图获取当前图像帧中的各个实例的位置信息，根据该位置信息确定当前图像帧对应的实例中心图；可根据特征图获取不同处理方式下的偏移信息，根据该偏移信息可确定一种或多种处理方式的偏移图。

需要说明的是，处理方式可包括但不限于实例分割方式、边框检测方式、目标跟踪方式等，对应地，处理方式的偏移图可包括但不限于实例分割方式的偏移图、边框检测方式的偏移图、目标跟踪方式的偏移图。

步骤104，根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。

在本申请实施例中，可根据一种或多种处理方式的偏移图和实例中心图进行目标处理，从而获取目标处理结果。比如，可根据实例分割的偏移图中的像素的偏移信息结合实例中心图中的位置信息进行实例分割、和/或，根据实例边框检测的偏移图中的实例的边框的偏移信息结合实例中心的位置信息进行实例边框检测，和/或，根据目标跟踪的偏移图中的实例中心的偏移信息结合实例中心图中的位置信息进行目标跟踪。其中，需要说明的是，目标的数量可为一个或多个，本申请不做具体限制。

综上，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的实例中心图以及至少一种处理方式的偏移图，根据生成的实例中心图和至少一种处理方式的偏移图，生成当前图像帧在对应处理方式下的目标处理结果。由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

为了便于当前图像帧中的实例分割，如图2所示，图2是根据本申请第二实施例的示意图，在本申请实施例中，可获取当前图像帧对应的参考实例分割图，可选地，对当前图像帧之前的历史图像帧进行实例分割，获取参考实例分割图，图2所示实施例可包括如下步骤：

步骤201，获取图像序列中的当前图像帧。

在本申请实施例中，可通过网络下载或者用户上传获取视频，将该视频进行解帧，获取视频对应的图像序列，可将图像序列中的某一图像帧作为当前图像帧。

步骤202，获取图像序列中位于当前图像帧之前的历史图像帧。

为了便于当前图像帧中的实例分割，进一步地，可选取与当前图像帧相关性较高的历史图像帧进行实例分割。比如，可选择图像序列中当前图像帧的上一图像帧进行实例分割。

步骤203，将历史图像帧的实例分割图，确定为参考实例分割图。

可选地，可对历史图像帧采用实例分割算法进行实例分割，获取该历史图像帧的实例分割图，将该分割图作为参考实例分割图。其中，实例分割算法可包括但不限于DeepSnake、Mask Scoring R-CNN等。

步骤204，根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。

作为一种示例，可将当前图像帧和参考实例分割图输入经过训练的目标处理模型的编码模块中，编码模块可输出当前图像帧对应的特征图。其中，目标处理模型可用于对视频进行目标处理。其中，目标处理模型可包括但不限于编码模块、语义解码模块、偏移解码模块，目标处理模型的训练方法可参见后续实施例的描述。

步骤205，根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图。

作为一种示例，可将当前图像帧对应的特征图输入目标处理模型的语义解码模块中，生成当前图像帧对应的实例中心图，将当前图像帧中对应的特征图输入目标处理模型的偏移解码模块中生成至少一种处理方式的偏移图。

步骤206，根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。

在本申请实施例中，步骤206可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过获取图像序列中的当前图像帧；获取图像序列中位于当前图像帧之前的历史图像帧；将历史图像帧的实例分割图，确定为参考实例分割图；根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图；根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

为了便于目标处理，如图3所示，图3是根据本申请第三实施例的示意图，在本申请实施例中，在获取到当前图像帧以及参考实例分割图之后，可根据参考实例分割图，确定参考语义热力图，并根据参考语义热力图、参考图像帧的全局上下文向量以及当前图像帧生成特征图，图3所示实施例包括如下步骤：

步骤301，获取当前图像帧以及参考实例分割图。

步骤302，根据参考实例分割图，确定参考实例分割图对应的参考图像帧中各个像素属于相应实例的概率，并生成参考语义热力图。

在本申请实施例中，在获取到参考实例分割图后，将参考实例分割图对应的参考图像帧各个像素，根据高斯分布确定各个像素属于相应实例的概率，并以热力图的形式进行显示，将该热力图作为参考语义热力图。

步骤303，获取参考图像帧的全局上下文向量。

为了更好地进行目标处理，可通过注意力机制获取参考图像帧的全局上下文向量，其中，全局上下文向量可用于表示参考图像帧与其他图像帧的上下文关系。

步骤304，根据全局上下文向量、当前图像帧和参考语义热力图，生成特征图。

作为一种示例，可将全局上下文向量、当前图像帧和参考语义热力图输入至目标处理模型的编码模块中，生成对应的特征图。

步骤305，根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图。

步骤306，根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。

在本申请实施例中，步骤301、305-306可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过当前图像帧结合参考实例分割图；根据参考实例分割图，确定参考实例分割图对应的参考图像帧中各个像素属于相应实例的概率，并生成参考语义热力图；获取参考图像帧的全局上下文向量；根据全局上下文向量、当前图像帧和参考语义热力图，生成特征图；根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

为了可以更好地确定当前图像帧中实例的中心位置，更好地进行目标处理，如图4所示，图4是根据本申请第四实施例的示意图，在本申请实施例中，在获取到当前图像帧对应的特征图后，可根据特征图生成当前图像帧对应的语义种子图，通过提取语义种子图的中心信息，生成对应的实例中心图，图4所示实施例包括如下步骤：

步骤401，获取当前图像帧以及参考实例分割图。

步骤402，根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。

步骤403，根据特征图，生成当前图像帧对应的语义种子图，其中，语义种子图包括：当前图像帧中各个实例的边界信息以及中心信息。

在本申请实施例中，可将特征图输入目标处理模型的解码模块中，对特征图进行语义分析，生成当前图像帧对应的语义种子图，其中，语义种子图可包括但不限于当前图像帧中各个实例的边界信息以及中心信息。

步骤404，提取语义种子图中的中心信息，生成实例中心图。

为了可以更好地确定当前图像帧中实例的中心位置，可选地，可通过聚类算法提取语义种子图中的中心信息，生成实例中心图。

步骤405，根据特征图，生成至少一种处理方式的偏移图。

在本申请实施例中，可将特征图输入至目标处理模型的解码模块中，生成至少一种处理方式的偏移图。其中，处理方式可包括但不限于实例分割方式、边框检测方式、目标跟踪方式。

其中，实例分割方式的偏移图可包括但不限于当前图像帧中各个像素相对于相应实例中心的偏移信息；边框检测方式的偏移图可包括但不限于当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息；目标跟踪方式的偏移图可包括但不限于当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息。

步骤406，根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。

在本申请实施例中，步骤401-402、406可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的语义种子图，通过提取语义种子图的中心信息，生成对应的实例中心图以及根据该特征图生成至少一种处理方式的偏移图，根据生成的实例中心图和至少一种处理方式的偏移图，生成当前图像帧在对应处理方式下的目标处理结果。由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

为了实现当前图像帧中的实例分割，获取当前图像帧在实例分割方式下的实例分割结果，如图5所示，图5是根据本申请第五实施例的示意图，在本申请实施例中，可根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个像素相对于相应实例中心的偏移信息确定当前图像帧中各个实例的位置信息，根据当前图像帧中各个实例的位置信息进而确定当前图像帧在实例分割方式下的实例分割结果。图5所示实施例包括如下步骤：

步骤501，获取当前图像帧以及参考实例分割图。

步骤502，根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。

步骤503，根据特征图，生成当前图像帧对应的实例中心图。

步骤504，根据特征图，生成实例分割方式的偏移图，其中，实例分割方式的偏移图包括：当前图像帧中各个像素相对于相应实例中心的偏移信息。

在本申请实施例中，可将特征图输入至目标处理模型的解码模块中，生成实例分割方式的偏移图。其中，实例分割方式的偏移图可包括但不限于当前图像帧中各个像素相对于相应实例中心的偏移信息。

步骤505，根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个像素相对于相应实例中心的偏移信息，确定当前图像帧中各个实例的位置信息。

作为一种示例，可将实例中心图中各个实例中心的位置与当前图像帧中各个像素相对于相应实例中心的偏移信息进行相加，根据相加结果可确定当前图像帧中的各个像素的位置信息，根据当前图像帧中的各个像素的位置信息可确定当前图像帧中各个实例的位置信息。

步骤506，根据当前图像帧中各个实例的位置信息，确定当前图像帧在实例分割方式下的实例分割结果。

在确定当前图像帧中各个实例的位置信息后，可根据当前图像帧中各个实例的位置信息对当前图像帧进行实例分割，可确定当前图像帧在实例分割方式下的实例分割结果。

在本申请实施例中，步骤501-503可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的实例中心图以及实例分割方式的偏移图，接着，根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个像素相对于相应实例中心的偏移信息确定当前图像帧中各个实例的位置信息，根据当前图像帧中各个实例的位置信息进而确定当前图像帧在实例分割方式下的实例分割结果。由此，实现了目标的实时处理，并生成了实例分割方式下的目标处理结果，提升了目标处理效果。

为了实现当前图像帧中的边框检测，获取当前图像帧在边框检测方式下的边框检测结果，如图6所示，图6是根据本申请第六实施例的示意图，在本申请实施例中，可根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息，确定当前图像帧中各个实例的边框信息，进而根据当前图像帧中各个实例的边框信息可确定当前图像帧在边框检测方式下的边框检测结果。图6所示实施例包括如下步骤：

步骤601，获取当前图像帧以及参考实例分割图。

步骤602，根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。

步骤603，根据特征图，生成当前图像帧对应的实例中心图。

步骤604，根据特征图，生成边框检测方式的偏移图，其中，边框检测方式的偏移图包括：当前图像帧中各个实例的边框顶点相对应相应实例中心的偏移信息。

在本申请实施例中，可将特征图输入至目标处理模型的解码模块中，生成边框检测方式的偏移图。其中，边框检测方式的偏移图可包括但不限于当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息。

步骤605，根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息，确定当前图像帧中各个实例的边框信息。

作为一种示例，可将实例中心图中各个实例中心的位置信息与当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息及进行相加，根据相加结果可确定当前图像帧中各个实例的边框顶点位置信息，根据当前图像帧中各个实例的边框顶点位置信息可确定当前图像帧中各个实例的边框信息。其中，各个实例的边框信息可包括但不限于各个实例的边框顶点位置信息。

步骤606，根据当前图像帧中各个实例的边框信息，确定当前图像帧在边框检测方式下的边框检测结果。

在本申请实施例中，根据当前图像帧中各个实例的边框信息，可对当前图像帧中的各个实例进行边框检测，可获取当前图像帧在边框检测方式下的边框检测结果。

在本申请实施例中，步骤601-603可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的实例中心图以及边框检测方式的偏移图，根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息，确定当前图像帧中各个实例的边框信息，根据当前图像帧中各个实例的边框信息，确定当前图像帧在边框检测方式下的边框检测结果，由此，实现了目标的实时处理，并生成了边框检测方式下的目标处理结果，提升了目标处理效果。

为了实现当前图像帧中的目标跟踪，获取当前图像帧在目标跟踪方式下的目标跟踪结果，如图7所示，图7是根据本申请第七实施例的示意图，在本申请实施例中，可根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息，确定当前图像帧中各个实例的位置信息，进而根据当前图像帧中各个实例的位置信息确定当前图像帧在目标跟踪方式下的目标跟踪结果。图7所示实例包括如下步骤：

步骤701，获取当前图像帧以及参考实例分割图。

步骤702，根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图。

步骤703，根据特征图，生成当前图像帧对应的实例中心图。

步骤704，根据特征图，生成目标跟踪方式的偏移图，其中，目标跟踪方式的偏移图包括：当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息。

在本申请实施例中，可将特征图输入至目标处理模型的解码模块中，生成目标跟踪方式的偏移图。其中，目标跟踪方式的偏移图可包括但不限于当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息。

步骤705，根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息，确定当前图像帧中各个实例的位置信息。

作为一种示例，可将实例中心图中各个实例中心的位置信息与当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息相加，根据相加结果可确定当前图像帧中各个实例的中心位置信息，根据当前图像帧中各个实例的中心位置信息确定当前图像帧中各个实例的位置信息。

步骤706，根据当前图像帧中各个实例的位置信息，确定当前图像帧在目标跟踪方式下的目标跟踪结果。

在本申请实施例中，对当前图像帧中各个实例的位置信息进行目标跟踪，可确定当前图像帧在目标跟踪方式下的目标跟踪结果。

在本申请实施例中，步骤701-703可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

综上，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的实例中心图以及至少目标跟踪方式的偏移图，根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息，确定当前图像帧中各个实例的位置信息，根据当前图像帧中各个实例的位置信息，确定当前图像帧在目标跟踪方式下的目标跟踪结果。由此，实现了目标的实时处理，并生成了目标跟踪方式下的目标跟踪结果，提升了目标处理效果。

本申请实施例的目标处理方法，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的实例中心图以及至少一种处理方式的偏移图，根据生成的实例中心图和至少一种处理方式的偏移图，生成当前图像帧在对应处理方式下的目标处理结果。由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

需要说明的是，本申请实施例的目标处理方法可通过目标处理模型实现对视频中目标进行实例分割、边框检测以及跟踪的场景，为此，本申请实施例还提供了一种目标处理模型的训练方法。

图8是根据本申请第八实施例的示意图，需要说明的是，本申请实施例的目标处理模型的训练方法可应用于本申请实施例的目标处理模型的训练装置，该装置可被配置于电子设备中。其中，该电子设备可以是移动终端，例如，手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

如图8所示，该目标处理模型的训练方法包括如下步骤：

步骤801，获取初始的目标处理模型，其中，目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合实例中心图生成目标处理结果的偏移解码模块。

在本申请实施例中，目标处理模型可包括但不限于编码模块、语义解码模块、偏移解码模块。

其中，编码模块可用于对当前图像帧以及参考实例分割图进行编码生成特征图；语义解码模块可用于对特征图进行解码生成实例中心图；偏移解码模块可用于对特征图进行解码生成偏移图并结合实例中心图生成目标处理结果。

作为一种示例，偏移解码模块可用于对特征图进行解码生成至少一种处理方式的偏移图，比如，实例分割方式的偏移图、边框检测方式的偏移图以及目标跟踪方式的偏移图。

步骤802，获取训练数据，其中，训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果。

可选地，对视频进行解帧获取样本图像帧，可根据样本图像帧以及样本图像帧之前的历史样本图像帧获取样本参考实例分割图，并获取样本图像帧的样本目标处理结果，比如，对样本图像帧进行实例分割获取样本实例分割结果，对样本图像帧进行边框检测获取样本边框检测结果、对样本图像帧进行目标跟踪获取样本目标跟踪结果等。

步骤803，以样本图像帧和样本参考实例分割图为输入数据，结合目标处理模型输出的预测目标处理结果以及样本目标处理结果构建损失函数，对初始的目标处理模型进行训练。

在本申请实施例中，可将样本图像帧和样本参考实例分割图输入至初始的目标处理模型中，该初始的目标处理模型可输出预测目标处理结果，将预测目标处理结果与样本目标处理进行比对，根据比对结果构建损失函数，根据该损失函数对初始的目标处理模型进行训练。其中，需要说明的是，为了提高目标处理模型的准确性，也就是使训练过的目标处理模型准确地生成至少一种处理方式下的目标处理结果，可使用包括多种子损失函数的损伤函数对初始的目标处理模型进行训练，其中，损失函数可由以下子损失函数中的至少一种组成：实例损失函数、边框损失函数、跟踪损失函数、语义损失函数以及偏移损失函数。

为了使本领域技术人员更加清楚地了解本申请，现举例进行说明。

举例而言，如图9所示，图9为根据本申请一个实施例的初始的目标处理模型结构示意图，在图9中，初始的目标处理模型包括一个编码模块(Encoder)、3个解码模块(一个语义解码模块，两个偏移解码模块)。其中，样本图像帧G_t与参考实例分割图I_t-1经过编码模块生成特征图M_t，特征图经过语义解码模块生成语义种子图(Semantic Seed Map)，特征图经过偏移解码模块可生成至少一种处理方式的偏移图，比如，特征图经过偏移解码模块可生成实例分割方式的偏移图(O_tr)、边框检测方式的偏移图(O_d)、目标跟踪方式的偏移图(O_s)。接着，该目标处理模型根据实例中心图以及至少一种处理方式的偏移图可输出预测目标处理结果，将预测目标处理结果与样本目标处理进行比对，根据比对结果构建损失函数，根据该损失函数对初始的目标处理模型进行训练。损失函数可由以下子损失函数中的至少一种组成：实例损失函数(Segmentation Loss)、边框损失函数(Detection Loss)、跟踪损失函数(Tracking Loss)、语义损失函数(Seed Loss)以及偏移损失函数(Consistency Loss)。

本申请实施例的目标处理模型的训练方法，通过获取初始的目标处理模型，其中，目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合所述实例中心图生成目标处理结果的偏移解码模块；获取训练数据，其中，训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；以样本图像帧和样本参考实例分割图为输入数据，结合目标处理模型输出的预测目标处理结果以及样本目标处理结果构建损失函数，对初始的目标处理模型进行训练。由此，通过将样本图像帧和样本参考实例分割图，结合目标处理模型输出的预测目标处理结果以及样本目标处理结果构建损失函数，对初始的目标处理模型进行训练，可使训练过的目标处理模型实现目标的实时处理，并生成至少一种处理方式下的目标处理结果，提升目标的处理效果。

为了实现上述实施例，本申请实施例还提出一种目标处理装置。

图10是根据本申请第九实施例的示意图，如图10所示，该目标处理装置1000可包括获取模块1010、第一生成模块1020、第二生成模块1030、第三生成模块1040。

其中，获取模块1010，用于获取当前图像帧以及参考实例分割图；第一生成模块1020，用于根据当前图像帧和参考实例分割图，生成当前图像帧对应的特征图；第二生成模块1030，用于根据特征图，生成当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；第三生成模块1040，用于根据实例中心图以及至少一种处理方式的偏移图，生成当前图像帧在至少一种处理方式下的目标处理结果。

作为本申请实施例的一种可能实现方式，获取模块1010，具体用于：获取图像序列中的所述当前图像帧；获取图像序列中位于当前图像帧之前的历史图像帧；将历史图像帧的实例分割图，确定为参考实例分割图。

作为本申请实施例的一种可能实现方式，第一生成模块1020，具体用于：根据参考实例分割图，确定参考实例分割图对应的参考图像帧中各个像素属于相应实例的概率，并生成参考语义热力图；获取所述参考图像帧的全局上下文向量；根据全局上下文向量、当前图像帧和参考语义热力图，生成特征图。

作为本申请实施例的一种可能实现方式，第二生成模块1030，具体用于：根据特征图，生成当前图像帧对应的语义种子图，其中，语义种子图包括：当前图像帧中各个实例的边界信息以及中心信息；提取语义种子图中的中心信息，生成实例中心图。

作为本申请实施例的一种可能实现方式，处理方式包括：实例分割方式，实例分割方式的偏移图包括：当前图像帧中各个像素相对于相应实例中心的偏移信息；第三生成模块1040，用于：根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个像素相对于相应实例中心的偏移信息，确定当前图像帧中各个实例的位置信息；根据当前图像帧中各个实例的位置信息，确定当前图像帧在实例分割方式下的实例分割结果。

作为本申请实施例的一种可能实现方式，处理方式包括：边框检测方式，边框检测方式的偏移图包括：当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息；第三生成模块1040，用于：根据所述实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息，确定所述当前图像帧中各个实例的边框信息；根据当前图像帧中各个实例的边框信息，确定当前图像帧在边框检测方式下的边框检测结果。

作为本申请实施例的一种可能实现方式，处理方式包括：目标跟踪方式，所述目标跟踪方式的偏移图包括：所述当前图像帧中各个实例的中心相对于所述参考实例分割图中相应实例的中心的偏移信息；第三生成模块1040，用于：根据实例中心图中各个实例中心的位置信息，以及当前图像帧中各个实例的中心相对于参考实例分割图中相应实例的中心的偏移信息，确定当前图像帧中各个实例的位置信息；根据当前图像帧中各个实例的位置信息，确定当前图像帧在目标跟踪方式下的目标跟踪结果。

本申请实施例的目标处理装置，通过当前图像帧结合参考实例分割图，生成当前图像帧对应的特征图，并根据该特征图生成当前图像帧对应的实例中心图以及至少一种处理方式的偏移图，根据生成的实例中心图和至少一种处理方式的偏移图，生成当前图像帧在对应处理方式下的目标处理结果，由此，实现了目标的实时处理，并生成了至少一种处理方式下的目标处理结果，提升了目标处理效果。

为了实现上述实施例，本申请实施例还提出一种目标处理模型的训练装置。

图11是根据本申请第十实施例的示意图，如图11所示，该目标处理模型的训练装置1100包括：第一获取模块1110、第二获取模块1120、训练模块1130。

其中，第一获取模块1110，用于获取初始的目标处理模型，其中，目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合实例中心图生成目标处理结果的偏移解码模块；第二获取模块1120，用于获取训练数据，其中，训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；训练模块1130，用于以样本图像帧和样本参考实例分割图为输入数据，结合目标处理模型输出的预测目标处理结果以及样本目标处理结果构建损失函数，对初始的目标处理模型进行训练。

作为本申请实施例的一种可能实现方式，损失函数由以下子损失函数中的至少一种组成：实例损失函数、边框损失函数、跟踪损失函数、语义损失函数以及偏移损失函数。

本申请实施例的目标处理模型的训练装置，通过获取初始的目标处理模型，其中，目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合所述实例中心图生成目标处理结果的偏移解码模块；获取训练数据，其中，训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；以样本图像帧和样本参考实例分割图为输入数据，结合目标处理模型输出的预测目标处理结果以及样本目标处理结果构建损失函数，对初始的目标处理模型进行训练。由此，通过将样本图像帧和样本参考实例分割图，结合目标处理模型输出的预测目标处理结果以及样本目标处理结果构建损失函数，对初始的目标处理模型进行训练，可使训练过的目标处理模型实现目标的实时处理，提升目标处理效果。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本申请的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如目标处理方法、目标处理模型的训练方法。例如，在一些实施例中，目标处理方法、目标处理模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的目标处理方法、目标处理模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标处理方法、目标处理模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标处理方法，包括：

获取当前图像帧以及参考实例分割图；

根据所述当前图像帧和所述参考实例分割图，生成所述当前图像帧对应的特征图；

根据所述特征图，生成所述当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；

根据所述实例中心图以及所述至少一种处理方式的偏移图，生成所述当前图像帧在所述至少一种处理方式下的目标处理结果。

2.根据权利要求1所述的方法，其中，所述获取当前图像帧以及参考实例分割图，包括：

获取图像序列中的所述当前图像帧；

获取所述图像序列中位于所述当前图像帧之前的历史图像帧；

将所述历史图像帧的实例分割图，确定为所述参考实例分割图。

3.根据权利要求1所述的方法，其中，所述根据所述当前图像帧和所述参考实例分割图，生成所述当前图像帧对应的特征图，包括：

根据所述参考实例分割图，确定所述参考实例分割图对应的参考图像帧中各个像素属于相应实例的概率，并生成参考语义热力图；

获取所述参考图像帧的全局上下文向量；

根据所述全局上下文向量、所述当前图像帧和所述参考语义热力图，生成所述特征图。

4.根据权利要求1所述的方法，其中，根据所述特征图，生成所述当前图像帧对应的实例中心图，包括：

根据所述特征图，生成所述当前图像帧对应的语义种子图，其中，所述语义种子图包括：所述当前图像帧中各个实例的边界信息以及中心信息；

提取所述语义种子图中的中心信息，生成所述实例中心图。

5.根据权利要求1所述的方法，其中，所述处理方式包括：实例分割方式，所述实例分割方式的偏移图包括：所述当前图像帧中各个像素相对于相应实例中心的偏移信息；

所述根据所述实例中心图以及所述至少一种处理方式的偏移图，生成所述当前图像帧在所述至少一种处理方式下的目标处理结果，包括：

根据所述实例中心图中各个实例中心的位置信息，以及所述当前图像帧中各个像素相对于相应实例中心的偏移信息，确定所述当前图像帧中各个实例的位置信息；

根据所述当前图像帧中各个实例的位置信息，确定所述当前图像帧在实例分割方式下的实例分割结果。

6.根据权利要求1或5所述的方法，其中，所述处理方式包括：边框检测方式，所述边框检测方式的偏移图包括：所述当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息；

根据所述实例中心图中各个实例中心的位置信息，以及所述当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息，确定所述当前图像帧中各个实例的边框信息；

根据所述当前图像帧中各个实例的边框信息，确定所述当前图像帧在边框检测方式下的边框检测结果。

7.根据权利要求6所述的方法，其中，所述处理方式包括：目标跟踪方式，所述目标跟踪方式的偏移图包括：所述当前图像帧中各个实例的中心相对于所述参考实例分割图中相应实例的中心的偏移信息；

根据所述实例中心图中各个实例中心的位置信息，以及所述当前图像帧中各个实例的中心相对于所述参考实例分割图中相应实例的中心的偏移信息，确定所述当前图像帧中各个实例的位置信息；

根据所述当前图像帧中各个实例的位置信息，确定所述当前图像帧在所述目标跟踪方式下的目标跟踪结果。

8.一种目标处理模型的训练方法，包括：

获取初始的目标处理模型，其中，所述目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合所述实例中心图生成目标处理结果的偏移解码模块；

获取训练数据，其中，所述训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；

以所述样本图像帧和所述样本参考实例分割图为输入数据，结合所述目标处理模型输出的预测目标处理结果以及所述样本目标处理结果构建损失函数，对所述初始的目标处理模型进行训练。

9.根据权利要求8所述的方法，其中，所述损失函数由以下子损失函数中的至少一种组成：实例损失函数、边框损失函数、跟踪损失函数、语义损失函数以及偏移损失函数。

10.一种目标处理装置，包括：

获取模块，用于获取当前图像帧以及参考实例分割图；

第一生成模块，用于根据所述当前图像帧和所述参考实例分割图，生成所述当前图像帧对应的特征图；

第二生成模块，用于根据所述特征图，生成所述当前图像帧对应的实例中心图、以及至少一种处理方式的偏移图；

第三生成模块，用于根据所述实例中心图以及所述至少一种处理方式的偏移图，生成所述当前图像帧在所述至少一种处理方式下的目标处理结果。

11.根据权利要求10所述的装置，其中，所述获取模块，具体用于：

获取图像序列中的所述当前图像帧；

12.根据权利要求10所述的装置，其中，所述第一生成模块，具体用于：

获取所述参考图像帧的全局上下文向量；

13.根据权利要求10所述的装置，其中，所述第二生成模块，具体用于：

提取所述语义种子图中的中心信息，生成所述实例中心图。

14.根据权利要求10所述的装置，其中，所述处理方式包括：实例分割方式，所述实例分割方式的偏移图包括：所述当前图像帧中各个像素相对于相应实例中心的偏移信息；

所述第三生成模块，用于：

15.根据权利要求10或14所述的装置，其中，所述处理方式包括：边框检测方式，所述边框检测方式的偏移图包括：所述当前图像帧中各个实例的边框顶点相对于相应实例中心的偏移信息；

所述第三生成模块，用于：

16.根据权利要求15所述的装置，其中，所述处理方式包括：目标跟踪方式，所述目标跟踪方式的偏移图包括：所述当前图像帧中各个实例的中心相对于所述参考实例分割图中相应实例的中心的偏移信息；

所述第三生成模块，用于：

17.一种目标处理模型的训练装置，包括：

第一获取模块，用于获取初始的目标处理模型，其中，所述目标处理模型包括：用于对当前图像帧以及参考实例分割图进行编码生成特征图的编码模块、用于对特征图进行解码生成实例中心图的语义解码模块、用于对特征图进行解码生成偏移图并结合所述实例中心图生成目标处理结果的偏移解码模块；

第二获取模块，用于获取训练数据，其中，所述训练数据包括：样本图像帧、样本参考实例分割图以及样本目标处理结果；

训练模块，用于以所述样本图像帧和所述样本参考实例分割图为输入数据，结合所述目标处理模型输出的预测目标处理结果以及所述样本目标处理结果构建损失函数，对所述初始的目标处理模型进行训练。

18.根据权利要求17所述的装置，其中，所述损失函数由以下子损失函数中的至少一种组成：实例损失函数、边框损失函数、跟踪损失函数、语义损失函数以及偏移损失函数。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的目标处理方法，或者，执行如权利要求8-9中任一项所述的目标处理模型的训练方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的目标处理方法，或者，执行如权利要求8-9中任一项所述的目标处理模型的训练方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，执行如权利要求1-7中任一项所述的目标处理方法，或者，执行如权利要求8-9中任一项所述的目标处理模型的训练方法。