CN115830039A

CN115830039A - 图像处理方法以及装置

Info

Publication number: CN115830039A
Application number: CN202310138860.0A
Authority: CN
Inventors: 杜飞; 袁建龙; 王志斌
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-03-21
Anticipated expiration: 2043-02-09
Also published as: CN115830039B

Abstract

本说明书实施例提供图像处理方法以及装置，其中所述图像处理方法包括：响应于针对目标图像中目标对象的初始交互指令，确定初始交互位置；根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。通过对融合图像特征的特征增强处理，能够提升目标分割结果的精度和准确度，从而保证目标分割结果的完整性。

Description

图像处理方法以及装置

技术领域

本说明书实施例涉及图像处理技术领域，特别涉及图像处理方法。

背景技术

在对图像的处理过程中，通常可以通过图像分割方法将图像分成若干个特定的区域，从而提取出感兴趣的目标。然而，图像中的目标数量、大小、形状往往都各种各样，在进行目标提取时，导致目标分割结果不完整或者存在冗余，使目标分割结果的精度较低，目标分割结果准确性较差。因此，亟需一种有效的技术方案解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种图像处理方法。本说明书一个或者多个实施例同时涉及一种图像处理装置，另一种图像处理方法，另一种图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像处理方法，包括：

响应于针对目标图像中目标对象的初始交互指令，确定初始交互位置；

根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；

对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；

对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。

根据本说明书实施例的第二方面，提供了一种图像处理装置，包括：

第一确定模块，被配置为响应于针对目标图像中目标对象的初始交互指令，确定初始交互位置；

第二确定模块，被配置为根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；

融合模块，被配置为对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；

处理模块，被配置为对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。

根据本说明书实施例的第三方面，提供了一种图像处理方法，包括：

响应于针对目标图像中目标对象的第一交互指令，确定第一交互位置；

根据所述第一交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；

对所述第一交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；

对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像；

响应于针对所述目标对象的下一交互指令，确定下一交互位置；

对所述下一交互位置、所述下一交互指令之前的交互指令对应的交互位置、所述目标图像、所述目标掩膜图像和所述初始图像特征进行融合处理，确定修正融合图像特征；

对所述修正融合图像特征进行自注意力处理和像素处理，获得修正后的、所述目标对象的目标掩膜图像，直至接收针对所述目标对象的交互完成指令，其中，所述目标掩膜图像为根据上一交互指令确定的目标掩膜图像。

根据本说明书实施例的第四方面，提供了一种图像处理装置，包括：

第一确定模块，被配置为响应于针对目标图像中目标对象的第一交互指令，确定第一交互位置；

第二确定模块，被配置为根据所述第一交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；

第一融合模块，被配置为对所述第一交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；

第一处理模块，被配置为对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像；

第三确定模块，被配置为响应于针对所述目标对象的下一交互指令，确定下一交互位置；

第二融合模块，被配置为对所述下一交互位置、所述下一交互指令之前的交互指令对应的交互位置、所述目标图像、所述目标掩膜图像和所述初始图像特征进行融合处理，确定修正融合图像特征；

第二处理模块，被配置为对所述修正融合图像特征进行自注意力处理和像素处理，获得修正后的、所述目标对象的目标掩膜图像，直至接收针对所述目标对象的交互完成指令，其中，所述目标掩膜图像为根据上一交互指令确定的目标掩膜图像。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述图像处理方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

本说明书一个实施例提供了一种图像处理方法，响应于针对目标图像中目标对象的初始交互指令，确定初始交互位置；根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。

上述方法通过根据针对目标对象的初始交互指令对应的初始交互位置，对目标图像进行第一次分割，获得初始掩膜图像和目标图像的初始图像特征之后，再对初始交互位置、目标图像、初始掩膜图像和初始图像特征进行融合处理，并对得到的融合图像特征进行自注意力处理和像素处理，最终获得目标对象的目标掩膜图像，通过对初始掩膜图像进行进一步处理，最终获得目标掩膜图像，以自注意力处理方式和像素处理方式利用初始交互位置，处理融合图像特征，实现特征增强，提升目标分割结果的精度和准确度，从而保证目标分割结果的完整性。

附图说明

图1是本说明书一个实施例提供的一种图像处理方法的应用场景示意图；

图2是本说明书一个实施例提供的一种图像处理方法的流程图；

图3是本说明书一个实施例提供的一种图像处理方法中目标图像的示意图；

图4是本说明书一个实施例提供的一种图像处理方法的处理过程流程图；

图5是本说明书一个实施例提供的一种图像处理装置的结构示意图；

图6是本说明书一个实施例提供的另一种图像处理方法的流程图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

backbone：主干网络，一种特征提取器，用于提取特征。

多头注意力（multi-head attention）：是利用多个查询，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分。

VGG模型：Visual Geometry Group模型，一种神经网络模型，可以用于提取图像特征。

Resnet模型：一种神经网络模型，可以用于提取图像特征。

需要说明的是，本说明书实施例所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在本说明书中，提供了一种图像处理方法，本说明书同时涉及一种图像处理装置，另一种图像处理方法，另一种图像处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种图像处理方法的应用场景示意图。

图1中包括客户端102和服务端104，其中，客户端102和服务端104通信连接，客户端102用于向用户展示图像并接收用户针对图像的交互指令，服务端104用于利用本说明书实施例提供的图像处理方法对图像进行分割。

具体实施时，客户端102向用户展示目标图像，接收用户针对该目标图像中目标对象的初始交互指令，并将该初始交互指令发送至服务端104。服务端104接收该初始交互指令之后，确定该初始交互指令对应的初始交互位置，并根据初始交互位置和目标图像，确定目标对象的初始掩膜图像、以及该目标图像的初始图像特征。对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。并将该目标掩膜图像发送至客户端102，客户端102向用户展示该目标掩膜图像，并继续接收用户针对该目标掩膜图像中的目标对象的下一个交互指令，将该下一个交互指令发送至服务端104。服务端104可以根据该下一个交互指令对应的交互位置对该目标掩膜图像进行修正，以获得修正后的目标掩膜图像。

实际应用中，服务端104可以部署有图像分割模型，图像分割模型中包括分割网络和修正网络，修正网络中设有自注意力处理模块和像素处理模块。服务端104对目标图像进行处理时，可以将初始交互位置和目标图像输入至分割网络，获得分割网络输出的目标对象的初始掩膜图像、以及目标图像的初始图像特征，并将初始交互位置、目标图像、初始掩膜图像和初始图像特征输入修正网络进行融合处理，确定融合图像特征，并利用自注意力处理模块对融合图像特征进行自注意力处理，利用像素处理模块对融合图像特征进行像素处理，最终获得修正网络输出的目标掩膜图像。在服务端104接收到初始交互指令之后的后续交互指令时，可以仅利用图像分割模型中的修正网络对目标掩膜图像进行修正，进而保证分割结果的精度。

如图1所示，客户端102向用户展示包括建筑、街道、行人的目标图像，并接收用户针对建筑的初始交互指令，将该初始交互指令发送至服务端104之后，服务端104通过分割网络和修正网络，最终确定建筑的目标掩膜图像，并将该目标掩膜图像发送至客户端102。客户端102接收该目标掩膜图像并向用户展示之后，接收用户针对建筑的下一个交互指令并发送给服务端104，服务端104通过修正网络，利用该下一个交互指令对应的交互位置对上次确定的目标掩膜图像进行修正，获得修正后的目标掩膜图像并发送给客户端102，重复上述步骤，直至客户端102接收到用户针对目标图像中的建筑的交互完成指令，客户端102将该交互完成指令发送至服务端104，服务端104接收到该交互完成指令结束对目标图像的分割，此时上一个修正后的目标掩膜图像即为最终的图像分割结果。在实现轻量计算的同时也能保证图像分割的精度。

参见图2，图2示出了根据本说明书一个实施例提供的一种图像处理方法的流程图，具体包括以下步骤。

步骤202：响应于针对目标图像中目标对象的初始交互指令，确定初始交互位置。

具体的，该图像处理方法可以应用于服务端。

其中，目标图像可以理解为需要进行分割的图像。目标图像中目标对象可以理解为需要进行分割的图像中、需要提取的对象。比如对于包括建筑、街道和汽车的目标图像，建筑目标图像中的一个对象，街道为目标图像中的一个对象，汽车为目标图像中的一个对象，若需要将该目标图像中的建筑进行分割并标注，建筑可以作为目标图像中的目标对象，即需要提取的对象。

针对目标图像中目标对象的初始交互指令，可以理解为对目标图像中的目标对象的第一次交互指令，比如可以是对目标对象的第一次点击指令，或者是对目标图像的第一次涂抹指令、对目标图像的第一次框选指令等。初始交互位置可以理解为初始交互指令对应的交互位置，比如可以是对目标对象的点击位置、涂抹位置或者是框选位置。

实际应用中，初始交互指令可以是用户通过目标图像交互界面发送的交互指令，其中，目标图像交互界面通过客户端展示给用户，目标图像交互界面中包括目标图像，用户通过点击该目标图像交互界面中的目标图像的任意位置，实现初始交互指令的发送。

参见图3，图3示出了根据本说明书一个实施例提供的一种图像处理方法中目标图像的示意图。如图3所示，目标图像中包括对象302、对象304和对象306，其中，对象302为需要进行提取分割的目标对象，响应于针对该目标对象302的初始交互指令，并确定该初始交互指令对应的初始交互位置308。

基于此，可以响应于针对需要分割的目标图像中、需要提取的目标对象的第一次交互指令，确定该交互指令对应的交互位置。

步骤204：根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征。

具体的，确定初始交互位置之后，可以根据该初始交互位置和目标图像，确定目标对象的初始掩膜图像，以及目标图像的初始图像特征。

其中，目标对象的初始掩膜图像可以理解为对目标图像中的目标对象进行标注处理后的、目标图像的掩膜图像，掩膜可以理解为对处理的图像全部或局部进行遮挡的处理过程。对于包括建筑、街道和汽车的目标图像，以建筑作为目标对象时，目标对象的初始掩膜图像为对建筑进行标注处理后的目标图像，比如可以利用颜色对建筑进行标注处理。初始图像特征，可以理解为针对目标图像提取的特征图。

实际应用中，可以利用特征提取器，提取目标图像的初始图像特征，比如可以利用backbone主干网络提取目标图像的初始图像特征。可以理解的，可以利用任意能够提取特征的模型、算法等提取目标图像的初始图像特征，例如，可以利用VGG模型或者Resnet模型等提取目标图像的初始图像特征，本说明书实施例在此不做限定。

具体实施时，可以利用图像分割模型中的分割网络确定目标对象的初始掩膜图像以及目标图像的初始图像特征，具体实现方式如下。

所述根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征，包括：

将所述初始交互位置和所述目标图像输入分割网络，获得所述分割网络输出的、所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征。

其中，分割网络可以理解为用于对图像进行分割的网络，比如可以是卷积神经网络、深度监督网络等，本说明书实施例在此不作限定。

将初始交互位置和目标图像输入分割网络，可以理解为将表示初始交互位置的图像、和目标图像输入分割网络，其中，表示初始交互位置的图像比如可以是，初始交互位置处像素为1、其余位置像素为0的图像。

基于此，可以将表示初始交互位置的图像和目标图像输入分割网络，获得该分割网络输出的、目标对象的初始掩膜图像，以及目标图像的初始图像特征。

综上，利用分割网络获取目标对象的初始掩膜图像和目标图像的初始图像特征，实现了对目标图像的初次分割，为后续获得最终的目标掩膜图像提供基础。

步骤206：对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征。

具体的，在确定目标对象的初始掩膜图像、和目标图像的初始图像特征之后，为了提升分割性能，可以进一步对初始掩膜图像进行处理，具体的，可以对初始交互位置、目标图像、初始掩膜图像和初始图像特征进行融合处理，确定融合图像特征。

具体实施时，所述对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征，包括：

对所述初始交互位置、所述目标图像和所述初始掩膜图像进行拼接处理，获得拼接图像，并对所述拼接图像进行卷积处理，获得第一图像特征；

对所述初始图像特征进行卷积处理，获得第二图像特征；

对所述第一图像特征和所述第二图像特征进行拼接处理，获得融合图像特征。

其中，对初始交互位置、目标图像和初始掩膜图像进行拼接处理，可以理解为对表示初始交互位置的图像、目标图像和初始掩膜图像进行拼接处理。第一图像特征、第二图像特征和融合图像特征，均可以以图像形式体现。

实际应用中，可以利用卷积网络对拼接图像进行卷积处理，获得第一图像特征，并利用卷积网络对初始图像特征进行卷积处理，获得第二图像特征，具体的，可以利用卷积网络调整初始图像特征的通道数量。

基于此，可以对表示初始交互位置的图像、目标图像和初始掩膜图像进行拼接处理，获得拼接图像，并利用卷积网络对该拼接图像进行卷积处理，获得第一图像特征；利用卷积网络调整初始图像特征的通道数量，获得第二图像特征。对第一图像特征和第二图像特征进行拼接处理，获得融合图像特征。

综上，通过确定融合图像特征，能够实现对初始掩膜图像的进一步处理，从而为后续对融合图像特征进行特征增强处理提供基础。

实际应用中，在确定融合图像特征时，可以利用图像分割模型中的修正网络实现，具体实现方式如下。

所述对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征，包括：

利用修正网络，对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征。

本说明书实施例通过在图像分割模型中设置轻量的分割网络，能够提升交互分割效率。

步骤208：对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。

具体的，在确定融合图像特征之后，可以对该融合图像特征进行特征增强处理，具体的，可以以不同的特征增强方式对该融合图像特征进行自注意力处理和像素处理，获得目标对象的目标掩膜图像。

其中，自注意力处理可以理解为多头注意力处理，其可以通过自注意力处理模块实现。像素处理，可以理解为对像素特征进行处理。

具体实施时，所述对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像，包括如下步骤一至步骤四。

步骤一：根据所述融合图像特征，确定与所述初始交互位置关联的模板特征。

具体的，所述根据所述融合图像特征，确定与所述初始交互位置关联的模板特征，包括：

在所述融合图像特征中，提取所述初始交互位置对应的位置像素特征；

根据所述位置像素特征和所述融合图像特征，确定与所述初始交互位置关联的模板特征。

其中，位置像素特征可以理解为初始交互位置处的像素特征。模板特征可以理解为与初始交互位置的位置像素特征关联的特征，也即是说，与初始交互位置的位置像素特征语义相似的特征。

基于此，可以将初始交互位置映射至融合图像特征，在该融合图像特征中提取初始交互位置处的位置像素特征，并根据该位置像素特征和该融合图像特征，确定与位置像素特征关联的模板特征。

此外，位置像素特征还包括正类位置像素特征和负类位置像素特征，其中，正类位置像素特征可以理解为初始交互位置在目标对象上的位置的像素特征，负类位置像素特征可以理解为初始交互位置在背景上的位置的像素特征。比如，在初始交互指令为点击指令的情况下，正类位置像素特征即为点击在目标对象上的位置的像素特征，负类位置像素特征即为点击在背景上的位置的像素特征，即没有点击在目标对象上的位置的像素特征。

那么，在确定模板特征时，则可以根据正类位置像素特征、负类位置像素特征和融合图像特征来确定。

综上，通过确定与位置像素特征关联的模板特征，能够扩充初始交互位置处的位置像素特征，实现初始交互位置信息的扩充。

具体实施时，所述根据所述位置像素特征和所述融合图像特征，确定与所述初始交互位置关联的模板特征，包括：

确定所述位置像素特征和其他像素特征的相似度，将相似度达到预设相似度阈值的其他像素特征，确定为与所述初始交互位置关联的模板特征，

其中，所述其他像素特征为所述融合图像特征中、除所述位置像素特征之外的像素特征。

具体的，在确定模板特征时，可以利用相似度算法，计算位置像素特征和融合图像特征中、除该位置像素特征之外的其他像素特征之间的相似度，将相似度达到预设相似度阈值的其他像素特征，确定为模板特征。其中，相似度算法可以是任意一种能够计算特征相似度的算法，本说明书实施例在此不做限定。

实际应用中，可以在图像分割模型的分割网络中设置模板选择模块，利用该模板选择模块能够提取模板特征。

可选地，还可以结合像素距离和像素相似度，确定模板特征，具体实现方式如下：

所述根据所述位置像素特征和所述融合图像特征，确定与所述初始交互位置关联的模板特征，包括：

确定所述位置像素特征和其他像素特征的相似度，获得像素相似度特征图，其中，所述其他像素特征为所述融合图像特征中、除所述位置像素特征之外的像素特征；

根据所述位置像素特征和所述融合图像特征中其他像素特征的距离，确定像素距离图；

对所述像素相似度特征图和所述像素距离图进行融合处理，获得像素得分图；

将所述像素得分图中、像素得分达到预设得分阈值的像素特征，确定为与所述初始交互位置关联的模板特征。

其中，位置像素特征和其他像素特征的相似度，可以理解为余弦相似度，其可以通过计算两个向量的夹角余弦量来评估相似度，即，通过计算位置像素特征向量和其他像素特征向量之间的夹角余弦量来计算位置像素特征和其他像素特征的相似度。像素距离图可以理解为表示其他像素特征与位置像素特征之间的像素距离的图像，在像素距离图中，距离位置像素特征越远的像素特征，其像素值就越大。

可以理解的，由于位置像素特征还包括正类位置像素特征和负类位置像素特征，那么像素相似度特征图还包括正像素相似度特征图和负像素相似度特征图。即，可以确定正类位置像素特征和其他像素特征的相似度，获得正像素相似度特征图，确定负类位置像素特征和其他像素特征的相似度，获得负像素相似度特征图，那么，可以对正像素相似度特征图、负像素相似度特征图和像素距离图进行融合处理，获得像素得分图。

实际应用中，在确定模板特征时，可以在像素得分图中选取像素得分最大的K个位置处的像素特征作为模板特征，其中，K可以是预先设置的数值，比如K为5或者K为10等。

综上，通过结合像素距离和像素相似度确定模板特征，能够保证模板特征和位置像素特征之间的相似度，从而提升后续特征增强效果。

步骤二：对所述融合图像特征和所述模板特征进行自注意力处理，获得自注意力特征图。

具体的，在对融合图像特征和模板特征进行自注意力处理时，可以以模板特征作为键向量（K）和值向量（V），即以模板特征作为键值对向量，以融合图像特征作为查询向量（Q），进行自注意力处理，获得自注意力特征图。

能够实现将模板特征的信息传递至融合图像特征中的其他像素特征上，增强融合图像特征中对于前景和背景的区分。

步骤三：对所述融合图像特征和所述模板特征进行像素处理，获得模板相似度特征图。

具体的，由于确定的位置像素特征可以为多个，那么可以计算每个模板特征与融合图像特征中全部像素特征的相似度，获得每个模板特征对应的模板相似度特征图。该模板相似度特征图可以反映出目标对象的轮廓信息，进而提升后续图像分割能力。

由于位置像素特征包括正类位置像素特征和负类位置像素特征，那么根据正类位置像素特征确定的模板特征为正类模板特征，根据负类位置像素特征确定的模板特征为负类模板特征。具体的，可以对正类模板特征和负类模板特征进行卷积处理，获得第一处理结果，对融合图像特征进行卷积处理，获得第二处理结果，再根据第一处理结果和第二处理结果，确定模板相似度特征图。

步骤四：根据所述自注意力特征图和所述模板相似度特征图，确定所述目标对象的目标掩膜图像。

具体实施时，所述根据所述自注意力特征图和所述模板相似度特征图，确定所述目标对象的目标掩膜图像，包括：

对所述自注意力特征图和所述模板相似度特征图进行融合处理，将融合结果输入分类网络，获得所述分类网络输出的、所述目标对象的目标掩膜图像。

其中，分类网络可以理解为一种分类器，其用于输出掩膜图像。

基于此，可以将对自注意力特征图和模板相似度特征图进行融合处理后得到的融合结果输入分类网络，获得分类网络输出的目标对象的目标掩膜图像。

实际应用中，所述对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像，包括：

利用修正网络中的自注意力处理模块，对所述融合图像特征进行自注意力处理，获得自注意力特征图；

利用所述修正网络中的像素处理模块，对所述融合图像特征像素处理，获得模板相似度特征图；

利用所述修正网络，对所述自注意力特征图和所述模板相似度特征图进行融合处理，获得所述目标对象的目标掩膜图像。

具体的，图像分割模型中设置有修正网络，该修正网络中设置有自注意力处理模块和像素处理模块，利用该自注意力处理模块和像素处理模块能够对融合图像特征进行特征增强处理，以提升对目标图像的图像分割精度，使得最终获得的目标掩膜图像的精度更高。

此外，为了减少模型计算量，在所述获得所述目标对象的目标掩膜图像之后，还可以仅利用修正网络处理后续的交互指令，无需启动分割网络，在利用后续交互指令对初始交互指令得到的目标掩膜图像进行修正的同时，减少计算量，提升计算效率，具体实现方式如下：

响应于针对所述目标对象的下一个交互指令，确定下一个交互位置；

利用所述下一个交互位置，对所述目标掩膜图像进行修正，获得修正后的目标掩膜图像；

继续执行所述响应于针对所述目标对象的下一个交互指令的步骤，直至接收针对所述目标对象的交互完成指令。

其中，针对目标对象的下一个交互指令，可以理解为针对目标对象的初始交互指令的后续交互指令，比如可以是针对目标对象的第二次交互指令、第三次交互指令等。针对目标对象的交互完成指令，可以表明对目标图像中的目标对象分割完成。

基于此，在接收到针对目标对象的初始交互指令之后的后续交互指令时，确定该后续交互指令的交互位置，并利用该交互位置，对响应于初始交互指令获得的目标掩膜图像进行修正，获得修正后的目标掩膜图像，继续执行该修正步骤，直至接收到针对目标对象的交互完成指令，表明对目标图像中的目标对象分割完成。

举例而言，对于包括建筑、街道、汽车的目标图像中，响应于针对目标图像中的建筑的第一次交互指令，确定了建筑的目标掩膜图像之后，在接收到针对建筑的第二次交互指令之后，利用该第二次交互指令对应的交互位置，对该目标掩膜图像进行修正，获得修正后的目标掩膜图像，在接收到针对建筑的第三次交互指令之后，继续执行与上述相同的步骤，直至接收到针对建筑的交互完成指令，表明对目标图像中的建筑的分割完成。

综上，通过在接收后续交互指令时，仅利用修正网络对响应于初始交互指令获得的目标掩膜图像进行修正，在减少图像分割模型计算量的同时保证最终获得的分割结果的精度。

具体实施时，所述利用所述下一个交互位置，对所述目标掩膜图像进行修正，获得修正后的目标掩膜图像，包括：

对所述下一个交互位置、所述初始交互位置、所述目标图像、所述目标掩膜图像和所述初始图像特征进行融合处理，确定修正融合图像特征；

对所述修正融合图像特征进行自注意力处理和像素处理，获得修正后的目标掩膜图像。

具体的，在确定了下一个交互指令对应的交互位置之后，可以对该交互位置、初始交互位置、目标图像、目标掩膜图像和初始图像特征进行融合处理，确定修正融合图像特征，再对修正融合图像特征进行自注意力处理和像素处理，获得修正后的目标掩膜图像。

该确定修正融合图像特征以及获得修正后的目标掩膜图像的具体实现步骤与前述确定融合图像特征以及获得目标掩膜图像的具体实现步骤相同，在此不再重复赘述。

需要说明的是，在接收到第二次交互指令时，利用第二次交互位置对目标掩膜图像进行修正时，可以对第二次交互位置、初始交互位置、目标图像、目标掩膜图像和初始图像特征进行融合处理；在接收到第三次交互指令时，利用第三次交互位置对修正后的目标掩膜图像进行修正时，可以对第三次交互位置、第二次交互位置、初始交互位置、目标图像、修正后的目标掩膜图像和初始图像特征进行融合处理。

综上所述，上述方法通过根据针对目标对象的初始交互指令对应的初始交互位置，对目标图像进行第一次分割，获得初始掩膜图像和目标图像的初始图像特征之后，再对初始交互位置、目标图像、初始掩膜图像和初始图像特征进行融合处理，并对得到的融合图像特征进行自注意力处理和像素处理，最终获得目标对象的目标掩膜图像，通过对初始掩膜图像进行进一步处理，最终获得目标掩膜图像，以自注意力处理方式和像素处理方式利用初始交互位置，处理融合图像特征，实现特征增强，提升目标分割结果的精度和准确度，从而保证目标分割结果的完整性。

下述结合附图4，以本说明书提供的图像处理方法在图像分割的应用为例，对所述图像处理方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种图像处理方法的处理过程流程图，具体包括以下步骤。

步骤402：将初始交互位置和目标图像输入分割网络，获得分割网络输出的目标对象的初始掩膜图像、以及目标图像的初始图像特征。

其中，初始交互位置为针对目标图像中的目标对象的第一次交互指令的交互位置。分割网络为图像分割模型中的一个网络层，该图像分割模型还包括修正网络，修正网络包括自注意力处理模块、像素处理模块和模板选择模块。

具体的，在分割网络中，可以对初始交互位置进行卷积处理，得到第一处理结果，对目标图像进行卷积处理，得到第二处理结果，根据第一处理结果和第二处理结果，得到目标对象的初始掩膜图像、以及目标图像的初始图像特征。

步骤404：将初始图像特征、初始掩膜图像、初始交互位置和目标图像输入分割网络，利用分割网络对初始图像特征、初始掩膜图像、初始交互位置和目标图像进行融合处理，确定融合图像特征。

具体的，在修正网络中，可以对初始交互位置、目标图像和初始掩膜图像进行拼接处理，获得拼接图像，并利用卷积网络对该拼接图像进行卷积处理，获得第一图像特征；利用卷积网络调整初始图像特征的通道数量，获得第二图像特征。对第一图像特征和第二图像特征进行拼接处理，获得融合图像特征。

步骤406：利用模板选择模块，根据融合图像特征，确定与初始交互位置关联的模板特征。

具体的，可以将初始交互位置映射至融合图像特征，在该融合图像特征中提取初始交互位置处的位置像素特征，并根据该位置像素特征和该融合图像特征，确定与位置像素特征关联的模板特征。

其中，位置像素特征还包括正类位置像素特征和负类位置像素特征，其中，正类位置像素特征可以理解为初始交互位置在目标对象上的位置的像素特征，负类位置像素特征可以理解为初始交互位置在背景上的位置的像素特征。比如，在初始交互指令为点击指令的情况下，正类位置像素特征即为点击在目标对象上的位置的像素特征，负类位置像素特征即为点击在背景上的位置的像素特征，即没有点击在目标对象上的位置的像素特征。

那么，在利用模板选择模块确定模板特征时，则可以根据正类位置像素特征、负类位置像素特征和融合图像特征来确定，具体步骤如下。

步骤4062：确定正类位置像素特征和其他像素特征的相似度，获得正像素相似度特征图，确定负类位置像素特征和其他像素特征的相似度，获得负像素相似度特征图，根据所述位置像素特征和所述融合图像特征中其他像素特征的距离，确定像素距离图。

其中，其他像素特征可以理解为融合图像特征中、除位置像素特征之外的像素特征。

步骤4064：对正像素相似度特征图、负像素相似度特征图和像素距离图进行融合处理，获得像素得分图。

步骤4066：将像素得分图中、像素得分达到预设得分阈值的像素特征，确定为与初始交互位置关联的模板特征。

此外，还可以利用相似度算法，计算位置像素特征和融合图像特征中、除该位置像素特征之外的其他像素特征之间的相似度，将相似度达到预设相似度阈值的其他像素特征，确定为模板特征。

步骤408：利用分割网络中的自注意力处理模块，对融合图像特征和模板特征进行自注意力处理，获得自注意力特征图。

具体的，利用自注意力处理模块对融合图像特征进行自注意力处理时，以模板特征作为键向量（K）和值向量（V），即以模板特征作为键值对向量，以融合图像特征作为查询向量（Q），进行自注意力处理，获得自注意力特征图。

步骤410：利用分割网络中的像素处理模块，对融合图像特征和模板特征进行像素处理，获得模板相似度特征图。

具体的，可以计算每个模板特征与融合图像特征中全部像素特征的相似度，获得每个模板特征对应的模板相似度特征图。

步骤412：根据自注意力特征图和模板相似度特征图，确定目标对象的目标掩膜图像。

具体的，对所述自注意力特征图和所述模板相似度特征图进行融合处理，将融合结果输入分类网络，获得所述分类网络输出的、所述目标对象的目标掩膜图像。

之后，在接收到针对目标对象的初始交互指令之后的后续交互指令时，确定该后续交互指令的交互位置，并利用该交互位置，继续执行步骤404，将该交互位置和修正后的目标掩膜图片也输入修正网络，通过修正网络对响应于初始交互指令获得的目标掩膜图像进行修正，获得修正后的目标掩膜图像,直至接收到针对目标对象的交互完成指令，表明对目标图像中的目标对象分割完成。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图5示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图5所示，该装置包括：

第一确定模块502，被配置为响应于针对目标图像中目标对象的初始交互指令，确定初始交互位置；

第二确定模块504，被配置为根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；

融合模块506，被配置为对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；

处理模块508，被配置为对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像。

一个可选的实施例中，所述处理模块508，进一步被配置为：

根据所述融合图像特征，确定与所述初始交互位置关联的模板特征；

对所述融合图像特征和所述模板特征进行自注意力处理，获得自注意力特征图；

对所述融合图像特征和所述模板特征进行像素处理，获得模板相似度特征图；

根据所述自注意力特征图和所述模板相似度特征图，确定所述目标对象的目标掩膜图像。

一个可选的实施例中，所述处理模块508，进一步被配置为：

一个可选的实施例中，所述融合模块506，进一步被配置为：

对所述初始图像特征进行卷积处理，获得第二图像特征；

一个可选的实施例中，所述第二确定模块504，进一步被配置为：

一个可选的实施例中，所述融合模块506，进一步被配置为：

一个可选的实施例中，所述处理模块508，进一步被配置为：

综上所述，上述装置通过根据针对目标对象的初始交互指令对应的初始交互位置，对目标图像进行第一次分割，获得初始掩膜图像和目标图像的初始图像特征之后，再对初始交互位置、目标图像、初始掩膜图像和初始图像特征进行融合处理，并对得到的融合图像特征进行自注意力处理和像素处理，最终获得目标对象的目标掩膜图像，通过对初始掩膜图像进行进一步处理，最终获得目标掩膜图像，以自注意力处理方式和像素处理方式利用初始交互位置，处理融合图像特征，实现特征增强，提升目标分割结果的精度和准确度，从而保证目标分割结果的完整性。

上述为本实施例的一种图像处理装置的示意性方案。需要说明的是，该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理装置的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书实施例还提供了另一种图像处理方法，参见图6，图6示出了根据本说明书一个实施例提供的一种图像处理方法的流程图，具体包括以下步骤。

步骤602：响应于针对目标图像中目标对象的第一交互指令，确定第一交互位置；

步骤604：根据所述第一交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征；

步骤606：对所述第一交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征；

步骤608：对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像；

步骤610：响应于针对所述目标对象的下一交互指令，确定下一交互位置；

步骤612：对所述下一交互位置、所述下一交互指令之前的交互指令对应的交互位置、所述目标图像、所述目标掩膜图像和所述初始图像特征进行融合处理，确定修正融合图像特征；

步骤614：对所述修正融合图像特征进行自注意力处理和像素处理，获得修正后的、所述目标对象的目标掩膜图像，直至接收针对所述目标对象的交互完成指令，其中，所述目标掩膜图像为根据上一交互指令确定的目标掩膜图像。

具体的，第一交互指令可以理解为针对目标对象的第一次交互指令，那么下一交互指令可以理解为第一交互指令之后的下一次交互指令，比如第一次交互指令之后，第二次交互指令即为第一次交互指令的下一交互指令。

在接收到第一交互指令时，需要利用分割网络和修正网络，具体而言，可以利用分割网络确定目标对象的初始掩膜图像和目标图像的初始图像特征，之后利用修正网络确定融合图像特征，并确定目标对象的目标掩膜图像。在接收到下一交互指令时，可以仅利用修正网络，根据下一交互位置对目标对象的目标掩膜图像进行修正，获得修正后的目标掩膜图像，直至接收到交互完成指令。

举例而言，在接收到第一次交互指令时，利用分割网络和修正网络，最终确定目标对象的目标掩膜图像M1。在接收到第二次交互指令时，利用第二次交互位置，通过修正网络对第一次交互时确定的目标掩膜图像M1进行修正，得到修正后的目标掩膜图像M2。具体的，对第二次交互位置，和第二次交互指令之前的交互指令对应的交互位置（即第一次交互指令对应的第一次交互位置）、目标图像、第一次交互时确定的目标掩膜图像M1和初始图像特征进行融合处理，获得修正融合图像特征，再对修正融合图像特征进行自注意力处理和像素处理，确定修正后的目标掩膜图像M2。在接收到第三次交互指令时，则是利用第三次交互位置，通过修正网络对第二次交互时确定的目标掩膜图像M2进行修正，得到目标掩膜图像M3。具体的，对第三次交互位置，和第三次交互指令之前的交互指令对应的交互位置（即第一次交互指令对应的第一次交互位置、和第二次交互指令对应的第二次交互位置）、目标图像、第二次交互时确定的目标掩膜图像M2和初始图像特征进行融合处理，获得修正融合图像特征，再对修正融合图像特征进行自注意力处理和像素处理，确定修正后的目标掩膜图像M3。在接收到针对目标对象的交互完成指令的情况下，说明对目标对象的分割完成，此时，将最后一次交互指令（即第三次交互指令）的得到的目标掩膜图像M3作为最终的图像分割结果。

上述为本实施例的一种图像处理方法的示意性方案。需要说明的是，该图像处理方法的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理方法的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，该装置包括：

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网（PSTN，Public SwitchedTelephone Network）、局域网（LAN，Local Area Network）、广域网（WAN，Wide AreaNetwork）、个域网（PAN，Personal Area Network）或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC，networkinterfacecontroller））中的一个或多个，诸如IEEE802.11无线局域网（WLAN，WirelessLocal Area Network）无线接口、全球微波互联接入（Wi-MAX，WorldwideInteroperabilityfor Microwave Access）接口、以太网接口、通用串行总线（USB，Universal Serial Bus）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC，Near Field Communication）接口，等等。

在本申请的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或个人计算机（PC，PersonalComputer）的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的图像处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像处理方法，包括：

2.根据权利要求1所述的方法，所述对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像，包括：

3.根据权利要求2所述的方法，所述根据所述融合图像特征，确定与所述初始交互位置关联的模板特征，包括：

4.根据权利要求3所述的方法，所述根据所述位置像素特征和所述融合图像特征，确定与所述初始交互位置关联的模板特征，包括：

5.根据权利要求3所述的方法，所述根据所述位置像素特征和所述融合图像特征，确定与所述初始交互位置关联的模板特征，包括：

6.根据权利要求2所述的方法，所述根据所述自注意力特征图和所述模板相似度特征图，确定所述目标对象的目标掩膜图像，包括：

7.根据权利要求1所述的方法，所述对所述初始交互位置、所述目标图像、所述初始掩膜图像和所述初始图像特征进行融合处理，确定融合图像特征，包括：

对所述初始图像特征进行卷积处理，获得第二图像特征；

8.根据权利要求1所述的方法，所述获得所述目标对象的目标掩膜图像之后，还包括：

9.根据权利要求8所述的方法，所述利用所述下一个交互位置，对所述目标掩膜图像进行修正，获得修正后的目标掩膜图像，包括：

10.根据权利要求1所述的方法，所述根据所述初始交互位置和所述目标图像，确定所述目标对象的初始掩膜图像、以及所述目标图像的初始图像特征，包括：

11.根据权利要求1所述的方法，所述对所述融合图像特征进行自注意力处理和像素处理，获得所述目标对象的目标掩膜图像，包括：

12.一种图像处理方法，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。