CN111091576A

CN111091576A - 图像分割方法、装置、设备及存储介质

Info

Publication number: CN111091576A
Application number: CN202010194643.XA
Authority: CN
Inventors: 胡一凡; 李悦翔; 魏东; 陈嘉伟; 曹世磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-05-01
Anticipated expiration: 2040-03-19
Also published as: CN111091576B

Abstract

本申请公开了一种图像分割方法、装置、设备及存储介质，属于图像处理技术领域。本申请通过图像分割模型中不同尺度的神经网络对目标图像以及第一掩膜分别进行处理，得到尺度不同的多个特征图和中间掩膜，充分保留高分辨率的图像信息；由多个注意力单元，对每个特征图应用注意力权重进行加权运算，得到多个中间特征图；对每个中间特征图进行特征融合，得到第二掩膜；若第二掩膜满足条件，基于第二掩膜进行图像分割，否则，基于第二掩膜调整第一掩膜，再基于调整后的第一掩膜和目标图像输出新的第二掩膜，判断新的第二掩膜是否满足条件。在上述方案中，应用注意力机制、多尺度特征融合、迭代调整分割区域三种途径，来提图像分割结果的准确率。

Description

图像分割方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像分割方法、装置、设备及存储介质。

背景技术

图像分割是指把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术。随着机器学习技术的发展，可以基于深度神经网络构建图像分割模型，对图像中包含的目标对象进行分割，例如，在医疗领域，可以应用图像分割模型自动分割出医学图像中的器官、肿瘤等。

但是在一些医学图像中，不同器官或组织之间亮度差异较小，不同区域之间边界模糊，对于这一类图像，应用图像分割模型进行图像分割时，通常难以准确地分割出图像中的各个目标对象。因此，如何提高图像分割模型的性能，提高图像分割结果的准确率，是一个重要研究方向。

发明内容

本申请实施例提供了一种图像分割方法、装置、设备及存储介质，可以提高图像分割结果的准确率。该技术方案如下：

一方面，提供了一种图像分割方法，该方法包括：

将包含目标对象的目标图像以及第一掩膜输入图像分割模型，该图像分割模型包括多个不同尺度的神经网络以及至少一个注意力单元；

通过该多个不同尺度的神经网络对该目标图像以及该第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜；

通过该至少一个注意力单元，对每个该特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图；

对每个该中间特征图进行特征融合，得到第二掩膜，该第二掩膜用于预测该目标对象在该目标图像的位置信息；

响应于该第二掩膜满足目标条件，基于该第二掩膜将该目标图像中的目标对象分割出来，否则，基于该第二掩膜对该第一掩膜进行调整，由该图像分割模型基于调整后的第一掩膜以及该目标图像输出新的第二掩膜，判断该新的第二掩膜是否满足该目标条件。

一方面，提供了一种图像分割装置，该装置包括：

输入模块，用于将包含目标对象的目标图像以及第一掩膜输入图像分割模型，该图像分割模型包括多个不同尺度的神经网络以及至少一个注意力单元；

特征提取模块，用于通过该多个不同尺度的神经网络对该目标图像以及该第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜；

加权模块，用于通过该至少一个注意力单元，对每个该特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图；

特征融合模块，用于对每个该中间特征图进行特征融合，得到第二掩膜，该第二掩膜用于预测该目标对象在该目标图像的位置信息；

图像分割模块，用于响应于该第二掩膜满足目标条件，基于该第二掩膜将该目标图像中的目标对象分割出来，否则，基于该第二掩膜对该第一掩膜进行调整，由该图像分割模型基于调整后的第一掩膜以及该目标图像输出新的第二掩膜，判断该新的第二掩膜是否满足该目标条件。

在一种可能实现方式中，该特征提取模块用于：

通过该多个不同尺度的神经网络分别对该目标图像进行特征提取，得到尺度不同的多个特征图；

基于该多个不同尺度，对该第一掩膜进行尺度变换，得到该各个特征图对应的中间掩膜。

在一种可能实现方式中，该特征提取模块用于：

对于该多个不同尺度的神经网络中的任一个神经网络，获取前一个神经网络输出的第一尺度的特征图，对该第一尺度的特征图进行下采样，得到第二尺度的特征图，该第二尺度小于该第一尺度；

获取各个神经网络输出的特征图，得到该尺度不同的多个特征图。

在一种可能实现方式中，该加权模块用于：

对于每个注意力单元，获取前一个注意力单元输出的多个不同尺度的加权特征图，对每个该加权特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到多个不同尺度的加权特征图；

获取最后一个注意力单元输出的多个不同尺度的加权特征图，作为该中间特征图。

在一种可能实现方式中，该加权模块用于：

基于任一加权特征图以及与该任一加权特征图尺度相同的该中间掩膜，确定该任一加权特征图中目标区域对应的第一权重序列以及背景区域对应的第二权重序列，该目标区域为该目标对象的所在区域；

基于该第一权重序列以及该第二权重序列，对该任一加权特征图中不同区域的元素进行加权运算。

在一种可能实现方式中，该装置还包括：

权重融合模块，用于对该第一权重序列以及该第二权重序列进行特征融合；基于特征融合后的该第一权重序列以及该第二权重序列，执行对该任一特征图进行加权运算的步骤。

在一种可能实现方式中，该权重融合模块用于：

对该第一初始权重序列以及该第二初始权重序列进行池化处理，得到中间权重序列；

按照目标比例对该中间权重序列进行拆分，得到特征融合后的该第一权重序列以及该第二权重序列。

在一种可能实现方式中，该特征融合模块用于：

对各个该中间特征图进行特征融合，得到目标尺度的目标特征图；

基于该目标特征图，确定该第二掩膜。

在一种可能实现方式中，该特征融合模块用于：

将各个该中间特征图中最大的特征图尺度，确定为该目标尺度；

将各个该中间特征图转换为该目标尺度的中间特征图；

对各个该目标尺度的中间特征图进行特征融合，得到该目标特征图。

在一种可能实现方式中，该特征融合模块用于：

对各个该目标尺度的中间特征图中相同位置的元素取平均值，得到一个新的矩阵，将该新的矩阵作为该目标特征图。

在一种可能实现方式中，该特征融合模块用于：

对该目标特征图进行归一化处理，得到一个归一化的数值矩阵；

基于目标阈值，对该数值矩阵进行二值化处理，得到该第二掩膜。

在一种可能实现方式中，该装置还包括：

误差确定模块，用于确定该第二掩膜与该第一掩膜之间的误差；若该误差小于误差阈值，则确定该第二掩膜满足该目标条件；若该误差大于该误差阈值，则确定该第二掩膜不满足该目标条件。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现该图像分割方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现该图像分割方法所执行的操作。

本申请实施例提供的技术方案，通过图像分割模型中多个不同尺度的神经网络对目标图像以及第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜，在这一过程中，充分保留了高分辨率的图像信息；通过至少一个注意力单元，对每个特征图中不同区域的元素应用不同的注意力权重进行加权运算，即为不同区域分配不同的注意力，得到尺度不同的多个中间特征图；对每个中间特征图进行特征融合，得到第二掩膜，即确定出分割区域；响应于第二掩膜满足目标条件，基于第二掩膜将目标图像中的目标对象分割出来，否则，基于第二掩膜对第一掩膜进行调整，由图像分割模型基于调整后的第一掩膜以及目标图像输出新的第二掩膜，判断新的第二掩膜是否满足该目标条件。在上述方案中，应用注意力机制、多尺度特征融合、迭代调整分割区域三种途径，来提高模型性能，提高图像分割结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像分割系统的结构框图；

图2是本申请实施例提供的一种图像分割方法的流程图；

图3是本申请实施例提供的一种图像分割模型的结构示意图；

图4是本申请实施例提供的一种注意力单元的结构示意图；

图5是本申请实施例提供的一种特征融合方法的示意图；

图6是本申请实施例提供的一种残差网络的示意图；

图7是本申请实施例提供的一种中间特征图获取方法的示意图；

图8是本申请实施例提供的一种图像分割处理流程示意图；

图9是本申请实施例提供的一种图像分割系统的具体应用示意图；

图10是本申请实施例提供的图像分割模型训练方法的流程图；

图11是本申请实施例提供的一种图像分割装置的结构示意图；

图12是本申请实施例提供的一种终端的结构示意图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例所涉及计算机视觉技术以及机器学习技术。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、OCR（Optical Character Recognition，光学字符识别）、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例主要涉及计算机视觉中的图像语义理解技术，基于图像语义理解进行图像分割。

以下，对本申请涉及的术语进行解释：

掩膜（mask）：是指用选定的图像、图形或物体，对待处理的目标图像进行全部或局部遮挡，例如，可以遮挡住目标图像中的背景区域，从而控制图像处理的区域或处理过程。在本申请实施例中，掩膜可以表示为一个二值化矩阵，用于区分图像中待分割的目标对象的所在区域以及背景区域，例如，目标对象所在区域所对应的元素取值为1，其他区域的元素取值为0。应用掩膜可以提取目标图像中的感兴趣区域，屏蔽不参与运算的区域。

注意力机制（Attention Mechanism）：是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。注意力机制被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是机器学习技术中最值得关注与深入了解的核心技术之一。综上，注意力机制主要有两个方面：一是决定需要关注输入的哪部分；二是分配有限的信息处理资源给重要的部分。机器学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，其核心目标也是从众多信息中选择出对当前任务更关键的信息。

本申请实施例提供的技术方案可以应用于多种图像处理场景中，与多领域相结合。在一种可能实现方式中，本方案可以与医疗领域相结合，应用本方案提供的图像分割模型对医学图像处理，包括CT（Computed Tomography，计算机断层扫描）、眼底图像等，分割出医学图像中所包含的肿瘤、器官等。本方案还可以应用于任一目标对象提取场景中，例如，提取出图像中的人物、动物等目标对象。

图1是本申请实施例提供的一种图像分割系统的结构框图。该图像分割系统100包括：终端110和图像分割平台140。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110安装和运行有支持图像分割的应用程序。该应用程序可以是检测类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

图像分割平台140可以包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像分割平台140用于为支持图像分割的应用程序提供后台服务。可选地，图像分割平台140承担主要图像分割工作，终端110承担次要图像分割工作；或者，图像分割平台140承担次要图像分割工作，终端110承担主要图像分割工作；或者，图像分割平台140或终端110分别可以单独承担分割工作。可选地，图像分割平台140包括：接入服务器、图像分割服务器和数据库。接入服务器用于为终端110提供接入服务。图像分割服务器用于提供图像分割有关的后台服务，该图像分割服务器可以搭载图形处理器，支持图形处理器多线程并行计算。图像分割服务器可以是一台或多台。当图像分割服务器是多台时，存在至少两台图像分割服务器用于提供不同的服务，和/或，存在至少两台图像分割服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。图像分割服务器中可以设置有图像分割模型，在模型训练和应用过程中，该图像分割服务器可以搭载图像处理器GPU（Graphics Processing Unit，图形处理器），并支持图像处理器并行运算。其中，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端110与图像分割平台140可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例对此不作限定。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述图像分割系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2是本申请实施例提供的一种图像分割方法的流程图。该方法可以应用于上述终端或者服务器，而终端和服务器均可以视为一种计算机设备，因此，在本申请实施例中，以计算机设备作为执行主体，对该图像分割方法进行介绍，参见图2，该实施例具体可以包括以下步骤：

201、计算机设备获取包含目标对象的目标图像以及第一掩膜。

其中，该目标图像可以为存储在计算机设备中的一幅或一组图像，也可以是该计算机设备在视频中截取的图像，还可以为具备图像采集功能的设备实时采集的图像，例如，CT（Computed Tomography，计算机断层扫描）设备采集的图像，本申请实施例对具体采用哪种图像不作限定。该目标对象即为该目标图像中需要分割出来的对象，例如，当该目标图像为医学图像时，该目标对象可以为该医学图像中的病灶、肿瘤、器官等。

在本申请实施例中，该第一掩膜可以表示为矩阵的形式，矩阵中各个元素的取值可以由开发人员进行设置，通常情况下可以将该第一掩膜中各个元素的取值设置为0，本申请实施例对此不作具体限定。该第一掩膜的大小与该目标图像的大小相同，以便于该第一掩膜对该目标图像进行分割。

在一种可能实现方式中，该计算机设备可以基于图像分割指令，获取待分割的目标图像以及该目标图像对应的第一掩膜，当然，该计算机设备也可以在获取到目标图像后，基于该目标图像的大小，构造一个第一掩膜，例如，构造一个与该目标图像大小相同的二值化矩阵作为该第一掩膜，本申请实施例对此不作限定。

202、计算机设备将该目标图像以及第一掩膜输入图像分割模型。

其中，该图像分割模型可以用于对该目标图像进行图像处理，从而分割出该目标图像中的至少一个目标对象。在本申请实施例中，该图像分割模型可以为基于深度神经网络构建的模型，该深度神经网络可以为HR-Net（High-Resolution Net，高分辨率神经网络）等。图3是本申请实施例提供的一种图像分割模型的结构示意图，参见图3，该图像分割模型可以包括特征提取单元301、残差网络302、至少一个注意力单元303、特征融合单元304等。其中，该特征提取单元可以由多个不同尺度的神经网络构成，该特征提取单元可以用于提取该目标图像的不同尺度的图像特征；该残差网络可以用于对提取到的图像特征进行调整，以缓解深度神经网络中由于增加深度而造成的梯度消失问题；该注意力单元可以基于注意力机制对该目标图像的不同区域赋予不同的权重，使图像分割模型更加关注目标对象的所在区域；该特征融合单元可以用于对注意力单元所输出的不同尺度的图像特征进行融合，使图像分割模型在图像分割过程中可以充分融合多尺度的图像信息。当然，该图像分割模型还可以包括其他单元，例如，输入单元、输出单元等，本申请实施例对此不作限定。需要说明的是，本申请实施例对该图像分割模型中特征提取单元、残差网络、注意力单元、特征融合单元的具体数目和连接方式不作限定。

在本申请实施例中，该计算机设备可以将任意尺寸的目标图像输入该图像分割模型，也可以将该目标图像调整为预设尺寸再输入该图像分割模型。在一种可能实现方式中，该计算机设备将该目标图像输入图像分割模型之前，可以按照实际情况，对该目标图像进行缩放，以将该目标图像调整为预设尺寸。相应的，该计算机设备还需将该目标图像对应的第一掩膜调整为预设尺寸，当然，该计算机设备也可以直接基于该预设尺寸构造该第一掩膜，本申请实施例对此不作限定。其中，该预设尺寸可以由开发人员进行设置。

在一种可能实现方式中，该计算机设备可以对该目标图像进行预处理，将预处理后的目标图像以及第一掩膜输入图像分割模型，以便于进行后续的运算过程。例如，该预处理过程可以包括将该目标图像转换为像素值矩阵，再对该像素值矩阵进行归一化处理，得到该目标图像对应的数字矩阵，本申请实施例对该预处理过程的具体步骤不作限定。当然，该预处理过程也可以由该图像分割模型执行，本申请实施例对此不作限定。

203、计算机设备通过图像分割模型中多个不同尺度的神经网络分别对该目标图像进行特征提取，得到尺度不同的多个特征图。

在本申请实施例中，该图像分割模型的特征提取单元可以包括多个不同尺度的神经网络，来获取该目标图像在不同分辨率的图像特征。

在一种可能实现方式中，各个不同尺度的神经网络可以是级联的。也即是，对于该多个不同尺度的神经网络中的任一个神经网络，可以获取前一个神经网络输出的第一尺度的特征图，对该第一尺度的特征图进行下采样，得到第二尺度的特征图。其中，该第二尺度小于该第一尺度。其中，各个神经网络均可以由卷积层、池化层组成，各个神经网络的结构可以相同，也可以不同，本申请实施例对各个神经网络的具体结构不作限定。各个神经网络可以通过卷积运算或池化运算对前一个神经网络的输出结果进行下采样，得到一个尺度减小的特征图。具体的，以两个不同尺度的神经网络为例，对上述特征图获取过程进行说明，首先，该计算机设备可以通过第一尺度的神经网络，对该目标图像进行特征提取，生成第一尺度的第一特征图，该第一特征图的大小可以与该目标图像的大小相同；然后，该图像分割模型中第二尺度的神经网络可以对该第一特征图进行下采样，生成第二尺度的第二特征图；最后，该计算机设备获取该第一特征图以及第二特征图，也即是获取到多尺度的特征图。在本申请实施例中，可以由开发人员可以对神经网络中各个卷积层、池化层所对应的卷积核的大小、数目和步长进行设置，来限定该第二尺度的第二特征图的大小和通道数目。在本申请实施例中，该第二特征图的大小可以为该第一特征图的1/2，该第二特征图的通道数可以为该第一特征图的2倍，例如，该第一特征图的大小为H*W*C，则该第二特征图的大小为H/2*W/2*2C。其中，H、W和C均为正整数。当然，该计算机设备还可以通过该第二尺度的神经网络或其他尺度的神经网络，对该第二特征图进行下采样，得到第三尺度的第三特征图，该第三特征图的大小可以为H/4*W/4*4C。需要说明的是，本申请实施例对各个神经网络执行下采样步骤的次数不作限定。

以其中一个卷积层为例对上述卷积运算过程进行说明，一个卷积层可以包括一个或多个卷积核，每个卷积核对应一个扫描窗口，该扫描窗口的大小与该卷积核的大小相同，在卷积核进行卷积运算的过程中，该扫描窗口可以按照目标步长在特征图上滑动，依次扫描该特征图的各个区域，其中，该目标步长可以由开发人员进行设置。以一个卷积核为例，在卷积运算的过程中，当该卷积核的扫描窗口滑动至特征图的任一区域时，该计算机设备读取该区域中各个特征点对应的数值，将该卷积核与该各个特征点对应的数值进行点乘运算，再对各个乘积进行累加，将累加结果作为一个特征点。之后，该卷积核的扫描窗口按照目标步长滑动至特征图的下一区域，再次进行卷积运算，输出一个特征点，直至该特征图的全部区域扫描完毕，将输出的全部特征点组成一个特征图，作为下一个卷积层的输入。其中，该卷积层的具体数目可以由开发人员设置，本申请实施例对此不作限定。

需要说明的是，上述对多尺度的特征图获取方式的说明，仅是一种示例性说明。在一种可能实现方式中，各个不同尺度的神经网络也可以是并列的，也即是，该计算机设备可以通过多尺度的神经网络，基于不同尺度的卷积核以及步长，分别对目标图像进行不同尺度的特征提取，直接得到多个不同尺度的特征图。本申请实施例对具体采用哪种方法获取多个不同尺度的特征图不作限定。

应用上述技术方案，在图像特征提取过程中，获取到不同尺度的特征图，既可以保留原始尺度的图像信息特征，也可以获取到下采样后不同尺度的图像特征，使该计算机设备可基于多尺度的图像特征执行后续的图像分割步骤，提高图像分割结果的准确性。

204、计算机设备基于多个不同尺度，对该第一掩膜进行尺度变换，得到各个特征图对应的中间掩膜。

在本申请实施例中，该计算机设备还需对该第一掩膜的大小进行调整，得到各个特征图对应的中间掩膜，任一特征图与其所对应的中间掩膜尺度相同。

在一种可能实现方式中，该第一特征图和该第一掩膜均与该目标图像大小相同，则可以将该第一掩膜作为该第一特征图对应的第一掩膜，该计算机设备可以通过平均池化层对该第一掩膜进行下采样，得到该第二特征图对应的第二掩膜，该第二掩膜的与该第二特征图尺度相同。

需要说明的是，在本申请实施例中，采用先获取多尺度的特征图，再多尺度的掩膜的执行顺序进行描述，在一些可能的实施例中，也可以先执行获取多尺度的掩膜的步骤，再执行获取多尺度的特征图的步骤，或者两个步骤同时执行。

上述步骤203以及步骤204，是通过该多个不同尺度的神经网络对该目标图像以及该第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜的步骤。通过获取不同尺度的特征图和掩膜，以得到不同分辨率的图像信息，基于多分辨率的图像信息进行图像分割，应用上述技术方案，无需通过上采样处理来还原高分辨率的图像信息，避免在上采样处理进行图像还原的过程中所造成的误差，提高图像分割结果的准确性。

205、计算机设备通过至少一个注意力单元，对每个特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到多个不同尺度的加权特征图。

在本申请实施例中，对于每个注意力单元，可以获取前一个注意力单元输出的多个不同尺度的加权特征图，对每个加权特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到多个不同尺度的加权特征图。也即是，对于第n个注意力单元，可以获取前一个注意力单元，即第n-1个注意力单元所输出的i个不同尺度的加权特征图{

}，基于注意力机制对各个加权特征图进行加权运算，得到i个不同尺度的加权特征图{

}，将这些加权特征图{

}输入后一个注意力单元，即第n+1个注意力单元。其中，n和i均为正整数。本申请实施例对该图像分割模型中所包含注意力单元的具体数目不作限定，在本申请实施例中，以第n个注意力单元对一个加权特征图进行加权运算为例进行说明，该过程具体可以包括以下步骤：

步骤一、计算机设备可以基于任一加权特征图以及与该任一加权特征图尺度相同的该中间掩膜，确定该任一加权特征图中目标区域对应的第一权重序列以及背景区域对应的第二权重序列。

其中，该目标区域为该目标对象的所在区域，也即是，当该中间掩膜表示为0和1组成的矩阵时，该加权特征图与该中间掩膜中相同位置的元素一一对应，该中间掩膜中取值为1的元素，在该加权特征图中所覆盖的区域即为目标区域，取值为0的元素在该特征图中所覆盖的区域即为背景区域。

在本申请实施例中，对于任一加权特征图，该计算机设备可以对各个图像通道中属于不同区域的元素分别取平均值，得到该第一权重序列以及该第二权重序列，权重序列中的一个元素可以表示一个图像通道所包含的各个元素对应的权重。具体的，该第一权重序列以及该第二权重序列的计算方法具体可以表示为下述公式（1）和公式（2）：

（1）

（2）

其中，

可以表示前一个注意力单元，即第n-1个注意力单元输出的第i尺度的加权特征图，

可以表示

中第x个图像通道对应的元素，

可以表示目标图像的第i个尺度的中间掩膜，*可以表示两个矩阵中相同位置的元素对应相乘，sum可以表示对矩阵中全部元素进行求和，

可以表示第i尺度的加权特征图所对应的第一权重序列中的第x个元素，

可以表示第i尺度的加权特征图所对应的第二权重序列中的第x个元素。

在本申请实施例中，通过特征图对应的掩膜来区分加权特征图中的目标区域和背景区域，即对目标对象和非目标对象进行区分，对不同的区域赋予不同的权重，也即是，对不同区域分配不同的注意力，使图像分割模型更加关注图像中的重点区域，即该目标图像中的目标对象所在区域。

步骤二、计算机设备基于该第一权重序列以及该第二权重序列，对任一特征图中不同区域的元素进行加权运算，得到任一特征图对应的加权特征图。

在本申请实施例中，该计算机设备还可以对该第一权重序列以及该第二权重序列进行特征融合，基于特征融合后的该第一权重序列以及该第二权重序列，执行对该任一特征图进行加权运算的步骤。在一种可能实现方式中，该计算机设备可以对该第一初始权重序列以及该第二初始权重序列进行池化处理，得到中间权重序列，再按照目标比例对该中间权重序列进行拆分，得到特征融合后的该第一权重序列以及该第二权重序列。其中，该目标比例可以由开发人员进行设置，本申请实施例对此不作限定。

具体的，以对两个不同尺度的特征图所对应的各个权重序列进行特征融合为例，首先，该计算机设可以按照目标顺序对各个特征图对应的权重序列进行拼接，通过一个全连接层，对拼接后的权重序列进行池化处理，得到一个低维度的中间权重序列。其中，该目标顺序可以由开发人员进行设置，本申请实施例对此不作限定。例如，第一尺度的特征图对应的两个权重序列均为1*1*C的序列，第二尺度的特征图对应的两个权重序列均为1*1*2C的序列，则拼接后得到1*1*6C的序列，对该1*1*6C的序列进行池化处理，得到1*1*6C/r的中间权重序列。其中，r为一个预设参数，本申请实施例对其具体数值不作限定。当然，该计算机设备还可以通过ReLU（Rectified Linear Unit，修正线性单元）对该中间权重序列进行非线性变换，以对中间权重序列中的各个数值进行调整，本申请实施例对此不作限定。然后，该计算机设备可以按照目标比例对该中间权重序列进行拆分，得到特征融合后的多个权重序列，需要说明的是，各个特征图所对应的特征融合后的权重序列与特征融合前的权重序列维度是相同的。例如，该目标比例可以设置为1:1:2:2，按照该目标比例进行拆分后，可以得到两个1*1*C的序列和两个1*1*2C的序列，分别为第一尺度的特征图对应的两个权重序列以及第二尺度的特征图对应的两个权重序列。最后，该计算机设备还可以通过一个全连接层以及一个激活函数对各个特征融合后的权重序列进行数值调整。

需要说明的是，在上述实施例中，仅以对两个尺度的特征图所对应的各个权重序列进行特征融合为例进行说明，对三个尺度的特征图或更多尺度的特征图进行特征融合的方法，与上述过程同理，在此不做赘述。

应用上述技术方案，通过对各个权重序列进行特征融合，可以使一个图像通道所对应的权重能够融合其他图像通道的权重信息，充分融合多通道的图像信息，可以提高模型对目标区域的识别度，提高模型性能。

在本申请实施例中，该计算机设备可以基于特征融合后的权重序列，对各个尺度的特征图进行加权运算，得到加权特征图。具体的，该加权运算的方法可以表示为下述公式（3）：

（3）

其中，

可以表示第n个注意力单元所输出的第i尺度的加权特征图，

可以表示加权特征图

中第x图像通道所对应的元素，

可以表示特征融合后的第一权重序列，

可以表示特征融合后的第二权重序列，

可以表示第i尺度的中间掩膜。

参见图4，图4是本申请实施例提供的一种注意力单元的结构示意图，在一种可能实现方式中，该注意力单元可以基于SE-Net（Squeeze-and-Excitation Networks，挤压和激励网络）构建，该注意力单元可以包括残差网络401、池化层402、全连接层403、修正线性单元404、全连接层405、激活函数层406以及全局运算层（Scale）407。其中，该残差网络401可以用于对输入的特征图进行数值调整，以便于进行后续的运算过程，在本申请实施例中，对该残差网络401的具体结构不作限定；该池化层402可以用于执行上述的权重序列计算过程；该全连接层403、修正线性单元404可以用于执行上述的权重序列特征融合过程；该全连接层405、激活函数层406可以用于对特征融合后的权重序列进行数值调整；该全局运算层407可以用于执行上述的对特征图进行加权运算的过程。在本申请实施例中，应用上述注意力单元，来对ROI（Region of Interest，感兴趣区域）内外作不同处理以及对不同尺度的图像特征进行相互作用。一方面，可以使图像分割模型可以更加关注ROI区域中的信息，即更加关注图像中的关键信息；另一方面，通过对不同尺度的特征图对应的权重序列进行融合，可以实现多尺度、多通道的信息融合。

206、计算机设备获取最后一个注意力单元输出的各个加权特征图，作为中间特征图。

在一种可能实现方式中，两个相邻的注意力单元之间还可以包括一个特征融合单元，即可以将多个不同尺度的加权特征图进行特征融合，得到融合后的多个加权特征图，将融合后的多个加权特征图作为下一注意力单元的输入。参见图5，图5是本申请实施例提供的一种特征融合方法的示意图，以对第一尺度的特征图501和第二尺度的特征图502进行特征融合为例，该计算机设备可以通过卷积运算对特征图501进行下采样，得到特征图503，该特征图503与该特征图502尺度相同；该计算机设备可以通过最近邻插值的方式对特征图502进行上采样，得到特征图504，该特征图504与该特征图501尺度相同；该计算机设备可以对该特征图503和该特征图502进行特征融合，得到融合后的特征图505，对该特征图501和该特征图504进行特征融合，得到融合后的特征图506。在一种可能实现方式中，该计算机设备可以将该特征图503与该特征图502相同位置的元素相加，再取平均值来实现特征融合。需要说明的是，本申请实施例对上采样、下采样的具体过程不作限定。

上述对两个加权特征图进行特征融合的说明，仅是一种示例性说明，本申请实施例对具体采用哪种特征融合方法不作限定。在本申请实施例中，该计算机设备还可以对三个或三个以上的加权特征图进行特征融合，该过程与上述对两个加权特征图进行特征融合的过程同理，在此不做赘述。在本申请实施例中，通过在两个注意力单元之间设置特征融合单元，来对不同尺度的特征图进行特征融合，使各个特征图可以融合不同分辨率图像的图像特征，也即是，使模型在图像分割过程中可以充分融合不同分辨率的图像特征，从而提高图像分割结果的准确性。

在一种可能实现方式中，对于特征融合后的各个加权特征图，该计算机设备还可以通过残差网络对各个加权特征图进行调整。参见图6，图6是本申请实施例提供的一种残差网络的示意图，该残差网络可以包括卷积单元601、批标准化（Batch Norm）单元602以及修正线性单元603。当然，该残差网络还可以包括其他运算单元，本申请实施例对此不作限定。在本申请实施例中，应用上述残差网络对各个加权特征图中元素的取值进行调整，可以有效缓解由于神经网络的增加深度而造成的梯度消失问题，避免模型性能退化。

参见图7，图7是本申请实施例提供的一种中间特征图获取方法的示意图，以该图像分割模型包括三个注意力单元为例进行说明，特征提取单元所提取到的不同尺度的特征图701和特征图702，分别通过残差网络进行调整后，可以输入第一注意力单元，得到加权特征图703以及加权特征图704。由特征融合单元对两个加权特征图进行特征融合，得到特征融合后的加权特征图705和加权特征图706，该计算机设备还可以对该加权特征图706进行下采样，得到更小尺度的加权特征图707，使图像分割模型可以融合更多尺度的图像特征。加权特征图705、706和707分别通过残差网络进行调整后，可以输入第二注意力单元，得到不同尺度的加权特征图708、709、710，加权特征图708、709、710通过特征融合单元以及残差网络的处理后，再输入第三注意力单元，得到加权特征图711、712、713，该计算机设备可以获取加权特征图711、712、713作为多个不同尺度的中间特征图。

需要说明的是，上述步骤205和步骤206，是通过至少一个注意力单元，对每个特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图的步骤。在本申请实施例中，一方面，可以通过多个级联的注意力单元持续对特征图中不同的区域赋予不同的权重，使图像分割模型在图像分割过程中可以持续关注目标图像中的目标对象，为目标对象分配更多的注意力；另一方面，可以通过不同尺度的特征图之间的特征融合，实现多分辨率图像的特征融合，有效的保留高分辨率图像的信息。

207、计算机设备对每个中间特征图进行特征融合，得到第二掩膜。

在本申请实施例中，该计算机设备可以对各个中间特征图进行特征融合，得到目标尺度的目标特征图。在一种可能实现方式中，首先，该计算机设备可以将各个中间特征图中最大的特征图尺度，确定为该目标尺度；然后，将各个中间特征图转换为该目标尺度的中间特征图，例如，可以通过上采样的方式来扩大各个中间特征图的尺寸，本申请实施例对该上采样的方法不作限定；最后，该计算机设备可以对各个目标尺度的中间特征图进行特征融合，得到该目标特征图，例如，可以通过对各个目标尺度的中间特征图中相同位置的元素相加，取平均值等方式，实现特征融合。

在本申请实施例中，该计算机设备可以基于该目标特征图，确定该第二掩膜。例如，该计算机设备可以对该目标特征图进行归一化处理和二值化处理，使该目标特征图转换为一个二值化矩阵，即得到该第二掩膜。其中，该第二掩膜可以用于预测该目标对象在该目标图像的位置信息。

应用上述技术方案，一方面，可以实现对多尺度的图像特征进行融合；另一方面，将各个特征图均转换为最大尺度的特征图，进而确定第二掩膜，使该图像分割模型可以基于最大分辨率的图像信息来进行图像分割，使图像分割结果更加准确。

208、计算机设备判断该第二掩膜是否满足目标条件。

在一种可能实现方式中，该目标条件可以设置为该第一掩膜与该第二掩膜之间的误差小于误差阈值。该计算机设备可以确定该第二掩膜与该第一掩膜之间的误差，若该误差小于误差阈值，则确定该第二掩膜满足该目标条件，若该误差大于该误差阈值，则确定该第二掩膜不满足该目标条件。

在一种可能实现方式中，该计算机设备可以通过获取第二掩膜与第一掩膜之间的dice系数，来确定两个掩膜之间的误差。具体的，该误差确定方法可以表示为下述公式（4）：

（4）

其中，D可以表示第二掩膜与第一掩膜之间的误差，

可以表示第一掩膜，

可以表示第二掩膜，

和

可以分别表示第一掩膜

和第二掩膜

中的元素的数目，

可以表示两个掩膜之间的交集。

需要说明的是，上述对确定两个掩膜之间误差的方法的说明，仅是一种示例性说明，本申请实施例对具体采用哪种方法确定两个掩膜之间的误差不作限定。

在本申请实施例中，该计算机设备可以将获取到的误差数值与误差阈值进行比较，其中，该误差阈值可以由开发人员进行设置，本申请实施例对此不作限定，例如，该误差阈值可以设置为0.01。当该误差小于误差阈值时，该计算机设备可以确定该第二掩膜满足该目标条件，当该误差大于误差阈值时，则确定该第二掩膜不满足该目标条件。

需要说明的是，上述对目标条件的说明，仅是一种示例性说明，本申请实施例对该目标条件的具体内容不作限定。

209、计算机设备响应于该第二掩膜满足目标条件，基于该第二掩膜将该目标图像中的目标对象分割出来，否则，基于该第二掩膜对该第一掩膜进行调整，由该图像分割模型基于调整后的第一掩膜以及该目标图像输出新的第二掩膜，判断该新的第二掩膜是否满足该目标条件。

在一种可能实现方式中，该计算机设备可以将该第二掩膜作为该第一掩膜，即对该第一掩膜进行更新，将更新后的该第一掩膜以及该目标图像重新输入该图像分割模型，执行上述步骤203至步骤207，得到一个新的第二掩膜。直到获取到的新的第二掩膜满足目标条件时，则该计算机设备可以确定获取得到准确的第二掩膜，可以基于该第二掩膜确定出目标对象的所在区域，对该目标图像进行分割，输出仅包含该目标对象的图像。也即是，该图像分割模型在第j次运算过程中输出的掩膜

，不满足目标条件时，则将该掩膜

作为输入，由图像分割模型基于掩膜

与目标图像进行第j+1次运算，得到掩膜

，判断掩膜

是否满足目标条件。直到第j+n次运算输出满足目标条件的掩膜

，基于掩膜

进行图像分割。其中，j和n均为正整数。需要说明的是，本申请实施例对该图像分割的具体方式不作限定。当然，该计算机设备还可以设置有一个迭代阈值，该第一掩膜的迭代次数达到该迭代阈值时，则基于最后一次迭代所得到的第二掩膜进行图像分割，其中，该迭代阈值的具体数值可以由开发人员进行设置，本申请实施例对此不作限定。应用上述技术方案，通过多次循环迭代，来调整第二掩膜，即可以应用上一轮的分割信息，来调整图像分割区域，可以实现由粗略到精确的图像分割，准确分割出目标图像中的目标对象。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例提供的技术方案，通过图像分割模型中多个不同尺度的神经网络对目标图像以及第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜，在这一过程中，充分保留了高分辨率的图像信息；通过至少一个注意力单元，对每个特征图中不同区域的元素应用不同的注意力权重进行加权运算，即为不同区域分配不同的注意力，得到每个特征图对应的中间特征图；对每个中间特征图进行特征融合，得到第二掩膜，即确定出分割区域；响应于第二掩膜满足目标条件，基于第二掩膜将目标图像中的目标对象分割出来，否则，基于第二掩膜对第一掩膜进行调整，由图像分割模型基于调整后的第一掩膜以及目标图像输出新的第二掩膜，判断新的第二掩膜是否满足该目标条件。在上述方案中，应用注意力机制、多尺度特征融合、迭代调整分割区域三种途径，来提高模型性能，提高图像分割结果的准确性。

图8是本申请实施例提供的一种图像分割处理流程示意图，参见图8，该终端801可以是任一用户使用的设备，该终端801中可以安装有支持图像分割的目标应用程序，用户可以通过该目标应用程序输入待分割的目标图像，由图像分割系统对该目标图像进行图像预处理以及图像分割，即执行上述步骤202至步骤208，得到分割完成的图像，将分割完成的图像输出至终端802，该终端802与该终端801可以为同一设备，也可以为不同设备，本申请实施例对此不作限定。例如，在医疗检测领域， CT设备等图像采集设备可以将采集到的医学图像传输至该图像分割系统，由该图像分割系统对医学图像进行分割，例如可以分割出该医学图像中的各个病灶，再将分割出的病灶图像传输至医务人员所使用的终端设备，医务人员可以基于病灶图像进行诊断。参见图9，图9是本申请实施例提供的一种图像分割系统的具体应用示意图，以该图像分割系统与医疗领域相结合为例，终端901可以获取医学图像902，该医学图像902中可以包括待分割出的目标器官903，终端901可以将医学图像902输入图像分割系统904，图像分割系统904完成图像分割后，可以图像分割结果输出至医务人员所使用的终端905，由终端905对分割出的图像进行显示，即对仅包含目标器官903的图像进行显示，当然，该终端905也可以对原始的医学图像902进行显示，在医学图像902将该目标器官903的轮廓标注为目标颜色。其中，该目标颜色可以由开发人员进行设置。需要说明的是，本申请实施例对图像分割结果的具体显示方式不作限定。上述技术方案可以应用于各个医疗机构，辅助医务人员来进行医学图像处理，获取到准确的病灶图像，便于医务人员进行临床诊断。

上述实施例主要介绍了通过图像分割模型进行图像分割的过程，而在进行图像分割之前，该图像分割模型进行训练，图10是本申请实施例提供的图像分割模型训练方法的流程图。参见图10，该方法具体可以包括以下步骤：

1001、计算机设备初始化该图像分割模型中的各个参数。

该计算机设备可以对该图像分割模型的各个卷积层、全连接层、池化层等运算层中的各个参数进行随机赋值，来实现参数初始化。在一种可能实现方式中，该计算机设备可以采用方差为0.01，均值为0的高斯分布对该图像分割模型进行参数初始化。

需要说明的是，上述对图像分割模型初始化方法的说明仅是一种示例性说明，本申请实施例对具体采用哪种模型初始化方式不作限定。

1002、计算机设备将训练数据集输入该图像分割模型。

其中，该训练数据集可以包括多组样本图像，一组样本图像可以包括一个原始图像以及该原始对象对应的分割完成的图像。其中，该原始图像可以为CT图像、MRI（MagneticResonance Imaging，磁共振成像）图像、内窥镜图像等医学图像，还可以为BraTS18数据集中的图像。

在本申请实施例中，该计算机设备还可以对训练数据集中的各个图像进行变换，以丰富训练数据集中的样本。例如，可以对各组样本图像进行旋转、缩放、对比度调整等数据增广处理，以增加样本数量，增加样本信息价值。当然，该计算机设备还可以对样本图像进行归一化处理等，本申请实施例对此不作限定。

该计算机设备可以将训练数据集中的原始图像以及各个原始图像对应的第一掩膜输入该图像分割模型，由该图像分割模型执行后续的图像分割步骤。

1003、计算机设备获取该图像分割模型的模型输出结果，计算模型输出结果与正确结果之间的误差。

在一种可能实现方式中，该计算机设备可以基于至少一个损失函数来确定该模型输出结果与正确结果之间的误差。例如，可以通过损失函数计算模型输出结果与正确结果之间的dice loss（骰子损失），作为模型输出结果与正确结果之间的误差。当然，该计算机设备还可以通过其他方法确定该误差，本申请实施例对此不作限定。

1004、该计算机设备基于该模型输出结果与正确结果之间的误差，对该图像分割模型中的各个参数进行调整，至到符合预设条件时，得到训练好的图像分割模型。

在一种可能实现方式中，该计算机设备可以将该误差与预设阈值进行比较，当该误差大于预设阈值时，该计算机设备可以将误差反向传播至该图像分割模型，采用基于Adam（adaptive moment estimation，适应性矩估计）算法的梯度下降法求解该图像分割模型中的各个参数。具体的，该图像分割模型的初始学习率可以为0.05，Adam算法中的参数可以为0.95和0.9995。其中，该预设阈值可以由开发人员进行设置，本申请实施例对此不作限定。

当该误差小于预设阈值时，则确定该图像分割模型输出了正确的图像分割结果，该计算机设备可以继续读取下一组样本图像，执行上述步骤1003，若该计算机设备获取到的模型输出结果正确的个数到达目标数目，或者遍历该训练数据集达到目标次数时，则可以确定该图像分割模型训练完毕，即达到预设条件。其中，该目标数目和目标次数均可以由开发人员进行设置，该预设条件的具体内容可以由开发人员进行设置，本申请实施例对此不作限定。

图11是本申请实施例提供的一种图像分割装置的结构示意图，参见图11，该装置包括：

输入模块1101，用于将包含目标对象的目标图像以及第一掩膜输入图像分割模型，该图像分割模型包括多个不同尺度的神经网络以及至少一个注意力单元；

特征提取模块1102，用于通过该多个不同尺度的神经网络对该目标图像以及该第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜；

加权模块1103，用于通过该至少一个注意力单元，对每个该特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图；

特征融合模块1104，用于对每个该中间特征图进行特征融合，得到第二掩膜，该第二掩膜用于预测该目标对象在该目标图像的位置信息；

图像分割模块1105，用于响应于该第二掩膜不满足目标条件，基于该第二掩膜将该目标图像中的目标对象分割出来，否则，基于该第二掩膜对该第一掩膜进行调整，由该图像分割模型基于调整后的第一掩膜以及该目标图像输出新的第二掩膜，判断该新的第二掩膜是否满足该目标条件。

在一种可能实现方式中，该特征提取模块1102用于：

在一种可能实现方式中，该加权模块1103用于：

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该权重融合模块1104用于：

在一种可能实现方式中，该特征融合模块1104用于：

基于该目标特征图，确定该第二掩膜。

在一种可能实现方式中，该特征融合模块用于：

将各个该中间特征图转换为该目标尺度的中间特征图；

在一种可能实现方式中，该特征融合模块1104用于：

在一种可能实现方式中，该装置还包括：

本申请实施例提供的装置，通过图像分割模型中多个不同尺度的神经网络对目标图像以及第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜，在这一过程中，充分保留了高分辨率的图像信息；通过至少一个注意力单元，对每个特征图中不同区域的元素应用不同的注意力权重进行加权运算，即为不同区域分配不同的注意力，得到每个特征图对应的中间特征图；对每个中间特征图进行特征融合，得到第二掩膜，即确定出分割区域；响应于第二掩膜满足目标条件，基于第二掩膜将目标图像中的目标对象分割出来，否则，基于第二掩膜对第一掩膜进行调整，由图像分割模型基于调整后的第一掩膜以及目标图像输出新的第二掩膜，判断新的第二掩膜是否满足该目标条件。应用上述装置，可以通过注意力机制、多尺度特征融合、迭代调整分割区域三种途径，来提高模型性能，提高图像分割结果的准确性。

需要说明的是：上述实施例提供的图像分割装置在图像分割时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像分割装置与图像分割方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述技术方案所提供的计算机设备可以实现为终端或服务器，例如，图12是本申请实施例提供的一种终端的结构示意图。该终端1200可以是：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：一个或多个处理器1201和一个或多个存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1201所执行以实现本申请中方法实施例提供的图像分割方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi(Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1204还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS（LocationBased Service，基于位置的服务）。定位组件1208可以是基于美国的GPS（GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central Processing Units，CPU）1301和一个或多个的存储器1302，其中，该一个或多个存储器1302中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1300还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由处理器执行以完成上述实施例中的图像分割方法。例如，该计算机可读存储介质可以是只读存储器（Read-Only Memory, ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘 (Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来至少一条程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像分割方法，其特征在于，所述方法包括：

将包含目标对象的目标图像以及第一掩膜输入图像分割模型，所述图像分割模型包括多个不同尺度的神经网络以及至少一个注意力单元；

通过所述多个不同尺度的神经网络对所述目标图像以及所述第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜；

通过所述至少一个注意力单元，对每个所述特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图；

对每个所述中间特征图进行特征融合，得到第二掩膜，所述第二掩膜用于预测所述目标对象在所述目标图像的位置信息；

响应于所述第二掩膜满足目标条件，基于所述第二掩膜将所述目标图像中的目标对象分割出来，否则，基于所述第二掩膜对所述第一掩膜进行调整，由所述图像分割模型基于调整后的第一掩膜以及所述目标图像输出新的第二掩膜，判断所述新的第二掩膜是否满足所述目标条件。

2.根据权利要求1所述的方法，其特征在于，所述通过所述多个不同尺度的神经网络对所述目标图像以及所述第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜，包括：

通过所述多个不同尺度的神经网络分别对所述目标图像进行特征提取，得到尺度不同的多个特征图；

基于所述多个不同尺度，对所述第一掩膜进行尺度变换，得到所述各个特征图对应的中间掩膜。

3.根据权利要求2所述的方法，其特征在于，所述通过所述多个不同尺度的神经网络分别对所述目标图像进行特征提取，得到尺度不同的多个特征图，包括：

对于所述多个不同尺度的神经网络中的任一个神经网络，获取前一个神经网络输出的第一尺度的特征图，对所述第一尺度的特征图进行下采样，得到第二尺度的特征图，所述第二尺度小于所述第一尺度；

获取各个神经网络输出的特征图，得到所述尺度不同的多个特征图。

4.根据权利要求1所述的方法，其特征在于，所述通过所述至少一个注意力单元，对每个所述特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图，包括：

对于每个注意力单元，获取前一个注意力单元输出的多个不同尺度的加权特征图，对每个所述加权特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到多个不同尺度的加权特征图；

获取最后一个注意力单元输出的多个不同尺度的加权特征图，作为所述中间特征图。

5.根据权利要求4所述的方法，其特征在于，所述对每个所述加权特征图中不同区域的元素应用不同的注意力权重进行加权运算，包括：

基于任一加权特征图以及与所述任一加权特征图尺度相同的所述中间掩膜，确定所述任一加权特征图中目标区域对应的第一权重序列以及背景区域对应的第二权重序列，所述目标区域为所述目标对象的所在区域；

基于所述第一权重序列以及所述第二权重序列，对所述任一加权特征图中不同区域的元素进行加权运算。

6.根据权利要求5所述的方法，其特征在于，所述基于任一加权特征图以及与所述任一加权特征图尺度相同的所述中间掩膜，确定所述任一加权特征图中目标区域对应的第一权重序列以及背景区域对应的第二权重序列之后，所述方法还包括：

对所述第一权重序列以及所述第二权重序列进行特征融合；

基于特征融合后的所述第一权重序列以及所述第二权重序列，执行对所述任一特征图进行加权运算的步骤。

7.根据权利要求6所述的方法，其特征在于，所述对所述第一权重序列以及所述第二权重序列进行特征融合，包括：

对所述第一初始权重序列以及所述第二初始权重序列进行池化处理，得到中间权重序列；

按照目标比例对所述中间权重序列进行拆分，得到特征融合后的所述第一权重序列以及所述第二权重序列。

8.根据权利要求1所述的方法，其特征在于，所述对每个所述中间特征图进行特征融合，得到第二掩膜，包括：

对各个所述中间特征图进行特征融合，得到目标尺度的目标特征图；

基于所述目标特征图，确定所述第二掩膜。

9.根据权利要求8所述的方法，其特征在于，所述对各个所述中间特征图进行特征融合，得到目标尺寸的目标特征图，包括：

将各个所述中间特征图中最大的特征图尺度，确定为所述目标尺度；

将各个所述中间特征图转换为所述目标尺度的中间特征图；

对各个所述目标尺度的中间特征图进行特征融合，得到所述目标特征图。

10.根据权利要求9所述的方法，其特征在于，所述对各个所述目标尺度的中间特征图进行特征融合，得到所述目标特征图，包括：

对各个所述目标尺度的中间特征图中相同位置的元素取平均值，得到一个新的矩阵，将所述新的矩阵作为所述目标特征图。

11.根据权利要求8所述的方法，其特征在于，所述基于所述目标特征图，确定所述第二掩膜，包括：

对所述目标特征图进行归一化处理，得到一个归一化的数值矩阵；

基于目标阈值，对所述数值矩阵进行二值化处理，得到所述第二掩膜。

12.根据权利要求1所述的方法，其特征在于，所述对每个所述中间特征图进行特征融合，得到第二掩膜之后，所述方法还包括：

确定所述第二掩膜与所述第一掩膜之间的误差；

若所述误差小于误差阈值，则确定所述第二掩膜满足所述目标条件；若所述误差大于所述误差阈值，则确定所述第二掩膜不满足所述目标条件。

13.一种图像分割装置，其特征在于，所述装置包括：

输入模块，用于将包含目标对象的目标图像以及第一掩膜输入图像分割模型，所述图像分割模型包括多个不同尺度的神经网络以及至少一个注意力单元；

特征提取模块，用于通过所述多个不同尺度的神经网络对所述目标图像以及所述第一掩膜分别进行数据处理，得到尺度不同的多个特征图以及各个特征图对应的中间掩膜；

加权模块，用于通过所述至少一个注意力单元，对每个所述特征图中不同区域的元素应用不同的注意力权重进行加权运算，得到尺度不同的多个中间特征图；

特征融合模块，用于对每个所述中间特征图进行特征融合，得到第二掩膜，所述第二掩膜用于预测所述目标对象在所述目标图像的位置信息；

图像分割模块，用于响应于所述第二掩膜满足目标条件，基于所述第二掩膜将所述目标图像中的目标对象分割出来，否则，基于所述第二掩膜对所述第一掩膜进行调整，由所述图像分割模型基于调整后的第一掩膜以及所述目标图像输出新的第二掩膜，判断所述新的第二掩膜是否满足所述目标条件。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的图像分割方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的图像分割方法所执行的操作。