CN117237756A

CN117237756A - 一种训练目标分割模型的方法、目标分割方法及相关装置

Info

Publication number: CN117237756A
Application number: CN202311191062.0A
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Digital Health Intelligent Technology Co ltd
Current assignee: Shenzhen Digital Health Intelligent Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-15

Abstract

本发明涉及一种训练目标分割模型的方法，包括：获取训练集，训练集包括多帧连续的原始图像，各帧原始图像均标注有目标的真实标签；将训练集中的原始图像输入卷积神经网络，获得每帧原始图像的多个尺度的特征图；将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入门控循环单元网络，以获得融合特征图；将当前帧原始图像的多个尺度的特征图和融合特征图输入特征融合解码网络，获得目标的预测标签；基于损失函数计算真实标签和预测标签之间的损失，并根据损失对目标分割模型进行迭代训练，直到目标分割模型收敛，得到训练后的目标分割模型。得到的目标分割模型能够准确地分割出目标，减少复杂背景的干扰和伪影的产生。

Description

一种训练目标分割模型的方法、目标分割方法及相关装置

技术领域

本发明涉及视频内容理解技术领域，尤其涉及一种训练目标分割模型的方法、目标分割方法及相关装置。

背景技术

在数字化时代，各种多媒体数字内容，例如文本、音频、图像和视频等都充斥着人类的日常生活。随着附带有摄像头和传感器的各类移动设备的普及，视频已成为互联网用户之间全新的沟通方式，例如视频会议、视频通话等线上形式的视频沟通方式。这种趋势使得一系列视频内容理解技术及其相关应用得以蓬勃发展，实现了处于不同位置的用户之间通过通信设备和网络进行面对面的交谈。视频的人体分割是其中一项核心技术，并且在运动健康领域得到广泛的发展，要求能够实时地分割人物主体，并将人物主体从复杂的背景中分离出来，从而能够精准地生成人物在不同背景下的运动场景，增强娱乐性。然而在实际应用中，人物运动的场景比较复杂，受到复杂背景的干扰，在分割人物区域的同时，容易将一些复杂的背景图像也分割出来，导致存在明显的伪影情况，目标分割不稳定，用户体验较差。

发明内容

本发明实施例提供一种训练目标分割模型的方法、目标分割方法及相关装置，得到的目标分割模型能够准确地分割出目标，减少复杂背景的干扰和伪影的产生，降低目标分割边界的抖动性。

为解决上述技术问题，第一方面，本发明实施例提供一种训练目标分割模型的方法，所述目标分割模型包括卷积神经网络、门控循环单元网络和特征融合解码网络，所述方法包括：

获取训练集，所述训练集包括多帧连续的原始图像，各帧所述原始图像均标注有目标的真实标签；

将所述训练集中的原始图像输入所述卷积神经网络，获得每帧所述原始图像的多个尺度的特征图；

将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络，以融合所述第一特征图和所述第二特征图，获得融合特征图，所述第一特征图和所述第二特征图均为对应的原始图像的尺度最小的特征图；

将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络，获得所述目标的预测标签；

基于损失函数计算所述真实标签和所述预测标签之间的损失，并根据所述损失对所述目标分割模型进行迭代训练，直到所述目标分割模型收敛，得到训练后的目标分割模型。

在一些实施例中，所述将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络，以融合所述第一特征图和所述第二特征图，获得融合特征图，包括：

将所述第一特征图和所述第二特征图输入所述门控循环单元网络，并根据第一公式对所述第一特征图和所述第二特征图进行特征融合，以获得融合特征图，其中，所述第一公式为：

Z_t＝σ(W_z*[h_t-1,x_t])

r_t＝σ(W_r*[h_t-1,x_t])

其中，h_t-1表示所述第二特征图，x_t表示所述第一特征图，σ表示激活函数，Z_t表示所述融合特征图的更新门，r_t表示所述融合特征图的重置门，W_z、W_r和表示权重矩阵，/>表示所述融合特征图的候选隐藏状态，h_t表示所述融合特征图。

在一些实施例中，所述特征融合解码网络包括多个级联的解码层，所述将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络，获得所述目标的预测标签，包括：

将所述融合特征图输入第一级解码层进行上采样操作，得到所述第一级解码层的第一级输出特征图，连接所述第一级输出特征图与第一目标特征图，得到第一级连接特征图，其中，所述第一目标特征图与所述第一级输出特征图的尺度相同，所述第一目标特征图为所述当前帧原始图像的尺度最小的特征图；

将所述第一级连接特征图输入下一级解码层进行上采样操作，得到所述下一级解码层的下一级输出特征图，连接所述下一级输出特征图与下一目标特征图，得到下一级连接特征图，其中，所述下一目标特征图为所述当前帧原始图像的特征图中与所述下一级输出特征图尺度相同的特征图；

通过剩余的解码层重复执行所述将所述第一级连接特征图输入下一级解码层进行上采样操作，得到所述下一级解码层的下一级输出特征图，连接所述下一级输出特征图与下一目标特征图，得到下一级连接特征图，直至得到尺度与所述当前帧原始图像尺度相同的输出特征图，获得所述目标的预测标签。

在一些实施例中，所述目标分割模型还包括注意力网络，所述方法还包括：

将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络，获得各尺度的特征图的注意力分数。

在一些实施例中，所述将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络，获得各尺度的特征图的注意力分数，包括：

将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络；

根据第二公式计算所述注意力分数，其中，所述第二公式为：

S_n＝W^T*f_n+b

α＝Softmax(s)

其中，W^T表示权重矩阵，b表示偏置参数，f_n表示所述当前帧原始图像的特征图，n表示所述当前帧原始图像的特征图的数量，α表示的是所述当前帧原始图像的特征图的注意力分数，取值范围为[0,1]，Softmax()函数为归一化函数，s＝S_n。

在一些实施例中，所述损失函数为：

其中，p表示所述目标的真实标签，表示所述目标的预测标签，α_i表示所述当前帧原始图像的第i个特征图的注意力分数，n表示所述当前帧原始图像的特征图的数量。

为解决上述技术问题，第二方面，本发明实施例提供一种目标分割方法，包括：

获取待处理图像；

将所述待处理图像输入目标分割模型，以获得所述待处理图像中目标的预测标签，其中，所述目标分割模型是采用如上述任一项所述的训练目标分割模型的方法训练得到的；

根据所述目标的预测标签从所述待处理图像中分割出目标图像。

为解决上述技术问题，第三方面，本发明实施例提供一种电子设备，包括：

处理器以及与所述处理器通信连接的存储器；

所述存储器中存储有所述处理器可执行的计算机程序指令，所述计算机程序指令在被所述处理器调用时，以使所述处理器执行上述任一项所述的训练目标分割模型的方法或者上述任一项所述的目标分割方法。

为解决上述技术问题，第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，处理器运行所述计算机程序指令，以执行上述任一项所述的训练目标分割模型的方法或者上述任一项所述的目标分割方法。

本发明实施例的有益效果：区别于现有技术的情况，本发明实施例提供的训练目标分割模型的方法，所述目标分割模型包括卷积神经网络、门控循环单元网络和特征融合解码网络，所述方法包括：获取训练集，训练集包括多帧连续的原始图像，各帧原始图像均标注有目标的真实标签；将训练集中的原始图像输入卷积神经网络，获得每帧原始图像的多个尺度的特征图；将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入门控循环单元网络，以融合第一特征图和第二特征图，获得融合特征图，第一特征图和第二特征图均为对应的原始图像中尺度最小的特征图；将当前帧原始图像的多个尺度的特征图和融合特征图输入特征融合解码网络，获得目标的预测标签；基于损失函数计算真实标签和预测标签之间的损失，并根据损失对目标分割模型进行迭代训练，直到目标分割模型收敛，得到训练后的目标分割模型。

本发明实施例在训练目标分割模型时，获取前一帧原始图像的多个尺度的特征图，将前一帧原始图像的尺度最小的特征图与当前帧原始图像的尺度最小的特征图进行特征融合，以获得融合特征图，并将融合特征图用于训练目标分割模型。从而，使得目标分割模型在训练时更注重当前帧原始图像与前一帧原始图像的关联性，强化连续帧图像之间目标主体的联系，得到的目标分割模型能够准确地分割出目标，减少复杂背景的干扰和伪影的产生，降低目标分割边界的抖动性，提高目标分割的准确度和稳定性，分割结果更加准确可靠，提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，以下描述的附图仅示出了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明一些实施例提供的训练目标分割模型的方法的应用场景示意图；

图2是本发明一些实施例提供的电子设备的结构示意图；

图3是本发明一些实施例提供的目标分割模型的整体网络结构示意图；

图4是本发明一些实施例提供的训练目标分割模型的方法的流程示意图；

图5是本发明一些实施例提供的目标分割模型的门控循环单元网络的结构示意图；

图6是图4实施例所示训练目标分割模型的方法中步骤S400的一子流程示意图；

图7是本发明另一些实施例提供的训练目标分割模型的方法的流程示意图；

图8是本发明一些实施例提供的目标分割方法的流程示意图。

具体实施方式

为使本发明实施例的目的和优点更容易被理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅为本发明一部分实施例，而不是全部的实施例，以下在附图中对本发明实施例的详细描述并非限定本发明要求保护的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为便于对本发明实施例提供的方法进行理解，首先对本发明实施例中涉及的名词进行介绍：

(1)神经网络

神经网络可以是由神经单元组成的，具体可以理解为具有输入层、隐含层、输出层的神经网络，一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。其中，具有很多层隐含层的神经网络则称为深度神经网络(deep neural network，DNN)。神经网络中的每一层的工作可以用数学表达式y＝a(W·x+b)来描述，从物理层面，神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中、2、3的操作由“W·x”完成，4的操作由“+b”完成，5的操作则由“a()”来实现，这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合，其中，W是神经网络各层的权重矩阵，该矩阵中的每一个值表示该层的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换，即神经网络每一层的W控制着如何变换空间。训练神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

需要注意的是，在本发明实施例中，基于机器学习任务所采用的模型，本质都是神经网络。神经网络中的常用组件有卷积层、池化层和归一化层等，通过组装神经网络中的这些常用组件，设计得到模型，当确定模型参数(各层的权重矩阵)使得模型误差满足预设条件或调整模型参数的数量达到预设阈值时，模型收敛。

(2)卷积

卷积(Convolution)是一种数学运算，广泛应用于信号处理、图像处理和机器学习等领域。卷积在图像处理中的应用非常常见。当对一个图像进行卷积时，可以将一个小的滤波器或核函数应用于图像的每个像素，通过对相邻像素的加权求和来生成新的像素。这个过程可以用来实现很多图像处理任务，例如边缘检测、图像增强和模糊等。

在机器学习中，卷积神经网络(Convolutional Neural Network，CNN)是一种基于卷积运算的深度学习模型。CNN广泛应用于图像识别、物体检测和语音处理等任务中，其主要优势在于能够自动学习和提取输入数据中的特征。卷积层是CNN的核心组成部分，通过在输入数据上滑动卷积核进行卷积运算，可以有效地捕捉到输入数据的局部模式和结构信息。

(3)卷积层

卷积层(Convolutional Layer)是卷积神经网络的核心组件部分，用于对输入数据进行特征提取和卷积运算。卷积层由一组卷积核组成，每个卷积核可以看作是一个特征检测器，用于检测输入数据中的某种特定特征。卷积层通过在输入数据上滑动卷积核，对输入数据的不同位置进行卷积操作，从而生成输出的特征图。卷积层利用卷积操作对输入数据进行特征提取和特征映射，以捕捉输入数据中的空间局部特征，并通过权重共享来降低参数量，从而实现有效的特征学习和表示。

具体地，卷积层的输入是一个多通道的特征图(如图像或前一层的输出)，每个通道对应一种特征，卷积层支持多通道的输入数据和多通道的卷积核，可以提取并整合多种特征信息。卷积核与输入数据进行逐元素乘积并求和，得到一个输出特征图上的单个像素值。通过在输入数据上滑动卷积核，并对每个位置进行卷积操作，可以生成一个与输入数据尺寸相对应的输出特征图。输出特征图中的每个位置对应于输入数据中一个局部区域，通过卷积操作，卷积层能够提取出输入数据中的局部模式和特征。

卷积层在深度学习中具有重要的作用，通过多个卷积核在不同位置和尺度上对输入数据进行特征提取，从而逐渐建立起数据的高层次抽象表示和特征学习。卷积层通常与其他类型的神经网络层(如池化层、激活函数层、全连接层等)结合使用，形成一个完整的卷积神经网络，用于解决图像分割、图像分类和目标检测等计算机视觉任务，也被广泛应用于自然语言处理和其他领域的深度学习任务。

(4)卷积核

卷积核(Convolutional Kernel)，也称为滤波器(Filter)或特征检测器(FeatureDetector)，是卷积神经网络的核心组件。在图像处理和计算机视觉任务中，卷积核是一个小型的矩阵或张量，用于在图像上进行卷积操作。卷积核通常是一个正方形的矩阵，其大小可以根据任务的需求进行定义，常见的大小有1*1、3*3、5*5和7*7等。卷积核包含一组权重参数，这些权重参数用于在卷积操作中与输入数据进行加权求和。在卷积操作中，卷积核在输入数据上滑动，并在每个位置与输入数据的对应区域进行元素乘积并求和，从而生成输出的单个像素。卷积核的数量表示在每个卷积层中使用的卷积核的个数，多个卷积核可以提取不同的特征，可以根据具体任务和数据的特点来选择确定卷积核的数量，以获得模型最佳的性能和效果。

卷积核在卷积神经网络(CNN)中起到了至关重要的作用。通过设计不同的卷积核，网络可以学习到不同的特征，例如边缘、纹理、角点等。每个卷积核可以被看作是一种特征检测器，它对输入数据的某种特定特征进行敏感，并通过滑动窗口的方式在输入数据上进行计算，以提取出该特征在不同位置的存在程度。在深度学习任务中，卷积核的参数可以是通过训练过程自动学习得到的，或者也可以是通过经验进行预先设置。通过反向传播算法，神经网络可以根据损失函数的反馈信号，自动调整卷积核中的权重参数，使得神经网络能够更好地适应任务的需求，并学习到更加高层次的特征表示。

下面说明本发明实施例提供的用于训练目标分割模型或用于目标分割的电子设备的示例性应用。本发明实施例提供的电子设备可以是笔记本电脑、台式计算机或移动设备等各种合适类型、具有一定计算和控制能力的设备。作为示例，参见图1所示，图1是本发明一些实施例提供的训练目标分割模型的方法的应用场景示意图。

具体地，当电子设备100用于训练目标分割模型时，电子设备100可以被用来获取训练图像数据和构建目标分割模型，例如，本领域技术人员可以在电子设备100上下载准备好的训练图像数据，以及搭建目标分割模型的网络结构，并可以在获得训练图像数据时对目标分割模型进行训练。其中，训练图像数据包括多帧连续的原始图像。可以理解的是，电子设备100也可以被用来获取待处理图像数据，例如，本领域技术人员将待处理图像数据打包后，通过通信网络发送给电子设备100，从而，电子设备100获取到待处理图像数据。在一些实施例中，当电子设备100被用于人体目标分割时，电子设备100获取到训练图像数据或待处理图像数据后，发送给电子设备100中的控制器(图1中未示出)，从而，控制器采用内置的目标分割模型对训练图像数据或待处理图像数据进行人体目标分割，获取人体目标分割结果。

在一些实施例中，电子设备100可以本地执行本发明实施例提供的训练目标分割模型的方法来完成采用训练图像数据对设计好的目标分割模型进行训练，确定最终的模型参数，从而目标分割模型配置该最终的模型参数，即可得到目标分割模型。在另一些实施例中，电子设备100可以通过通信网络连接服务器，并向服务器发送本领域技术人员在电子设备100上存储的训练图像数据和构建好的目标分割模型，服务器接收该训练图像数据和目标分割模型，采用训练图像数据对目标分割模型进行迭代训练，确定最终的模型参数，然后将该最终的模型参数发送给电子设备100，电子设备100接收并保存该最终的模型参数，使得目标分割模型配置该最终的模型参数，即可得到目标分割模型。容易理解地，前述通信网络可以是广域网或者局域网，又或者是二者的组合。

下面说明本发明实施例中电子设备的结构，参见图2所示，图2是本发明一些实施例提供的电子设备100的结构示意图。其中，电子设备100包括通信连接的至少一个处理器110和存储器120(图2中以总线系统连接、一个处理器为例)，电子设备100中的各个组件通过总线系统130耦合在一起，总线系统130用于实现这些组件之间的连接通信。容易理解地，总线系统130除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。但是为了清楚说明和篇幅简洁起见，在图2中将各种总线都标为总线系统130。本领域技术人员可以理解，图2所示的结构仅为示意性的，其并不对上述电子设备100的结构造成限定，例如，上述电子设备100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

其中，处理器110用于提供运算和控制能力，以控制电子设备100执行相应的任务，例如，控制上述电子设备100执行上述任一项训练目标分割模型的方法，或者上述任一项目标分割方法。可以理解的是，处理器110可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器120作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的训练目标分割模型的方法或目标分割方法对应的程序指令/模块。处理器110通过运行存储在存储器120中的非暂态软件程序、指令以及模块，可以实现本发明实施例中的任一项训练目标分割模型的方法，或本发明实施例中的任一项目标分割方法。存储器120可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器120还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

参见图3所示，图3是本发明一些实施例提供的目标分割模型的整体网络结构示意图。具体地，目标分割模型包括卷积神经网络、门控循环单元网络和特征融合解码网络。在获取训练图像后，将获得的训练图像输入至卷积神经网络中，得到每一帧训练图像的多个尺度的特征图。如图3所示，图3是以五个尺度的特征图为例说明，可以理解地，还可以获得其他不同尺度的特征图。然后将前一帧训练图像的尺度最小的特征图和当前帧训练图像的尺度最小的特征图输入到门控循环单元网络(即GRU网络)中，以获得尺度最小的融合特征图。随后将获得的融合特征图和当前帧训练图像的各个尺度的特征图输入至特征融合解码网络，通过特征融合解码网络中的多个解码层对融合特征图和当前帧训练图像的各个尺度的特征图进行逐层融合，并对融合后的特征图进行解码，以获得当前帧训练图像中的目标对应的预测标签，输出目标分割图像。

在一些实施例中，目标分割模型还包括注意力网络。在获取训练图像并输入至卷积神经网络中，得到每一帧训练图像的多个尺度的特征图后，将当前帧训练图像的各个尺度的特征图输入至注意力网络(即MLP网络)，并通过采用Softmax函数对当前帧训练图像的各个尺度的特征图进行计算，以获得各个尺度的特征图的注意力分数。然后将获得的当前帧训练图像的各个尺度的特征图的注意力分数代入损失函数，计算得到目标的真实标签与预测标签之间的损失函数值，并根据损失函数值对目标分割模型进行迭代训练，直到目标分割模型收敛，从而，获得训练后的目标分割模型。

根据上文可以理解，本发明实施例提供的训练目标分割模型的方法或目标分割方法可以由各种合适类型、具有一定计算和控制能力的电子设备实施，例如由上述电子设备实施执行，或者由其他具有计算处理和控制能力、与电子设备通信连接的设备实施执行，例如服务器、智能终端等。下面结合本发明实施例提供的电子设备的示例性应用和实施，说明本发明实施例提供的训练目标分割模型的方法或目标分割方法。

参阅图4所示，图4是本发明一些实施例提供的训练目标分割模型的方法的流程示意图。本领域技术人员可以理解，该训练目标分割模型的方法的执行主体可以是上述电子设备，该训练目标分割模型的方法包括但不限于以下步骤S100-S500：

S100：获取训练集，所述训练集包括多帧连续的原始图像，各帧所述原始图像均标注有目标的真实标签。

在具体应用时，可以由用户或训练人员从各种数据源收集多个不同的原始图像，并将多个原始图像组成一个用于训练目标分割模型的数据集，其中，多个原始图像为同一段视频中的多帧连续的原始图像。可以理解的是，该训练目标分割模型的方法适用于对任何原始图像中的目标进行分割，尤其在分割的目标为运动物体时具有更好的分割效果。显然地，每帧原始图像都包括一个或多个目标，原始图像中的目标可以是静止的或者运动的，或者可以是动物、人体或者其他目标等。以下具体实施方式是以目标为人体对本发明实施例提供的训练目标分割模型的方法进行说明，容易理解地，对原始图像中的其他目标进行分割的具体执行内容和具体实施过程可以参照人体目标分割的具体实施方式。

在获得用于训练目标分割模型的原始图像数据后，根据原始图像中的人体目标对原始图像中的像素进行标注真实标签。在一些实施例中，标签划分为人体和背景两个类别，并且可以约定0表示背景类别，1表示人体目标类别，因此，属于人体目标类别的像素将被标记为1，而属于背景类别的像素将被标记为0。对原始图像中的像素标注真实标签后，原始图像中的每个像素被赋予一个特定的类别或标签，用于标识原始图像中的每个像素所属的语义类别或目标类型，使得训练集中的每个原始图像中的像素都具有相应的真实标签。容易理解地，在获取训练集的过程中，可以由专业人员手动标注原始图像的标签或使用自动标注技术对原始图像进行标注标签。显然地，获取原始图像数据作为训练集时，对原始图像进行标注的标签均为原始图像中的目标的真实标签，而将原始图像输入目标分割模型，得到的分割结果为对原始图像中的目标分割后输出的预测标签。

S200：将所述训练集中的原始图像输入所述卷积神经网络，获得每帧所述原始图像的多个尺度的特征图。

目标分割模型是一种用于对图像或视频进行语义分割的计算机模型，目标分割模型分割的目标是将图像中的每个像素标记为所属的目标类别或语义类别，从而实现对图像像素级别的精细分类。例如，在本发明实施例中，目标分割模型用于将输入图像中的每个像素分类为属于背景类别还是属于人体目标类别。在一些实施例中，目标分割模型是由卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元网络(Gated RecurrentUnit,GRU)和特征融合解码网络组成。其中，卷积神经网络具有优秀的特征提取能力，用于获取原始图像的多个尺度的特征图。门控循环单元网络具有卓越的序列建模能力，用于融合连续帧图像的特征，以获取融合特征图。特征融合解码网络具有出色的上采样和语义融合能力，用于解码获取人体特征，以输出原始图像的目标分割结果，这些网络结构的协同配合工作使得目标分割模型能够在像素级别上理解图像，并实现精确的目标分割，在诸多实际应用领域中都发挥着重要作用。

具体地，卷积神经网络是一种适用于图像处理任务的深度学习网络架构，是由多个卷积层和池化层组成，通过使用卷积层、池化层等卷积操作，能够有效地提取原始图像中的局部特征和全局特征。在目标分割任务中，卷积神经网络作为特征提取器，可以学习到原始图像中的不同层次的不同特征信息，以捕捉原始图像的重要特征信息。

门控循环单元网络是一种循环神经网络(Recurrent Neural Network,RNN)的变种网络架构，在传统的RNN中，特征信息通过时间步长逐渐传递，但在反向传播过程中，由于长时间依赖关系的存在，梯度可能会以指数级衰减或增长，导致神经网络难以学习长期依赖关系。因此，GRU网络通过引入两个门控机制，即重置门(Reset Gate)和更新门(UpdateGate)，解决传统RNN存在的梯度消失和梯度爆炸等问题，更好地捕捉时间序列图像数据中的长程依赖关系。在目标分割任务中，GRU网络可以用于处理具有空间关联性的图像数据，由于目标的形状和结构可能因其位置而不同，需要考虑空间上的依赖性，以便在图像中的不同位置建立上下文特征信息的联系，融合时间序列图像数据的特征，以获得融合特征图。

特征融合解码网络是一种在计算机视觉中常用于图像分割任务的神经网络架构，用于从卷积神经网络(CNN网络)、门控循环单元网络(GRU网络)等网络的高层次特征中重建原始图像，将低分辨率、高语义信息的特征逐步恢复为与原始图像具有相同分辨率(相同尺度)的目标分割结果，输出像素级别的分割掩码，将每个像素分类为背景或人体目标，实现像素级别的预测，即将原始图像中的人体目标分割出来。

在获取到原始图像后，由于在数据源中收集到的原始图像通常是未经处理或修改的真实图像，需要对获取到的原始图像进行预处理和清洗，包括图像尺寸调整、数据增强、像素值归一化和标准化处理等操作，以确保原始图像满足卷积神经网络的输入要求。将经过处理后的原始图像输入卷积神经网络，以使得卷积神经网络能够从图像中学习抽象的特征表示，并输出每一帧原始图像的多个尺度的特征图。容易理解地，为了提取不同尺度下的每一帧原始图像的特征，卷积神经网络可以使用多个卷积核和池化核，通过多次卷积、池化和激活等操作，在不同层次上捕捉图像的细节和整体信息，即，将每一帧原始图像的特征逐渐抽象为更高级的表示，提取每一帧原始图像的多个尺度的特征图，每个尺度的特征图代表不同抽象级别的图像特征。在一些实施例中，为达到最佳的特征提取效果，提取每一帧原始图像中五个不同尺度的特征图。本领域技术人员可以理解，对于提取每一帧原始图像的特征图的数量，以及提取每一帧原始图像的特征图的尺度，本发明实施例不作任何限制，可以根据实际需要进行选择调整变换。

S300：将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络，以融合所述第一特征图和所述第二特征图，获得融合特征图，所述第一特征图和所述第二特征图均为对应的原始图像的尺度最小的特征图。

具体地，门控循环单元网络(GRU网络)是一种用于信息融合的循环神经网络(RNN)的变体网络结构，具有一定的记忆和信息更新能力。GRU网络引入两个门控机制，即重置门(Reset Gate)和更新门(Update Gate)，决定哪些信息需要传递和记忆，哪些信息需要被忽略或更新，门控机制可以帮助GRU网络更好地处理长时间依赖和序列图像数据中的不确定性。在一些实施例中，当前帧原始图像的第一特征图和前一帧原始图像的第二特征图均为对应的原始图像经过卷积神经网络(CNN网络)提取特征后，得到的尺度最小的特征图。其中，第一特征图代表当前帧原始图像的高语义抽象特征信息，第二特征图代表前一帧原始图像的高语义抽象特征信息，通过基于前一帧原始图像的高语义特征信息，融合不同帧原始图像的高语义特征，能够更好表示不同帧原始图像的关联特征，可以提高基于时空信息的人体目标分割的准确度。将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入到GRU网络中，GRU网络可以自动地学习第一特征图和第二特征图中的特征信息，以便在时间序列图像数据中更好地捕捉连续帧原始图像之间的变化和关联特征，然后将第一特征图和第二特征图中的特征信息进行融合，以获得包含关于目标运动、形状变化等信息的融合特征图。GRU网络通过引入门控机制，可以选择性地记忆前一帧原始图像的特征信息并筛选出来，同时融合当前帧图像的特征信息，产生更为综合可靠的融合特征图，使得GRU网络能够在时间序列图像数据中寻找模式、变化以及可能的目标轨迹。

在一些实施例中，请参阅图5，图5为本发明一些实施例提供的目标分割模型中的门控循环单元网络的网络结构示意图。在将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入门控循环单元网络后，GRU网络可以根据第一公式将第一特征图和第二特征图中的特征进行融合，以获得融合特征图，其中，第一公式为：

Z_t＝σ(W_z*[h_t-1,x_t])

r_t＝σ(W_r*[h_t-1,x_t])

其中，h_t-1表示前一帧原始图像的特征图，x_t表示当前帧原始图像的特征图，Z_t表示融合特征图的更新门，更新门决定了前一帧原始图像中传递到未来的先验信息的数量，更新门的值越大，从前一帧原始图像引入的状态信息就越多。r_t表示融合特征图的重置门，重置门决定了前一帧原始图像中被遗忘的先验信息的数量，重置门的值越小，说明前一帧原始图像的信息相对于当前帧原始图像来说没有那么重要，前一帧原始图像的信息应该被忽略。W_z、W_r和表示权重矩阵，/>表示融合特征图的候选隐藏状态，h_t表示融合特征图。

具体地，GRU网络的重置门和更新门是数值在0到1之间变化的向量，重置门和更新门的向量是通过GRU网络的输入和隐藏状态计算而来的。具体来说，假设当前时间步长为t，输入为x_t，更新隐藏状态为h_t，重置门记作r_t，更新门记作Z_t，计算过程如下：

重置门r_t＝σ(W_r*[h_t-1,x_t])

更新门Z_t＝σ(W_z*[h_t-1,x_t])

其中，W_r和W_z是GRU网络中可学习的权重矩阵，σ表示激活函数，用于为GRU网络引入能够处理复杂图像数据关系的非线性特性，可以理解地，不同的神经网络结构可以采用不同的激活函数，*表示矩阵乘法，[h_t-1,x_t]表示将h_t-1和x_t按列连接成一个新的向量。

接下来，根据重置门的值，可以计算候选隐藏状态

候选隐藏状态

其中，是GRU网络中可学习的权重矩阵，[r_t*h_t-1,x_t]表示将r_t*h_t-1和x_t按列连接成一个新的向量。

最后，采用更新门来融合先前的隐藏状态h_t-1(即前一帧原始图像的特征图)和候选隐藏状态得到更新隐藏状态/>即获得融合特征图h_t。

通过引入更新门和重置门，GRU网络可以控制从先前的时间步长传递到当前的时间步长的信息数量，减少梯度消失和梯度爆炸问题，更有效地处理时间序列图像数据的长期依赖关系。由于其较简单的结构和良好的性能，GRU网络在诸多深度学习任务中被广泛应用，通过学习特征的时序变化，GRU网络可以更好地理解图像序列中的动态变化，并从中提取需要的信息，GRU网络在视频分析、动作识别、行为预测等领域中发挥关键作用，有利于增强模型对于时间序列数据的理解能力。

S400：将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络，获得所述目标的预测标签。

当前帧原始图像的多个尺度的特征图代表不同层次的抽象特征，包括从底层的纹理、边缘到高层次的语义信息等，涵盖图像中丰富的信息。尺度最小的融合特征图代表经过时空关系融合后的综合特征，融合了当前帧原始图像和前一帧原始图像的信息。特征融合解码网络由一系列的卷积层和反卷积层组成，用于将抽象的特征图逐步还原为与原始图像具有相同分辨率(相同尺度)的目标分割结果，即获得原始图像中人体目标对应的预测标签。通过上采样和跳跃连接等技术，逐渐增加特征图的分辨率，同时保留语义信息，将来自不同层次的特征融合在一起，提取出人体目标相关的信息，最终输出原始图像中人体目标对应的预测标签，保留特征的多样性和丰富性。

可以理解的是，特征融合解码网络输出人体目标的预测标签可以是各种形式的任务，如对象检测、语义分割、实例分割等。例如，在本发明实施例中，预测标签代表目标分割模型对原始图像中人体目标的理解，即原始图像中的每个像素分类为属于背景类别还是属于人体目标类别，其生成过程经过了从原始图像到抽象特征再到预测标签的多个阶段。

请参阅图6，图6为本发明一些实施例提供的训练目标分割模型的方法中步骤S400的一子流程示意图。在一些实施例中，特征融合解码网络包括多个级联的解码层，将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络，获得所述目标的预测标签，具体包括但不限于以下步骤S410-S430：

S410：将所述融合特征图输入第一级解码层进行上采样操作，得到所述第一级解码层的第一级输出特征图，连接所述第一级输出特征图与第一目标特征图，得到第一级连接特征图，其中，所述第一目标特征图与所述第一级输出特征图的尺度相同，所述第一目标特征图为所述当前帧原始图像的尺度最小的特征图。

具体地，特征融合解码网络包括多个级联的解码层。其中，级联的解码层结构是由一系列卷积层、反卷积层和上采样层组成，它们在网络结构中形成从抽象特征到原始图像的路径。在该路径中，每个解码层在不同的层次上恢复图像的细节和语义信息，使网络能够在各个层次上进行特征重建和语义理解。容易理解地，解码层之间的信息传递通过跳跃连接技术实现，跳跃连接允许将低级特征与高级特征进行连接，使得网络可以从底层特征中获取细节信息，同时又能从高级特征中获得更抽象的语义信息，可以防止信息在深层网络中丢失，同时提高网络在特征融合和解码过程中的稳定性。通过跳跃连接方式将底层的卷积特征和上层的反卷积特征连接起来，使具有不同空间分辨率的特征图之间可以传递信息。跳跃连接可以加强网络的信息传递，同时保留低层次的细节信息。通过连接上采样特征和下采样特征，可以帮助网络更好地学习图像的局部和全局特征，提高语义分割的精度，加快目标分割模型的收敛。

在具体应用时，将融合特征图输入特征融合解码网络的第一级解码层，对融合特征图进行上采样操作，将融合特征图从较低分辨率映射回原始图像的尺寸。通过上采样操作，第一级解码层逐渐恢复融合特征图中捕获的高级语义信息，获得处理后的第一级输出特征图。可以理解的是，第一级输出特征图与当前帧原始图像的尺度最小的特征图尺度相同，代表着相对较粗糙的特征重建结果，通常包含模糊但具有高级语义的信息，如人体目标的大致位置和形状。然后通过跳跃连接或拼接等技术将第一级输出特征图与第一目标特征图进行特征融合，以获得第一级连接特征图。其中，第一目标特征图与第一级输出特征图尺度相同，第一目标特征图为当前帧原始图像的尺度最小的特征图。通过将第一级输出特征图和与第一级输出特征图尺度相同的当前帧原始图像的特征图进行特征融合，即将第一级输出特征图和与第一级输出特征图尺度相同的当前帧原始图像的特征图连接在一起，可以将从融合特征图中恢复的抽象信息与当前帧原始图像的细节特征相结合，获得具有更为准确和细致的特征表示的第一级连接特征图。

S420：将所述第一级连接特征图输入下一级解码层进行上采样操作，得到所述下一级解码层的下一级输出特征图，连接所述下一级输出特征图与下一目标特征图，得到下一级连接特征图，其中，所述下一目标特征图为所述当前帧原始图像的特征图中与所述下一级输出特征图尺度相同的特征图。

具体地，将获得的第一级连接特征图输入到特征融合解码网络的下一级解码层中，对第一级连接特征图进行上采样操作，进一步恢复融合特征图的细节和语义信息，将第一级连接特征图从较低分辨率映射回原始图像的尺寸。通过上采样操作，下一级解码层将较粗糙的第一级连接特征图逐步转化为更精细的下一级输出特征图。可以理解的是，下一级输出特征图代表更高级的特征重建结果，在更高的层次上捕获原始图像的语义信息和局部细节。然后通过跳跃连接或拼接等技术将下一级输出特征图与下一目标特征图进行特征融合，以获得下一级连接特征图。其中，下一目标特征图为当前帧原始图像的特征图中与下一级输出特征图尺度相同的特征图。通过将下一级输出特征图和与下一级输出特征图尺度相同的当前帧原始图像的特征进行特征融合，即将下一级输出特征图和与下一级输出特征图尺度相同的当前帧原始图像的特征图连接在一起，可以综合利用融合特征图中的高级语义信息和当前帧原始图像的底层细节信息，获得具有更为丰富和准确的特征表示的下一级连接特征图。

S430：通过剩余的解码层重复执行将所述下一级连接特征图输入下一级解码层进行上采样操作，得到所述下一级解码层的下一级输出特征图，连接所述下一级输出特征图与下一目标特征图，得到下一级连接特征图，直至得到尺度与所述当前帧原始图像尺度相同的输出特征图，获得所述目标的预测标签。

具体地，在剩余的每个级联解码层中，对上一级解码层输出的连接特征图进行上采样操作，逐步还原融合特征图中的细节和语义信息，扩展融合特征图的尺寸，逐渐将其恢复到原始图像的大小，有效地将上一级解码层输出的连接特征图与当前帧原始图像中的特征图的信息进行融合，能够在保留图像细节的同时，加入经过特征融合后的融合特征图中的高级语义信息。重复执行将上一级解码层输出的连接特征图输入到下一级解码层进行上采样操作，得到下一级解码层对应输出的下一级输出特征图。然后将下一级输出特征图与当前帧原始图像的特征图中与下一级输出特征图尺度相同的特征图进行连接，得到下一级连接特征图，直至得到与当前帧原始图像尺度相同的输出特征图，即，将连接特征图输入到解码层进行上采样操作后，获得的输出特征图与当前帧原始图像尺度相同。

通过特征融合解码网络中剩余的解码层对特征图进行逐层解码操作，将来自不同卷积层的特征进行合并，以综合不同层次的语义信息，充分利用不同层次的特征信息，特征图从高级抽象特征逐渐恢复为更接近原始图像的底层细节特征，使目标分割模型具备更好的上下文感知能力。当到达特征融合解码网络最后一层解码层时，即还原尺度与原始图像相同的解码层时，将来自融合特征图的高级语义信息最终还原为与当前帧原始图像尺度相同的输出特征图。可以理解的是，最终得到的输出特征图包含更丰富和准确的图像细节和语义信息，根据输出特征图提取人体目标相关的信息，最终输出原始图像中人体目标对应的预测标签，获得原始图像中人体目标对应的预测标签，完成从特征图的高级抽象特征到目标分割任务特定标签的转换。

S500：基于损失函数计算所述真实标签和所述预测标签之间的损失，并根据所述损失对所述目标分割模型进行迭代训练，直到所述目标分割模型收敛，得到训练后的目标分割模型。

在目标分割任务中，将目标分割模型输出的原始图像的每个像素的预测结果与真实标签进行比较，通过预设的损失函数来衡量预测标签与真实标签之间的损失。然后根据计算得到的预测标签与真实标签之间的损失函数值，采用优化算法(如梯度下降)对目标分割模型的参数进行优化迭代训练，不断调整目标分割模型中的神经网络参数，以降低损失函数值，使得目标分割模型向真实标签更为接近，输出更准确的预测结果。随着迭代训练的进行，目标分割模型会逐渐收敛，即目标分割模型的预测结果逐渐接近真实标签。当目标分割模型达到一定的收敛状态时，可以认为模型已经具备在用于训练的图像数据上良好的泛化能力，可以应用于未遇见过的图像或视频数据，即，获得经过训练后有效的目标分割模型。

在一些实施例中，可以采用交叉熵损失函数或Dice损失函数等来计算真实标签和预测标签之间的损失。其中，交叉熵损失函数度量预测概率分布与真实标签之间的差异，而Dice损失函数度量两个集合之间的相似性。可以理解的是，计算得到的真实标签和预测标签之间的损失越小，表示目标分割模型的预测结果与真实标签越接近，训练过程越优化。容易理解地，还可以采用其他不同的损失函数计算真实标签和预测标签之间的损失，可以根据实际需要使用不同的损失函数对真实标签和预测标签之间的损失进行计算。

本发明实施例提供的训练目标分割模型的方法，所述目标分割模型包括卷积神经网络、门控循环单元网络和特征融合解码网络，所述方法包括：获取训练集，训练集包括多帧连续的原始图像，各帧原始图像均标注有目标的真实标签；将训练集中的原始图像输入卷积神经网络，获得每帧原始图像的多个尺度的特征图；将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入门控循环单元网络，以融合第一特征图和第二特征图，获得融合特征图，第一特征图和第二特征图均为对应的原始图像中尺度最小的特征图；将当前帧原始图像的多个尺度的特征图和融合特征图输入特征融合解码网络，获得目标的预测标签；基于损失函数计算真实标签和预测标签之间的损失，并根据损失对目标分割模型进行迭代训练，直到目标分割模型收敛，得到训练后的目标分割模型。

参阅图7所示，图7为本发明另一些实施例提供的训练目标分割模型的方法的流程示意图。在另一些实施例中，目标分割模型还包括注意力网络，该训练目标分割模型的方法还包括但不限于以下步骤S350：

S350：将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络，获得各尺度的特征图的注意力分数。

在一些实施例中，目标分割模型还包括注意力网络，注意力网络采用多层感知机网络(Multi-Layer Perceptron，MLP)结构，MLP网络是一种基本的前馈神经网络结构，也是人工神经网络中最常见的形式之一。MLP网络由多个神经元层组成，具体是由一个输入层、一个或多个隐藏层以及一个输出层组成，每层神经元与前一层的神经元全连接，并且具有一组权重矩阵和偏置参数，但不同层之间没有连接。输入层接收原始图像数据作为输入特征，然后通过隐藏层逐层进行信息传递和处理，最终在输出层产生模型的预测结果。注意力网络用于在目标分割模型中动态地为人体目标或背景分配权重分数或计算注意力分数，以使得目标分割模型能够更集中地关注输入的原始图像数据中人体目标的细节和重要区域，输出获得原始图像的各个尺度的特征图的注意力分数。

具体地，当前帧原始图像的多个尺度的特征图代表不同层次的抽象特征，包括从底层的纹理、边缘到高层次的语义信息等，涵盖原始图像中丰富的信息。将当前帧原始图像的多个尺度的特征图输入到目标分割模型的注意力网络，注意力网络根据每个尺度的特征图中的特征内容和上下文关系，计算获得当前帧原始图像的各个尺度的特征图的注意力分数。容易理解地，注意力分数表示当前帧原始图像的每个尺度的特征图中不同区域的重要性或关注度，注意力网络通过迭代训练学习原始图像数据中的内在模式和关系，自动调整不同尺度的特征图的注意力权重，使目标分割模型能够更好地关注重要的信息。通过计算当前帧原始图像的各个尺度的特征图的注意力分数，注意力网络能够对当前帧原始图像中的重要信息进行加权和突出。可以理解地，对于当前帧原始图像中的不同尺度的特征图，可能对于目标分割任务的不同方面有着不同的贡献，注意力分数可能有所不同。例如，在一些实施例中，尺度较小的特征图更适合捕捉纹理和细节，而尺度较大的特征图更适合捕捉人体的整体形状和结构。

在一些实施例中，在将当前帧原始图像的多个尺度的特征图输入注意力网络后，注意力网络可以根据第二公式计算当前帧原始图像的各个尺度的特征图的注意力分数，其中，第二公式为：

S_n＝^T*_n+

α＝Softmax(s)

其中，W^T表示权重矩阵，b表示偏置参数，f_n表示当前帧原始图像的特征图，n表示当前帧原始图像的特征图的数量，α表示当前帧原始图像的特征图的注意力分数，取值范围为[0,1]，Softmax()函数为归一化函数，s＝S_n。

具体地，神经元将输入的当前帧原始图像的各个尺度的特征图与权重矩阵相乘，并添加一个偏置项，通过多次迭代训练和调整网络的参数(权重矩阵和偏置参数)，MLP网络可以学习原始图像数据中的模式和关系，调整输出的中间变量，采用归一化函数Softmax()函数计算得到当前帧原始图像的各个尺度的特征图的注意力分数。

在此实施例中，目标分割模型包括注意力网络，并通过注意力网络计算获得当前帧原始图像的多个尺度的特征图的注意力分数。然后将当前帧原始图像的各个尺度的特征图的注意力分数代入损失函数，通过损失函数计算得到真实标签与预测标签之间的损失，根据损失对目标分割模型进行迭代训练，直到目标分割模型收敛，得到训练后的目标分割模型。相应地，损失函数可以采用根据注意力分数计算损失的交叉熵分值损失函数，以获得真实标签与预测标签之间的损失。其中，交叉熵分值损失函数为：

具体地，p表示目标的真实标签，表示目标的预测标签，α_i表示当前帧原始图像的第i个特征图的注意力分数，n表示当前帧原始图像的特征图的数量。容易理解地，还可以采用其他不同的损失函数计算真实标签和预测标签之间的损失，可以根据实际需要使用不同的损失函数计算真实标签和预测标签之间的损失。

在目标分割模型的训练过程中，通过将原始图像输入目标分割模型，得到目标分割模型输出的预测标签，并将预测标签与真实标签进行比较，通过预设的损失函数计算预测标签与真实标签之间的损失函数值。容易理解地，可以采用优化算法(例如随机梯度下降SGD、Adam等)，通过反向传播算法，调整目标分割模型中相关的权重参数，以减小损失函数值，从而优化目标分割模型的预测能力。在一些实施例中，可以采用Adam优化算法优化目标分割模型的网络参数，其中，迭代次数设置为10万次，初始化学习率设置为0.001，权重衰减设置为0.0005，每1000次迭代，学习率衰减为原来的1/10，直到目标分割模型收敛。

在多次迭代训练后，目标分割模型的损失函数值逐渐减小，目标分割模型的预测标签与真实标签之间的吻合度逐渐提升，直至目标分割模型收敛。当目标分割模型达到一定的收敛状态时，表示模型已经达到一个相对稳定的状态，进行更多的训练不会带来显著的改进和提升，可以认为目标分割模型已经具备在用于训练的图像数据上良好的泛化能力，可以应用于未遇见过的图像或视频数据，输出像素级别的分割结果，将图像中的每个像素准确地分类为属于背景或是属于人体目标，即获得训练后有效的目标分割模型。

综上所述，本发明实施例提供的训练目标分割模型的方法，所述目标分割模型包括卷积神经网络、门控循环单元网络和特征融合解码网络，所述方法包括：获取训练集，训练集包括多帧连续的原始图像，各帧原始图像均标注有目标的真实标签；将训练集中的原始图像输入卷积神经网络，获得每帧原始图像的多个尺度的特征图；将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入门控循环单元网络，以融合第一特征图和第二特征图，获得融合特征图，第一特征图和第二特征图均为对应的原始图像中尺度最小的特征图；将当前帧原始图像的多个尺度的特征图和融合特征图输入特征融合解码网络，获得目标的预测标签；基于损失函数计算真实标签和预测标签之间的损失，并根据损失对目标分割模型进行迭代训练，直到目标分割模型收敛，得到训练后的目标分割模型。

参见图8所示，图8是本发明一些实施例提供的目标分割方法的流程示意图。可以理解的是，该目标分割方法的执行主体可以是上述电子设备，该目标分割方法包括但不限于以下步骤S600-S800：

S600：获取待处理图像。

在应用目标分割模型对待处理图像进行目标分割时，首先需要获取待处理图像，可以由用户或操作人员从各种数据源中获得用于图像处理或计算机视觉任务的待处理图像数据。可以理解的是，待处理图像可以是以数字形式表示的像素数据，也可以是如JPEG、PNG等格式的图像文件，或者通过如摄像头、扫描仪等图像采集设备获取的实时图像。容易理解地，在一些实施例中，还可以有其他方式获取待处理图像，例如用户可以通过应用程序获取用户自己上传的图像数据，如社交媒体应用中的头像、相册等。获取待处理图像为后续图像的数据预处理、识别检测、特征提取以及目标分割等操作提供可靠的数据源。

S700：将所述待处理图像输入目标分割模型，以获得所述待处理图像中目标的预测标签，其中，所述目标分割模型是采用上述任一项所述的训练目标分割模型的方法训练得到的。

将获取到的待处理图像作为输入数据加载到目标分割模型中，待处理图像经过目标分割模型的前向传播，模型将待处理图像中的每个像素归类为人体目标类别或者背景目标类别，以获得预测待处理图像中的目标的预测标签。其中，该目标分割模型是通过上述任意一项本发明实施例中的训练目标分割模型的方法训练得到的，与上述本发明实施例中的目标分割模型具有相同的结构和功能，在此不再一一赘述。在前向传播过程中，待处理图像中的每个像素都被输入目标分割模型，并经过一系列卷积、池化、特征融合等操作，以从输入的待处理图像中提取特征信息。目标分割模型基于在训练阶段学习到的特征表示和权重参数，对待处理图像中的每个像素输出相应的预测标签，将每个像素归类为人体目标类别或背景目标类别，进而获得一个与待处理图像尺度相同的预测标签图像，得到的预测标签图像即为待处理图像中含有人体目标的预测标签。可以理解的是，在预测标签图像中每个像素都被赋予一个类别标签，用于表示该像素属于人体目标类别或是背景类别。在一些实施例中，在获得预测标签图像后，需要进行后处理操作。例如，去除预测标签图像中的噪声、填充目标区域等，以得到更准确和完整的人体目标分割结果。

S800：根据所述目标的预测标签从所述待处理图像中分割出目标图像。

在获得待处理图像中的人体目标的预测标签之后，根据人体目标的预测标签，通过像素级操作，将待处理图像中的人体目标像素从待处理图像中提取出来，得到单独的人体目标图像。显然地，分割得到的人体目标图像只包含待处理图像中的人体目标部分，背景部分或其他部分被去除。容易理解地，在一些实施例中，可以简单地通过遍历待处理图像中的像素，根据人体目标的预测标签来选择目标像素，提取人体目标的图像，或者还可以通过图像掩码操作生成人体目标的图像，或者还可以通过其他方式获得人体目标图像。

本发明实施例提供的目标分割方法，包括：获取待处理图像；将所述待处理图像输入目标分割模型，以获得所述待处理图像中目标的预测标签，其中，所述目标分割模型是采用上述任一项所述的训练目标分割模型的方法训练得到的；根据所述目标的预测标签从所述待处理图像中分割出目标图像。得到的目标分割模型能够准确地分割出目标，减少复杂背景的干扰和伪影的产生，降低目标分割边界的抖动性，提高目标分割的准确度和稳定性，分割结果更加准确可靠，提升用户的体验。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，处理器运行所述计算机程序指令，以执行上述发明实施例提供的任一项训练目标分割模型的方法，或者上述发明实施例提供的任一项目标分割方法。

在一些实施例中，存储介质可以是闪存、磁表面存储器、光盘、CD-ROM、FRAM、ROM、PROM、EPROM、或EE PROM等存储器，也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其他单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可被存储在保存其他程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text MarkupLanguage)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点目通过通信网络互连的多个计算设备上执行。

技术人员可以理解地，本发明所提供的实施例仅是示意性的，实施例的方法中的各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，可以根据实际需要进行顺序调整、合并和删减，实施例的装置或系统中的模块或子模块、单元或子单元可以根据实际需要进行合并、划分和删减。例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者集成到另一个装置，或一些特征可以忽略，或不执行。

技术人员可以意识到，本发明所提供的实施例描述的方法的全部或部分步骤，可以直接使用电子硬件或处理器可执行的计算机程序指令，或者二者的结合来实施。该计算机程序指令可以存储于内存、硬盘、寄存器、可移动磁盘、随机存储器(RAM)、只读存储器(ROM)、CD-ROM、电可编程ROM、电可擦除可编程ROM、或技术领域内所公知的任意其他形式的存储介质中。

需要说明的是，以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能以此来限定本发明的权利保护范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，依据本发明权利要求所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

Claims

1.一种训练目标分割模型的方法，其特征在于，所述目标分割模型包括卷积神经网络、门控循环单元网络和特征融合解码网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络，以融合所述第一特征图和所述第二特征图，获得融合特征图，包括：

Z_t＝σ(W_z*[h_t-1,x_t])

r_t＝σ(W_r*[h_t-1,x_t])

3.根据权利要求1所述的方法，其特征在于，所述特征融合解码网络包括多个级联的解码层，所述将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络，获得所述目标的预测标签，包括：

通过剩余的解码层重复执行将所述下一级连接特征图输入下一级解码层进行上采样操作，得到所述下一级解码层的下一级输出特征图，连接所述下一级输出特征图与下一目标特征图，得到下一级连接特征图，直至得到尺度与所述当前帧原始图像尺度相同的输出特征图，获得所述目标的预测标签。

4.根据权利要求1所述的方法，其特征在于，所述目标分割模型还包括注意力网络，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络，获得各尺度的特征图的注意力分数，包括：

S_n＝W^T*f_n+b

α＝Softmax(s)

6.根据权利要求5所述的方法，其特征在于，所述损失函数为：

其中，p表示所述目标的真实标签，表示所述目标的预测标签，α_i表示所述当前原始帧图像的第i个特征图的注意力分数，n表示所述当前帧原始图像的特征图的数量。

7.一种目标分割方法，其特征在于，包括：

获取待处理图像；

将所述待处理图像输入目标分割模型，以获得所述待处理图像中目标的预测标签，其中，所述目标分割模型是采用如权利要求1-6任一项所述的训练目标分割模型的方法训练得到的；

8.一种电子设备，其特征在于，包括：

处理器以及与所述处理器通信连接的存储器；

所述存储器中存储有所述处理器可执行的计算机程序指令，所述计算机程序指令在被所述处理器调用时，以使所述处理器执行如权利要求1-6任一项所述的训练目标分割模型的方法或者如权利要求7所述的目标分割方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令适于处理器进行加载，以执行如权利要求1-6任一项所述的训练目标分割模型的方法或如权利要求7所述的目标分割方法。