CN111080670A

CN111080670A - 图像提取方法、装置、设备及存储介质

Info

Publication number: CN111080670A
Application number: CN201911304285.7A
Authority: CN
Inventors: 谢新林
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-28
Anticipated expiration: 2039-12-17
Also published as: CN111080670B

Abstract

本申请实施例公开了一种图像提取方法、装置、设备及存储介质，涉及图像处理技术领域，其包括：获取包含目标对象的原始图像；在原始图像中添加目标对象的关键点信息，以得到待处理图像；将待处理图像输入至训练后的神经网络模型中，以提取目标对象的概率分布图；在原始图像中，根据概率分布图对目标对象进行抓取，以得到目标对象的抓取图像。采用上述方法可以解决现有抠图技术的处理时间长、用户操作复杂度高的技术问题，实现通过关键点作为目标对象的姿态以及结构的先验信息，保证神经网络模型在处理时，更加集中在关键点标识的区域，进而保证了神经网络模型的处理准确度，提高了处理速度，丰富了图像提取方法的应用场景。

Description

图像提取方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种图像提取方法、装置、设备及存储介质。

背景技术

抠图是图像处理中最常见的一种操作。通过抠图，可以将图片或影像中的某一部分从原始图片或影像中分离出来成为单独的图层，以便于用户使用该图层。现有技术在抠图前，需要人工标注原始图片或影像中的前景部分和背景部分，进而根据前景部分和背景部分实现抠图，例如，图1为本申请背景技术提供的第一图像示意图，其包含人体图像。图2为本申请背景技术提供的第二图像示意图，其是基于三分图(trimap)技术，通过人工交互对图1图像中的前景部分01、背景部分02以及不确定部分03进行标注后的示意图。图3为本申请背景技术提供的第三图像示意图，其是基于Strokes技术，即采用涂鸦的方式，通过人工交互对图1图像中的前景部分以及背景部分进行标注后的示意图。发明人在实现本发明的过程中，发现现有技术存在如下缺陷：由于人工标注的局限性，如采用图2或图3所示的方式划分前景部分和背景部分时，划分结果的精确度低。当基于前景部分和背景部分实现抠图后，往往需要用户再次处理抠图得到的图像，即经过多次交互后，才能得到用户期望的抠图图像，这样使得现有抠图技术的处理时间长、用户操作复杂度高。

发明内容

本申请提供了一种图像提取方法、装置、设备及存储介质，以解决现有抠图技术的处理时间长、用户操作复杂度高的技术问题。

第一方面，本申请实施例提供了一种图像提取方法，包括：

获取包含目标对象的原始图像；

在所述原始图像中添加所述目标对象的关键点信息，以得到待处理图像；

将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图；

在所述原始图像中，根据所述概率分布图对所述目标对象进行抓取，以得到所述目标对象的抓取图像。

进一步的，在所述原始图像中添加所述目标对象的关键点信息，以得到待处理图像包括：

检测所述原始图像中所述目标对象的关键点信息；

将所述关键点信息与所述原始图像叠加，以得到待处理图像。

进一步的，所述检测所述原始图像中目标对象的关键点信息包括：

采用AlphaPose算法对所述原始图像进行处理，以得到所述目标对象的关键点信息。

进一步的，所述训练后的神经网络模型包括前端子网络和后端子网络；

所述将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图包括：

将所述待处理图像输入至前端子网络，以结合所述关键点信息得到所述待处理图像的三分图；

将所述三分图输入至后端子网络，以细化所述目标对象在所述三分图中的边缘特征，并得到所述目标对象的概率分布图。

进一步的，所述前端子网络包括编码模块和解码模块。

进一步的，所述编码模块为包含多个残差块的多尺度输入卷积神经网络，每个所述残差块内的卷积层后接有批量归一化层和非线性激活函数。

进一步的，所述解码模块为包含转置卷积层的卷积神经网络，每个转置卷积层后接有非线性激活函数。

进一步的，所述后端子网络为包含批量归一化层和非线性激活函数的卷积神经网络。

进一步的，所述将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图之后，还包括：

将所述原始图像作为引导图像，对所述概率分布图进行引导滤波，以得到优化后的概率分布图。

第二方面，本申请实施例还提供了一种图像提取装置，包括：

图像获取模块，用于获取包含目标对象的原始图像；

信息添加模块，用于在所述原始图像中添加所述目标对象的关键点信息，以得到待处理图像；

特征提取模块，用于将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图；

图像抓取模块，用于在所述原始图像中，根据所述概率分布图对所述目标对象进行抓取，以得到所述目标对象的抓取图像。

第三方面，本申请实施例还提供了一种图像提取设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的图像提取方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的图像提取方法。

上述图像提取方法、装置、设备及存储介质，通过获取包含目标对象的原始图像，并在原始图像中添加目标对象的关键点信息，以得到待处理图像的方式，实现通过关键点作为目标对象的姿态以及结构的先验信息，保证神经网络模型在处理时更加集中在关键点标识的区域，进而保证了神经网络模型的处理准确度。同时，即使目标对象是包含全身图像的人，仍然能准确对目标对象进行先验，进而保证后续处理过程的准确性，丰富了图像提取方法的应用场景。进一步的，通过神经网络模型对待处理图像进行识别，以提取目标对象的概率分布图，并根据概率分布图对原始图像中的目标对象进行抠图，可以在保证抠图准确性时，简化抠图复杂度，提高处理速度，无需人工标注原始图像的前景部分和背景部分，提升了用户的使用体验。

进一步的，神经网络模型包含用于提取三分图特征的前端子网络和用于细化边缘特征的后端子网络，可以进一步保证神经网络模型的处理准确度。同时，前端子网络为多尺度输入，且采用残差块以及编码-解码相结合的方式，可以提高神经网络模型的性能，同时，优化了神经网络模型的泛化性。

进一步的，对于神经网络模型的处理结果进行引导滤波，可以进一步细化目标对象的边缘特征，进而实现对于人像的精细抠图。

附图说明

图1为本申请背景技术提供的第一图像示意图；

图2为本申请背景技术提供的第二图像示意图；

图3为本申请背景技术提供的第三图像示意图；

图4为本申请一个实施例提供的一种图像提取方法的流程图；

图5为本申请一个实施例提供的另一种图像提取方法的流程图；

图6为本申请一个实施例提供的待处理图像第一示意图；

图7为本申请一个实施例提供的待处理图像第二示意图；

图8为本申请一个实施例提供的一种残差块结构示意图；

图9为本申请一个实施例提供的原始图像示意图；

图10为本申请一个实施例提供的待处理图像第三示意图；

图11为本申请一个实施例提供的一种前端子网络处理过程示意图；

图12为本申请一个实施例提供的三分图示意图；

图13为本申请一个实施例提供的一种后端子网络处理过程示意图；

图14为本申请一个实施例提供的一种引导滤波处理过程示意图；

图15为本申请一个实施例提供的一种图像提取装置的结构示意图；

图16为本申请一个实施例提供的一种图像提取设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

一般而言，现有技术在抠图时通常利用公式：I＝α*F+(1-α)*B进行建模，其中，I为原始图片或影像的像素，F表示待提取的目标对象(即前景部分)，B表示非目标对象的部分(即背景部分)。α表示融合系数，其取值范围是[0,1]。当α＝1时，表明当前像素属于前景部分，当α＝0时，表明当前像素属于背景部分。由于F、B和α为未知量，因此，可以通过人工标注前景部分和背景部分的方式确定F、B和α。由于人工标注的过程准确度低且操作复杂，因此，现有技术中会利用卷积神经网络实现在原始图片或影像中抓取目标对象，此时，需要加入复杂的目标对象掩膜信息作为先验，例如，目标对象为人时，需要加入人像掩膜(仅有人脸和部分肩膀)信息作为先验，这样对于包含全身人像的图像而言，无法实现准确抠图，基于此，本申请实施例提供一种图像提取方法，可以在优化抠图算法以及处理速度的基础上，对于包含全身人像的图像而言，可以保证抠图准确度。

具体的，实施例中提供的图像提取方法可以由图像提取设备执行，该图像提取设备可以通过软件和/或硬件的方式实现，该图像提取设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如，图像提取设备可以是电脑、手机、平板或交互智能平板等具有数据运算、分析能力的智能设备。

图4为本申请一个实施例提供的一种图像提取方法的流程图。具体的，参考图4，该图像提取方法具体包括：

步骤110、获取包含目标对象的原始图像。

其中，原始图像是待进行抠图的图片或影像。原始图像的获取方式实施例不作限定，例如，图像提取设备中配备图像采集装置(如摄像头)，通过图像采集装置可以拍摄得到原始图像。再如，通过互联网或图像提取设备中安装的即时通讯软件等应用下载的图像作为原始图像。典型的，原始图像中包含目标对象，目标对象是抠图过程中被抓取的对象，也可以理解为前景部分。其中，目标对象可以是人类、动物或者物品等。一个实施例中，以目标对象为人类进行描述。此时，原始图像中可以包含人的面部区域、上半身照或者全身照等。可选的，原始图像中可以包含一个或多个目标对象，实施例对此不作限定。

步骤120、在原始图像中添加目标对象的关键点信息，以得到待处理图像。

具体的，关键点为目标对象在原始图像中的骨骼关键点，通过连接骨骼关键点可以得到目标对象的抽象描述。当目标对象为人时，关键点可以是眼、鼻、耳、踝关节、膝关节、髋关节、肩关节、肘关节、腕关节等，关键点信息可以是关键点在原始图像中的位置以及各关键点在原始图像中的顺序连线，其可以体现人在原始图像中的姿态。关键点信息的确定方式本实施例不作限定，例如，采用AlphaPose算法对原始图像进行处理后，可以得到关键点信息。再如，先对原始图像进行二值化处理，之后，根据二值化图像中前景像素点的8邻域像素点提取目标对象的骨架线，进而根据骨架线得到关键点信息。

一个实施例中，得到关键点信息后，关联原始图像与关键点信息，并将关联后的原始图像记为待处理图像，以此实现在原始图像中添加关键点信息。其中，关联的实现手段本实施例不作限定。例如，基于关键点信息，对原始图像中对应像素进行标记，以得到包含关键点信息的待处理图像。又如，建立关键点信息与原始图像中对应像素的对应关系，并将包含对应关系的原始图像记为待处理图像，此时，通过待处理图像可以得到原始图像和关键点信息。可以理解，待处理图像可以认为是在原始图像中添加了目标对象的先验信息，以便于后续处理过程中，可以集中在关键点信息相关的区域(即目标对象所在的区域)，这样可以在一定程度上避免后续处理过程中将复杂的背景区域认为是目标对象的一部分，以此提高处理准确度。

步骤130、将待处理图像输入至训练后的神经网络模型中，以提取目标对象的概率分布图。

概率分布图与原始图像的大小相同，概率分布图用于表示其中每个像素为目标对象(前景部分)的概率。

一个实施例中，概率分布图通过训练后的神经网络模型得到。即将待处理图像作为神经网络模型的输入，通过神经网络模型得到概率分布图。本实施例中，神经网络模型的具体结构实施例不作限定。例如，神经网络模型采用多尺度输入，之后利用卷积层搭配残差块、池化层、批量归一化层以及非线性激活函数组成下采样神经网络，再由转置卷积层、非线性激活函数组成上采样神经网络，以通过下采样得到待处理图像中的语义特征，之后，通过上采样得到包含语义特征的输出结果，且输出结果与待处理图像的大小相等，其中，上采样得到的输出结果记为概率分布图。又如，在前述搭建的神经网络模型基础上，加上由卷积层、批量归一化层和非线性激活函数组成的卷积神经网络，即将前述神经网络模型的输出结果作为由卷积层、批量归一化层和非线性激活函数组成的卷积神经网络的输入，以得到更为精确的概率分布图。可以理解，本实施例中采用的神经网络模型通过训练得到，即将大量包含关键点信息的图像作为输入，将对应的概率分布图作为输出，对神经网络模型进行训练，且在训练过程中，可以调整神经网络模型中的参数。

步骤140、在原始图像中，根据概率分布图对目标对象进行抓取，以得到目标对象的抓取图像。

具体的，通过概率分布图可以确定目标对象在概率分布图中的像素区域，进而可以确定目标对象在原始图像中的像素区域，因此，本步骤中，可以直接基于概率分布图在原始图像中抓取目标对象对应的像素区域，进而得到目标对象的抓取图像，即实现对目标对象的抠图。一个实施例中，由于概率分布图和原始图像的尺寸相等，即像素大小相等，因此，抓取的过程可以是确定目标对象在概率分布图的像素，之后，在原始图像中查找相同的像素，并将该像素的像素值乘以概率分布图对应位置的概率，之后，对像素对应的乘积进行抓取同时保留各像素之间的相对位置关系，进而实现在原始图像中抓取目标对象。

上述，通过获取包含目标对象的原始图像，并在原始图像中添加目标对象的关键点信息，以得到待处理图像的方式，实现通过关键点作为目标对象的姿态以及结构的先验信息，保证神经网络模型在处理时，更加集中在关键点标识的区域，进而保证了神经网络模型的处理准确度，同时，即使目标对象是包含全身图像的人，仍然能准确对目标对象进行先验，进而保证后续处理过程的准确性，丰富了图像提取方法的应用场景。进一步的，通过神经网络模型对待处理图像进行识别，以提取目标对象的概率分布图，并根据概率分布图对原始图像中的目标对象进行抠图，可以在保证抠图准确性时，简化抠图复杂度，无需人工标注原始图像的前景部分和背景部分，提高抠图处理速度，进而提升了用户的使用体验。

图5为本申请一个实施例提供的另一种图像提取方法的流程图。本实施例是在上述实施例的基础上进行具体化。参考图5，该图像提取方法具体包括：

步骤210、获取包含目标对象的原始图像。

步骤220、检测原始图像中目标对象的关键点信息。

具体的，对原始图像进行处理，以得到目标对象的关键点信息。一个实施例中，以通过AlphaPose算法识别关键点信息为例进行表述。此时，该步骤具体包括：采用AlphaPose算法对原始图像进行处理，以得到目标对象的关键点信息。其中，AlphaPose是一个精准的实时多人姿态估计系统，其可以对图像中的人体姿态进行估计。使用AlphaPose算法时，先检测原始图像中的人，例如，采用SSD-512检测原始图像中的人。之后，再基于检测得到的人识别人体的姿态，即得到关键点信息，例如，采用Stacked Hourglass的方法识别人体的姿态。

步骤230、将关键点信息与原始图像叠加，以得到待处理图像。

具体的，在原始图像中添加关键点信息得到待处理图像。其中，添加关键点信息是指基于关键点信息在原始图像中绘制出目标对象的骨架线，即绘制出目标对象的姿态。例如，图6为本申请一个实施例提供的待处理图像第一示意图。参考图6，原始图像中目标对象为人的半身像，此时，待处理图像为在原始图像中添加关键点信息21后得到的图像，且通过关键点信息可以确定目标对象的姿态。图7为本申请一个实施例提供的待处理图像第二示意图。参考图7，原始图像中目标对象为人的全身像，此时，待处理图像为在原始图像中添加关键点信息22后得到的图像，且通过关键点信息可以确定目标对象的姿态。

步骤240、将待处理图像输入至前端子网络，以结合关键点信息得到待处理图像的三分图。

一个实施例中，神经网络模型包括前端子网络和后端子网络。即神经网络模型包含两个部分，待处理图像输入至前端子网络，并由前端子网络进行处理，之后，再将前端子网络的处理结果输入至后端子网络，并由后端子网络输出概率分布图。其中，前端子网络用于在待处理图像中识别出前景部分和背景部分。后端子网络用于对前景部分和背景部分之间的边缘特征进行细化，以保证概率分布图的准确性。

具体的，前端子网络为多尺度和残差块结合的卷积神经网络，本实施例中将前端子网络的输出结果记为三分图(trimap)，通过三分图可以识别出原始中前景部分的特征向量、背景部分(非目标对象)的特征向量以及前景部分和背景部分之间的过渡区域的特征向量。三分图中，确定的前景部分的像素为1，确定的背景部分的像素为0，确地的前景部分和背景部分之间的过渡区域的像素为0.5。之后，在后端子网络中输入三分图，回归出原始图像中每个对应像素属于前景部分还是背景部分的概率(即概率分布图)，因而相较于前端子网络，后端子网络的输出结果中目标对象的边缘特征更为准确。

一个实施例中，前端子网络包括编码模块和解码模块。其中，编码模块用于对待处理图像的不同尺度特征进行学习，采用下采样的方式，以得到待处理图像中的语义特征。可选的，语义特征分为视觉层、对象层和概念层。视觉层属于底层，例如，待处理图像中的颜色、纹理和/或形状等特征均被视为视觉层语义特征，即底层特征语义。对象层属于中间层，其包含了属性特征等内容，可以理解，对象层主要描述某一对象在某一时刻的状态。概念层属于高层，其是图像表达出的最接近人类理解的东西。一个实施例中，编码模块为包含多个残差块的多尺度输入卷积神经网络，每个残差块内的卷积层后接有批量归一化(BatchNormalization，BN)层和非线性激活函数。其中，通过多尺度输入可以提高前端子网络的精确度，实现不同层特征的融合，同时，增加前端子网络的宽度，以保证前端子网络的每一层可以学到更多的特征(如颜色、方向等)。一个实施例中，通过待处理图像得到多张尺寸不同，且均比待处理图像尺寸小的特征图，之后，将待处理图像和多张特征图一同输入至编码模块，以实现多尺度输入。此时，输入的每张图可以对应编码模块中的一个处理层。举例而言，待处理图像为一张400×400的图像，那么，将待处理图像输入至前端子网络时，多尺度输入模块会对待处理图像进行处理，分别得到200×200的特征图、100×100的特征图以及50×50的特征图。此时，待处理图像对应编码模块的第一处理层、200×200的特征图对应编码模块的第二处理层，依次类推。之后，编码模块会对待处理图像和三张特征图一并处理。

进一步的，每个处理层输入的图像会先经过一定数量的卷积层和激活函数层进行一次语义特征学习，得到第一结果。其中，卷积层和激活函数层的数量可以根据实际情况设定，相应的，卷积层的卷积核大小、stride以及通道数也可以根据实际情况设定。之后，第一处理层对应的第一结果通过最大值池化(MaxPooling)映射到第二处理层，并与第二处理层的第一结果进行数据合并，之后，经过第二处理层的残差块、卷积层和激活函数层进行处理，以得到第二处理层的第二结果，之后，将第二处理层的第二结果通过MaxPooling映射到第三处理层，并与第三处理层的第一结果进行数据合并，并经过第三处理层的残差块、卷积层和激活函数层进行处理，以得到第三处理层的第二结果。依次类推，直到最小尺寸特征图对应的处理层得到第二结果，之后，将该处理层的第二结果通过MaxPooling再向下映射一层，即到达最底层，并经过卷积层和激活函数层，以得到最底层的第一结果。通过上述过程便可以使编码模块实现下采样，且可以保证每个处理层学到更多的特征，进而保证三分图包含更多的特征。

可以理解，深度残差网络为卷积神经网络中的一种，具有较高的数据分析准确度。其中，深度残差网络中包含一个shortcut connection的几层网络被称为一个残差块。图8为本申请一个实施例提供的一种残差块结构示意图，其是在深度残差网络为ResNet34结构时的残差块结构示意图。参考图8，残差块包含两层网络。假设残差块输入为x，经过两层网络处理后得到F(x)，此时，残差块的输出为F(x)+x，即残差块的输入x除了需要经过两层网络外，还可以直接跨过两层网络输出，此时，跨过两层网络的连接便可以认为是shortcutconnection。进一步的，残差块的每层网络中均包含一个卷积层。其中，卷积层的卷积核大小以及通道数可以根据实际情况设定。例如，图8中，卷积核大小为3×3，ch表示通道数。一个实施例中，残差块的每个卷积层后接有BN层和激活函数层。其中，BN属于神经网络的标准化层，BN可以将输入归一化为[0,1]或[-1,1]的范围内，或者，BN可以使得输出的均值为0、方差为1。通过设置BN，可以加快残差块的训练速度，提高残差块的性能，且可以优化残差块的梯度流。同时，激活函数层中设置为非线性激活函数，以使得残差块具备非线性因素，进而使得残差块适应更多的非线性模型。可以理解，编码模块中，除了残差块外的其他卷积层后连接的激活函数层同样设置为非线性激活函数，以使编码模块具备非线性因素。需要说明，除了第一处理层和最底层外，每个特征图对应的处理层均存在至少有一个残差块。

一个实施例中，解码模块通过对编码模块的输出结果进行上采样，以得到三分图。解码模块为包含转置卷积层的卷积神经网络，每个转置卷积层后接有非线性激活函数。其中，转置卷积层可以对输入至该卷积层的数据进行上采样，以得到比输入数据更大的输出数据。可以理解，转置卷积层的层数、卷积核的大小可以根据实际情况设定，本实施例对此不作限定。同时，为了保证解码模块具备非线性因素，因此，在每个转置卷积层后方的激活函数层中设置非线性激活函数。可选的，编码模块和解码模块可以采用相同的非线性激活函数，也可以采用不同的非线性激活函数。

解码模块工作时，最底层的第一结果经过转置卷积层以及连接的非线性激活函数，以映射到上一处理层，实现上采样。之后，上一处理层将其对应的第二结果与映射数据合并后经过至少一个卷积层和激活函数层，并将输出的结果记为第三结果。之后，将第三结果经过转置卷积层以及连接的非线性激活函数，以映射到再上一处理层。依次类推，直到映射到第一处理层，之后，由于第一处理层没有第二结果，因此，第一处理层可以将第一结果和下一处理层的映射数据合并，并经过多个卷积层和激活函数层，以得到三分图。需要说明，上述提及的卷积层和激活函数层的数量、卷积层中卷积核的大小以及stride可以根据实际情况设定。同时，激活函数层同样设置有非线性激活函数。

可以理解，通过编码模块和解码模块对待处理图像进行处理的过程也可以理解为三分图的识别过程，对于编码模块而言，通过包含残差块的多尺度输入卷积神经网络来抽取待处理图像中的特征，对于解码模块而言，通过转置卷积层对编码模块的输出结果进行上采样，以使三分图的尺寸恢复至待处理图像的尺寸，同时，保留了待处理图像的语义特征，即通过1、0.5、0三种数值标识三分图中每个像素属于前景部分、过渡区域还是背景部分。

需要说明，上述提及的处理层仅是便于对神经网络模型的描述，而非对神经网络模型的限定。

步骤250、将三分图输入至后端子网络，以细化目标对象在三分图中的边缘特征，并得到目标对象的概率分布图。

具体的，后端子网络为包含批量归一化层和非线性激活函数的卷积神经网络。后端子网络用于对三分图中目标对象的边缘特征进行细化，以使得目标对象的识别结果更为准确。可以理解，由于前端子网络已经识别了待处理图像的三分图，因此，实际应用中，训练后的神经网络模型可以仅包含前端子网络，或者是同时包含前端子网络和后端子网络。本实施例中，以训练后的神经网络模型同时包含前端子网络和后端子网络为例。

可选的，后端子网络中每个卷积层后面接一个BN层以及一个激活函数层。激活函数层为非线性激活函数，且本实施例对于非线性激活函数的类型不作限定。换言之，后端子网络为包含卷积层、BN层和非线性激活函数的卷积神经网络。上述卷积层的数量、卷积核大小、卷积层通道数、卷积层的stride等可以根据实际情况设定。一个实施例中，以后端子网络包含三个卷积层为例进行描述，且三个卷积层的卷积核大小均为3×3，第一个卷积层的通道数为64、第二个卷积层的通道数为32、第三个卷积层的通道数为1。通过后端子网络可以得到与原始图像大小相等，目标对象边缘特征更加准确的概率分布图。

可以理解，概率分布图的像素与前端子网络输出的三分图中的像素取值范围相等。通过概率分布图可以标识原始图像中每个像素属于前景部分的可能，举例而言，概率分布图的像素取值范围仍在[0,1]之间，且像素的值越接近1表明该像素为前景部分的概率越大，像素的值越接近0表明该像素为背景部分的概率越大。相比于三分图，经过后端子网络处理后的概率分布图中目标对象的边缘特征更为精细。

步骤260、将原始图像作为引导图像，对概率分布图进行引导滤波，以得到优化后的概率分布图。

具体的，引导滤波是一种图像滤波技术，通过一张引导图像，对输入图像进行滤波处理，使得最后的输出图像大体上与输入图像相似，但是纹理部分与引导图像相似。引导滤波可以应用于保边图像平滑、抠图等方面。通过引导滤波可以解决训练后的神经网络模型无法对目标对象的边缘细节进行精准预测的问题，实现对边缘细节进行优化。一个实施例中，将最初获取的原始图像作为引导图像，之后，将概率分布图作为输入图像进行引导滤波，并将输出图形记为优化后的概率分布图。其中，引导滤波具体采用的计算公式实施例不作限定。

步骤270、在原始图像中，根据优化后的概率分布图对目标对象进行抓取，以得到目标对象的抓取图像。

典型的，根据优化后的概率分布图，在原始图像中对目标对象进行抓取。其中，抓取过程可以根据实际情况设定。一个实施例中，设定像素阈值，当特征图像中某个像素的值高于像素阈值时，说明该像素属于显示目标对象的像素，此时，在原始图像中抓取与特征图像中该像素对应的像素，按照上述方式遍历特征图像中的全部像素后，便可以实现对目标对象的抓取，即实现对目标对象抠图。

下面对本实施例提供的图像提取方法进行示例性描述。

示例性的，图9为本申请一个实施例提供的原始图像示意图。参考图9，原始图像的尺寸为400×400，且原始图像中目标对象为婴儿，且原始图像中包含婴儿的上半身。之后，利用AlphaPose算法识别原始图像中婴儿的关键点信息，并将关键点信息与原始图像叠加，得到待处理图像。图10为本申请一个实施例提供的待处理图像第三示意图，其是在图9的原始图像中添加关键点信息后得到的图像。待处理图像的尺寸为400×400。

进一步的，图11为本申请一个实施例提供的一种前端子网络处理过程示意图。参考图11，待处理图像为一张400×400大小的图像。将待处理图像输入至前端子网络时，先对待处理图像进行下采样处理后，得到一张200×200的特征图，并对200×200特征图进行下采样后，得到一张100×100的特征图，并对100×100的特征图进行下采样后得到50×50的特征图。之后，待处理图像以及三张特征图作为前端子网络的输入，以实现多尺度输入。为了便于表述，将待处理图像对应为第一处理层、200×200特征图对应为第二处理层、100×100特征图对应为第三处理层、50×50特征图对应为第四处理层。

编码模块中，待处理图像先经过两个卷积层，且两个卷积层的卷积核大小均为3×3，输出通道数均为32。且每个卷积层后均有激活函数层。此时，可以得到第一处理层对应的第一结果。之后，对第一处理层的第一结果进行MaxPooling，以映射到第二处理层。第二处理层中，200×200的特征图先经过一个卷积层以及一个激活函数层，以得到第二处理层的第一结果。其中，卷积层的卷积核大小为3×3，输出通道数为64。之后，第二处理层将其对应的第一结果和第一处理层映射的数据进行合并，得到通道数为96的数据并经过残差块。其中，残差块数量为一个，且结构如图8所示，此处通道数为64。之后，将残差块的输出结果经过一个卷积层以及一个激活函数层，以得到第二处理层的第二结果。其中，卷积层的卷积核大小为3×3，输出通道数为64。

之后，第二处理层将第二结果进行MaxPooling，以映射到第三处理层。第三处理层中，100×100的特征图先经过一个卷积层以及一个激活函数层，以得到第三处理层的第一结果。其中，卷积层的卷积核大小为3×3，输出通道数为128。之后，第三处理层将其对应的第一结果和第二处理层映射的数据进行合并，得到通道数为192的数据并经过残差块。其中，残差块数量为一个，且结构如图8所示，且通道数为128。之后，将残差块的输出结果经过一个卷积层以及一个激活函数层，以得到第三处理层的第二结果。其中，卷积层的卷积核大小为3×3，输出通道数为128。

之后，第三处理层将第二结果进行MaxPooling，以映射到第四处理层。第四处理层中，50×50的特征图先经过一个卷积层以及一个激活函数层，以得到第四处理层的第一结果。其中，卷积层的卷积核大小为3×3，输出通道数为256。之后，第四处理层将其对应的第一结果和第三处理层映射的数据进行合并，得到通道数为384的数据并经过残差块。其中，残差块数量为一个，且结构如8所示，且通道数为256。之后，将残差块的输出结果经过一个卷积层以及一个激活函数层，以得到第四处理层的第二结果。其中，卷积层的卷积核大小为3×3，输出通道数为256。之后，第四处理层将第二结果进行MaxPooling，以映射到第五处理层。第五处理层将映射得到的结果经过两个卷积层，以得到第五处理层的第一结果。其中，每个卷积层后均有一个激活函数层，卷积层的卷积核大小为3×3，输出通道数为512。此时，编码模块处理结束。

解码模块中，第五处理层将其对应的第一结果经过转置卷积层以及激活函数层映射到第四处理层，以实现上采样，之后，第四处理层将第四处理层对应的第二结果与第五处理层的映射数据进行合并，得到通道数为512的合并数据。之后，将合并数据经过两个卷积层得到第四处理层的第三结果。其中，每个卷积层后均有一个激活函数层，卷积层的卷积核大小为3×3，输出通道数为256。之后，第四处理层将第三结果经过转置卷积层以及激活函数层映射到第三处理层。第三处理层将第三处理层对应的第二结果与第四处理层的映射数据进行合并，得到通道数为256的合并数据。之后，将合并数据经过两个卷积层得到第三处理层的第三结果。其中，每个卷积层后均有一个激活函数层，卷积层的卷积核大小为3×3，输出通道数为128。之后，第三处理层将第三结果经过转置卷积层以及激活函数层映射到第二处理层。第二处理层将第二处理层对应的第二结果与第三处理层的映射数据进行合并，得到通道数为128的合并数据。之后，将合并数据经过两个卷积层得到第二处理层的第三结果。其中，每个卷积层后均有一个激活函数层，卷积层的卷积核大小为3×3，输出通道数为64。之后，第二处理层将第三结果经过转置卷积层以及激活函数层映射到第一处理层。第一处理层将第一处理层对应的第一结果与第二处理层的映射数据进行合并得到64通道的合并数据。之后，合并数据先经过两个卷积层，且两个卷积层后均接有激活函数层，其中，卷积层的卷积核大小为3×3，通道数为32。之后，将得到的数据再经过一个卷积层和激活函数层，以得到三分图。其中，卷积层的卷积核大小为3×3，通道数为3。此时，解码模块处理完成。上述提及的各转置卷积层中卷积核大小为2×2，各激活函数层中配置非线性激活函数。

图12为本申请一个实施例提供的三分图示意图。图12为图11中前端子网络处理后的输出结果，通过图12可以明确目标对象的像素区域。但是，图12中目标对象的边缘特征不够精细，因此，本示例中，将图12作为后端子网络的输入以细化目标对象的边缘特征。

示例性的，图13为本申请一个实施例提供的一种后端子网络处理过程示意图。参考图13，后端子网络的输入为前端子网络的输出结果。之后，经过第一个卷积层、BN层以及激活函数层，得到通道数为64的数据，再经过第二个卷积层、BN层以及激活函数层，得到通道数为32的数据，之后，再经过第三个卷积层、BN层以及激活函数层，以得到通道数为1的数据，即最终的概率分布图。由图13可知，后端子网络输出的概率分布图中目标对象的边缘特征的精细程度明显优于前端子网络输出的三分图。

之后，为了保证抠图准确性，对概率分布图的边缘特征再次进行细化，此时，通过引导滤波实现。图14为本申请一个实施例提供的一种引导滤波处理过程示意图。参考图14，引导图像为初始图像，输入图像为概率分布图，两个图像经过引导滤波后得到输出图像，即优化后的概率分布图。由图14可知，输出图像中目标对象的边缘特征更为细节、准确。之后，根据图14的输出图像中目标对象的像素区域对原始图像进行抠图，以提取目标对象。

上述，通过获取包含目标对象的原始图像，并识别原始图像中目标对象的关键点信息，之后，将关键点信息填入至原始图像中，以得到待处理图像，进而将待处理图像作为神经网络模型的输入，以通过关键点作为人体姿态以及人体结构的先验信息，保证神经网络模型在处理时更加集中在关键点标识的区域，进而保证了神经网络模型的处理准确度。进一步的，神经网络模型包含用于提取三分图特征的前端子网络和用于细化边缘特征的后端子网络，可以进一步保证神经网络模型的处理准确度。同时，前端子网络为多尺度输入，且采用残差块以及编码-解码相结合的方式，可以提高神经网络模型的性能，同时，优化了神经网络模型的泛化性。进一步的，对于神经网络模型的处理结果进行引导滤波，可以进一步细化目标对象的边缘特征，进而实现对人像的精细抠图。

图15为本申请一个实施例提供的一种图像提取装置的结构示意图。参考图15，该图像提取装置包括：图像获取模块301、信息添加模块302、特征提取模块303以及图像抓取模块304。

其中，图像获取模块301，用于获取包含目标对象的原始图像；信息添加模块302，用于在所述原始图像中添加所述目标对象的关键点信息，以得到待处理图像；特征提取模块303，用于将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图；图像抓取模块304，用于在所述原始图像中，根据所述概率分布图对所述目标对象进行抓取，以得到所述目标对象的抓取图像。

在上述实施例的基础上，信息添加模块302包括：关键点检测单元，用于检测所述原始图像中所述目标对象的关键点信息；关键点叠加单元，用于将所述关键点信息与所述原始图像叠加，以得到待处理图像。

在上述实施例的基础上，关键点检测单元具体用于：采用AlphaPose算法对所述原始图像进行处理，以得到所述目标对象的关键点信息。

在上述实施例的基础上，所述训练后的神经网络模型包括前端子网络和后端子网络。相应的，所述特征提取模块303包括：前端处理单元，用于将所述待处理图像输入至前端子网络，以结合所述关键点信息得到所述待处理图像的三分图；后端处理单元，用于将所述三分图输入至后端子网络，以细化所述目标对象在所述三分图中的边缘特征，并得到所述目标对象的概率分布图。

在上述实施例的基础上，所述前端子网络包括编码模块和解码模块。

在上述实施例的基础上，所述编码模块为包含多个残差块的多尺度输入卷积神经网络，每个所述残差块内的卷积层后接有批量归一化层和非线性激活函数。

在上述实施例的基础上，所述解码模块为包含转置卷积层的卷积神经网络，每个转置卷积层后接有非线性激活函数。

在上述实施例的基础上，所述后端子网络为包含批量归一化层和非线性激活函数的卷积神经网络。

在上述实施例的基础上，还包括：引导滤波模块，用于将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图之后，将所述原始图像作为引导图像，对所述概率分布图进行引导滤波，以得到优化后的概率分布图。

本实施例提供的图像提取装置包含在图像提取设备中，且可用于执行上述任意实施例提供的图像提取方法，具备相应的功能和有益效果。

值得注意的是，上述图像提取装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图16为本申请一个实施例提供的一种图像提取设备的结构示意图。如图16所示，该图像提取设备包括处理器40、存储器41、输入装置42以及输出装置43；图像提取设备中处理器40的数量可以是一个或多个，图16中以一个处理器40为例；图像提取设备中的处理器40、存储器41、输入装置42以及输出装置43可以通过总线或其他方式连接，图16中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的图像提取方法对应的程序指令/模块(例如，图像提取装置中的图像获取模块301、信息添加模块302、特征提取模块303和图像抓取模块304)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行图像提取设备的各种功能应用以及数据处理，即实现上述的图像提取方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据图像提取设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至图像提取设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与图像提取设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备以及其他数据输出设备。

上述图像提取设备包含图像提取装置，可以用于执行任意实施例提供的图像提取方法，具备相应的功能和有益效果。

本申请一个实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像提取方法，该方法包括：

获取包含目标对象的原始图像；

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的图像提取方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种图像提取方法，其特征在于，包括：

获取包含目标对象的原始图像；

2.根据权利要求1所述的图像提取方法，其特征在于，所述在所述原始图像中添加所述目标对象的关键点信息，以得到待处理图像包括：

检测所述原始图像中所述目标对象的关键点信息；

3.根据权利要求2所述的图像提取方法，其特征在于，所述检测所述原始图像中所述目标对象的关键点信息包括：

4.根据权利要求1所述的图像提取方法，其特征在于，所述训练后的神经网络模型包括前端子网络和后端子网络；

5.根据权利要求4所述的图像提取方法，其特征在于，所述前端子网络包括编码模块和解码模块。

6.根据权利要求5所述的图像提取方法，其特征在于，所述编码模块为包含多个残差块的多尺度输入卷积神经网络，每个所述残差块内的卷积层后接有批量归一化层和非线性激活函数。

7.根据权利要求5所述的图像提取方法，其特征在于，所述解码模块为包含转置卷积层的卷积神经网络，每个转置卷积层后接有非线性激活函数。

8.根据权利要求4所述的图像提取方法，其特征在于，所述后端子网络为包含批量归一化层和非线性激活函数的卷积神经网络。

9.根据权利要求1所述的图像提取方法，其特征在于，所述将所述待处理图像输入至训练后的神经网络模型中，以提取所述目标对象的概率分布图之后，还包括：

10.一种图像提取装置，其特征在于，包括：

图像获取模块，用于获取包含目标对象的原始图像；

11.一种图像提取设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的图像提取方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的图像提取方法。