CN110619334A - 基于深度学习的人像分割方法、架构及相关装置 - Google Patents
基于深度学习的人像分割方法、架构及相关装置 Download PDFInfo
- Publication number
- CN110619334A CN110619334A CN201910871072.6A CN201910871072A CN110619334A CN 110619334 A CN110619334 A CN 110619334A CN 201910871072 A CN201910871072 A CN 201910871072A CN 110619334 A CN110619334 A CN 110619334A
- Authority
- CN
- China
- Prior art keywords
- semantic information
- module
- shallow
- decoder
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于深度学习的人像分割方法、架构及相关装置,其特征在于,方法包括:获取原始图像,对原始图像进行预处理得到待处理图像;通过编码器对待处理图像进行N次下采样处理,得到N个浅层语义信息,N个浅层语义信息中第k个浅层语义信息对应N次下采样处理中的第k次下采样处理的输出,且对应N次下采样处理中的第k+1次下采样处理的输入或者对应编码器的池化模块的输入,k为小于或等于N的正整数;通过N个解码器根据N个浅层语义信息和池化模块的输出执行预设解码操作,得到目标高层语义信息;根据目标高层语义信息生成原始图像的人像分割图像。本申请实施例有利于避免浅层语义信息的丢失,提高人像分割图像的准确度和精度。
Description
技术领域
本申请涉及神经网络领域,具体涉及一种基于深度学习的人像分割方法、架构及相关装置。
背景技术
近些年来随着神经网络算法的研究不断深入,神经网络算法应用到图像分割上面。现有技术中,基于深度学习的图像分割算法有三个方向,图像语义分割:将图像中同类型目标标记成一种颜色,不区分同类型目标的不同的实例;图像实例分割:不仅需要区分不同类型的目标,对同类型的目标,还需要区分出不同实例;同时对不可划分的不同实例目标不进行分割;图像全景分割:综合语义分割和实例分割。对可区分实例的进行图像实例分割,不可区分的进行图像语义分割。但在实际应用中,只有少数神经网络模型应用在人像分割领域,且实际分割效果不理想。
发明内容
本申请实施例提供了一种基于深度学习的人像分割方法、架构及相关装置,以期能够实现通过使用多层级的解码器进行解码操作,对不同浅层语义信息进行融合,避免浅层语义信息的丢失,提高人像分割的准确度和精度。
第一方面,本申请实施例提供一种基于深度学习的人像分割方法,应用于电子设备中预配置的人像分割模型,所述人像分割模型包括编码器和串联的N个解码器,所述编码器连接所述N个解码器中的第一个解码器,N为大于1的正整数,所述方法包括:
获取原始图像,对所述原始图像进行预处理得到待处理图像;
通过所述编码器对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
根据所述目标高层语义信息生成所述原始图像的人像分割图像。
第二方面,本申请实施例提供一种人像分割模型架构,应用于电子设备,所述人像分割模型架构包括图片处理装置、编码器和串联的N个解码器,所述图片处理装置连接所述编码器,所述编码器连接所述N个解码器中的第一个解码器,N为大于1的正整数,其中,
所述图片处理装置,用于获取原始图像,以及对所述原始图像进行预处理得到待处理图像;
所述编码器,用于对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
所述N个解码器,用于根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
所述输出装置,用于根据所述目标高层语义信息生成所述原始图像的人像分割图像并输出。
第三方面,本申请实施例提供一种基于深度学习的人像分割装置,应用于电子设备,所述电子设备包括预配置的人像分割模型,所述人像分割模型的架构包括编码器和串联的N个解码器,所述编码器连接所述N个解码器中的第一个解码器,N为大于1的正整数,所述装置包括处理单元和通信单元,其中,
所述处理单元用于通过所述通信单元获取原始图像,对所述原始图像进行预处理得到待处理图像;通过所述编码器对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;根据所述目标高层语义信息生成所述原始图像的人像分割图像。
第四方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第五方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第六方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,电子设备首先通过获取原始图像,对原始图像进行预处理得到待处理图像;然后通过编码器对待处理图像进行N次下采样处理,得到N个浅层语义信息,N个浅层语义信息中第k个浅层语义信息对应N次下采样处理中的第k次下采样处理的输出,且对应N次下采样处理中的第k+1次下采样处理的输入或者对应编码器的池化模块的输入,k为小于或等于N的正整数;其次通过N个解码器根据N个浅层语义信息和池化模块的输出执行预设解码操作,得到目标高层语义信息;最后根据目标高层语义信息生成原始图像的人像分割图像。可见,通过串联的多个解码器中每个解码器依次融合输入的浅层语义信息,能够避免浅层语义信息的丢失,实现了使人像分割图像信息更完善,提高了人像分割图像的准确度和精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于深度学习的人像分割方法的流程示意图;
图2是本申请实施例提供的一种人像分割方法运行的示意图;
图3是本申请实施例提供的一种解码器的内部结构示意图;
图4是本申请实施例提供的另一种人像分割方法运行的示意图;
图5是本申请实施例提供的一种基于深度学习的人像分割架构的示意图;
图6是本申请实施例提供的一种电子设备的结构示意图;
图7是本申请实施例提供的一种基于深度学习的人像分割装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备图像处理功能的电子设备,该电子设备可以包括各种手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
目前,基于深度学习的图像分割算法可分为三个方向:图像语义分割、图像实例分割和图像全景分割,其分割目标不同且只有少数模型关注在人像分割领域。
针对上述问题,本申请提出一种基于深度学习的人像分割方法,下面结合附图对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供了一种基于深度学习的人像分割方法的流程示意图,应用于电子设备中预配置的人像分割模型,所述人像分割模型的架构包括编码器和串联的N个解码器,所述编码器连接所述N个解码器中的第一个解码器,N为大于1的正整数,如图所示,本基于深度学习的人像分割方法包括:
S101,电子设备获取原始图像,对所述原始图像进行预处理得到待处理图像;
其中,获取所述原始图像后,对原始图像进行图像压缩、增强复原等处理,得到与处理图像。
S102,所述电子设备通过所述编码器对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
其中,所述编码器包括N个依次串联的下采样模块,以及和最后一个下采样模块相连的池化模块,所述池化模块可以是带有空洞卷积的空间金字塔池化模块(ASPP,AtrousSpatial Pyramid Pooling),其中,所述编码器可以采用Deeplabv3。
具体实现中,将输入的待处理图像通过N个依次串联的下采样模块得到N个浅层语义信息,其中,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数。例如,如图2所示,图2为一种人像分割方法运行的示意图,对所述原始图像经过3个下采样模块进行3次下采样,第一个下采样模块a输出的第一个浅层语义信息为第二个下采样模块b的输入,第二个下采样模块进行第二次下采样输出的第二个浅层语义信息为第三个下采样模块c的输入,第三个下采样模块进行第三次下采样的输出第三个浅层语义信息,第三次下采样的输出的浅层语义信息作为池化模块w的输入。
S103,所述电子设备通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
其中,将第N次下采样得到的第N个浅层语义信息输入所述池化模块,所述池化模块输出第一高层语义信息。
具体实现中,所述N个解码器中每个解码器根据输入的相应浅层语义信息和高层语义信息进行解码操作,输出对应的高层语义信息,其中,输入所述第一个解码器的第一高层语义信息为所述池化模块的输出,所述N个解码器最后一个解码器输出的第N个高层语义信息为目标高层语义信息。
S104,所述电子设备根据所述目标高层语义信息生成所述原始图像的人像分割图像。
其中,对所述目标高层语义信息进行处理得到所述原始图像的人像分割图像,所述处理包括图像放缩等操作。
可以看出,本申请实施例中,电子设备首先通过获取原始图像,对原始图像进行预处理得到待处理图像;然后通过编码器对待处理图像进行N次下采样处理,得到N个浅层语义信息,N个浅层语义信息中第k个浅层语义信息对应N次下采样处理中的第k次下采样处理的输出,且对应N次下采样处理中的第k+1次下采样处理的输入或者对应编码器的池化模块的输入,k为小于或等于N的正整数;其次通过N个解码器根据N个浅层语义信息和池化模块的输出执行预设解码操作,得到目标高层语义信息;最后根据目标高层语义信息生成原始图像的人像分割图像。可见,通过串联的多个解码器中每个解码器依次融合输入的浅层语义信息,能够避免浅层语义信息的丢失,实现了使人像分割图像信息更完善,提高了人像分割图像的准确度和精度。
在一个可能的示例中,所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息,包括:通过所述N个解码器中的第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和第一个高层语义信息执行解码操作,生成第二个高层语义信息,所述第一个高层语义信息为所述池化模块的输出;针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息。
其中,所述N个解码器对N个浅层语义信息中每个浅层语义信息进行上采样时,所述N个解码器中的第一个解码器将第N个浅层语义信息和所述池化模块的输出的第一个高层语义信息进行解码操作,得到第二个高层语义信息;所述N个解码器中的除第一个解码器外的其他解码器将输入的浅层语义信息和高层语义信息进行解码操作,得到目标高层语义信息。
举例来说,如图2所示,对所述原始图像进行3次下采样,第三次下采样的输出的浅层语义信息作为池化模块w的输入,所述池化模块w输出第一高层语义信息,所述池化模块w主要用于将第三次下采样输出的浅层语义信息引入多尺度信息,所述第N个解码器中第一个解码器o,对第一高层语义信息和第3个浅层语义信息进行解码操作,得到特征融合后的第二高层语义信息。所述第二高层语义信息和所述第2个浅层语义信息通过第二个解码器p进行解码操作,得到第三高层语义信息;通过第三个解码器q将所述第三高层语义信息和第1个浅层语义信息进行解码操作,得到目标语义信息,所述目标语义信息用于生成人像分割图像。
可见,本示例中,电子设备能够基于当前调用的解码器的输入数据进行解码操作,得到融合浅层语义信息的高层语义信息,提高了人像分割图像的准确度和精度。
在一个可能的示例中,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块串联所述第一点积模块后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,所述通过所述第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和所述第一个高层语义信息执行解码操作,生成第二个高层语义信息,包括:通过所述第一个解码器的所述第一深度卷积模块和所述第一点积模块将所述第N个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第一个解码器的所述resize模块将所述第一个高层语义信息的进行尺度信息调整后输入到所述连接模块;通过所述第一个解码器的所述连接模块将输入的第N个浅层语义信息和第一个高层语义信息的通道维度进行连接,得到第一融合语义信息;通过所述第一个解码器的第二深度卷积模块和所述第二点积模块对所述第一融合语义信息进行再次融合和信息提取,得到第二高层语义信息。
其中,如图3所示,图3为解码器的内部结构示意图,其中N个解码器中每个解码器的内部结构都相同。第一解码器将所述第一高层语义信息与所述第N个浅层信息相连接之前,通过所述resize模块对高层级的信息进行resize处理,使得连接前所述第一高层级语义信息与第N个浅层语义信息处于相同尺度;通过所述第一深度卷积模块和第一点积模块对所述第N个浅层语义信息进行降维操作,将其通道数转变为48;通过所述连接模块将处于相同尺度的第一高层级语义信息与第N个浅层语义信息的通道维度相连接,得到第一融合信息;通过所述第二深度卷积模块和第二点积模块对连接之后的第一融合信息进行卷积运算,进一步提取融合后语义信息,得到第二高层语义信息。
可见,本示例中,电子设备能够基于第一解码器将输入的第一高层语义信息和第N个浅层语义信息进行连接,得到第二高层语义信息,实现了进一步融合浅层语义信息,提高了人像分割的精度和准确度。
在一个可能的示例中,所述针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数,包括:通过所述第i个解码器的所述第一深度卷积模块和所述第一点积模块将获取的所述N个浅层语义信息中第N-i+1个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第i个解码器的所述resize模块将获取的第i-1个解码器的输出的第i个高层语义信息进行尺度信息调整后输入到所述连接模块;通过所述第i个解码器的连接模块将输入的第N-i+1个浅层语义信息和第i个高层语义信息的通道维度进行连接,得到第i个融合语义信息;通过所述第i个解码器的第二深度卷积模块和所述第二点积模块对所述第i融合语义信息进行特征融合和信息提取,得到第i+1个高层语义信息。
其中,对于所述N个解码器中除所述第一个解码器之外的解码器,将当前调用的第i个解码器的所述第i高层语义信息与所述第N-i+1个浅层信息相连接之前,通过所述resize模块对第i高层语义信息进行resize处理,使得连接前所述第i高层语义信息与第N-i+1个浅层语义信息处于相同尺度;通过所述第一深度卷积模块和第一点积模块对所述第N-i+1个浅层语义信息进行降维操作,将其通道数转变为48;通过所述连接模块将处于相同尺度的第i高层语义信息与第N-i+1个浅层语义信息的通道维度相连接,得到第一融合信息;通过所述第二深度卷积模块和第二点积模块对连接之后的第一融合信息进行卷积运算,进一步提取融合后语义信息,得到第i+1高层语义信息。其中,最后一个解码器输出的第N+1个高层语义信息为目标高层语义信息。
可见,本示例中电子设备能够第一解码器将输入的第一高层语义信息和第N个浅层语义信息进行连接,得到第二高层语义信息,实现了进一步融合浅层语义信息,提高了人像分割的精度和准确度。
在一个可能的示例中,所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息,包括:针对所述第j个解码器,执行如下操作:获取所述第j个解码器的输入数据,确定所述输入数据内容;若所述输入数据包括所述N个浅层语义信息中第N-j+1个浅层语义信息和第j个高层语义信息,通过所述第j个解码器对所述输入数据执行解码操作得到第j+1个高层语义信息,其中,所述j为小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息;若所述输入数据只包括第j个高层语义信息,通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,所述j为小于或等于N的正整数,所述第N+1个高层语义信息为所述目标高层语义信息。
其中,首先获取当前调用的所述N个解码器中第j个解码器的输入数据,判断所述输入数据是否包含浅层语义信息,若包含所述浅层语义信息,所述第j个解码器将输入的浅层语义信息和高层语义信息进行解码操作,得到第j+1个高层语义信息,若不包含所述浅层语义信息,则所述第j个解码器将输入的高层语义信息进行信息再提取操作。其中,用于通过与高层语义信息的浅层语义信息可以通过预先设置的下采样模块得到。例如,如图4所示,图4为另一种人像分割方法运行的示意图,对所述原始图像进行3次下采样,第三次下采样的输出的浅层语义信息作为池化模块w的输入,所述池化模块w输出第一高层语义信息,所述池化模块w主要用于将第三次下采样输出的浅层语义信息引入多尺度信息,所述第N个解码器中第一个解码器o获取输入数据后,确定输入数据包括第一高层语义信息和第3个浅层语义信息时,对第一高层语义信息和第3个浅层语义信息进行解码操作,得到特征融合后的第二高层语义信息。第二个解码器p获取输入数据后,判断输入数据不包括第2个浅层语义信息时,对输入的第二高层语义信息进行语义信息的再次提取,得到第三高层语义信息;通过第三个解码器q确定输入数据包括第三高层语义信息和第1个浅层语义信息时,将所述第三高层语义信息和第1个浅层语义信息进行解码操作,得到目标语义信息,所述目标语义信息用于生成人像分割图像。
具体实现中,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块串联所述第一点积模块后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,所述通过所述第j个解码器根据所述第j个高层语义信息和所述第N-j+1个浅层语义信息进行解码操作,输出第j+1个高层语义信息,包括:通过所述第j个解码器的所述第一深度卷积模块和所述第一点积模块将获取的所述N个浅层语义信息中第N-j+1个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第j个解码器的所述resize模块将获取的第j个高层语义信息进行尺度信息调整后输入到所述连接模块;通过所述第j个解码器的连接模块将输入的第N-j+1个浅层语义信息和第j个高层语义信息的通道维度进行连接,得到第j个融合语义信息;通过所述第j个解码器的第二深度卷积模块和所述第二点积模块对所述第j融合语义信息进行特征融合和信息提取,得到第j+1个高层语义信息。所述通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,包括:通过所述resize模块将获取的第j个高层语义信息进行尺度信息调整后通过所述连接模块输入到所述第二深度卷积模块和所述第二点积模块;通过所述第二深度卷积模块和所述第二点积模块对所述第j个高层语义信息进行特征融合和信息提取,得到第j+1个高层语义信息。
可见,本示例中,电子设备能够基于解码器判断输入数据进行解码操作得到输入下一个解码器的高层语义信息,实现了进一步融合浅层语义信息且避免了过多的增加网络的复杂程度,提高了人像分割的精度和效率。
在一个可能的示例中,所述获取原始图像,对所述原始图像进行预处理得到待处理图像,包括:对所述原始图像进行人脸识别;根据所述人脸识别结果标记所述原始图像的前景和背景;根据所述前景和背景确定比例关系;所述比例关系小于预设比例时,对所述原始图像进行放缩调整,得到待处理图像。
其中,通过对获取原始图像进行预处理,原始图像即要进行人像分割图像,原始图像中可以包含人像,人像分割模型对于输入的待处理图像的属性可能会有一些要求,例如尺寸、分辨率等。在原始图像中,目标人像过小的情况可能会在人像分割过程中不能实现对过小的目标人像进行分割,可以根据原始图像中所有人像的占比关系对原始图像进行放缩,例如,原始图像中有多个人像,其中最大人像占比为50%,最小人像占比为10%,则可以通过对原始图像进行放大处理,使人像分割处理更精确。还可以对人像分割模型设置输入图像的预设尺寸,例如128x128,如果原始图像不是预设尺寸,应当将其调整为预设尺寸,以便人像分割模型能够正确处理。
可见,本示例中,所述电子设备通过对输入人像分割模型的原始图像进行处理,提高了人像分割的准确度和稳定性。
在一个可能的示例中,所述获取原始图像,对所述原始图像进行预处理得到待处理图像之前,还包括:获取包含半身人像和全身人像的图片样本集;对所述图片样本集中人像所在区域进行标记,得到标记样本集;将所述图片样本集和所述标记样本集输入神经网络,完成模型训练,得到所述预配置的人像分割模型。
具体实现中,首先获取包含半身人像和全身人像的图片样本集;对所述图片样本集中人像所在区域进行标记,得到标记样本集;将所述图片样本集和所述标记样本集输入神经网络,完成模型训练,得到所述预配置的人像分割模型。
可见,本示例中,所述电子设备能够根据大量人像样本训练神经网络模型,得到预配置的人像分割模型,提高了人像分割的准确度和稳定性。
与上述图1所示的实施例一致的,请参阅图5,图5是本申请实施例提供的一种人像分割模型架构500的示意图,所述人像分割模型架构500应用于电子设备,所述人像分割模型架构包括图片处理装置510、编码器520、串联的N个解码器530和输出装置540,所述图片处理装置连接所述编码器,所述编码器连接所述N个解码器中的第一个解码器,所述N个解码器中的第N个解码器连接所述输出装置,N为大于1的正整数,其中,
所述图片处理装置510,用于获取原始图像,以及对所述原始图像进行预处理得到待处理图像;
所述编码器520,用于对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
所述N个解码器530,用于根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
所述输出装置540,用于根据所述目标高层语义信息生成所述原始图像的人像分割图像并输出。
可以看出,本申请实施例中,电子设备首先通过获取原始图像,对原始图像进行预处理得到待处理图像;然后通过编码器对待处理图像进行N次下采样处理,得到N个浅层语义信息,N个浅层语义信息中第k个浅层语义信息对应N次下采样处理中的第k次下采样处理的输出,且对应N次下采样处理中的第k+1次下采样处理的输入或者对应编码器的池化模块的输入,k为小于或等于N的正整数;其次通过N个解码器根据N个浅层语义信息和池化模块的输出执行预设解码操作,得到目标高层语义信息;最后根据目标高层语义信息生成原始图像的人像分割图像。可见,通过串联的多个解码器中每个解码器依次融合输入的浅层语义信息,能够避免浅层语义信息的丢失,实现了使人像分割图像信息更完善,提高了人像分割图像的准确度和精度。
在一个可能的示例中,所述N个解码器中的第一个解码器,用于根据所述N个浅层语义信息中第N个浅层语义信息和第一个高层语义信息执行解码操作,生成第二个高层语义信息,所述第一个高层语义信息为所述池化模块的输出;
所述N个解码器中除所述第一个解码器之外的解码器,用于根据第i-1个解码器的输出和所述N个浅层语义信息中第N-i+1个浅层语义信息执行解码操作得到第i+1个高层语义信息,且i为大于1小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息。
在一个可能的示例中,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块和所述第一点积模块串联后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,其中,
所述第一深度卷积模块和所述第一点积模块,用于将所述第N个浅层语义信息进行降维操作后输入到所述连接模块;
所述resize模块,用于将所述第一个高层语义信息的进行尺度信息调整后输入到所述连接模块;
所述连接模块,用于将将输入的第N个浅层语义信息和第一个高层语义信息的通道维度进行连接,得到第一融合语义信息;
所述第二深度卷积模块和所述第二点积模块,用于将所述第一融合语义信息进行语义信息提取和升维操作,得到第二高层语义信息。
在一个可能的示例中,所述第一深度卷积模块和所述第一点积模块,还用于将所述第N-i+1个浅层语义信息进行降维操作后输入到所述连接模块,i为大于1小于或等于N的正整数;
所述resize模块,还用于将所述第i个高层语义信息的进行尺度信息调整后输入到所述连接模块;
所述连接模块,还用于将将输入的第N-i+1个浅层语义信息和第i个高层语义信息的通道维度进行连接,得到第i个融合语义信息;
所述第二深度卷积模块和所述第二点积模块,还用于将所述第i个融合语义信息进行语义信息提取和升维操作,得到第i+1高层语义信息。
在一个可能的示例中,所述N个解码器中第j个解码器,用于获取所述第j个解码器的输入数据,确定所述输入数据内容;以及若所述输入数据包括所述N个浅层语义信息中第N-j+1个浅层语义信息和第j个高层语义信息,通过所述第j个解码器对所述输入数据执行解码操作得到第j+1个高层语义信息,其中,所述j为小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息;以及若所述输入数据只包括第j个高层语义信息,通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,所述j为小于或等于N的正整数,所述第N+1个高层语义信息为所述目标高层语义信息。
与上述图1所示的实施例一致的,请参阅图6,图6是本申请实施例提供的一种电子设备600的结构示意图,如图所示,所述电子设备600包括处理器610、存储器620、通信接口630以及一个或多个程序621,其中,所述一个或多个程序621被存储在上述存储器620中,并且被配置由上述处理器610执行,所述一个或多个程序621包括用于执行以下步骤的指令;
获取原始图像,对所述原始图像进行预处理得到待处理图像;
通过所述编码器对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
根据所述目标高层语义信息生成所述原始图像的人像分割图像。
可以看出,本申请实施例中,电子设备首先通过获取原始图像,对原始图像进行预处理得到待处理图像;然后通过编码器对待处理图像进行N次下采样处理,得到N个浅层语义信息,N个浅层语义信息中第k个浅层语义信息对应N次下采样处理中的第k次下采样处理的输出,且对应N次下采样处理中的第k+1次下采样处理的输入或者对应编码器的池化模块的输入,k为小于或等于N的正整数;其次通过N个解码器根据N个浅层语义信息和池化模块的输出执行预设解码操作,得到目标高层语义信息;最后根据目标高层语义信息生成原始图像的人像分割图像。可见,通过串联的多个解码器中每个解码器依次融合输入的浅层语义信息,能够避免浅层语义信息的丢失,实现了使人像分割图像信息更完善,提高了人像分割图像的准确度和精度。
在一个可能的示例中,在所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息方面,所述程序中的指令具体用于执行以下操作:通过所述N个解码器中的第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和第一个高层语义信息执行解码操作,生成第二个高层语义信息,所述第一个高层语义信息为所述池化模块的输出;针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息。
在一个可能的示例中,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块串联所述第一点积模块后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,在所述通过所述第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和所述第一个高层语义信息执行解码操作,生成第二个高层语义信息方面,所述程序中的指令具体用于执行以下操作:通过所述第一个解码器的所述第一深度卷积模块和所述第一点积模块将所述第N个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第一个解码器的所述resize模块将所述第一个高层语义信息的进行尺度信息调整后输入到所述连接模块;通过所述第一个解码器的所述连接模块将输入的第N个浅层语义信息和第一个高层语义信息的通道维度进行连接,得到第一融合语义信息;通过所述第一个解码器的第二深度卷积模块和所述第二点积模块对所述第一融合语义信息进行再次融合和信息提取,得到第二高层语义信息。
在一个可能的示例中,在所述针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数方面,所述程序还包括用于执行以下操作的指令:通过所述第i个解码器的所述第一深度卷积模块和所述第一点积模块将获取的所述N个浅层语义信息中第N-i+1个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第i个解码器的所述resize模块将获取的第i-1个解码器的输出的第i个高层语义信息进行尺度信息调整后输入到所述连接模块;通过所述第i个解码器的连接模块将输入的第N-i+1个浅层语义信息和第i个高层语义信息的通道维度进行连接,得到第i个融合语义信息;通过所述第i个解码器的第二深度卷积模块和所述第二点积模块对所述第i融合语义信息进行特征融合和信息提取,得到第i+1个高层语义信息。
在一个可能的示例中,在所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息方面,所述程序中的指令具体用于执行以下操作:针对所述第j个解码器,执行如下操作:针对所述第j个解码器,执行如下操作:获取所述第j个解码器的输入数据,确定所述输入数据内容;若所述输入数据包括所述N个浅层语义信息中第N-j+1个浅层语义信息和第j个高层语义信息,通过所述第j个解码器对所述输入数据执行解码操作得到第j+1个高层语义信息,其中,所述j为小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息;若所述输入数据只包括第j个高层语义信息,通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,所述j为小于或等于N的正整数,所述第N+1个高层语义信息为所述目标高层语义信息。
在一个可能的示例中,在所述获取原始图像,对所述原始图像进行预处理得到待处理图像方面,所述程序中的指令具体用于执行以下操作:对所述原始图像进行人脸识别;根据所述人脸识别结果标记所述原始图像的前景和背景;根据所述前景和背景确定比例关系;所述比例关系小于预设比例时,对所述原始图像进行放缩调整,得到待处理图像。
在一个可能的示例中,所述程序还包括用于执行以下操作的指令:所述获取原始图像,对所述原始图像进行预处理得到待处理图像之前,获取包含半身人像和全身人像的图片样本集;对所述图片样本集中人像所在区域进行标记,得到标记样本集;将所述图片样本集和所述标记样本集输入神经网络,完成模型训练,得到所述预配置的人像分割模型。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图7是本申请实施例中所涉及的基于深度学习的人像分割装置700的功能单元组成框图。所述装置应用于电子设备,所述电子设备包括所述基于深度学习的人像分割架构,所述基于深度学习的人像分割架构包括映射库、映射工具、模型执行器和硬件加速器,所述装置包括处理单元701和通信单元702,其中,
所述处理单元701用于通过所述通信单元702获取原始图像,对所述原始图像进行预处理得到待处理图像;以及通过所述编码器对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;以及通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;以及根据所述目标高层语义信息生成所述原始图像的人像分割图像。
其中,所述基于深度学习的人像分割装置700还可以包括存储单元703,用于存储电子设备的程序代码和数据。所述处理单元701可以是处理器,所述通信单元702可以是触控显示屏或者收发器,存储单元703可以是存储器。
可以看出,本申请实施例中,电子设备首先通过获取原始图像,对原始图像进行预处理得到待处理图像;然后通过编码器对待处理图像进行N次下采样处理,得到N个浅层语义信息,N个浅层语义信息中第k个浅层语义信息对应N次下采样处理中的第k次下采样处理的输出,且对应N次下采样处理中的第k+1次下采样处理的输入或者对应编码器的池化模块的输入,k为小于或等于N的正整数;其次通过N个解码器根据N个浅层语义信息和池化模块的输出执行预设解码操作,得到目标高层语义信息;最后根据目标高层语义信息生成原始图像的人像分割图像。可见,通过串联的多个解码器中每个解码器依次融合输入的浅层语义信息,能够避免浅层语义信息的丢失,实现了使人像分割图像信息更完善,提高了人像分割图像的准确度和精度。
在一个可能的示例中,在一个可能的示例中,在所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息方面,所述处理单元701具体用于:通过所述N个解码器中的第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和第一个高层语义信息执行解码操作,生成第二个高层语义信息,所述第一个高层语义信息为所述池化模块的输出;针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息。
在一个可能的示例中,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块串联所述第一点积模块后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,在所述通过所述第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和所述第一个高层语义信息执行解码操作,生成第二个高层语义信息方面,所述处理单元701具体用于:通过所述第一个解码器的所述第一深度卷积模块和所述第一点积模块将所述第N个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第一个解码器的所述resize模块将所述第一个高层语义信息的进行尺度信息调整后输入到所述连接模块;通过所述第一个解码器的所述连接模块将输入的第N个浅层语义信息和第一个高层语义信息的通道维度进行连接,得到第一融合语义信息;通过所述第一个解码器的第二深度卷积模块和所述第二点积模块对所述第一融合语义信息进行再次融合和信息提取,得到第二高层语义信息。
在一个可能的示例中,在所述针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数方面,所述处理单元701具体用于:通过所述第i个解码器的所述第一深度卷积模块和所述第一点积模块将获取的所述N个浅层语义信息中第N-i+1个浅层语义信息进行降维操作后输入到所述连接模块;通过所述第i个解码器的所述resize模块将获取的第i-1个解码器的输出的第i个高层语义信息进行尺度信息调整后输入到所述连接模块;通过所述第i个解码器的连接模块将输入的第N-i+1个浅层语义信息和第i个高层语义信息的通道维度进行连接,得到第i个融合语义信息;通过所述第i个解码器的第二深度卷积模块和所述第二点积模块对所述第i融合语义信息进行特征融合和信息提取,得到第i+1个高层语义信息。
在一个可能的示例中,在所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息方面,所述处理单元701具体用于:针对所述第j个解码器,执行如下操作:获取所述第j个解码器的输入数据,确定所述输入数据内容;若所述输入数据包括所述N个浅层语义信息中第N-j+1个浅层语义信息和第j个高层语义信息,通过所述第j个解码器对所述输入数据执行解码操作得到第j+1个高层语义信息,其中,所述j为小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息;若所述输入数据只包括第j个高层语义信息,通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,所述j为小于或等于N的正整数,所述第N+1个高层语义信息为所述目标高层语义信息。
在一个可能的示例中,在所述获取原始图像,对所述原始图像进行预处理得到待处理图像方面,所述处理单元701具体用于:对所述原始图像进行人脸识别;根据所述人脸识别结果标记所述原始图像的前景和背景;根据所述前景和背景确定比例关系;所述比例关系小于预设比例时,对所述原始图像进行放缩调整,得到待处理图像。
在一个可能的示例中,所述处理单元701获取原始图像,对所述原始图像进行预处理得到待处理图像之前,还用于:获取包含半身人像和全身人像的图片样本集;对所述图片样本集中人像所在区域进行标记,得到标记样本集;将所述图片样本集和所述标记样本集输入神经网络,完成模型训练,得到所述预配置的人像分割模型。
可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种基于深度学习的人像分割方法,其特征在于,应用于电子设备中预配置的人像分割模型,所述人像分割模型的架构包括编码器和串联的N个解码器,所述编码器连接所述N个解码器中的第一个解码器,N为大于1的正整数,所述方法包括:
获取原始图像,对所述原始图像进行预处理得到待处理图像;
通过所述编码器对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
根据所述目标高层语义信息生成所述原始图像的人像分割图像。
2.根据权利要求1所述的方法,其特征在于,所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息,包括:
通过所述N个解码器中的第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和第一个高层语义信息执行解码操作,生成第二个高层语义信息,所述第一个高层语义信息为所述池化模块的输出;
针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息。
3.根据权利要求2所述的方法,其特征在于,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块串联所述第一点积模块后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,所述通过所述第一个解码器根据所述N个浅层语义信息中第N个浅层语义信息和所述第一个高层语义信息执行解码操作,生成第二个高层语义信息,包括:
通过所述第一个解码器的所述第一深度卷积模块和所述第一点积模块将所述第N个浅层语义信息进行降维操作后输入到所述连接模块;
通过所述第一个解码器的所述resize模块将所述第一个高层语义信息的进行尺度信息调整后输入到所述连接模块;
通过所述第一个解码器的所述连接模块将输入的第N个浅层语义信息和第一个高层语义信息的通道维度进行连接,得到第一融合语义信息;
通过所述第一个解码器的第二深度卷积模块和所述第二点积模块对所述第一融合语义信息进行再次融合和信息提取,得到第二高层语义信息。
4.根据权利要求3所述的方法,其特征在于,所述针对所述N个解码器中除所述第一个解码器之外的解码器,执行如下操作:获取当前调用的第i个解码器的输入数据,所述输入数据包括第i-1个解码器的输出,以及包括与所述N个浅层语义信息中第N-i+1个浅层语义信息;通过所述第i个解码器对所述输入数据执行解码操作得到第i+1个高层语义信息,i为大于1小于或等于N的正整数,包括:
通过所述第i个解码器的所述第一深度卷积模块和所述第一点积模块将获取的所述N个浅层语义信息中第N-i+1个浅层语义信息进行降维操作后输入到所述连接模块;
通过所述第i个解码器的所述resize模块将获取的第i-1个解码器的输出的第i个高层语义信息进行尺度信息调整后输入到所述连接模块;
通过所述第i个解码器的连接模块将输入的第N-i+1个浅层语义信息和第i个高层语义信息的通道维度进行连接,得到第i个融合语义信息;
通过所述第i个解码器的第二深度卷积模块和所述第二点积模块对所述第i融合语义信息进行特征融合和信息提取,得到第i+1个高层语义信息。
5.根据权利要求1所述的方法,其特征在于,所述通过所述N个解码器根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息,包括:
针对所述第j个解码器,执行如下操作:
获取所述第j个解码器的输入数据,确定所述输入数据内容;
若所述输入数据包括所述N个浅层语义信息中第N-j+1个浅层语义信息和第j个高层语义信息,通过所述第j个解码器对所述输入数据执行解码操作得到第j+1个高层语义信息,其中,所述j为小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息;
若所述输入数据只包括第j个高层语义信息,通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,所述j为小于或等于N的正整数,所述第N+1个高层语义信息为所述目标高层语义信息。
6.根据权利要求1所述的方法,其特征在于,所述获取原始图像,对所述原始图像进行预处理得到待处理图像,包括:
对所述原始图像进行人脸识别;
根据所述人脸识别结果标记所述原始图像的前景和背景;
根据所述前景和背景确定比例关系;
所述比例关系小于预设比例时,对所述原始图像进行放缩调整,得到待处理图像。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述获取原始图像,对所述原始图像进行预处理得到待处理图像之前,还包括:
获取包含半身人像和全身人像的图片样本集;
对所述图片样本集中人像所在区域进行标记,得到标记样本集;
将所述图片样本集和所述标记样本集输入神经网络,完成模型训练,得到所述预配置的人像分割模型。
8.一种人像分割模型架构,其特征在于,应用于电子设备,所述人像分割模型架构包括图片处理装置、编码器、串联的N个解码器和输出装置,所述图片处理装置连接所述编码器,所述编码器连接所述N个解码器中的第一个解码器,所述N个解码器中的第N个解码器连接所述输出装置,N为大于1的正整数,其中,
所述图片处理装置,用于获取原始图像,以及对所述原始图像进行预处理得到待处理图像;
所述编码器,用于对所述待处理图像进行N次下采样处理,得到N个浅层语义信息,所述N个浅层语义信息中第k个浅层语义信息对应所述N次下采样处理中的第k次下采样处理的输出,且对应所述N次下采样处理中的第k+1次下采样处理的输入或者对应所述编码器的池化模块的输入,k为小于或等于N的正整数;
所述N个解码器,用于根据所述N个浅层语义信息和所述池化模块的输出执行预设解码操作,得到目标高层语义信息;
所述输出装置,用于根据所述目标高层语义信息生成所述原始图像的人像分割图像并输出。
9.根据权利要求8所述的人像分割模型架构,其特征在于,
所述N个解码器中的第一个解码器,用于根据所述N个浅层语义信息中第N个浅层语义信息和第一个高层语义信息执行解码操作,生成第二个高层语义信息,所述第一个高层语义信息为所述池化模块的输出;
所述N个解码器中除所述第一个解码器之外的解码器,用于根据第i-1个解码器的输出和所述N个浅层语义信息中第N-i+1个浅层语义信息执行解码操作得到第i+1个高层语义信息,且i为大于1小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息。
10.根据权利要求8所述的人像分割模型架构,其特征在于,所述N个解码器中每个解码器包括resize模块、第一深度卷积模块、第一点积模块、连接模块、第二深度卷积模块和第二点积模块,所述第一深度卷积模块和所述第一点积模块串联后与所述resize模块并联连接所述连接模块,所述连接模块、所述第二深度卷积模块和所述第二点积模块依次串联,其中,
所述第一深度卷积模块和所述第一点积模块,用于将所述第N个浅层语义信息进行降维操作后输入到所述连接模块;
所述resize模块,用于将所述第一个高层语义信息的进行尺度信息调整后输入到所述连接模块;
所述连接模块,用于将将输入的第N个浅层语义信息和第一个高层语义信息的通道维度进行连接,得到第一融合语义信息;
所述第二深度卷积模块和所述第二点积模块,用于将所述第一融合语义信息进行语义信息提取和升维操作,得到第二高层语义信息。
11.根据权利要求10所述的人像分割模型架构,其特征在于,
所述第一深度卷积模块和所述第一点积模块,还用于将所述第N-i+1个浅层语义信息进行降维操作后输入到所述连接模块,i为大于1小于或等于N的正整数;
所述resize模块,还用于将所述第i个高层语义信息的进行尺度信息调整后输入到所述连接模块;
所述连接模块,还用于将将输入的第N-i+1个浅层语义信息和第i个高层语义信息的通道维度进行连接,得到第i个融合语义信息;
所述第二深度卷积模块和所述第二点积模块,还用于将所述第i个融合语义信息进行语义信息提取和升维操作,得到第i+1高层语义信息。
12.根据权利要求8所述的人像分割模型架构,其特征在于,
所述N个解码器中第j个解码器,用于获取所述第j个解码器的输入数据,确定所述输入数据内容;以及若所述输入数据包括所述N个浅层语义信息中第N-j+1个浅层语义信息和第j个高层语义信息,通过所述第j个解码器对所述输入数据执行解码操作得到第j+1个高层语义信息,其中,所述j为小于或等于N的正整数;所述第N+1个高层语义信息为所述目标高层语义信息;以及若所述输入数据只包括第j个高层语义信息,通过所述第j个解码器根据所述第j个高层语义信息进行解码操作,得到第j+1个高层语义信息,所述j为小于或等于N的正整数,所述第N+1个高层语义信息为所述目标高层语义信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871072.6A CN110619334B (zh) | 2019-09-16 | 2019-09-16 | 基于深度学习的人像分割方法、架构及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871072.6A CN110619334B (zh) | 2019-09-16 | 2019-09-16 | 基于深度学习的人像分割方法、架构及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619334A true CN110619334A (zh) | 2019-12-27 |
CN110619334B CN110619334B (zh) | 2022-09-06 |
Family
ID=68923145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910871072.6A Active CN110619334B (zh) | 2019-09-16 | 2019-09-16 | 基于深度学习的人像分割方法、架构及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619334B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161195A (zh) * | 2020-01-02 | 2020-05-15 | 重庆特斯联智慧科技股份有限公司 | 一种特征图处理方法、装置、存储介质及终端 |
CN111766632A (zh) * | 2020-06-24 | 2020-10-13 | 中国科学院地质与地球物理研究所 | 一种地球物理观测信息融合方法和装置 |
CN112330662A (zh) * | 2020-11-25 | 2021-02-05 | 电子科技大学 | 一种基于多层级神经网络的医学图像分割系统及方法 |
CN113469181A (zh) * | 2020-03-31 | 2021-10-01 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
CN108876792A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和系统及存储介质 |
CN109034162A (zh) * | 2018-07-13 | 2018-12-18 | 南京邮电大学 | 一种图像语义分割方法 |
CN109816661A (zh) * | 2019-03-22 | 2019-05-28 | 电子科技大学 | 一种基于深度学习的牙齿ct图像分割方法 |
CN109886971A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像分割方法及系统 |
CN109902748A (zh) * | 2019-03-04 | 2019-06-18 | 中国计量大学 | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 |
CN110175613A (zh) * | 2019-06-03 | 2019-08-27 | 常熟理工学院 | 基于多尺度特征和编解码器模型的街景图像语义分割方法 |
-
2019
- 2019-09-16 CN CN201910871072.6A patent/CN110619334B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
CN108876792A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和系统及存储介质 |
CN109034162A (zh) * | 2018-07-13 | 2018-12-18 | 南京邮电大学 | 一种图像语义分割方法 |
CN109886971A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像分割方法及系统 |
CN109902748A (zh) * | 2019-03-04 | 2019-06-18 | 中国计量大学 | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 |
CN109816661A (zh) * | 2019-03-22 | 2019-05-28 | 电子科技大学 | 一种基于深度学习的牙齿ct图像分割方法 |
CN110175613A (zh) * | 2019-06-03 | 2019-08-27 | 常熟理工学院 | 基于多尺度特征和编解码器模型的街景图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
何洪亮: "基于卷积神经网络的交通标志检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张文海: "基于卷积神经网络的街景图像分割方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王浩: "基于视觉的行人检测技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161195A (zh) * | 2020-01-02 | 2020-05-15 | 重庆特斯联智慧科技股份有限公司 | 一种特征图处理方法、装置、存储介质及终端 |
CN111161195B (zh) * | 2020-01-02 | 2023-10-13 | 重庆特斯联智慧科技股份有限公司 | 一种特征图处理方法、装置、存储介质及终端 |
CN113469181A (zh) * | 2020-03-31 | 2021-10-01 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN113469181B (zh) * | 2020-03-31 | 2024-04-05 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN111766632A (zh) * | 2020-06-24 | 2020-10-13 | 中国科学院地质与地球物理研究所 | 一种地球物理观测信息融合方法和装置 |
CN111766632B (zh) * | 2020-06-24 | 2021-08-24 | 中国科学院地质与地球物理研究所 | 一种地球物理观测信息融合方法和装置 |
CN112330662A (zh) * | 2020-11-25 | 2021-02-05 | 电子科技大学 | 一种基于多层级神经网络的医学图像分割系统及方法 |
CN112330662B (zh) * | 2020-11-25 | 2022-04-12 | 电子科技大学 | 一种基于多层级神经网络的医学图像分割系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110619334B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN109902767B (zh) | 模型训练方法、图像处理方法及装置、设备和介质 | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
US10614574B2 (en) | Generating image segmentation data using a multi-branch neural network | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
EP2835762A1 (en) | Face recognition method and device | |
CN112052839A (zh) | 图像数据处理方法、装置、设备以及介质 | |
US20230143452A1 (en) | Method and apparatus for generating image, electronic device and storage medium | |
EP4047509A1 (en) | Facial parsing method and related devices | |
WO2023035531A1 (zh) | 文本图像超分辨率重建方法及其相关设备 | |
JP2022177232A (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN112308866A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111292334B (zh) | 一种全景图像分割方法、装置及电子设备 | |
CN112088393A (zh) | 图像处理方法、装置及设备 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN105979283A (zh) | 视频转码方法和装置 | |
CN114022748B (zh) | 目标识别方法、装置、设备及存储介质 | |
CN115132201A (zh) | 唇语识别方法、计算机设备及存储介质 | |
CN114049290A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114120413A (zh) | 模型训练方法、图像合成方法、装置、设备及程序产品 | |
CN113902789A (zh) | 图像特征处理、深度图像生成方法及装置、介质和设备 | |
CN110059739B (zh) | 图像合成方法、装置、电子设备和计算机可读存储介质 | |
JP7479507B2 (ja) | 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム | |
CN115565186B (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |