CN109410211A - 一种图像中目标物体的分割方法及装置 - Google Patents
一种图像中目标物体的分割方法及装置 Download PDFInfo
- Publication number
- CN109410211A CN109410211A CN201710710079.0A CN201710710079A CN109410211A CN 109410211 A CN109410211 A CN 109410211A CN 201710710079 A CN201710710079 A CN 201710710079A CN 109410211 A CN109410211 A CN 109410211A
- Authority
- CN
- China
- Prior art keywords
- image
- label
- target object
- convolutional neural
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种图像中目标物体的分割方法,所述方法包括:获取待分割图像;将待分割图像输入预先训练完成的全卷积神经网络模型;全卷积神经网络模型提取待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与待分割图像的图像特征相匹配的图像样本的标签并输出;根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围;将获得的像素范围确定为待分割图像中目标物体所在位置的像素范围。可见,采用该方法对图像中目标物体的进行分割时,可以确定目标物体在图像中的像素范围,可实现像素级别的识别,对图像中目标物体识别的精确非常高。
Description
技术领域
本发明涉及图像处理领域,特别是涉及一种图像中目标物体的分割方法及装置。
背景技术
图像中目标物体的分割在各个领域的应用非常广泛,其中,“分割”即指从图像中识别目标物体,确定目标物体在图像中的位置。图像中目标物体的分割在机械臂抓取物体、监控安防、人脸识别等领域均有重要作用。例如,在机械臂抓取物体过程中,机械臂在对目标物体进行抓取前,首先需要对摄像头获取的图像中的目标物体进行识别,确定目标物体的位置,然后才能进行抓取。可见,目标物体识别的准确率直接影响机械臂的抓取成功率。
一般情况下,图像中目标物体的分割是基于神经网络实现的,具体来说,将图像输入预先训练完成的神经网络中,神经网络便可以根据其在训练过程中学习到的标定位置内目标物体的图像特征,对输入图像中的目标物体进行检测和识别,确定图像中目标物体的位置并输出,该位置为一个矩形框。
可见,采用上述方法对图像中目标物体的进行识别时,只能确定目标物体的大概位置,即一个矩形框,对图像中目标物体识别的精确度不高,会导致后续处理过程(例如机械臂抓取物体)的准确率降低,甚至失败。
发明内容
本发明实施例的目的在于提供一种图像中目标物体的分割方法及装置,以提高对图像中目标物体识别的精确度。具体技术方案如下:
第一方面,本发明实施例提供了一种图像中目标物体的分割方法,所述方法包括:
获取待分割图像;
将所述待分割图像输入预先训练完成的全卷积神经网络模型;其中,所述全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型;
所述全卷积神经网络模型提取所述待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与所述待分割图像的图像特征相匹配的图像样本的标签并输出;其中,所述标签用于标识目标物体在图像样本中所在位置的像素范围;
根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
可选的,在所述将所述待分割图像输入预先训练完成的全卷积神经网络模型之前,所述方法还包括:
获取所述待分割图像对应的深度图像;
所述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤,包括:
将所述待分割图像及其对应的深度图像输入预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
可选的,所述全卷积神经网络模型的训练方式,包括:
获取多个训练图像;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
可选的,所述全卷积神经网络模型的训练方式,包括:
获取多个训练图像,并获取每一训练图像对应的深度图像样本;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
可选的,所述预设的全卷积神经网络架构包括:
预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层,其中,所述池化层用于提取全局特征;所述dropout层用于按照预设比例丢弃卷积层输出特征图对应的神经元;所述反卷积层用于得到和所述图像样本大小相同的特征图,并输入所述输出层。
可选的,所述标签为二维矩阵,所述二维矩阵的行数和列数分别与所述图像样本的像素点的行数和列数相同;
所述根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签的步骤,包括:
将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签,其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点;
所述根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围的步骤,包括:
确定所述图像样本的标签中值为所述目标元素值的目标元素;
将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
可选的,所述图像增强处理包括:
目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理。
第二方面,本发明实施例提供了一种图像中目标物体的分割装置,所述装置包括:
待分割图像获取模块,用于获取待分割图像;
待分割图像输入模块,用于将所述待分割图像输入由模型训练模块预先训练完成的全卷积神经网络模型;其中,所述全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型;所述全卷积神经网络模型提取所述待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与所述待分割图像的图像特征相匹配的图像样本的标签并输出;所述标签用于标识目标物体在图像样本中所在位置的像素范围;
像素范围确定模块,用于根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
目标物体分割模块,用于将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
可选的,所述装置还包括:
深度图像获取模块,用于在所述将所述待分割图像输入预先训练完成的全卷积神经网络模型之前,获取所述待分割图像对应的深度图像;
所述待分割图像输入模块包括:
待分割图像输入单元,用于将所述待分割图像及其对应的深度图像输入由模型训练模块预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
可选的,所述模型训练模块包括:
训练图像获取单元,用于获取多个训练图像;
抠图处理单元,用于对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
图像增强处理单元,用于针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
合成处理单元,用于将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
标签确定单元,用于根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
参数训练单元,用于将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
训练完成单元,用于当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
可选的,所述模型训练模块包括:
训练图像获取单元,用于获取多个训练图像,并获取每一训练图像对应的深度图像样本;
抠图处理单元,用于对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
图像增强处理单元,用于针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
合成处理单元,用于将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
标签确定单元,用于根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
参数训练单元,用于将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络进行参数训练;
训练完成单元,用于当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
可选的,所述预设的全卷积神经网络架构包括:
预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层,其中,所述池化层用于提取全局特征;所述dropout层用于按照预设比例丢弃卷积层输出特征图对应的神经元;所述反卷积层用于得到和所述图像样本大小相同的特征图,并输入所述输出层。
可选的,所述标签为二维矩阵,所述二维矩阵的行数和列数分别与所述图像样本的像素点的行数和列数相同;
所述标签确定单元包括:
目标元素值确定子单元,用于将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签,其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点;
所述像素范围确定模块包括:
目标元素确定单元,用于确定所述图像样本的标签中值为所述目标元素值的目标元素;
像素范围确定单元,用于将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
可选的,所述图像增强处理包括:
目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理。
第三方面,本发明实施例提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述图像中目标物体的分割方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述图像中目标物体的分割方法步骤。
本发明实施例所提供的方案中,首先获取待分割图像,然后将待分割图像输入预先训练完成的全卷积神经网络模型,该全卷积神经网络模型提取待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与待分割图像的图像特征相匹配的图像样本的标签并输出,进而,根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围;并将获得的像素范围确定为待分割图像中目标物体所在位置的像素范围。可见,采用该方法对图像中目标物体的进行分割时,可以确定目标物体在图像中的像素范围,可实现像素级别的识别,对图像中目标物体识别的精确非常高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种图像中目标物体的分割方法的流程图;
图2为图1所示实施例中全卷积神经网络模型的训练方式的具体流程图;
图3为全卷积神经网络模型的另一种训练方式的具体流程图;
图4为本发明实施例所提供的一种图像中目标物体的分割装置的结构示意图;
图5为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高对图像中目标物体识别的精确度,本发明实施例提供了一种图像中目标物体的分割方法、装置、电子设备及计算机可读存储介质。
下面首先对本发明实施例所提供的一种图像中目标物体的分割方法进行介绍。
首先需要说明的是,本发明实施例中所说的“分割”即指从图像中识别目标物体,确定目标物体在图像中的位置。目标物体即指图像中所要识别的物体,并不具有其他任何限定意义。另外,本发明实施例所提供的图像中目标物体的分割方法可以应用于需要进行图像中目标物体的分割的任意电子设备(以下简称电子设备),例如,可以为电脑、处理器等电子设备,在此不做具体限定。
如图1所示,一种图像中目标物体的分割方法,所述方法包括:
S101,获取待分割图像;
可以理解的是,待分割图像是在需要进行目标物体分割的某应用场景下采集的目标物体的图像。例如,在机械臂抓取目标物体的场景下,该待分割图像即为安装在机械臂上的图像采集设备采集的目标物体的图像。一般该图像采集设备为颜色摄像头,这样电子设备获取的图像为RGB图像,更便于后续目标物体分割处理的进行。
对于需要实时进行目标物体分割的情况而言,该待分割图像可以是图像采集设备实时采集并发送至电子设备的。对于不需要实时进行目标物体分割的情况而言,电子设备可以获取图像采集设备采集的待分割图像,并保存至本地,当需要进行目标物体分割时,读取本地保存的需要进行目标物体分割的图像。当然,也可以在需要进行目标物体分割时,再从图像采集设备获取其采集的待分割图像,这都是合理的。
S102,将所述待分割图像输入预先训练完成的全卷积神经网络模型;
电子设备获取上述待分割图像后,便可以将该待分割图像输入预先训练完成的全卷积神经网络模型,进而,得到与待分割图像的图像特征相匹配的图像样本的标签。
具体来说,全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型。图像样本即为电子设备预先获取的目标物体的训练图像经过图像增强处理后的图像。一般情况下,图像增强处理可以包括:目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理等。其中,目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理等均可以采用相关图像处理技术中的相应处理方式,在此不做具体限定及说明。
在得到的图像样本中目标物体可以位于各种不同的位置,目标物体在图像样本中的形态也可以不相同,背景、光线,颜色等也可以是不相同的。例如,目标物体为一个杯子,在图像样本中,该杯子可能在图像样本中央、边缘等位置,杯子在图像样本中可能为正立、倒立、横放、斜放等形态,背景可能是房间内、户外场景,等等。
标签则用于标识目标物体在图像样本中所在位置的像素范围。可以理解的是,在获取图像样本时,目标物体在图像样本中的位置是已知的,也就是说,目标物体在图像样本中所占据的像素范围是已知的。这样,电子设备便可以根据目标物体在图像样本中的位置,确定每个图像样本对应的标签,这样,标签则可以用于标识目标物体在图像样本中所在位置的像素范围。
进而,经过训练得到的全卷积神经网络模型即包含图像样本的图像特征与标签的对应关系,进而,电子设备将待分割图像输入全卷积神经网络模型,全卷积神经网络模型便可以根据其包含的图像样本的图像特征与标签的对应关系,以及待分割图像的图像特征,获得与待分割图像的图像特征相匹配的图像样本的标签并输出。
为了方案清楚及布局清晰,后续将会对全卷积神经网络模型的具体训练方式以及标签的具体生成方式进行举例介绍。
S103,根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
电子设备获得全卷积神经网络模型输出的图像样本的标签后,便可以根据预设的标签与像素范围的对应关系,得到全卷积神经网络模型输出的图像样本的标签所对应的像素范围。
可以理解的是,由于图像样本目标物体所在位置的像素范围是已知的,所每个图像样本的标签都与目标物体在该图像样本中所在位置的像素范围是对应的。在一种实施方式中,标签可以是一个二维矩阵,二维矩阵的行数和列数分别与图像样本的像素点的行数和列数相同,这样,标签即为一个包含元素数量与图像样本的像素点数量相同的二维矩阵,那么标签中的元素与图像样本中的像素点一一对应。假设在图像样本对应的标签中,目标物体所占据的像素范围内的像素点所对应的元素值为1,其他元素值为0,那么标签即为一个由元素0和1组成的二维矩阵,元素1所对应的图像样本中的像素点所组成的范围即为该标签所对应的像素范围。
在另一种实施方式中,标签可以是一个黑白图像,其所包括的像素点的数量与图像样本所包括像素点的数量相同,且行数及列数也分别相同。这样,在标签中,黑色区域表示目标物体所在像素范围,白色区域表示背景,那么,电子设备获得了上述全卷积神经网络模型输出的图像样本的标签,即可以确定该标签中黑色区域的像素范围即为其所对应的像素范围。
那么可见,电子设备获得了上述全卷积神经网络模型输出的图像样本的标签,即可以确定该标签所对应的像素范围。
S104,将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
由于全卷积神经网络模型输出的标签是与待分割图像的图像特征相匹配的图像样本的标签,也就是说,是图像特征与待分割图像的图像特征最为相似的图像样本的标签,那么,电子设备所确定的全卷积神经网络模型输出的图像样本的标签所对应的像素范围,也就确定了待分割图像中目标物体所在位置的像素范围,二者是相同的。
可见,本发明实施例所提供的方案中,首先获取待分割图像,然后将待分割图像输入预先训练完成的全卷积神经网络模型,该全卷积神经网络模型提取待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与待分割图像的图像特征相匹配的图像样本的标签并输出,进而,根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围;并将获得的像素范围确定为待分割图像中目标物体所在位置的像素范围。可见,采用该方法对图像中目标物体的进行分割时,可以确定目标物体在图像中的像素范围,可实现像素级别的识别,对图像中目标物体识别的精确非常高。
作为本发明实施例的一种实施方式,如图2所示,上述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型的训练方式,可以包括:
S201,获取多个训练图像;
为了训练得到上述全卷积神经网络模型,首先需要获取多个训练图像,可以理解的是,该多个训练图像均是对目标物体进行拍摄得到的,在获取该多个训练图像时,可以将目标物体以各种姿态放置于不同位置,以便获取到的训练图像可以适用于各种待分割图像中目标物体的分割。
在一种实施方式中,为了方便后续对训练图像的处理,可以将目标物体放置于绿布搭建的环境中进行训练图像的采集,众所周知,绿色背景在图像处理时更容易精确地扣除,便于后续对训练图像进行各种各样的图像处理。
S202,对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
为了生成大量且丰富多样的图像样本,电子设备获得上述训练图像后,可以对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像。由于在训练图像中,目标物体的姿态和位置一般各不相同,因此,进行抠图处理后得到的目标物体图像为目标物体处于各种姿态和位置的图像。
需要说明的是,抠图处理可以采用相关技术中的任意抠图方式,只要可以将目标物体图像从训练图像中抠出即可,在此不做具体限定及说明。
S203,针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
获得上述目标物体图像后,电子设备可以针对每一目标物体图像进行图像增强处理,进而,得到多个处理后的目标物体图像。可以理解的是,每一个目标物体图像进行图像增强处理后,均可以获得对应的处理后的目标物体图像。
一般来说,图像增强处理可以包括:目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理等。这样,经过图像增强处理后的目标物体图像所包含的图像特征即为经过旋转、颜色变化、光照变化等处理后的目标物体图像的图像特征,也就可以表征目标物体处于各种不同光线下、不同位置以及不同姿态的图像特征。
S204,将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
得到上述图像增强处理后的目标物体图像后,电子设备进一步可以将该图像增强处理后的目标物体图像与预设背景图像进行合成处理,便可以得到多个图像样本。
其中,预设背景图像可以是Image Net、Coco等数据集中的图像背景,由于这些数据集中包括大量的背景图像,这样得到的多个图像样本即为目标物体在大量不同背景下的图像,图像样本的图像特征也就表征各种姿态、位置的目标物体在各种不同背景下的图像特征,更加有利于对预设的全卷积神经网络架构的训练。可以理解的是,图像样本的图像特征越多样,训练得到的全卷积神经网络模型学习到的图像特征也就越多样,全卷积神经网络模型便可以适用于更加多样的待分割图像的目标物体的分割。
S205,根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
在合成处理得到的图像样本中,目标物体图像所在位置的像素范围是已知的,根据每一图像样本中目标物体所在位置的像素范围即可确定每个图像样本的标签。
在一种实施方式中,上述标签可以为二维矩阵,二维矩阵的行数和列数分别与所述图像样本的像素点的行数和列数相同。那么根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签的方式便可以为:将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签。
其中,目标像素点为图像样本中目标物体图像所包括的像素点。这样,标签即为一个包含元素数量与图像样本的像素点数量相同的二维矩阵,那么标签中的元素与图像样本中的像素点一一对应。假设在图像样本对应的标签中,目标物体所占据的像素范围内的像素点所对应的元素值,即目标元素值为1,其他元素值为0,那么标签即为一个由元素0和1组成的二维矩阵,元素1所对应的图像样本中的像素点所组成的范围即为该标签所对应的像素范围。
S206,将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
确定了每个图像样本对应的标签后,电子设备便可以将图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练。
一般情况下,该预设的全卷积神经网络架构可以包括:预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层。在一种实施方式中,上述预设数量可以为十五,也就是说该预设的全卷积神经网络架构可以包括十五个卷积层。在预设的全卷积神经网络架构可以包括十五个卷积层的情况下,第一预设卷积层可以为第二个卷积层、第四个卷积层、第七个卷积层、第九个卷积层及第十二个卷积层,第二预设卷积层可以为第十四个卷积层及第十五个卷积层。
具体来说,卷积层用于对图像进行卷积运算,提取图像特征,输出特征图。池化层可以用于提取图像的全局特征,而dropout层则用于按照预设比例丢弃卷积层输出特征图对应的神经元,减轻预设的全卷积神经网络架构训练过程中的过拟合现象。反卷积层可以用于得到与图像样本大小相同的特征图,并输入输出层。输出层则用于输出图像样本对应的标签。其中,预设比例可以根据图像中目标物体分割的需求进行设定,在此不做具体限定。
在对预设的全卷积神经网络架构进行参数训练的过程中,可以基于Caffe深度学习框架进行。具体而言,预设的全卷积神经网络架构会根据图像样本的图像特征预测其对应的标签,为了描述清楚,在此步骤中将预设的全卷积神经网络架构根据图像样本的图像特征预测的标签称为预测标签,在上述步骤S205中确定的图像样本对应的标签称为真实标签。
预设的全卷积神经网络架构根据每个图像样本的图像特征得到图像样本的预测标签后,将其与该图像样本的真实标签进行对比,通过预先定义的损失函数计算二者的差异值,并根据该差异值通过反向传播法调整预设的全卷积神经网络架构的参数。在训练过程中,可以循环遍历所有图像样本,并不断调整预设的全卷积神经网络架构的参数。
对于反向传播法的具体实现方式可以采用相关技术中任意反向传播方式,在此不做具体限定及说明。对于定义损失函数的方式及损失函数的具体表达式,可以根据抓取精度等因素进行设定,在此不做具体限定。
S207,当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
当全卷积神经网络架构的损失函数的值达到预设值,或者迭代次数达到预设次数时,说明此时的全卷积神经网络架构已经可以适用于大部分图像样本,获得准确的结果,那么便可以停止训练,不再调整全卷积神经网络架构的参数,进而得到全卷积神经网络模型,可以理解的是,训练得到的全卷积神经网络模型包含图像样本的图像特征与标签的对应关系。
其中,上述预设值可以根据图像分割的准确度进行确定,例如可以为0.85、0.50、0.65等,在此不做具体限定。上述预设次数也可以根据目标物体分割的准确度进行确定,例如可以为8000、6000、5000等,在此不做具体限定。
可见,通过上述训练方式对全卷积神经网络架构进行训练,可以得到包含图像样本的图像特征与标签对应关系的全卷积神经网络模型,通过该全卷积神经网络模型可以得到待分割图像对应的图像样本所对应的标签,进而确定待分割图像中目标物体所在位置的像素范围。
作为本发明实施例的一种实施方式,在上述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤之前,上述方法还可以包括:获取所述待分割图像对应的深度图像。
相应的,上述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤,可以包括:将所述待分割图像及其对应的深度图像输入预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
在一种实施方式中,电子设备可以通过颜色摄像头及深度摄像头同时对目标物体进行拍摄,进而便可以在获得待分割图像的同时,获得其对应的深度图像。那么,在获得待分割图像及其对应的深度图像后,便可以将待分割图像及其对应的深度图像同时输入预先训练完成的全卷积神经网络模型中。
由于此时训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系,那么全卷积神经网络模型会提取待分割图像的图像特征以及深度图像的深度图像特征,根据其包含的图像样本的图像特征、深度图像特征与标签的对应关系,获得与待分割图像的图像特征以及深度图像的深度图像特征相匹配的图像样本的标签并输出。
可见,采用上述方式获得的全卷积神经网络模型输出的标签是与待分割图像的图像特征以及深度图像的深度图像特征均相匹配的图像样本的标签,深度图像提供了目标物体在深度层面的特征,因此得到的标签更加准确,进而,后续根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围的结果也更加准确。
作为本发明实施例的一种实施方式,如图3所示,上述包含图像样本的图像特征、深度图像特征和标签的对应关系的全卷积神经网络模型的训练方式,可以包括:
S301,获取多个训练图像,并获取每一训练图像对应的深度图像样本;
对于获取每一训练图像对应的深度图像样本的方式,可以通过深度摄像头对目标物体进行拍摄,进而获得目标物体的深度图像,也就得到了每一训练图像对应的深度图像样本。
S302,对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
S303,针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
S304,将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
S305,根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
由于上述步骤S302-步骤S305与上述图2所示实施例中步骤S202-步骤S205分别相同,可见参见上述步骤S202-步骤S205部分的说明,在此不再赘述。
S306,将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络架构进行参数训练;
那么,在对预设的全卷积神经网络进行参数训练时,可以将图像样本及其对应的标签及深度图像样本同时输入该预设的全卷积神经网络进行参数训练,可以理解的是,这样训练完成所得到的全卷积神经网络模型即包含图像样本的图像特征、深度图像特征和标签的对应关系。具体训练方式与上述图2所示实施例中描述的训练方式相同,在此不再赘述。
S307,当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
当全卷积神经网络架构的损失函数的值达到预设值,或者迭代次数达到预设次数时,说明此时的全卷积神经网络架构已经可以适用于大部分图像样本,获得准确的结果,那么便可以停止训练,不再调整全卷积神经网络架构的参数,进而得到全卷积神经网络模型,可以理解的是,训练得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征与标签的对应关系。
可见,通过上述训练方式对全卷积神经网络架构进行训练,可以得到包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型,通过该全卷积神经网络模型可以得到待分割图像对应的图像样本及其对应的深度图像所对应的标签,使最终确定的待分割图像中目标物体所在位置的像素范围不仅符合色彩图像的图像特征,同时符合深度图像特征,使分割结果更加准确。
作为本发明实施例的一种实施方式,上述标签可以为二维矩阵,该二维矩阵的行数和列数分别与所述图像样本的像素点的行数和列数相同。
上述根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签的步骤,可以包括:将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签。其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点。
相应的,上述根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围的步骤,可以包括:确定所述图像样本的标签中值为所述目标元素值的目标元素;将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
在该实施方式中,标签可以为一个包含元素数量与图像样本的像素点数量相同的二维矩阵,那么标签中的元素与图像样本中的像素点一一对应。假设在图像样本对应的标签中,目标物体所占据的像素范围内的像素点所对应的元素值,即目标元素值为1,其他元素值为0,那么标签即为一个由元素0和1组成的二维矩阵,元素1所对应的图像样本中的像素点所组成的范围即为该标签所对应的像素范围。
相应的,电子设备在根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围时,可以先确定该图像样本的标签(即全卷积神经网络模型输出的图像样本的标签)中值为上述目标元素值的目标元素。
举例来说,如果目标元素值为1,那么电子设备便可以将该图像样本的标签中值为1的元素确定为目标元素。为了描述方便,此处假设全卷积神经网络模型输出的图像样本的标签为一个4*8的矩阵,具体为该矩阵中元素值为1的元素即为目标元素,也就是目标物体所对应的元素,元素值为0的元素即为背景所对应的元素。
进一步,电子设备便可以将目标元素对应的图像样本的像素点的范围,确定为图像样本的标签所对应的像素范围。仍然以上述标签为例,那么目标元素1所对应的图像样本的像素点的范围即为第一行第三列像素点和第一行第四列像素点,第二行第二列像素点至第二行第六列像素点,第三行第一列像素点至第三行第三列像素点以及第四行第二列像素点至第四行第四列像素点所确定的范围。该范围也就是该图像样本的标签所对应的像素范围。
需要说明的是,上述例子中标签为一个4*8的矩阵,只是为了描述方便,实际应用中,标签所包含元素的数量往往非常多,其与图像样本所包含的像素点的数量是相同的,例如,可能为256*256个、256*1024个等,在此不做具体限定。无论标签所包含的元素数量为多少,其生成的原理都是一致的,根据其确定图像样本的标签所对应的像素范围的方式也是一致的,与其所包含元素的数量无关。
相应于上述方法实施例,本发明实施例还提供了一种图像中目标物体的分割装置。
下面对本发明实施例所提供的一种图像中目标物体的分割装置进行介绍。
如图4所示,一种图像中目标物体的分割装置,所述装置包括:
待分割图像获取模块410,用于获取待分割图像;
待分割图像输入模块420,用于将所述待分割图像输入由模型训练模块预先训练完成的全卷积神经网络模型;其中,所述全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型;所述全卷积神经网络模型提取所述待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与所述待分割图像的图像特征相匹配的图像样本的标签并输出;所述标签用于标识目标物体在图像样本中所在位置的像素范围;
像素范围确定模块430,用于根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
目标物体分割模块440,用于将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
可见,本发明实施例所提供的方案中,首先获取待分割图像,然后将待分割图像输入预先训练完成的全卷积神经网络模型,该全卷积神经网络模型提取待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与待分割图像的图像特征相匹配的图像样本的标签并输出,进而,根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围;并将获得的像素范围确定为待分割图像中目标物体所在位置的像素范围。可见,采用该方法对图像中目标物体的进行分割时,可以确定目标物体在图像中的像素范围,可实现像素级别的识别,对图像中目标物体识别的精确非常高。
作为本发明实施例的一种实施方式,上述装置还可以包括:
深度图像获取模块(图4中未示出),用于在所述将所述待分割图像输入预先训练完成的全卷积神经网络模型之前,获取所述待分割图像对应的深度图像;
所述待分割图像输入模块420可以包括:
待分割图像输入单元(图4中未示出),用于将所述待分割图像及其对应的深度图像输入由模型训练模块预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
作为本发明实施例的一种实施方式,所述模型训练模块(图4中未示出)可以包括:
训练图像获取单元(图4中未示出),用于获取多个训练图像;
抠图处理单元(图4中未示出),用于对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
图像增强处理单元(图4中未示出),用于针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
合成处理单元(图4中未示出),用于将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
标签确定单元(图4中未示出),用于根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
参数训练单元(图4中未示出),用于将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
训练完成单元(图4中未示出),用于当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
作为本发明实施例的一种实施方式,所述模型训练模块(图4中未示出)可以包括:
训练图像获取单元(图4中未示出),用于获取多个训练图像,并获取每一训练图像对应的深度图像样本;
抠图处理单元(图4中未示出),用于对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
图像增强处理单元(图4中未示出),用于针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
合成处理单元(图4中未示出),用于将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
标签确定单元(图4中未示出),用于根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
参数训练单元(图4中未示出),用于将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络进行参数训练;
训练完成单元(图4中未示出),用于当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
作为本发明实施例的一种实施方式,所述预设的全卷积神经网络架构可以包括:
预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层,其中,所述池化层用于提取全局特征;所述dropout层用于按照预设比例丢弃卷积层输出特征图对应的神经元;所述反卷积层用于得到和所述图像样本大小相同的特征图,并输入所述输出层。
作为本发明实施例的一种实施方式,所述标签可以为二维矩阵,所述二维矩阵的行数和列数分别与所述图像样本的像素点的行数和列数相同;
所述标签确定单元可以包括:
目标元素值确定子单元(图4中未示出),用于将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签,其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点;
所述像素范围确定模块430可以包括:
目标元素确定单元(图4中未示出),用于确定所述图像样本的标签中值为所述目标元素值的目标元素;
像素范围确定单元(图4中未示出),用于将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
作为本发明实施例的一种实施方式,所述图像增强处理可以包括:
目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取待分割图像;
将所述待分割图像输入预先训练完成的全卷积神经网络模型;其中,所述全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型;
所述全卷积神经网络模型提取所述待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与所述待分割图像的图像特征相匹配的图像样本的标签并输出;其中,所述标签用于标识目标物体在图像样本中所在位置的像素范围;
根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
可见,本发明实施例所提供的方案中,电子设备首先获取待分割图像,然后将待分割图像输入预先训练完成的全卷积神经网络模型,该全卷积神经网络模型提取待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与待分割图像的图像特征相匹配的图像样本的标签并输出,进而,根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围;并将获得的像素范围确定为待分割图像中目标物体所在位置的像素范围。可见,采用该方法对图像中目标物体的进行分割时,可以确定目标物体在图像中的像素范围,可实现像素级别的识别,对图像中目标物体识别的精确非常高。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
其中,在上述将所述待分割图像输入预先训练完成的全卷积神经网络模型之前,上述方法还可以包括:
获取所述待分割图像对应的深度图像;
上述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤,可以包括:
将所述待分割图像及其对应的深度图像输入预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
其中,上述全卷积神经网络模型的训练方式,可以包括:
获取多个训练图像;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
其中,上述全卷积神经网络模型的训练方式,可以包括:
获取多个训练图像,并获取每一训练图像对应的深度图像样本;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
其中,上述预设的全卷积神经网络架构可以包括:
预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层,其中,所述池化层用于提取全局特征;所述dropout层用于按照预设比例丢弃卷积层输出特征图对应的神经元;所述反卷积层用于得到和所述图像样本大小相同的特征图,并输入所述输出层。
其中,上述标签可以为二维矩阵,上述二维矩阵的行数和列数分别与上述图像样本的像素点的行数和列数相同;
所述根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签的步骤,可以包括:
将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签,其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点;
上述根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围的步骤,可以包括:
确定所述图像样本的标签中值为所述目标元素值的目标元素;
将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
其中,上述图像增强处理可以包括:
目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
可见,本发明实施例所提供的方案中,计算机程序被处理器执行时,首先获取待分割图像,然后将待分割图像输入预先训练完成的全卷积神经网络模型,该全卷积神经网络模型提取待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与待分割图像的图像特征相匹配的图像样本的标签并输出,进而,根据预设的标签与像素范围的对应关系,获得全卷积神经网络模型输出的图像样本的标签所对应的像素范围;并将获得的像素范围确定为待分割图像中目标物体所在位置的像素范围。可见,采用该方法对图像中目标物体的进行分割时,可以确定目标物体在图像中的像素范围,可实现像素级别的识别,对图像中目标物体识别的精确非常高。
其中,在上述将所述待分割图像输入预先训练完成的全卷积神经网络模型之前,上述方法还可以包括:
获取所述待分割图像对应的深度图像;
上述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤,可以包括:
将所述待分割图像及其对应的深度图像输入预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
其中,上述全卷积神经网络模型的训练方式,可以包括:
获取多个训练图像;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
其中,上述全卷积神经网络模型的训练方式,可以包括:
获取多个训练图像,并获取每一训练图像对应的深度图像样本;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
其中,上述预设的全卷积神经网络架构可以包括:
预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层,其中,所述池化层用于提取全局特征;所述dropout层用于按照预设比例丢弃卷积层输出特征图对应的神经元;所述反卷积层用于得到和所述图像样本大小相同的特征图,并输入所述输出层。
其中,上述标签可以为二维矩阵,上述二维矩阵的行数和列数分别与上述图像样本的像素点的行数和列数相同;
所述根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签的步骤,可以包括:
将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签,其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点;
上述根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围的步骤,可以包括:
确定所述图像样本的标签中值为所述目标元素值的目标元素;
将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
其中,上述图像增强处理可以包括:
目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理。
需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种图像中目标物体的分割方法,其特征在于,所述方法包括:
获取待分割图像;
将所述待分割图像输入预先训练完成的全卷积神经网络模型;其中,所述全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型;
所述全卷积神经网络模型提取所述待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与所述待分割图像的图像特征相匹配的图像样本的标签并输出;其中,所述标签用于标识目标物体在图像样本中所在位置的像素范围;
根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
2.如权利要求1所述的方法,其特征在于,在所述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤之前,所述方法还包括:
获取所述待分割图像对应的深度图像;
所述将所述待分割图像输入预先训练完成的全卷积神经网络模型的步骤,包括:
将所述待分割图像及其对应的深度图像输入预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
3.如权利要求1所述的方法,其特征在于,所述全卷积神经网络模型的训练方式,包括:
获取多个训练图像;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签输入所述预设的全卷积神经网络架构进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征与标签的对应关系的全卷积神经网络模型。
4.如权利要求2所述的方法,其特征在于,所述全卷积神经网络模型的训练方式,包括:
获取多个训练图像,并获取每一训练图像对应的深度图像样本;
对每一训练图像进行抠图处理,得到每一训练图像中的目标物体图像;
针对每一目标物体图像进行图像增强处理,得到多个处理后的目标物体图像;
将所述处理后的目标物体图像与预设背景图像进行合成处理,得到多个图像样本;
根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签;
将所述图像样本及其对应的标签及深度图像样本输入所述预设的全卷积神经网络进行参数训练;
当所述全卷积神经网络架构的损失函数的值达到预设值,或,迭代次数达到预设次数时,完成训练,得到所述包含图像样本的图像特征、深度图像特征与标签的对应关系的全卷积神经网络模型。
5.如权利要求3或4所述的方法,其特征在于,所述预设的全卷积神经网络架构包括:
预设数量的卷积层、在第一预设卷积层后的池化层、在第二预设卷积层后的dropout层、输出层以及在输出层前的反卷积层,其中,所述池化层用于提取全局特征;所述dropout层用于按照预设比例丢弃卷积层输出特征图对应的神经元;所述反卷积层用于得到和所述图像样本大小相同的特征图,并输入所述输出层。
6.如权利要求3或4所述的方法,其特征在于,所述标签为二维矩阵,所述二维矩阵的行数和列数分别与所述图像样本的像素点的行数和列数相同;
所述根据每一目标物体图像在对应的图像样本中所在位置的像素范围,确定每个图像样本对应的标签的步骤,包括:
将标签中与目标像素点对应的元素的值确定为目标元素值,得到每个图像样本对应的标签,其中,所述目标像素点为图像样本中,目标物体图像所包括的像素点;
所述根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围的步骤,包括:
确定所述图像样本的标签中值为所述目标元素值的目标元素;
将所述目标元素对应的所述图像样本的像素点的范围,确定为所述图像样本的标签所对应的像素范围。
7.如权利要求3或4任一项所述的方法,其特征在于,所述图像增强处理包括:
目标物体旋转处理、图像颜色处理、光照处理及颜色直方图均衡处理。
8.一种图像中目标物体的分割装置,其特征在于,所述装置包括:
待分割图像获取模块,用于获取待分割图像;
待分割图像输入模块,用于将所述待分割图像输入由模型训练模块预先训练完成的全卷积神经网络模型;其中,所述全卷积神经网络模型为:基于图像样本及其对应的标签,对预设的全卷积神经网络架构进行参数训练所得到的全卷积神经网络模型;所述全卷积神经网络模型提取所述待分割图像的图像特征,根据其包含的图像样本的图像特征与标签的对应关系,获得与所述待分割图像的图像特征相匹配的图像样本的标签并输出;所述标签用于标识目标物体在图像样本中所在位置的像素范围;
像素范围确定模块,用于根据预设的标签与像素范围的对应关系,获得所述全卷积神经网络模型输出的图像样本的标签所对应的像素范围;
目标物体分割模块,用于将获得的像素范围确定为所述待分割图像中目标物体所在位置的像素范围。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
深度图像获取模块,用于在所述将所述待分割图像输入预先训练完成的全卷积神经网络模型之前,获取所述待分割图像对应的深度图像;
所述待分割图像输入模块包括:
待分割图像输入单元,用于将所述待分割图像及其对应的深度图像输入由模型训练模块预先训练完成的全卷积神经网络模型,其中,所述预先训练完成所得到的全卷积神经网络模型包含图像样本的图像特征、深度图像特征和标签的对应关系。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710710079.0A CN109410211A (zh) | 2017-08-18 | 2017-08-18 | 一种图像中目标物体的分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710710079.0A CN109410211A (zh) | 2017-08-18 | 2017-08-18 | 一种图像中目标物体的分割方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109410211A true CN109410211A (zh) | 2019-03-01 |
Family
ID=65455190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710710079.0A Pending CN109410211A (zh) | 2017-08-18 | 2017-08-18 | 一种图像中目标物体的分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410211A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919156A (zh) * | 2019-03-13 | 2019-06-21 | 网易传媒科技(北京)有限公司 | 图像裁剪预测模型的训练方法、介质、装置及计算设备 |
CN110008360A (zh) * | 2019-04-09 | 2019-07-12 | 河北工业大学 | 包含特定背景图像的车辆目标图像数据库建立方法 |
CN110796673A (zh) * | 2019-10-31 | 2020-02-14 | Oppo广东移动通信有限公司 | 图像分割方法及相关产品 |
CN111539961A (zh) * | 2019-12-13 | 2020-08-14 | 山东浪潮人工智能研究院有限公司 | 一种目标分割方法、装置以及设备 |
CN111833355A (zh) * | 2020-06-05 | 2020-10-27 | 杭州艺旗网络科技有限公司 | 一种抠取图片的方法 |
CN112085696A (zh) * | 2020-07-24 | 2020-12-15 | 中国科学院深圳先进技术研究院 | 医学图像分割网络模型的训练方法、分割方法及相关设备 |
WO2020253296A1 (zh) * | 2019-06-19 | 2020-12-24 | 深圳Tcl新技术有限公司 | 图像分割模型的训练方法、图像分割方法、介质及终端 |
CN112381222A (zh) * | 2020-11-12 | 2021-02-19 | 北京乐学帮网络技术有限公司 | 一种样本生成方法、装置、计算机设备和存储介质 |
CN112686906A (zh) * | 2020-12-25 | 2021-04-20 | 山东大学 | 基于均匀分布迁移引导的图像分割方法及系统 |
CN113255683A (zh) * | 2021-06-25 | 2021-08-13 | 广东兴睿科技有限公司 | 一种基于神经网络的图像分割方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120127203A1 (en) * | 2010-11-18 | 2012-05-24 | Canon Kabushiki Kaisha | Mixed reality display |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN106447721A (zh) * | 2016-09-12 | 2017-02-22 | 北京旷视科技有限公司 | 图像阴影检测方法和装置 |
CN106874914A (zh) * | 2017-01-12 | 2017-06-20 | 华南理工大学 | 一种基于深度卷积神经网络的工业机械臂视觉控制方法 |
CN106909924A (zh) * | 2017-02-18 | 2017-06-30 | 北京工业大学 | 一种基于深度显著性的遥感影像快速检索方法 |
-
2017
- 2017-08-18 CN CN201710710079.0A patent/CN109410211A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120127203A1 (en) * | 2010-11-18 | 2012-05-24 | Canon Kabushiki Kaisha | Mixed reality display |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN106447721A (zh) * | 2016-09-12 | 2017-02-22 | 北京旷视科技有限公司 | 图像阴影检测方法和装置 |
CN106874914A (zh) * | 2017-01-12 | 2017-06-20 | 华南理工大学 | 一种基于深度卷积神经网络的工业机械臂视觉控制方法 |
CN106909924A (zh) * | 2017-02-18 | 2017-06-30 | 北京工业大学 | 一种基于深度显著性的遥感影像快速检索方法 |
Non-Patent Citations (2)
Title |
---|
TYNG-LUH LIU ET AL.: "Exploring Depth Information for Object Segmentation and Detection", 《2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
范勇涛: "基于体感的空间机器臂人机交互技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919156A (zh) * | 2019-03-13 | 2019-06-21 | 网易传媒科技(北京)有限公司 | 图像裁剪预测模型的训练方法、介质、装置及计算设备 |
CN110008360A (zh) * | 2019-04-09 | 2019-07-12 | 河北工业大学 | 包含特定背景图像的车辆目标图像数据库建立方法 |
CN110008360B (zh) * | 2019-04-09 | 2020-11-03 | 河北工业大学 | 包含特定背景图像的车辆目标图像数据库建立方法 |
WO2020253296A1 (zh) * | 2019-06-19 | 2020-12-24 | 深圳Tcl新技术有限公司 | 图像分割模型的训练方法、图像分割方法、介质及终端 |
CN110796673B (zh) * | 2019-10-31 | 2023-02-24 | Oppo广东移动通信有限公司 | 图像分割方法及相关产品 |
CN110796673A (zh) * | 2019-10-31 | 2020-02-14 | Oppo广东移动通信有限公司 | 图像分割方法及相关产品 |
CN111539961A (zh) * | 2019-12-13 | 2020-08-14 | 山东浪潮人工智能研究院有限公司 | 一种目标分割方法、装置以及设备 |
CN111833355A (zh) * | 2020-06-05 | 2020-10-27 | 杭州艺旗网络科技有限公司 | 一种抠取图片的方法 |
CN112085696A (zh) * | 2020-07-24 | 2020-12-15 | 中国科学院深圳先进技术研究院 | 医学图像分割网络模型的训练方法、分割方法及相关设备 |
CN112085696B (zh) * | 2020-07-24 | 2024-02-23 | 中国科学院深圳先进技术研究院 | 医学图像分割网络模型的训练方法、分割方法及相关设备 |
CN112381222A (zh) * | 2020-11-12 | 2021-02-19 | 北京乐学帮网络技术有限公司 | 一种样本生成方法、装置、计算机设备和存储介质 |
CN112686906A (zh) * | 2020-12-25 | 2021-04-20 | 山东大学 | 基于均匀分布迁移引导的图像分割方法及系统 |
CN113255683A (zh) * | 2021-06-25 | 2021-08-13 | 广东兴睿科技有限公司 | 一种基于神经网络的图像分割方法、系统及存储介质 |
CN113255683B (zh) * | 2021-06-25 | 2021-10-01 | 广东兴睿科技有限公司 | 一种基于神经网络的图像分割方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410211A (zh) | 一种图像中目标物体的分割方法及装置 | |
CN105574550B (zh) | 一种车辆识别方法及装置 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN108229575A (zh) | 用于检测目标的方法和装置 | |
CN112446302B (zh) | 一种人体姿态检测方法、系统、电子设备和存储介质 | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
CN107633526A (zh) | 一种图像跟踪点获取方法及设备、存储介质 | |
Huang et al. | Real-time classification of green coffee beans by using a convolutional neural network | |
CN109145766A (zh) | 模型训练方法、装置、识别方法、电子设备及存储介质 | |
CN110263768A (zh) | 一种基于深度残差网络的人脸识别方法 | |
CN104170371B (zh) | 实现自助合影的方法和照相设备 | |
CN110414344A (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN110598715A (zh) | 图像识别方法、装置、计算机设备及可读存储介质 | |
CN107316029A (zh) | 一种活体验证方法及设备 | |
CN104778238B (zh) | 一种视频显著性的分析方法及装置 | |
CN109858476A (zh) | 标签的扩充方法和电子设备 | |
CN105005798B (zh) | 一种基于局部相似结构统计匹配的目标识别方法 | |
CN110619316A (zh) | 人体关键点检测方法、装置和电子设备 | |
CN107948586A (zh) | 基于视频拼接的跨区域运动目标检测方法和装置 | |
CN110363770A (zh) | 一种边缘引导式红外语义分割模型的训练方法及装置 | |
CN107729901A (zh) | 图像处理模型的建立方法、装置及图像处理方法及系统 | |
CN106874913A (zh) | 一种菜品检测方法 | |
CN112101359A (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
CN110399822A (zh) | 基于深度学习的举手动作识别方法、装置及存储介质 | |
CN113516146A (zh) | 一种数据分类方法、计算机及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |