CN110276344B - 一种图像分割的方法、图像识别的方法以及相关装置 - Google Patents
一种图像分割的方法、图像识别的方法以及相关装置 Download PDFInfo
- Publication number
- CN110276344B CN110276344B CN201910481441.0A CN201910481441A CN110276344B CN 110276344 B CN110276344 B CN 110276344B CN 201910481441 A CN201910481441 A CN 201910481441A CN 110276344 B CN110276344 B CN 110276344B
- Authority
- CN
- China
- Prior art keywords
- image
- image segmentation
- segmented
- pixel point
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 448
- 238000000034 method Methods 0.000 title claims abstract description 101
- 239000011159 matrix material Substances 0.000 claims abstract description 178
- 230000011218 segmentation Effects 0.000 claims description 107
- 238000002372 labelling Methods 0.000 claims description 76
- 238000012545 processing Methods 0.000 claims description 70
- 238000010586 diagram Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 46
- 230000004044 response Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/149—Segmentation; Edge detection involving deformable models, e.g. active contour models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种图像分割的方法,包括:获取待分割图像,其中,待分割图像包括多个极值点;根据待分割图像生成图像特征信息,图像特征信息包括N个图像矩阵以及热图,热图为根据多个极值点生成的;通过图像分割模型获取图像特征信息所对应的图像分割区域,图像分割模型包括N个矩阵输入通道以及一个热图输入通道,N个矩阵输入通道与N个图像矩阵具有一一对应的关系,一个热图输入通道与热图具有对应关系;根据图像分割区域生成待分割图像的图像识别结果。本申请还公开了图像识别的方法及装置。本申请利用极值点所生成的热图作为图像特征信息的一部分,丰富图像的特征,从而生成更加准确的图像分割区域,由此提升图像分割的通用性和适用性。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种图像分割的方法、图像识别的方法以及相关装置。
背景技术
随着计算机技术的发展,图像分割技术应用越来越广泛,例如,医学图像分割以及自然图像分割等。其中,图像分割技术是指把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术。例如,人体组织图像分割场景中,可以对医学图像进行分割,使得分割后的图像中能明显区分人体各个组织。
目前,提供了一种辅助分割的工具,首先用户在图像中勾画出一个边框(boundingbox,bbox),该bbox需要将待标注的目标框选中,然后通过神经网络模型输出该待标注目标的多边形分割结果,其中,神经网络模型需要对大量的样本进行分析和训练。
采用上述神经网络模型可以对特定类别的目标进行标注,然而,如果采用特定类别以外的目标进行图像分割,那么其分割结果就会较差,难以在之前设计好的神经网络模型基础上直接进行预测,因此,导致图像分割的通用性和适用性较差。
发明内容
本申请实施例提供了一种图像分割的方法、图像识别的方法以及相关装置,利用极值点所生成的热图作为图像特征信息的一部分,丰富图像的特征,从而生成更加准确的图像分割区域,由此提升图像分割的通用性和适用性。
有鉴于此,本申请第一方面提供一种图像分割的方法,包括:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果。
本申请第二方面提供一种图像分割的方法,包括:
当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成待分割图像;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,在所述待分割图像中突出展示目标对象。
本申请第三方面提供一种图像分割装置,包括:
获取模块,用于获取待分割图像,其中,所述待分割图像包括多个极值点;
生成模块,用于根据所述获取模块获取的所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
所述获取模块,还用于通过图像分割模型获取所述生成模块生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
所述生成模块,还用于根据所述获取模块获取的所述图像分割区域生成所述待分割图像的图像识别结果。
在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,
所述获取模块,具体用于展示待处理图像,其中,所述待处理图像中包括目标对象;
接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成所述待分割图像。
在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,所述图像分割装置还包括接收模块以及处理模块;
所述接收模块,用于所述获取模块通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,接收第一调整指令,其中,所述第一调整指令携带第一顶点,所述第一顶点属于所述图像分割区域的边缘点,所述第一顶点对应于第一位置信息;
所述处理模块,用于响应于所述接收模块接收的所述第一调整指令,对所述图像分割区域进行缩小处理,得到目标分割区域,其中,所述目标分割区域包括第二顶点,所述第二顶点对应于第二位置信息,所述第二位置信息与所述第一位置信息不相同。
在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,所述图像分割装置还包括所述接收模块以及所述处理模块;
所述接收模块,还用于所述获取模块通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,接收第二调整指令,其中,所述第二调整指令携带第三顶点,所述第三顶点不属于所述图像分割区域;
所述处理模块,还用于响应于所述接收模块接收的所述第二调整指令,对所述图像分割区域进行放大处理,得到目标分割区域,其中,所述目标分割区域包括所述第三顶点。
在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,
所述生成模块,具体用于根据所述待分割图像中的所述多个极值点生成所述热图;
根据所述待分割图像生成第一图像矩阵,其中,所述第一图像矩阵对应于所述N个矩阵输入通道中的红色输入通道;
根据所述待分割图像生成第二图像矩阵,其中,所述第二图像矩阵对应于所述N个矩阵输入通道中的绿色输入通道;
根据所述待分割图像生成第三图像矩阵,其中,所述第三图像矩阵对应于所述N个矩阵输入通道中的蓝色输入通道。
在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,
所述获取模块,具体用于通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到所述图像分割区域。
在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,
所述获取模块,具体用于通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,所述图像分割装置还包括所述处理模块以及确定模块;
所述处理模块,还用于所述获取模块通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
所述确定模块,用于根据所述处理模块处理得到的所述多边形顶点信息,从所述待分割图像中确定目标对象。
本申请第四方面提供一种图像识别装置,包括:
接收模块,用于当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
生成模块,用于响应于所述接收模块接收的所述物体标注指令,根据所述待处理图像生成待分割图像;
所述生成模块,还用于根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
获取模块,用于通过图像分割模型获取所述生成模块生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
处理模块,用于通过多边拟合函数对所述获取模块获取的所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
展示模块,用于根据所述处理模块处理得到的所述多边形顶点信息,在所述待分割图像中突出展示目标对象。
本申请第五方面提供一种终端设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第六方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第七方面提供一种终端设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成待分割图像;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,在所述待分割图像中突出展示目标对象;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的第八方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种图像分割的方法,首先获取待分割图像,其中,待分割图像包括多个极值点,然后根据待分割图像生成图像特征信息,其中,图像特征信息包括N个图像矩阵以及热图,热图为根据多个极值点生成的,再通过图像分割模型获取图像特征信息所对应的图像分割区域,其中,图像分割模型包括N个矩阵输入通道以及一个热图输入通道,N个矩阵输入通道与N个图像矩阵具有一一对应的关系,一个热图输入通道与热图具有对应关系,最后根据图像分割区域生成待分割图像的图像识别结果。通过上述方式,无需考虑目标是否满足特定类别,而是利用极值点所生成的热图作为图像特征信息的一部分,丰富了图像的特征内容,使得图像分割模型能够根据该图像特征信息生成更加准确的图像分割区域,从而提升图像分割的通用性和适用性。
附图说明
图1为本申请实施例中图像分割系统的一个架构示意图;
图2为本申请实施例中图像分割模型的一个结构示意图;
图3为本申请实施例中图像分割的方法一个实施例示意图;
图4为本申请实施例中选取四个极值点的一个实施例示意图;
图5为本申请实施例中图像分割模型返回图像分割区域的一个实施例示意图;
图6为本申请实施例中缩小图像分割区域的一个实施例示意图;
图7为本申请实施例中增大图像分割区域的一个实施例示意图;
图8为本申请实施例中生成图像特征信息的一个实施例示意图;
图9为本申请实施例中图像分割模型的一个结构示意图;
图10为本申请实施例中图像分割模型输出过程的一个实施例示意图;
图11为本申请实施例中图像识别的方法一个实施例示意图;
图12为本申请实施例中基于分割方式的一个实验结果对比示意图;
图13为本申请实施例中图像分割装置一个实施例示意图;
图14为本申请实施例中图像分割装置另一个实施例示意图;
图15为本申请实施例中图像分割装置另一个实施例示意图;
图16为本申请实施例中图像识别装置一个实施例示意图;
图17为本申请实施例中终端设备的一个结构示意图;
图18为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种图像分割的方法、图像识别的方法以及相关装置,利用极值点所生成的热图作为图像特征信息的一部分,丰富图像的特征,从而生成更加准确的图像分割区域,由此提升图像分割的通用性和适用性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请所提供的图像分割(Imagesegmentation)方法以及图像识别方法可应用于人工智能领域,具体可以应用于计算机视觉领域。随着计算机科学技术的不断发展,图像处理和分析逐渐形成了一套科学体系,新的处理方法层出不穷,尽管其发展历史不长,但却引起各方面人士的广泛关注。首先,视觉是人类最重要的感知手段,图像又是视觉的基础,因此,数字图像成为心理学、生理学以及计算机科学等诸多领域内的学者们研究视觉感知的有效工具。其次,图像处理在遥感以及气象等大型应用中有不断增长的需求。图像分割技术一直是计算机视觉领域的基础技术和重要研究方向,具体来说,就是从一张图像上将感兴趣的区域(比如人、车以及建筑物等)按照真实轮廓分割出来。图像分割技术是图像语义理解的重要一环,近年来,随着神经网络的发展,图像处理能力显著提升,图像分割技术在医学影像分析(包括肿瘤和其他病理的定位,组织体积的测量,计算机引导的手术,治疗方案的定制,解剖学结构的研究)、人脸识别、指纹识别、无人驾驶以及机器视觉等领域中也发挥出了更加重要的作用。
为了便于理解,请参阅图1,图1为本申请实施例中图像分割系统的一个架构示意图,如图所示,本申请所提供的图像分割装置为客户端,该客户端具体可以是一款辅助分割工具,需要说明的是,本申请客户端部署于终端设备上,其中,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personalcomputer,PC),此处不做限定。
为了方便用户标注图像分割数据集,本申请提出了一种基于神经网络模型(即图像分割模型)的交互式图像辅助分割工具。在图像分割标注任务中,辅助分割工具只要获取少量的用户交互行为,就能够通过神经网络模型(即图像分割模型)反馈一个较为准确的预分割结果(即得到图像分割区域),然后用户再基于预分割的结果(即图像分割区域)进行少量修改甚至无需修改,就能获得最终的分割结果(即得到目标分割区域)。本申请提出“四点交互”式的分割方法,并改进了原有的图像分割模型,从而获得了更好的分割结果与工具实时性表现。
图像分割模型可以部署在服务器中,通过图像分割模型进行图像分割区域的预测,从而实现图像在线分割的目的,可选地,图像分割模型也可以部署在终端设备上,通过图像分割模型进行图像分割区域的预测,从而实现图像离线分割的目的。
请参阅图2,图2为本申请实施例中图像分割模型的一个结构示意图,如图所示,用户通过辅助分割工具对待处理图像进行极值点的标注,比如对图2中的树进行标注,辅助分割工具根据用户标注的结果生成热图,该热图与待处理图像的图像矩阵进行组合,得到图像特征信息。将图像特征信息输入至图像分割模型,通过该图像分割模型提取特征,从而输出图像分割区域,比如得到树的分割区域。图像分割模型可以是一种图像分割卷积神经网络(ConvolutionalNeuralNetworks,CNN),其模型结构主要包括输入层、特征提取层以及输出层。
结合上述介绍,下面将对本申请中图像分割的方法进行介绍,请参阅图3,本申请实施例中图像分割的方法一个实施例包括:
101、获取待分割图像,其中,待分割图像包括多个极值点;
本实施例中,图像分割装置获取待分割图像,其中,图像分割装置可以表现为辅助分割工具,待分割图像可以通过该辅助分割工具标注得到的,用户使用辅助分割工具标注多个极值点,根据这些极值点生成待分割图像。可以理解的是,本申请所提供的图像分割装置可部署于终端设备上。
具体地,多个极值点可以是最高点,最低点,最左点和最右点。
102、根据待分割图像生成图像特征信息,其中,图像特征信息包括N个图像矩阵以及热图,热图为根据多个极值点生成的,N为大于或等于1的整数;
本实施例中,图像分割装置根据待分割图像生成N个图像矩阵,并且根据多个极值点生成热图,将热图与N个图像矩阵进行组合,得到待分割图像所对应的图像特征信息。
其中,数字图像数据可以用矩阵来表示,如果读取的待分割图像大小为128*128,则图像矩阵大小为128*128*N,其中,N为大于或等于1的整数。当N为1时,图像矩阵可以是灰度图像所对应的矩阵。当N为3时,图像矩阵可以是红绿蓝(red green blue,RGB)图像的矩阵,RGB图像是三维的,三个维度分别表示红、绿和蓝三个分量,大小是0到255,每个像素都是由这三个分量组合而成。每一个RGB通道都对应一个图像矩阵(即第一图像矩阵、第二图像矩阵以及第三图像矩阵),因此,这三个RGB通道叠在一起形成了彩色图像,即得到待分割图像。当N为4时,图像矩阵可以是红绿蓝和Alpha(red green blue Alpha,RGBA)的色彩空间,对于便携式网络图形(Portable Network Graphics,PNG)而言,也具有四个图像矩阵,此处不对N的数量进行限定。
103、通过图像分割模型获取图像特征信息所对应的图像分割区域,其中,图像分割模型包括N个矩阵输入通道以及一个热图输入通道,N个矩阵输入通道与N个图像矩阵具有一一对应的关系,一个热图输入通道与热图具有对应关系;
本实施例中,图像分割装置将图像特征信息输入至图像分割模型,其中,图像分割模型可以采用深度实验(DeepLab)结构,包含但不仅限于DeepLabV1、DeepLabV2、DeepLabV3以及DeepLabV3+。其中,DeepLabV2结构是一种用于图像分割的CNN模型结构,输入一张图片,输出原图同大小的掩码图,图中每个像素点的值表示这个像素属于的类别标签值。DeepLabV3+结构是在DeeplabV2的基础上改进后的一种用于图像分割的CNN模型结构,它在图像分割比赛中通常能够取得更好的成绩。CNN是神经网络模型的一种发展,用卷积层替代了人工神经网络中的全连接层结构,在各种计算机视觉领域中取得了非常优异的表现。
本申请需要对图像分割模型的结构进行改进,对图像分割模型的第一层参数进行修改,使图像分割模型能够接收(N+1)个通道(channel)的图像数据,即图像分割模型包括N个矩阵输入通道以及一个热图输入通道。假设N为3,则表示有3个图像矩阵,此时对应3个矩阵输入通道,每个矩阵输入通道对应一个图像矩阵,且此时还具有一个热图输入通道,该热图输入通道对应于热图。
类似地,假设N为1,则表示有1个图像矩阵,此时对应1个矩阵输入通道,1个矩阵输入通道对应灰度图像的一个图像矩阵,且此时还具有一个热图输入通道,该热图输入通道对应于热图。
类似地,假设N为4,则表示有4个图像矩阵,此时对应4个矩阵输入通道,每个矩阵输入通道对应一个图像矩阵,且此时还具有一个热图输入通道,该热图输入通道对应于热图。
104、根据图像分割区域生成待分割图像的图像识别结果。
本实施例中,图像分割装置根据图像分割区域生成待分割图像的图像识别结果,具体地,图像分割区域是一个掩膜(mask)图像,基于该mask图像可以得到待分割图像中目标对象的边缘,用户可以手动调整该图像分割区域的边缘,最后得到图像识别结果。其中,该图像识别结果可以通过文本信息展示,比如,图像识别结果为“猴子”或者“汽车”等对象。图像识别结果还可以是在待分割图像中突出展示目标对象,目标对象可以是“汽车”或者“猴子”等对象。
本申请实施例中,提供了一种图像分割的方法,首先获取待分割图像,其中,待分割图像包括多个极值点,然后根据待分割图像生成图像特征信息,其中,图像特征信息包括第一图像矩阵、第二图像矩阵、第三图像矩阵以及热图,热图为根据多个极值点生成的,最后可以通过图像分割模型获取图像特征信息所对应的图像分割区域,其中,图像分割模型包括第一输入通道、第二输入通道、第三输入通道以及第四输入通道,第一输入通道与第一图像矩阵具有对应关系,第二输入通道与第二图像矩阵具有对应关系,第三输入通道与第三图像矩阵具有对应关系,第四输入通道与热图具有对应关系。通过上述方式,无需考虑目标是否满足特定类别,而是利用极值点所生成的热图作为图像特征信息的一部分,丰富了图像的特征内容,使得图像分割模型能够根据该图像特征信息生成更加准确的图像分割区域,从而提升图像分割的通用性和适用性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,获取待分割图像,可以包括:
展示待处理图像,其中,待处理图像中包括目标对象;
接收物体标注指令,其中,物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于物体标注指令,根据待处理图像生成待分割图像。
本实施例中,介绍了一种基于极值点标注的方式,用户可以使用辅助分割工具标注多个极值点。为了便于理解,请参阅图4,图4为本申请实施例中选取四个极值点的一个实施例示意图,如图所示,首先展示一个待处理图像,该待处理图像中包括目标对象,比如包括花朵、草堆以及树木,在实际应用中,目标对象包含但不仅限于人物、动物、车辆以及其他物体。在启动辅助分割工具之后用户即可触发物体标注指令,比如通过点选的方式从待处理图像中选择若干个极值点,以图4为例,假设目标对象为树木,用户通过辅助分割工具选择树木的四个极值点,即第一极值点A、第二极值点B、第三极值点C以及第四极值点D。在物体标注指令中具体携带了这四个极值点的坐标信息,从而根据物体标注指令生成待处理图像所对应的待分割图像,待分割图像如图4所示的树木所对应的图像,且待分割图像包括第一极值点A、第二极值点B、第三极值点C以及第四极值点D所构成的区域。
辅助分割工具根据待分割图像生成图像特征信息(包括热图以及图像矩阵),然后通过图像分割模型获取图像特征信息所对应的图像分割区域,请参阅图5,图5为本申请实施例中图像分割模型返回图像分割区域的一个实施例示意图,如图所示,辅助分割工具根据四个极值点计算得到图像分割区域,并返回该图像分割区域,比如图5中阴影部分所对应的图像即为图像分割区域。可以理解的是,图像分割区域可以为一个预分割的多边形结果,图5仅为一个示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种标注极值点的方法,首先展示待处理图像,然后接收物体标注指令,其中,物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息,最后响应于物体标注指令,根据待处理图像生成待分割图像。通过上述方式,能够利用辅助分割工具对待处理图像进行标注,辅助分割工具的操作难度较低,使用的便利性较高,从而提升方案的可行性和可操作性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,通过图像分割模型获取图像特征信息所对应的图像分割区域之后,还可以包括:
接收第一调整指令,其中,第一调整指令携带第一顶点,第一顶点属于图像分割区域的边缘点,第一顶点对应于第一位置信息;
响应于第一调整指令,对图像分割区域进行缩小处理,得到目标分割区域,其中,目标分割区域包括第二顶点,第二顶点对应于第二位置信息,第二位置信息与第一位置信息不相同。
本实施例中,介绍了一种对图像分割区域进行调整方法,用户可以通过辅助分割工具触发第一调整指令,为了便于理解,请参阅图6,图6为本申请实施例中缩小图像分割区域的一个实施例示意图,如图所示,如果预分割的图像分割区域存在错误,用户可以直接对图像分割区域进行修改,修改方式包括拖动多边形的边或者顶点,比如,图像分割区域具有顶点E1、顶点E2和顶点E3,其中,顶点E1和顶点E2构成的线段超出了树木的范围,因此,用户可以触发第一调整指令,即按住第一顶点(如顶点E2)向目标对象(如树木)的内部拖动,从而改变第一顶点的位置,辅助分割工具响应于第一调整指令,对图像分割区域进行缩小处理,得到目标分割区域,该目标分割区域即为调整过的图像分割区域,且原来的第一顶点位置发生了变化,变成第二顶点所在的位置,第二顶点可以为图6中E3所示的位置。
其次,本申请实施例中,提供了一种对图像分割区域进行调整方法,即接收第一调整指令,然后响应于第一调整指令,对图像分割区域进行缩小处理,得到目标分割区域。通过上述方式,用户可以采用辅助分割工具对图像分割区域进行调整,从而得到更加准确的分割结果,由此提升方案的实用性和灵活性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,通过图像分割模型获取图像特征信息所对应的图像分割区域之后,还可以包括:
接收第二调整指令,其中,第二调整指令携带第三顶点,第三顶点不属于图像分割区域;
响应于第二调整指令,对图像分割区域进行放大处理,得到目标分割区域,其中,目标分割区域包括第三顶点。
本实施例中,介绍了另一种对图像分割区域进行调整方法,用户可以通过辅助分割工具触发第二调整指令,为了便于理解,请参阅图7,图7为本申请实施例中增大图像分割区域的一个实施例示意图,如图所示,如果预分割的图像分割区域存在错误,用户可以直接对图像分割区域进行修改,修改方式包括在多边形边上新增顶点,或者画一个新的多边形覆盖错误区域并进行合并,比如,图像分割区域具有顶点E1、顶点E2和顶点E3,其中,顶点E1和顶点E2构成的线段落入树木的范围,因此,用户可以触发第二调整指令,即按住第三顶点(如顶点E2)向目标对象(如树木)的外部拖动,从而改变第三顶点的位置,辅助分割工具响应于第二调整指令,对图像分割区域进行放大处理,得到目标分割区域,该目标分割区域即为调整过的图像分割区域,且原来的第三顶点位置发生了变化,成为目标分割区域上的一个新的顶点,第三顶点可以为图7中E3所示的位置。
其次,本申请实施例中,提供了另一种对图像分割区域进行调整方法,即首先接收第二调整指令,然后响应于第二调整指令,对图像分割区域进行放大处理,得到目标分割区域。通过上述方式,用户可以采用辅助分割工具对图像分割区域进行调整,从而得到更加准确的分割结果,由此提升方案的实用性和灵活性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,根据待分割图像生成图像特征信息,可以包括:
根据待分割图像中的多个极值点生成热图;
根据待分割图像生成第一图像矩阵,其中,第一图像矩阵对应于N个矩阵输入通道中的红色输入通道;
根据待分割图像生成第二图像矩阵,其中,第二图像矩阵对应于N个矩阵输入通道中的绿色输入通道;
根据待分割图像生成第三图像矩阵,其中,第三图像矩阵对应于N个矩阵输入通道中的蓝色输入通道。
本实施例中,将以3个矩阵输入通道以及1个热图输入通道为例,介绍了一种生成图像特征信息的方式,为了便于理解,请参阅图8,图8为本申请实施例中生成图像特征信息的一个实施例示意图,如图所示,本申请采用深度极值点分割(Deep Extreme Cut,DEXTR)的输入格式,输入一个四通道的图像矩阵,也就是说本申请采用的模型输入除了原始图像以外,还包括四个极值点的信息,为了充分利用四个极值点的信息,生成一个和待分割图像尺寸一样的热图(heatmap),即如图8所示,分别以四个极值点坐标为中心,生成2D高斯分布,然后把这个热图作为第四个通道,再与另外三个图像矩阵进行合并,得到图像特征信息,最后将图像特征信息作为图像分割模型的输入。
其中,三个图像矩阵分别为第一图像矩阵、第二图像矩阵和第三图像矩阵,第一图像矩阵对应于红色(R)输入通道,第二图像矩阵对应于绿色(G)输入通道,第三图像矩阵对应于蓝色(B)输入通道。
通过热图可以简单地聚合大量数据,并使用一种渐进的色带来表现,最终效果一般优于离散点的直接显示,可以很直观地展现空间数据的疏密程度或频率高低。热图生成的原理主要分为四个步骤,具体为:
(1)为离散点设定一个半径,创建一个缓冲区;
(2)对每个离散点的缓冲区,使用渐进的灰度带从内而外,由浅至深地填充;
(3)由于灰度值可以叠加,从而对于有缓冲区交叉的区域,可以叠加灰度值,因而缓冲区交叉的越多,灰度值越大,这块区域也就越热;
(4)以叠加后的灰度值为索引,从一条有256种颜色的色带中映射颜色,并对图像重新着色,从而生成热图。
可以理解的是,在实际应用中,还存在其他生成热图生成方式,比如说,还可以直接以每个极值点为中心构建四个实心圆。2D高斯分布的特点是,越靠近中心点,值越大,并随着距离中心点边远迅速衰减。本申请采用热图的原因是为了在输入热图中,给予图像分割模型一些先验知识,让图像分割模型知道这四个点是用户选择的极值点,但是考虑到用户选择的不一定是真实的极值点,可能存在一定误差,所以以极值点为中心生成了一个热图的分布。
其次,本申请实施例中,提供了一种根据待分割图像生成图像特征信息的方法,根据待分割图像中的多个极值点生成热图,根据待分割图像生成第一图像矩阵,根据待分割图像生成第二图像矩阵,根据待分割图像生成第三图像矩阵。通过上述方式,能够有效地提升方案的可行性和可操作性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,通过图像分割模型获取图像特征信息所对应的图像分割区域,可以包括:
通过图像分割模型的编码器对图像特征信息进行编码,得到第一特征图以及第二特征图;
将第一特征图以及第二特征图进行拼接,得到目标特征图;
通过图像分割模型的解码器对目标特征图进行解码,得到图像分割区域。
本实施例中,介绍一种图像分割模型的结构,本申请是以DeeplabV3+模型结构为例进行介绍的,可以理解的是,还可以采用DeeplabV2模型结构,U-Net或者金字塔场景解析网络(Pyramid Scene Parsing Network,PSPNet)等。
为了便于理解,请参阅图9,图9为本申请实施例中图像分割模型的一个结构示意图,如图所示,提取待分割图像的特征,得到图像特征信息,将图像特征信息输入至图像分割模型。其中,图像分割模型包括编码器(Encoder)以及解码器(Decoder),编码器用于减少特征图的分辨率并捕捉更抽象的分割信息,解码器用于恢复空间信息。
首先通过编码器中的深度卷积神经网络(DeepConvolutionalNeuralNetwork,DCNN)对图像特征信息进行编码,即通过双线性插值恢复4倍大小的分辨率,得到第一特征图。采用1*1的卷积处理降低通道数,从而提取到图像特征信息的低层次特征,即可得到第二特征图。通过图像分割模型的解码器中的拼接层(concat)对第一特征图和第二特征图进行拼接,得到目标特征图。接一个大小为3*3的卷积来增强目标特征图,再通过一个插值来进一步恢复4倍分辨率至待分割图像的大小。
编码-解码结构可以通过逐渐恢复空间信息获得物体的边缘信息,DeeplabV3+模型结构在DeeplabV3模型结构的基础上增加了一个解码器来增强物体边缘的分割。
其次,本申请实施例中,提供了一种通过图像分割模型获取图像分割区域的方法,即首先通过图像分割模型的编码器对图像特征信息进行编码,得到第一特征图以及第二特征图,然后将第一特征图以及第二特征图进行拼接,得到目标特征图,最后通过图像分割模型的解码器对目标特征图进行解码,得到图像分割区域。通过上述方式,采用一种基于深度实验V3+版本(DeeplabV3+)的模型结构进行图像分割区域的预测,而DeeplabV3+模型结构总体参数量较少,因此,无论在训练还是实际预测都具有较快的运行速度,应用于辅助分割工具上能够更快地响应用户操作,提升使用效率,增强用户粘度。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,通过图像分割模型的解码器对目标特征图进行解码,得到图像分割区域,可以包括:
通过图像分割模型的解码器对目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,第一像素点集合包括多个第一像素点,第二像素点集合包括第二像素点;
根据第一像素点集合以及第二像素点集合,生成图像分割区域。
本实施例中,介绍了一种基于图像分割模型生成图像分割区域的方法,在图像分割区域对目标特征图进行解码之后,得到第一像素点集合以及第二像素点集合,这里的第一像素点集合属于目标对象的像素点,比如可以表示为“1”第二像素点集合属于背景,比如可以表示为“0”,由第一像素点集合以及第二像素点集合共同构成图像分割区域,也就是在图像分割区域中可以看到目标对象的分割结果。
DeeplabV3+模型结构总体参数量相较于DeeplabV2来说更少,这一特性使得DeeplabV3+模型结构不论是在训练还是实际使用的时候,运行速度都会获得提升,反映在实时的辅助分割工具使用上,能够更快响应用户给出的请求。
再次,本申请实施例中,提供了一种利用图像分割模型解码得到图像分割区域的方法,即通过图像分割模型的解码器对目标特征图进行解码,得到第一像素点集合以及第二像素点集合,然后根据第一像素点集合以及第二像素点集合,生成图像分割区域。通过上述方式,为方案的实现提供了具体的依据,并且基于图像分割模型的结构对特征进行解码,从而有利于提升图像分割模型应用的可靠性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的图像分割的方法一个可选实施例中,通过图像分割模型获取图像特征信息所对应的图像分割区域之后,还可以包括:
通过多边拟合函数对待分割图像进行处理,得到多边形顶点信息,其中,多边形顶点信息包括多个顶点的位置信息;
根据多边形顶点信息,从待分割图像中确定目标对象。
本实施例中,介绍了一种从待分割图像中确定目标对象的方式,在得到图像分割区域之后,还需要对图像分割区域进行边缘处理,具体地,请参阅图10,图10为本申请实施例中图像分割模型输出过程的一个实施例示意图,如图所示,本申请提出的辅助分割工具是一种不需指定特定物体类别的分割工具,模型对于一张图上的任何物体,都可以根据用户给出的四个极值点,提供较准确的分割结果,因此在图像分割模型的输出层,不是根据预加载的类别编号对像素点进行分类,而是对图像上每一个像素点进行一次二分类,代表的意思是当前像素点是否属于极值点指向的这个物体内部。图像分割模型输出的图像分割区域具体可以表现为掩码图(可以理解为一个原图大小的二维图像,里面的值只有1和0,1表示模型分类成正的,0表示分类成负的),图像分割区域中每一个像素点的值都是0或1。像素点值为1,代表图像分割模型判断此像素点为目标对象的内部点,像素值为0,代表图像分割模型判断此像素点为背景点。图像分割模型根据这个掩码图,提取目标对象的轮廓边缘,并对目标对象的边缘进行多边形拟合,最后将多边形顶点信息反馈给辅助分割工具,并在待分割图像中标注出来,其中,多边形顶点信息包括二维的坐标信息。
本申请采用的多边拟合函数具体可以是approxPolyDP函数,approxPolyDP函数的主要功能是把一个连续光滑曲线折线化,对图像轮廓点进行多边形拟合。approxPolyDP函数可以表示为:
void approxPolyDP(InputArray curve,OutputArray approxCurve,doubleepsilon,bool closed)
其中,InputArray curve表示是由图像的轮廓点组成的点集,OutputArrayapproxCurve表示输出的多边形点集,double epsilon表示输出的精度,即另一个轮廓点之间最大距离数,bool closed表示输出的多边形是否封闭。
可以理解的是,多边拟合函数还可以是其他类型的函数,此处仅为一个示意,不应理解为对本申请的限定。
进一步地,本申请实施例中,提供了一种对图像分割区域进行处理的方式,即首先通过多边拟合函数对待分割图像进行处理,得到多边形顶点信息,其中,多边形顶点信息包括多个顶点的位置信息,然后根据多边形顶点信息,从待分割图像中确定目标对象。通过上述方式,考虑到图像可能受到各种噪声干扰,这些噪声在图像上通常表现为孤立像素的离散变化,因此,采用多边拟合函数对待分割图像进行处理,能够很好地保留目标对象的边缘,获得更好地图像增强效果。
结合上述介绍,下面将对本申请中图像识别的方法进行介绍,请参阅图11,本申请实施例中图像识别的方法一个实施例包括:
201、当展示待处理图像时,接收物体标注指令,其中,物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
本实施例中,图像识别装置展示待处理图像,其中,该待处理图像可以表现为辅助分割工具,用户使用辅助分割工具标注多个极值点(包括第一极值点、第二极值点、第三极值点以及第四极值点),即触发物体标注指令,可以理解的是,本申请所提供的图像分割装置可部署于终端设备上。
202、响应于物体标注指令,根据待处理图像生成待分割图像;
本实施例中,图像识别装置响应于物体标注指令,然后可以根据这些极值点生成待分割图像,待分割图像包括第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息。
203、根据待分割图像生成图像特征信息,其中,图像特征信息包括N个图像矩阵以及热图,热图为根据多个极值点生成的,N为大于或等于1的整数;
本实施例中,图像识别装置根据待分割图像生成N个图像矩阵,并且根据多个极值点生成热图,将热图与N个图像矩阵进行组合,得到待分割图像所对应的图像特征信息。
其中,数字图像数据可以用矩阵来表示,如果读取的待分割图像大小为128*128,则图像矩阵大小为128*128*N,其中,N为大于或等于1的整数。当N为1时,图像矩阵可以是灰度图像所对应的矩阵。当N为3时,图像矩阵可以是红绿蓝(red green blue,RGB)图像的矩阵,RGB图像是三维的,三个维度分别表示红、绿和蓝三个分量,大小是0到255,每个像素都是由这三个分量组合而成。每一个RGB通道都对应一个图像矩阵(即第一图像矩阵、第二图像矩阵以及第三图像矩阵),因此,这三个RGB通道叠在一起形成了彩色图像,即得到待分割图像。当N为4时,图像矩阵可以是RGBA的色彩空间,对于PNG而言,也具有四个图像矩阵,此处不对N的数量进行限定。
204、通过图像分割模型获取图像特征信息所对应的图像分割区域,其中,图像分割模型包括N个矩阵输入通道以及一个热图输入通道,N个矩阵输入通道与N个图像矩阵具有一一对应的关系,一个热图输入通道与热图具有对应关系;
本实施例中,图像识别装置将图像特征信息输入至图像分割模型,其中,图像分割模型可以采用DeepLab结构,包含但不仅限于DeepLabV1、DeepLabV2、DeepLabV3以及DeepLabV3+。本申请需要对图像分割模型的结构进行改进,对图像分割模型的第一层参数进行修改,使图像分割模型能够接收四个channel的图像数据,即图像分割模型包括第一输入通道、第二输入通道、第三输入通道以及第四输入通道,第一图像矩阵作为第一输入通道的输入数据,第二图像矩阵作为第二输入通道的输入数据,第三图像矩阵作为第三输入通道的输入数据,热图作为第四输入通道的输入数据。
本申请需要对图像分割模型的结构进行改进,对图像分割模型的第一层参数进行修改,使图像分割模型能够接收(N+1)个channel的图像数据,即图像分割模型包括N个矩阵输入通道以及一个热图输入通道。假设N为3,则表示有3个图像矩阵,此时对应3个矩阵输入通道,每个矩阵输入通道对应一个图像矩阵,且此时还具有一个热图输入通道,该热图输入通道对应于热图。
类似地,假设N为1,则表示有1个图像矩阵,此时对应1个矩阵输入通道,1个矩阵输入通道对应灰度图像的一个图像矩阵,且此时还具有一个热图输入通道,该热图输入通道对应于热图。
类似地,假设N为4,则表示有4个图像矩阵,此时对应4个矩阵输入通道,每个矩阵输入通道对应一个图像矩阵,且此时还具有一个热图输入通道,该热图输入通道对应于热图。
205、通过多边拟合函数对待分割图像进行处理,得到多边形顶点信息,其中,多边形顶点信息包括多个顶点的位置信息;
本实施例中,图像识别装置输出的图像分割区域具体可以表现为掩码图,掩码图可以理解为是一个与待分割图像大小一样的二维图像,里面的值只有1和0,1表示分类为正,0表示分类为负,图像分割区域中每一个像素点的值都是0或1。像素点值为1,代表图像分割模型判断此像素点为目标对象的内部点,像素值为0,代表图像分割模型判断此像素点为背景点。图像识别装置采用多边拟合函数对待分割图像进行处理,得到多边形顶点信息,将多边形顶点信息反馈给辅助分割工具。
206、根据多边形顶点信息,在待分割图像中突出展示目标对象。
本实施例中,图像识别装置根据多边形顶点信息,在待分割图像中突出展示目标对象。具体可以是将多边形顶点信息反馈给辅助分割工具,然后在待分割图像中标注出来。
本申请实施例中,提供了一种图像识别的方法,当展示待处理图像时,接收物体标注指令,响应于物体标注指令,根据待处理图像生成待分割图像,然后根据待分割图像生成图像特征信息,通过图像分割模型获取图像特征信息所对应的图像分割区域,再通过多边拟合函数对待分割图像进行处理,得到多边形顶点信息,最后根据多边形顶点信息,在待分割图像中突出展示目标对象。通过上述方式,无需考虑目标是否满足特定类别,而是利用极值点所生成的热图作为图像特征信息的一部分,丰富了图像的特征内容,使得图像分割模型能够根据该图像特征信息生成更加准确的图像分割区域,从而提升辅助分割工具的通用性和适用性,进而还可以直接突出展示目标对象。
下面将结合实验数据对本申请提供的图像分割方法进行说明,请参阅图12,图12为本申请实施例中基于分割方式的一个实验结果对比示意图,如图所示,其中,图12中的(a)图表示原图,(b)图表示采用谷歌公司流体标注(Fluid Annotation)的分割辅助工具所得到的图像,(c)图表示采用分割数据集高效标记Polygon-RNN++工具所得到的图像,(d)图表示采用本申请提供的辅助分割工具所标注的图像。相比于原图而言,(b)图、(c)图和(d)图分别蒙上了一层,这是因为分割结果把原图和分割后的蒙版结合在一起了,分割后的蒙版提供一个透明的色彩,然后和原图叠加在一起。
基于图12的分割结果可以看出,本申请提供的辅助分割工具,相比于现有的辅助分割工具而言,能够提供更准确的分割结果。另外,本申请改进的图像分割模型相比于原始的分割模型,在保证分割精度不下降的情况下,还降低了模型响应时间,对于线上的辅助分割工具来说,增加了交互小。请参阅表1,表1为本申请提供的图像分割模型和原始模型性能及时间的对比。
表1
模型 | mIOU(Pascal) | mIOU(Pascal+SBD) | 单张图像耗时(Tesla P100) |
DEXTR | 87.60% | 91.20% | 1.02秒 |
图像分割模型 | 89.50% | 91.00% | 0.28秒 |
其中,mIOU表示平均交互比(mean Intersection Over Union,mIOU),mIOU是一个衡量图像分割精度的重要指标,mIOU即预测区域和实际区域的交集除以预测区域和实际区域的并集,对所有类别取平均。Pascal为一种图像分割数据集,语义边界数据集(SemanticBoundaries Dataset,SBD)为一种图像分割数据集,Tesla P100为采用的显卡的型号。表1展示了本申请提供的图像分割模型和原始DEXTR模型在不同数据集下训练以后的表现,这里采用mIOU这个指标来表示模型性能。在只用pascal数据集训练的情况下,本申请采用的图像分割模型在测试数据集上能够提供更准确的结果,在使用pascal+SBD数据集训练的情况下,本申请采用的图像分割模型和原始DEXTR模型性能相差不大。表1还展示了两个模型在相同显卡环境下运行单张图片的平均时间对比,可以看到,本申请采用的图像分割模型,相比于原始DEXTR模型,在时间性能上有非常显著的提升。
由此可见,本申请提供的辅助分割工具能够提供复杂场景下更加准确的分割结果,一方面能够给出同样准确的预分割结果,另一方面也能实现更快的模型速度,让线上辅助工具能够更快地响应。
下面对本申请中的图像分割装置进行详细描述,请参阅图13,图13为本申请实施例中图像分割装置一个实施例示意图,图像分割装置30包括:
获取模块301,用于获取待分割图像,其中,所述待分割图像包括多个极值点;
生成模块302,用于根据获取模块301获取的所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
所述获取模块301,还用于通过图像分割模型获取所述生成模块302生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
所述生成模块302,还用于根据所述获取模块301获取的所述图像分割区域生成所述待分割图像的图像识别结果。
本实施例中,获取模块301获取待分割图像,其中,所述待分割图像包括多个极值点,生成模块302根据获取模块301获取的所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数,所述获取模块301通过图像分割模型获取所述生成模块302生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系,所述生成模块302根据所述获取模块301获取的所述图像分割区域生成所述待分割图像的图像识别结果。
本申请实施例中,提供了一种图像分割装置,首先获取待分割图像,其中,待分割图像包括多个极值点,然后根据待分割图像生成图像特征信息,其中,图像特征信息包括N个图像矩阵以及热图,热图为根据多个极值点生成的,再通过图像分割模型获取图像特征信息所对应的图像分割区域,其中,图像分割模型包括N个矩阵输入通道以及一个热图输入通道,N个矩阵输入通道与N个图像矩阵具有一一对应的关系,一个热图输入通道与热图具有对应关系,最后根据图像分割区域生成待分割图像的图像识别结果。通过上述方式,无需考虑目标是否满足特定类别,而是利用极值点所生成的热图作为图像特征信息的一部分,丰富了图像的特征内容,使得图像分割模型能够根据该图像特征信息生成更加准确的图像分割区域,从而提升图像分割的通用性和适用性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的图像分割装置30的另一实施例中,
所述获取模块301,具体用于展示待处理图像,其中,所述待处理图像中包括目标对象;
接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成所述待分割图像。
其次,本申请实施例中,提供了一种标注极值点的方法,首先展示待处理图像,然后接收物体标注指令,其中,物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息,最后响应于物体标注指令,根据待处理图像生成待分割图像。通过上述方式,能够利用辅助分割工具对待处理图像进行标注,辅助分割工具的操作难度较低,使用的便利性较高,从而提升方案的可行性和可操作性。
可选地,在上述图13所对应的实施例的基础上,请参阅图14,本申请实施例提供的图像分割装置30的另一实施例中,所述图像分割装置30还包括接收模块303以及处理模块304;
所述接收模块303,用于所述获取模块301通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,接收第一调整指令,其中,所述第一调整指令携带第一顶点,所述第一顶点属于所述图像分割区域的边缘点,所述第一顶点对应于第一位置信息;
所述处理模块304,用于响应于所述接收模块303接收的所述第一调整指令,对所述图像分割区域进行缩小处理,得到目标分割区域,其中,所述目标分割区域包括第二顶点,所述第二顶点对应于第二位置信息,所述第二位置信息与所述第一位置信息不相同。
其次,本申请实施例中,提供了一种对图像分割区域进行调整方法,即接收第一调整指令,然后响应于第一调整指令,对图像分割区域进行缩小处理,得到目标分割区域。通过上述方式,用户可以采用辅助分割工具对图像分割区域进行调整,从而得到更加准确的分割结果,由此提升方案的实用性和灵活性。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的图像分割装置30的另一实施例中,所述图像分割装置30还包括所述接收模块303以及所述处理模块304;
所述接收模块303,还用于所述获取模块301通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,接收第二调整指令,其中,所述第二调整指令携带第三顶点,所述第三顶点不属于所述图像分割区域;
所述处理模块304,还用于响应于所述接收模块303接收的所述第二调整指令,对所述图像分割区域进行放大处理,得到目标分割区域,其中,所述目标分割区域包括所述第三顶点。
其次,本申请实施例中,提供了另一种对图像分割区域进行调整方法,即首先接收第二调整指令,然后响应于第二调整指令,对图像分割区域进行放大处理,得到目标分割区域。通过上述方式,用户可以采用辅助分割工具对图像分割区域进行调整,从而得到更加准确的分割结果,由此提升方案的实用性和灵活性。
可选地,在上述图13或图14所对应的实施例的基础上,本申请实施例提供的图像分割装置30的另一实施例中,
所述生成模块302,具体用于根据所述待分割图像中的所述多个极值点生成所述热图;
根据所述待分割图像生成第一图像矩阵,其中,所述第一图像矩阵对应于所述N个矩阵输入通道中的红色输入通道;
根据所述待分割图像生成第二图像矩阵,其中,所述第二图像矩阵对应于所述N个矩阵输入通道中的绿色输入通道;
根据所述待分割图像生成第三图像矩阵,其中,所述第三图像矩阵对应于所述N个矩阵输入通道中的蓝色输入通道。
其次,本申请实施例中,提供了一种根据待分割图像生成图像特征信息的方法,根据待分割图像中的多个极值点生成热图,根据待分割图像生成第一图像矩阵,根据待分割图像生成第二图像矩阵,根据待分割图像生成第三图像矩阵。通过上述方式,能够有效地提升方案的可行性和可操作性。
可选地,在上述图13或图14所对应的实施例的基础上,本申请实施例提供的图像分割装置30的另一实施例中,
所述获取模块301,具体用于通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到所述图像分割区域。
其次,本申请实施例中,提供了一种通过图像分割模型获取图像分割区域的方法,即首先通过图像分割模型的编码器对图像特征信息进行编码,得到第一特征图以及第二特征图,然后将第一特征图以及第二特征图进行拼接,得到目标特征图,最后通过图像分割模型的解码器对目标特征图进行解码,得到图像分割区域。通过上述方式,采用一种基于深度实验V3+版本(DeeplabV3+)的模型结构进行图像分割区域的预测,而DeeplabV3+模型结构总体参数量较少,因此,无论在训练还是实际预测都具有较快的运行速度,应用于辅助分割工具上能够更快地响应用户操作,提升使用效率,增强用户粘度。
可选地,在上述图13或图14所对应的实施例的基础上,本申请实施例提供的图像分割装置30的另一实施例中,
所述获取模块301,具体用于通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
再次,本申请实施例中,提供了一种利用图像分割模型解码得到图像分割区域的方法,即通过图像分割模型的解码器对目标特征图进行解码,得到第一像素点集合以及第二像素点集合,然后根据第一像素点集合以及第二像素点集合,生成图像分割区域。通过上述方式,为方案的实现提供了具体的依据,并且基于图像分割模型的结构对特征进行解码,从而有利于提升图像分割模型应用的可靠性。
可选地,在上述图13或图14所对应的实施例的基础上,请参阅图15,本申请实施例提供的图像分割装置30的另一实施例中,所述图像分割装置还包括所述处理模块304以及确定模块306;
所述处理模块304,还用于所述获取模块301通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
所述确定模块306,用于根据所述处理模块304处理得到的所述多边形顶点信息,从所述待分割图像中确定目标对象。
进一步地,本申请实施例中,提供了一种对图像分割区域进行处理的方式,即首先通过多边拟合函数对待分割图像进行处理,得到多边形顶点信息,其中,多边形顶点信息包括多个顶点的位置信息,然后根据多边形顶点信息,从待分割图像中确定目标对象。通过上述方式,考虑到图像可能受到各种噪声干扰,这些噪声在图像上通常表现为孤立像素的离散变化,因此,采用多边拟合函数对待分割图像进行处理,能够很好地保留目标对象的边缘,获得更好地图像增强效果。
下面对本申请中的图像识别装置进行详细描述,请参阅图16,图16为本申请实施例中图像识别装置一个实施例示意图,图像识别装置40包括:
接收模块401,用于当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
生成模块402,用于响应于所述接收模块401接收的所述物体标注指令,根据所述待处理图像生成待分割图像;
所述生成模块402,还用于根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
获取模块403,用于通过图像分割模型获取所述生成模块402生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
处理模块404,用于通过多边拟合函数对所述获取模块403获取的所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
展示模块405,用于根据所述处理模块404处理得到的所述多边形顶点信息,在所述待分割图像中突出展示目标对象。
本实施例中,当展示待处理图像时,接收模块401接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息,生成模块402响应于所述接收模块401接收的所述物体标注指令,根据所述待处理图像生成待分割图像,所述生成模块402根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数,获取模块403通过图像分割模型获取所述生成模块402生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系,处理模块404通过多边拟合函数对所述获取模块403获取的所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息,展示模块405根据所述处理模块404处理得到的所述多边形顶点信息,在所述待分割图像中突出展示目标对象。
本申请实施例中,提供了一种图像识别装置,当展示待处理图像时,接收物体标注指令,响应于物体标注指令,根据待处理图像生成待分割图像,然后根据待分割图像生成图像特征信息,通过图像分割模型获取图像特征信息所对应的图像分割区域,再通过多边拟合函数对待分割图像进行处理,得到多边形顶点信息,最后根据多边形顶点信息,在待分割图像中突出展示目标对象。通过上述方式,无需考虑目标是否满足特定类别,而是利用极值点所生成的热图作为图像特征信息的一部分,丰富了图像的特征内容,使得图像分割模型能够根据该图像特征信息生成更加准确的图像分割区域,从而提升辅助分割工具的通用性和适用性,进而还可以直接突出展示目标对象。
本申请实施例还提供了另一种图像分割装置以及图像识别装置,如图17所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigitalAssistant,PDA)、销售终端设备(PointofSales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图17示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图17,手机包括:射频(RadioFrequency,RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wirelessfidelity,WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解,图17中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图17对手机的各个构成部件进行具体的介绍:
RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器580处理;另外,将设计上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、通用分组无线服务(GeneralPacketRadioService,GPRS)、码分多址(CodeDivisionMultipleAccess,CDMA)、宽带码分多址(WidebandCodeDivisionMultipleAccess,WCDMA)、长期演进(LongTermEvolution,LTE)、电子邮件、短消息服务(ShortMessagingService,SMS)等。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元530可包括触控面板531以及其他输入设备532。触控面板531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(OrganicLight-EmittingDiode,OLED)等形式来配置显示面板541。进一步的,触控面板531可覆盖显示面板541,当触控面板531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图17中,触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一手机,或者将音频数据输出至存储器520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行手机的各种功能和处理数据。可选的,处理器580可包括一个或多个处理单元;可选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
手机还包括给各个部件供电的电源590(比如电池),可选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器580还具有以下功能:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果。
可选地,处理器580具体用于执行如下步骤:
展示待处理图像,其中,所述待处理图像中包括目标对象;
接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成所述待分割图像。
可选地,处理器580还用于执行如下步骤:
接收第一调整指令,其中,所述第一调整指令携带第一顶点,所述第一顶点属于所述图像分割区域的边缘点,所述第一顶点对应于第一位置信息;
响应于所述第一调整指令,对所述图像分割区域进行缩小处理,得到目标分割区域,其中,所述目标分割区域包括第二顶点,所述第二顶点对应于第二位置信息,所述第二位置信息与所述第一位置信息不相同。
可选地,处理器580还用于执行如下步骤:
接收第二调整指令,其中,所述第二调整指令携带第三顶点,所述第三顶点不属于所述图像分割区域;
响应于所述第二调整指令,对所述图像分割区域进行放大处理,得到目标分割区域,其中,所述目标分割区域包括所述第三顶点。
可选地,处理器580具体用于执行如下步骤:
根据所述待分割图像中的所述多个极值点生成所述热图;
根据所述待分割图像生成第一图像矩阵,其中,所述第一图像矩阵对应于所述N个矩阵输入通道中的红色输入通道;
根据所述待分割图像生成第二图像矩阵,其中,所述第二图像矩阵对应于所述N个矩阵输入通道中的绿色输入通道;
根据所述待分割图像生成第三图像矩阵,其中,所述第三图像矩阵对应于所述N个矩阵输入通道中的蓝色输入通道。
可选地,处理器580具体用于执行如下步骤:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到所述图像分割区域。
可选地,处理器580具体用于执行如下步骤:
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
可选地,处理器580还用于执行如下步骤:
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,从所述待分割图像中确定目标对象。
在本申请实施例中,该终端设备所包括的处理器580还具有以下功能:
当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成待分割图像;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,在所述待分割图像中突出展示目标对象。
图18是本申请实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图18所示的服务器结构。
在本申请实施例中,该服务器所包括的CPU622还具有以下功能:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果。
可选地,CPU622具体用于执行如下步骤:
展示待处理图像,其中,所述待处理图像中包括目标对象;
接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成所述待分割图像。
可选地,CPU622还用于执行如下步骤:
接收第一调整指令,其中,所述第一调整指令携带第一顶点,所述第一顶点属于所述图像分割区域的边缘点,所述第一顶点对应于第一位置信息;
响应于所述第一调整指令,对所述图像分割区域进行缩小处理,得到目标分割区域,其中,所述目标分割区域包括第二顶点,所述第二顶点对应于第二位置信息,所述第二位置信息与所述第一位置信息不相同。
可选地,CPU622还用于执行如下步骤:
接收第二调整指令,其中,所述第二调整指令携带第三顶点,所述第三顶点不属于所述图像分割区域;
响应于所述第二调整指令,对所述图像分割区域进行放大处理,得到目标分割区域,其中,所述目标分割区域包括所述第三顶点。
可选地,CPU622具体用于执行如下步骤:
根据所述待分割图像中的所述多个极值点生成所述热图;
根据所述待分割图像生成第一图像矩阵,其中,所述第一图像矩阵对应于所述N个矩阵输入通道中的红色输入通道;
根据所述待分割图像生成第二图像矩阵,其中,所述第二图像矩阵对应于所述N个矩阵输入通道中的绿色输入通道;
根据所述待分割图像生成第三图像矩阵,其中,所述第三图像矩阵对应于所述N个矩阵输入通道中的蓝色输入通道。
可选地,CPU622具体用于执行如下步骤:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到所述图像分割区域。
可选地,CPU622具体用于执行如下步骤:
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
可选地,CPU622还用于执行如下步骤:
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,从所述待分割图像中确定目标对象。
在本申请实施例中,该终端设备所包括的CPU622还具有以下功能:
当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成待分割图像;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,在所述待分割图像中突出展示目标对象。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(randomaccessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (17)
1.一种图像分割的方法,其特征在于,包括:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果;
所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域,包括:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;所述图像分割模型的输出层用于对图像上每一个像素点进行一次二分类,以确定当前像素点是否属于所述极值点所指向的目标对象的内部;所述第一像素点集合属于所述目标对象,所述第二像素点集合属于背景;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
2.根据权利要求1所述的方法,其特征在于,所述获取待分割图像,包括:
展示待处理图像,其中,所述待处理图像中包括所述目标对象;
接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成所述待分割图像。
3.根据权利要求1所述的方法,其特征在于,所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,所述方法还包括:
接收第一调整指令,其中,所述第一调整指令携带第一顶点,所述第一顶点属于所述图像分割区域的边缘点,所述第一顶点对应于第一位置信息;
响应于所述第一调整指令,对所述图像分割区域进行缩小处理,得到目标分割区域,其中,所述目标分割区域包括第二顶点,所述第二顶点对应于第二位置信息,所述第二位置信息与所述第一位置信息不相同。
4.根据权利要求1所述的方法,其特征在于,所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,所述方法还包括:
接收第二调整指令,其中,所述第二调整指令携带第三顶点,所述第三顶点不属于所述图像分割区域;
响应于所述第二调整指令,对所述图像分割区域进行放大处理,得到目标分割区域,其中,所述目标分割区域包括所述第三顶点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待分割图像生成图像特征信息,包括:
根据所述待分割图像中的所述多个极值点生成所述热图;
根据所述待分割图像生成第一图像矩阵,其中,所述第一图像矩阵对应于所述N个矩阵输入通道中的红色输入通道;
根据所述待分割图像生成第二图像矩阵,其中,所述第二图像矩阵对应于所述N个矩阵输入通道中的绿色输入通道;
根据所述待分割图像生成第三图像矩阵,其中,所述第三图像矩阵对应于所述N个矩阵输入通道中的蓝色输入通道。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,所述方法还包括:
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,从所述待分割图像中确定目标对象。
7.一种图像识别的方法,其特征在于,包括:
当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成待分割图像;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,在所述待分割图像中突出展示目标对象;
所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域,包括:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;所述图像分割模型的输出层用于对图像上每一个像素点进行一次二分类,以确定当前像素点是否属于所述极值点所指向的目标对象的内部;所述第一像素点集合属于所述目标对象,所述第二像素点集合属于背景;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
8.一种图像分割装置,其特征在于,包括:
获取模块,用于获取待分割图像,其中,所述待分割图像包括多个极值点;
生成模块,用于根据所述获取模块获取的所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
所述获取模块,还用于通过图像分割模型获取所述生成模块生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
所述生成模块,还用于根据所述获取模块获取的所述图像分割区域生成所述待分割图像的图像识别结果;
所述获取模块,具体用于:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;所述图像分割模型的输出层用于对图像上每一个像素点进行一次二分类,以确定当前像素点是否属于所述极值点所指向的目标对象的内部;所述第一像素点集合属于所述目标对象,所述第二像素点集合属于背景;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于:
展示待处理图像,其中,所述待处理图像中包括所述目标对象;
接收物体标注指令,其中,所述物体标注指令携带所述目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成所述待分割图像。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:接收模块以及处理模块;
所述接收模块,用于所述获取模块通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,接收第一调整指令,其中,所述第一调整指令携带第一顶点,所述第一顶点属于所述图像分割区域的边缘点,所述第一顶点对应于第一位置信息;
所述处理模块,用于响应于所述接收模块接收的所述第一调整指令,对所述图像分割区域进行缩小处理,得到目标分割区域,其中,所述目标分割区域包括第二顶点,所述第二顶点对应于第二位置信息,所述第二位置信息与所述第一位置信息不相同。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:接收模块以及处理模块;
所述接收模块,用于所述获取模块通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,接收第二调整指令,其中,所述第二调整指令携带第三顶点,所述第三顶点不属于所述图像分割区域;
所述处理模块,用于响应于所述第二调整指令,对所述图像分割区域进行放大处理,得到目标分割区域,其中,所述目标分割区域包括所述第三顶点。
12.根据权利要求8所述的装置,其特征在于,所述生成模块,具体用于:
根据所述待分割图像中的所述多个极值点生成所述热图;
根据所述待分割图像生成第一图像矩阵,其中,所述第一图像矩阵对应于所述N个矩阵输入通道中的红色输入通道;
根据所述待分割图像生成第二图像矩阵,其中,所述第二图像矩阵对应于所述N个矩阵输入通道中的绿色输入通道;
根据所述待分割图像生成第三图像矩阵,其中,所述第三图像矩阵对应于所述N个矩阵输入通道中的蓝色输入通道。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述装置还包括处理模块以及确定模块;
所述处理模块,用于所述获取模块通过图像分割模型获取所述图像特征信息所对应的图像分割区域之后,通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
所述确定模块,用于根据所述多边形顶点信息,从所述待分割图像中确定目标对象。
14.一种图像识别装置,其特征在于,包括:
接收模块,用于当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
生成模块,用于响应于所述接收模块接收的所述物体标注指令,根据所述待处理图像生成待分割图像;
所述生成模块,还用于根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
获取模块,用于通过图像分割模型获取所述生成模块生成的所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
处理模块,用于通过多边拟合函数对所述获取模块获取的所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
展示模块,用于根据所述处理模块处理得到的所述多边形顶点信息,在所述待分割图像中突出展示目标对象;
所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域,包括:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;所述图像分割模型的输出层用于对图像上每一个像素点进行一次二分类,以确定当前像素点是否属于所述极值点所指向的目标对象的内部;所述第一像素点集合属于所述目标对象,所述第二像素点集合属于背景;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域。
15.一种终端设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待分割图像,其中,所述待分割图像包括多个极值点;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
根据所述图像分割区域生成所述待分割图像的图像识别结果;
所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域,包括:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;所述图像分割模型的输出层用于对图像上每一个像素点进行一次二分类,以确定当前像素点是否属于所述极值点所指向的目标对象的内部;所述第一像素点集合属于所述目标对象,所述第二像素点集合属于背景;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
16.一种终端设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
当展示待处理图像时,接收物体标注指令,其中,所述物体标注指令携带目标对象所对应的第一极值点位置信息、第二极值点位置信息、第三极值点位置信息以及第四极值点位置信息;
响应于所述物体标注指令,根据所述待处理图像生成待分割图像;
根据所述待分割图像生成图像特征信息,其中,所述图像特征信息包括N个图像矩阵以及热图,所述热图为根据所述多个极值点生成的,所述N为大于或等于1的整数;
通过图像分割模型获取所述图像特征信息所对应的图像分割区域,其中,所述图像分割模型包括N个矩阵输入通道以及一个热图输入通道,所述N个矩阵输入通道与所述N个图像矩阵具有一一对应的关系,所述一个热图输入通道与所述热图具有对应关系;
通过多边拟合函数对所述待分割图像进行处理,得到多边形顶点信息,其中,所述多边形顶点信息包括多个顶点的位置信息;
根据所述多边形顶点信息,在所述待分割图像中突出展示目标对象;
所述通过图像分割模型获取所述图像特征信息所对应的图像分割区域,包括:
通过所述图像分割模型的编码器对所述图像特征信息进行编码,得到第一特征图以及第二特征图;
将所述第一特征图以及所述第二特征图进行拼接,得到目标特征图;
通过所述图像分割模型的解码器对所述目标特征图进行解码,得到第一像素点集合以及第二像素点集合,其中,所述第一像素点集合包括多个第一像素点,所述第二像素点集合包括第二像素点;所述图像分割模型的输出层用于对图像上每一个像素点进行一次二分类,以确定当前像素点是否属于所述极值点所指向的目标对象的内部;所述第一像素点集合属于所述目标对象,所述第二像素点集合属于背景;
根据所述第一像素点集合以及所述第二像素点集合,生成所述图像分割区域;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
17.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的方法,或,执行如权利要求7所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910481441.0A CN110276344B (zh) | 2019-06-04 | 2019-06-04 | 一种图像分割的方法、图像识别的方法以及相关装置 |
EP20819540.4A EP3982290A4 (en) | 2019-06-04 | 2020-05-18 | IMAGE RECOGNITION METHODS BASED ON ARTIFICIAL INTELLIGENCE AND RESPECTIVE DEVICE |
PCT/CN2020/090787 WO2020244373A1 (zh) | 2019-06-04 | 2020-05-18 | 基于人工智能的图像识别方法以及相关装置 |
US17/407,140 US20210383549A1 (en) | 2019-06-04 | 2021-08-19 | Image recognition method and related apparatus based on artificial intelligence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910481441.0A CN110276344B (zh) | 2019-06-04 | 2019-06-04 | 一种图像分割的方法、图像识别的方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110276344A CN110276344A (zh) | 2019-09-24 |
CN110276344B true CN110276344B (zh) | 2023-11-24 |
Family
ID=67960540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910481441.0A Active CN110276344B (zh) | 2019-06-04 | 2019-06-04 | 一种图像分割的方法、图像识别的方法以及相关装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210383549A1 (zh) |
EP (1) | EP3982290A4 (zh) |
CN (1) | CN110276344B (zh) |
WO (1) | WO2020244373A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276344B (zh) * | 2019-06-04 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种图像分割的方法、图像识别的方法以及相关装置 |
CN110232696B (zh) * | 2019-06-20 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 一种图像区域分割的方法、模型训练的方法及装置 |
CN110929792B (zh) * | 2019-11-27 | 2024-05-24 | 深圳市商汤科技有限公司 | 图像标注方法、装置、电子设备及存储介质 |
CN111080656A (zh) * | 2019-12-10 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法、图像合成的方法以及相关装置 |
CN111178224B (zh) * | 2019-12-25 | 2024-04-05 | 浙江大华技术股份有限公司 | 物体规则判断方法、装置、计算机设备和存储介质 |
CN111369478B (zh) * | 2020-03-04 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 人脸图像增强方法、装置、计算机设备和存储介质 |
CN111415358B (zh) * | 2020-03-20 | 2024-03-12 | Oppo广东移动通信有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN111583159B (zh) * | 2020-05-29 | 2024-01-05 | 北京金山云网络技术有限公司 | 一种图像补全方法、装置及电子设备 |
CN111860487B (zh) * | 2020-07-28 | 2022-08-19 | 天津恒达文博科技股份有限公司 | 基于深度神经网络的碑文标注检测识别系统 |
CN112364898B (zh) * | 2020-10-27 | 2024-01-19 | 星火科技技术(深圳)有限责任公司 | 图像识别自动标注方法、装置、设备及存储介质 |
CN112529914B (zh) * | 2020-12-18 | 2021-08-13 | 北京中科深智科技有限公司 | 一种实时头发分割方法和系统 |
KR102416216B1 (ko) * | 2021-02-09 | 2022-07-05 | 주식회사 비젼그리드 | 영상인식을 이용한 3차원 실체 형상 데이터 생성 방법 및 장치 |
CN113506302B (zh) * | 2021-07-27 | 2023-12-12 | 四川九洲电器集团有限责任公司 | 一种交互式对象更新方法、装置及处理系统 |
CN114419327B (zh) * | 2022-01-18 | 2023-07-28 | 北京百度网讯科技有限公司 | 图像检测方法和图像检测模型的训练方法、装置 |
CN114241339A (zh) * | 2022-02-28 | 2022-03-25 | 山东力聚机器人科技股份有限公司 | 遥感图像识别模型、方法及系统、服务器及介质 |
CN115082405B (zh) * | 2022-06-22 | 2024-05-14 | 强联智创(北京)科技有限公司 | 颅内病灶的检测模型的训练方法、检测方法、装置及设备 |
CN114998424B (zh) * | 2022-08-04 | 2022-10-21 | 中国第一汽车股份有限公司 | 车窗的位置确定方法、装置和车辆 |
WO2024112579A1 (en) * | 2022-11-23 | 2024-05-30 | Subtle Medical, Inc. | Systems and methods for mri contrast synthesis under light-weighted framework |
CN116385459B (zh) * | 2023-03-08 | 2024-01-09 | 阿里巴巴(中国)有限公司 | 图像分割方法及装置 |
CN116020122B (zh) * | 2023-03-24 | 2023-06-09 | 深圳游禧科技有限公司 | 游戏攻略推荐方法、装置、设备及存储介质 |
CN116958572B (zh) * | 2023-09-18 | 2023-12-19 | 济宁市林业保护和发展服务中心 | 一种果树繁育中叶片病虫害区域分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022243A (zh) * | 2017-11-23 | 2018-05-11 | 浙江清华长三角研究院 | 一种基于深度学习的图像中纸张检测方法 |
CN108427951A (zh) * | 2018-02-08 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102161052B1 (ko) * | 2013-08-27 | 2020-09-29 | 삼성전자주식회사 | 영상에서 객체를 분리하는 방법 및 장치. |
US10751548B2 (en) * | 2017-07-28 | 2020-08-25 | Elekta, Inc. | Automated image segmentation using DCNN such as for radiation therapy |
CN109447994B (zh) * | 2018-11-05 | 2019-12-17 | 陕西师范大学 | 结合完全残差与特征融合的遥感图像分割方法 |
CN110276344B (zh) * | 2019-06-04 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种图像分割的方法、图像识别的方法以及相关装置 |
-
2019
- 2019-06-04 CN CN201910481441.0A patent/CN110276344B/zh active Active
-
2020
- 2020-05-18 EP EP20819540.4A patent/EP3982290A4/en active Pending
- 2020-05-18 WO PCT/CN2020/090787 patent/WO2020244373A1/zh unknown
-
2021
- 2021-08-19 US US17/407,140 patent/US20210383549A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022243A (zh) * | 2017-11-23 | 2018-05-11 | 浙江清华长三角研究院 | 一种基于深度学习的图像中纸张检测方法 |
CN108427951A (zh) * | 2018-02-08 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和计算机设备 |
Non-Patent Citations (4)
Title |
---|
"Bottom-up object Detection by grouping extreme and center points";XINGYI ZHOU ET AL.;《ARXIV.ORG,CORNELL UNIVERSITY LIBRARY,201 ONLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853,23,》;第1-10页 * |
"Deep extreme cut: From extreme points to object segmentation";K.-K.Maninis et al.;《2018 IEEE/CVF Conference on Computer vision and Pattern Recognition》;第616-625页 * |
"Encoder-Decoder with atrous separable convolution for semantic image segmentation (Deeplab v3+) 论文笔记";庸木自琢;《https://blog.csdn.net/Lin-Danny/article/details/87924277》;第1-7页 * |
"Extreme clicking for efficient object annotation";Dim P. Papadopoulos et al.;《2017 IEEE International Conference on Computer Vision》;第4930-4939页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110276344A (zh) | 2019-09-24 |
US20210383549A1 (en) | 2021-12-09 |
EP3982290A1 (en) | 2022-04-13 |
WO2020244373A1 (zh) | 2020-12-10 |
EP3982290A4 (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276344B (zh) | 一种图像分割的方法、图像识别的方法以及相关装置 | |
CN110232696B (zh) | 一种图像区域分割的方法、模型训练的方法及装置 | |
CN109784424B (zh) | 一种图像分类模型训练的方法、图像处理的方法及装置 | |
CN111985265B (zh) | 图像处理方法和装置 | |
EP3944147A1 (en) | Target detection method, model training method, device, apparatus and storage medium | |
US10796133B2 (en) | Image processing method and apparatus, and electronic device | |
CN111368934B (zh) | 图像识别模型训练方法、图像识别方法以及相关装置 | |
CN112162930B (zh) | 一种控件识别的方法、相关装置、设备及存储介质 | |
CN111582116B (zh) | 一种视频抹除痕迹检测方法、装置、设备和存储介质 | |
CN111209423B (zh) | 一种基于电子相册的图像管理方法、装置以及存储介质 | |
WO2019015415A1 (en) | LIVING BODY DETECTION METHOD AND TERMINAL DEVICE | |
CN110555337B (zh) | 一种指示对象的检测方法、装置以及相关设备 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN115471662B (zh) | 语义分割模型的训练方法、识别方法、装置和存储介质 | |
CN114418069A (zh) | 一种编码器的训练方法、装置及存储介质 | |
CN114092920B (zh) | 一种模型训练的方法、图像分类的方法、装置及存储介质 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN112541489A (zh) | 图像检测方法、装置、移动终端及存储介质 | |
CN110097570B (zh) | 一种图像处理方法和装置 | |
CN114943976B (zh) | 模型生成的方法、装置、电子设备和存储介质 | |
CN114882226A (zh) | 图像处理方法、智能终端及存储介质 | |
CN113706446A (zh) | 一种镜头检测方法和相关装置 | |
CN113723168A (zh) | 一种基于人工智能的主体识别方法、相关装置及存储介质 | |
CN111738282A (zh) | 一种基于人工智能的图像识别方法和相关设备 | |
JP7170051B2 (ja) | 画像処理装置、画像処理方法及びプログラム、並びに携帯端末装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |