CN112862842B - 图像数据的处理方法和装置、存储介质及电子装置 - Google Patents
图像数据的处理方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN112862842B CN112862842B CN202011638257.1A CN202011638257A CN112862842B CN 112862842 B CN112862842 B CN 112862842B CN 202011638257 A CN202011638257 A CN 202011638257A CN 112862842 B CN112862842 B CN 112862842B
- Authority
- CN
- China
- Prior art keywords
- edge
- feature
- image
- picture data
- feature images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 abstract description 29
- 230000000694 effects Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000004913 activation Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003708 edge detection Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种图像数据的处理方法和装置、存储介质及电子装置,其中,上述方法包括:通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,N为大于1的整数;确定所述N个图像特征图分别对应的N个边缘特征图,所述边缘特征图用于指示所述图片数据的边缘点的特征;将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,即获取N个图像特征图分别对应的N个边缘特征图,将N个边缘特征图和N个图像特征图融合,得到融合后的图片数据。采用上述技术方案,解决了相关技术中,在图像数据处理过程中,由于缺乏语义信息,导致的平面边缘分割效果不好,导致分割的平面出现错误分割等问题。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种图像数据的处理方法和装置、存储介质及电子装置。
背景技术
在相关技术中,基于传统的微分算子边缘检测方法进行图像分割,对于简单背景(比如纯色背景)具有良好的分割效果,但是对于包含复杂背景的图像,由于本身缺乏语义信息概念,使得在复杂背景图像中分割出的物体边缘锯齿现象非常严重,另外也常会有边缘误分割现象,比如图像中人在骑自行车,由于人和自行车在图像中紧挨在一起,导致微分算子边缘检测方法会把这两样东西误分割成同一物体。
针对相关技术中,在图像数据处理过程中,由于缺乏语义信息,进而导致的后续平面边缘分割效果不好,导致分割的平面出现错误分割等问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像数据的处理方法和装置、存储介质及电子装置,以至少解决相关技术中,由于缺乏语义信息,导致的平面边缘分割效果不好,导致分割的平面出现错误分割等问题。
根据本发明实施例的一个实施例,提供了一种图像数据的处理方法,包括:通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据。
在一个示例性实施例中,确定所述N个图像特征图分别对应的N个边缘特征图,包括:获取所述图片数据中每个边缘点的梯度值;根据所述每个边缘点的剃度值构建所述图片数据的梯度值特征图;对所述梯度值特征图处理,以得到所述N个边缘特征图。
在一个示例性实施例中,获取所述图片数据中每个边缘点的梯度值,包括:确定所述图片数据中每个边缘点的横坐标和纵坐标;分别获取所述横坐标对应的增量以及所述纵坐标对应的增量,其中,所述横坐标对应的增量为相邻两个横坐标对应的坐标差值,所述纵坐标对应的增量为相邻两个纵坐标对应的坐标差值;根据所述横坐标对应的增量以及所述纵坐标对应的增量依次确定所述每个边缘点的梯度值。
在一个示例性实施例中,对所述梯度值特征图处理,以得到所述N个边缘特征图,包括:获取N个边缘特征图所分别对应的N个边长,以及所述N个边缘特征图所分别对应的N个通道数,其中,边长与通道数存在一一对应关系;将所述梯度值特征图分别按照N个边长进行最大池化,得到N个中间边缘特征图;对所述N个中间边缘特征图分别按照所述N个通道数进行复制,得到所述N个边缘特征图。
在一个示例性实施例中,将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,包括:将所述N个图像特征图以及所述N个边缘特征图的每个相同特征点的特征值相加,以得到融合后的图片数据。
在一个示例性实施例中,确定所述N个图像特征图分别对应的N个边缘特征图之后,所述方法还包括:通过以下方式确定所述编码器的损失函数:其中,f(X)为根据所述图片数据预测到的特征图所对应的数值,Y为所述图片数据的像素标签所对应的数值,fi(X)为根据所述N个图像特征图对应的预测边缘特征图所对应的数值,Yi为所述N个边缘特征图所对应的数值。
根据本发明实施例的另一个实施例,还提供了一种图像数据的处理装置,包括:池化模块,用于通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;确定模块,用于确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;融合模块,用于将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据。
在一个示例性实施例中,所述确定模块,还用于获取所述图片数据中每个边缘点的梯度值;根据所述每个边缘点的剃度值构建所述图片数据的梯度值特征图;对所述梯度值特征图处理,以得到所述N个边缘特征图。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图像数据的处理方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的图像数据的处理方法。
在本发明实施例中,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,即获取N个图像特征图分别对应的N个边缘特征图,将N个边缘特征图和N个图像特征图融合,得到融合后的图片数据。采用上述技术方案,解决了相关技术中,由于缺乏语义信息,导致的平面边缘分割效果不好,导致分割的平面出现错误分割等问题,进而使得分割出的图像显示出很好地边缘形状,且极大的减少边缘被误分割的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种图像数据的处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的图像数据的处理方法的流程图;
图3是根据本发明实施例的图像数据的处理方法的结构示意图;
图4是根据本发明实施例的一种图像数据的处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种图像数据的处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的图像数据的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种图像数据的处理方法,应用于上述计算机终端,图2是根据本发明实施例的图像数据的处理方法的流程图,该流程包括如下步骤:
步骤S202,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;
步骤S204,确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;
步骤S206,将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据。
通过上述步骤,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,即获取N个图像特征图分别对应的N个边缘特征图,将N个边缘特征图和N个图像特征图融合,得到融合后的图片数据。采用上述技术方案,解决了相关技术中,由于缺乏语义信息,导致的平面边缘分割效果不好,导致分割的平面出现错误分割等问题,进而使得分割出的图像显示出很好地边缘形状,且极大的减少边缘被误分割的问题。
上述步骤S204可以有多种实现方式,本发明实施例主要提供了一种实现步骤S204的方案,获取所述图片数据中每个边缘点的梯度值;根据所述每个边缘点的剃度值构建所述图片数据的梯度值特征图;对所述梯度值特征图处理,以得到所述N个边缘特征图。
具体的,通过确定所述图片数据中每个边缘点的横坐标和纵坐标;分别获取所述横坐标对应的增量以及所述纵坐标对应的增量,其中,所述横坐标对应的增量为相邻两个横坐标对应的坐标差值,所述纵坐标对应的增量为相邻两个纵坐标对应的坐标差值;根据所述横坐标对应的增量以及所述纵坐标对应的增量依次确定所述每个边缘点的梯度值,获得图片数据中每个边缘点的梯度值。
需要说明的是,在图片数据中,因为有像素标签,可以统计出每个边缘点的横坐标和纵坐标(x,y),即如果(x+1,y)与(x-1,y)的标签不同,或者(x,y+1)与(x,y-1)的标签不同,则认为(x,y)坐标是边缘点,仅而通过预定算法获取横坐标对应的增量以及纵坐标对应的增量,再次根据不同的预定算法,计算出每个边缘点的梯度值,进而可以获得梯度值特征图。
进一步地,获取N个边缘特征图所分别对应的N个边长,以及所述N个边缘特征图所分别对应的N个通道数,其中,边长与通道数存在一一对应关系;将所述梯度值特征图分别按照N个边长进行最大池化,得到N个中间边缘特征图;对所述N个中间边缘特征图分别按照所述N个通道数进行复制,得到所述N个边缘特征图。
也就是说,将得到的梯度值特征图分别按照N个边缘特征图所分别对应的N个边长做最大池化,分别得到N个边缘模块特征图,然后分别按照N个边缘特征图所分别对应的N个通道数进行复制,即得到N个边缘模块特征图,举例来讲,将得到的梯度值特征图224*224*1(224、224为图片数据的长和宽,1为边缘特征图所分别对应的通道数)分别按照1/4,1/8,1/16,1/32的边长做max-pooling(最大池化),分别得到56*56*1,28*28*1,14*14*1,7*7*1的边缘模块特征图,然后分别按照通道数为256,512,512,1024复制,即得到边缘模块特征图56*56*256,28*28*512,14*14*512,7*7*1024,需要说明的是,上述数字仅仅是为了理解本发明实施例的技术方案选择的数值,实际操作过程中可以任意可能的数值。
进一步的,还可以对得到的N个边缘模块特征图进行高斯滤波,进而得到更加清楚的边缘模块特征图。
在一个示例性实施例中,将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,还需要将所述N个图像特征图以及所述N个边缘特征图的每个相同特征点的特征值相加,以得到融合后的图片数据。
为增强图像数据分割的边缘分割效果,在主干编解码器网络中,对N个图像特征图对应增加N个边缘特征图,增强主干网络对于边缘数据的描述能力。将得到的图像特征图和对应的边缘特征图进行融合,融合方式可以为直接对特征图上相同特征点的特征值相加,得到融合后的图片数据。
进一步地,确定所述N个图像特征图分别对应的N个边缘特征图之后,通过以下方式确定所述编码器的损失函数:其中,f(X)为根据所述图片数据预测到的特征图所对应的数值,Y为所述图片数据的像素标签所对应的数值,fi(X)为根据所述N个图像特征图对应的预测边缘特征图所对应的数值,Yi为所述N个边缘特征图所对应的数值。
具体的,设原始图片为X,编解码器用函数f表示,那么输出的预测特征图为f(X),其对应的原始图片的像素标签为Y,那么其损失函数的定义为||f(X)-Y||2,其中,||||2表示L2范数,也就是图片数据预测到的特征图所对应的数值与图片数据的像素标签所对应的数值差的平方和。而在本发明中,由于存在边缘增强模块,因此修改损失函数定义为fi(X)为根据所述N个图像特征图对应的预测边缘特征图所对应的数值,而Yi为所述N个边缘特征图所对应的数值。
为了更好的理解上述图像数据的处理方法的过程,以下再结合可选实施例对上述图像数据的处理的实现方法流程进行说明,但不用于限定本发明实施例的技术方案。
图3是根据本发明实施例的图像数据的处理方法的结构示意图,如图3所示。
需要说明的是,本发明采用有监督学习的训练方式,对训练数据采用深度学习算法进行训练,其中训练数据包括两部分:一是图片数据,二是图片中每个点的像素标签(如图3所示,例如1,2,3,4分别对应瓶子,桌子,苹果,背景)。
模型结构说明:本发明采用以编解码器为主体的网络结构,搭配边缘模块。编解码器:编解码器分为编码器与解码器两部分,如图3的主干网络所示,其中编码器结构如下:
模块一:原始训练图片统一压缩成224*224*3(其中,224*224表示图片的长宽,3表示通道),首先采用1*1卷积将特征图变为224*224*64,然后进行3*3卷积+Relu(线性整流)激活函数,得到224*224*64特征图如图3所示,存在两个224*224*64网络层;
模块二:对224*224*64特征图采用max-pooling(最大池化)得到56*56*256特征图,然后采用3*3卷积+Relu激活函数,得到56*56*256特征图,之后继续采用3*3卷积+Relu激活函数,得到56*56*256特征图,如图3所示,存在三个56*56*256网络层;
模块三:对56*56*256特征图采用max-pooling得到28*28*512特征图,然后采用3*3卷积+Relu激活函数,得到28*28*512特征图,之后对56*56*256特征图继续采用3*3卷积+Relu激活函数,得到28*28*512特征图,如图3所示,存在三个28*28*512网络层;
模块四:对28*28*512特征图采用max-pooling得到14*14*512特征图,然后采用3*3卷积+Relu激活函数,得到14*14*512特征图,之后继续采用3*3卷积+Relu激活函数,得到14*14*512特征图,如图3所示,存在三个14*14*512网络层;
模块五:对14*14*512特征图采用max-pooling得到7*7*1024特征图,然后采用3*3卷积+Relu激活函数,得到7*7*1024特征图,之后继续采用3*3卷积+Relu激活函数,得到7*7*1024特征图,如图3所示,存在三个7*7*1024网络层。
上述模块一、模块二、模块三、模块四、模块五模块合在一起,统称为语义模块。
解码器结构与编码器成倒置相同结构,如图3所示,唯一不同的是在输出层,输出层为224*224*1特征图,其中每个像素点的值predict_value代表了像素类别(predict_value∈{1,2,3,4})。需要说明的是,解码器与编码器成倒置相同结构是编解码器的一般通用结构。
边缘模块结构如下:
为了增强图像分割的边缘分割效果,本发明在主干编解码器网络中,对每个模块增加一个额外边缘分支,增强主干网络对于细节的描述能力。如图3所示,在模块二的第一个56*56*256特征图上,增加一个分支,此分支采用(224*224*1)按照1/4的边长做max-pooling(最大池化),得到56*56*1的边缘模块特征图,然后按照通道数为256进行复制,即得到一个56*56*256的边缘模块特征图,然后再将56*56*256的边缘模块特征图与模块二的最后一个56*56*256特征图进行融合,此处融合方式,是直接对特征图上每个点值相加。在模块三的第一个28*28*512特征图上,增加一个分支,此分支采用(224*224*1)按照1/8的边长做max-pooling(最大池化),得到28*28*1的边缘模块特征图,然后按照通道数为512进行复制,即得到一个28*28*512的边缘模块特征图,然后再将28*28*512的边缘模块特征图与模块三的最后一个28*28*512特征图进行融合,此处融合方式,是直接对特征图上每个点值相加。在模块四的第一个14*14*512特征图上,增加一个分支,此分支采用(224*224*1)按照1/16的边长做max-pooling(最大池化),得到14*14*1的边缘模块特征图,然后按照通道数为512进行复制,即得到一个14*14*512的边缘模块特征图,然后再将14*14*512的边缘模块特征图与模块四的最后一个14*14*512特征图进行融合。在模块五的第一个7*7*1024特征图上,增加一个分支,此分支采用(224*224*1)按照1/32的边长做max-pooling(最大池化),得到7*7*1的边缘模块特征图,然后按照通道数为1024进行复制,即得到一个7*7*1024的边缘模块特征图,然后再将7*7*1024的边缘模块特征图与模块五的最后一个7*7*1024特征图进行融合。
本发明给出了一种边缘模块标签特征图生成方法,在一个可选实施例中,具体步骤如下:
步骤1:通过像素标签统计出所有边缘点的(x,y)坐标,即如果(x+1,y)与(x-1,y)的标签不同,或者(x,y+1)与(x,y-1)的标签不同,即认为(x,y)坐标是边缘点;
步骤2:将原彩图灰度化,并计算所有边缘点的梯度值△,而把非边缘点所有值置为0,其中梯度值的计算公式为:
dx=f(x+1,y)-f(x-1,y),dy=f(x,y+1)-f(x,y-1)
步骤3:将得到的梯度值特征图(224*224*1)分别按照1/4,1/8,1/16,1/32的边长做max-pooling(最大池化),分别得到56*56*1,28*28*1,14*14*1,7*7*1的边缘模块特征图,然后分别按照通道数为256,512,512,1024复制,即得到边缘模块特征图56*56*256,28*28*512,14*14*512,7*7*1024;
步骤4:对所有的边缘模块特征图进行高斯滤波,得到边缘模块标签特征图。
确定所述N个图像特征图分别对应的N个边缘特征图之后,通过以下方式确定所述编码器的损失函数,通常损失函数为,设原始图片为X,编解码器用函数f表示,那么输出的预测特征图为f(X),其对应的原始图片的像素标签为Y,那么其损失函数的定义为||f(X)-Y||2,其中,||||2表示L2范数,也就是特征图上所有点预测值与标签值差的平方和。
传统的基于阈值、区域、边缘的分割方法受限于像素级的噪声或者没有语义信息作为基础,使得传统分割方法会很大程度上造成误分割的现象。常用的边缘检测方法包括:一阶微分算子边缘检测方法:Roberts、Prewitt、Sobel等;二阶微分算子边缘检测方法:Laplace、Kirsh等,基于传统的图像数据处理方法,在平面分割过程中,平面边缘分割效果不好,容易将非同一平面的物体也被分割进去,导致分割的平面呈现边缘类似圆弧的不规则图形。
在本发明实施例中,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,即获取N个图像特征图分别对应的N个边缘特征图,将N个边缘特征图和N个图像特征图融合,得到融合后的图片数据。采用上述技术方案,解决了相关技术中,由于缺乏语义信息,导致的平面边缘分割效果不好,导致分割的平面出现错误分割等问题,进而使得分割出的图像显示出很好地边缘形状,且极大的减少边缘被误分割的问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
图4是根据本发明实施例的一种图像数据的处理装置的结构框图;如图4所示,包括:
池化模块42,用于通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;
确定模块44,用于确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;
融合模块46,用于将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据。
在本发明实施例中,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,即获取N个图像特征图分别对应的N个边缘特征图,将N个边缘特征图和N个图像特征图融合,得到融合后的图片数据。采用上述技术方案,解决了相关技术中,由于缺乏语义信息,导致的平面边缘分割效果不好,导致分割的平面出现错误分割等问题,进而使得分割出的图像显示出很好地边缘形状,且极大的减少边缘被误分割的问题。
确定所述N个图像特征图分别对应的N个边缘特征图可以有多种实现方式,在一个示例性实施例中,确定模块,还用于获取所述图片数据中每个边缘点的梯度值;根据所述每个边缘点的剃度值构建所述图片数据的梯度值特征图;对所述梯度值特征图处理,以得到所述N个边缘特征图。
具体的,通过确定模块确定所述图片数据中每个边缘点的横坐标和纵坐标;分别获取所述横坐标对应的增量以及所述纵坐标对应的增量,其中,所述横坐标对应的增量为相邻两个横坐标对应的坐标差值,所述纵坐标对应的增量为相邻两个纵坐标对应的坐标差值;根据所述横坐标对应的增量以及所述纵坐标对应的增量依次确定所述每个边缘点的梯度值,获得图片数据中每个边缘点的梯度值。
需要说明的是,在图片数据中,因为有像素标签,可以统计出每个边缘点的横坐标和纵坐标(x,y),即如果(x+1,y)与(x-1,y)的标签不同,或者(x,y+1)与(x,y-1)的标签不同,则认为(x,y)坐标是边缘点,仅而通过预定算法获取横坐标对应的增量以及纵坐标对应的增量,再次根据不同的预定算法,计算出每个边缘点的梯度值,进而可以获得梯度值特征图。
进一步地,确定模块,还用于获取N个边缘特征图所分别对应的N个边长,以及所述N个边缘特征图所分别对应的N个通道数,其中,边长与通道数存在一一对应关系;将所述梯度值特征图分别按照N个边长进行最大池化,得到N个中间边缘特征图;对所述N个中间边缘特征图分别按照所述N个通道数进行复制,得到所述N个边缘特征图。
也就是说,将得到的梯度值特征图分别按照N个边缘特征图所分别对应的N个边长做最大池化,分别得到N个边缘模块特征图,然后分别按照N个边缘特征图所分别对应的N个通道数进行复制,即得到N个边缘模块特征图,举例来讲,将得到的梯度值特征图224*224*1(224、224为图片数据的长和宽,1为边缘特征图所分别对应的通道数)分别按照1/4,1/8,1/16,1/32的边长做max-pooling(最大池化),分别得到56*56*1,28*28*1,14*14*1,7*7*1的边缘模块特征图,然后分别按照通道数为256,512,512,1024复制,即得到边缘模块特征图56*56*256,28*28*512,14*14*512,7*7*1024,需要说明的是,上述数字仅仅是为了理解本发明实施例的技术方案选择的数值,实际操作过程中可以任意可能的数值。
进一步的,还可以对得到的N个边缘模块特征图进行高斯滤波,进而得到更加清楚的边缘模块特征图。
在一个示例性实施例中,融合模块,还用于将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,还需要将所述N个图像特征图以及所述N个边缘特征图的每个相同特征点的特征值相加,以得到融合后的图片数据。
为增强图像数据分割的边缘分割效果,在主干编解码器网络中,对N个图像特征图对应增加N个边缘特征图,增强主干网络对于边缘数据的描述能力。将得到的图像特征图和对应的边缘特征图进行融合,融合方式可以为直接对特征图上相同特征点的特征值相加,得到融合后的图片数据。
进一步地,确定模块,还用于确定所述N个图像特征图分别对应的N个边缘特征图之后,通过以下方式确定所述编码器的损失函数:其中,f(X)为根据所述图片数据预测到的特征图所对应的数值,Y为所述图片数据的像素标签所对应的数值,fi(X)为根据所述N个图像特征图对应的预测边缘特征图所对应的数值,Yi为所述N个边缘特征图所对应的数值。
具体的,设原始图片为X,编解码器用函数f表示,那么输出的预测特征图为f(X),其对应的原始图片的像素标签为Y,那么其损失函数的定义为||f(X)-Y||2,其中,||||2表示L2范数,也就是图片数据预测到的特征图所对应的数值与图片数据的像素标签所对应的数值差的平方和。而在本发明中,由于存在边缘增强模块,因此修改损失函数定义为fi(X)为根据所述N个图像特征图对应的预测边缘特征图所对应的数值,而Yi为所述N个边缘特征图所对应的数值。
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;
S2,确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;
S3,将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据。
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;
S2,确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;
S3,将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种图像数据的处理方法,其特征在于,包括:
通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;
确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;
将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据;
其中,确定所述N个图像特征图分别对应的N个边缘特征图,包括:
获取所述图片数据中每个边缘点的梯度值;
根据所述每个边缘点的剃度值构建所述图片数据的梯度值特征图;
对所述梯度值特征图处理,以得到所述N个边缘特征图;
其中,对所述梯度值特征图处理,以得到所述N个边缘特征图,包括:
获取N个边缘特征图所分别对应的N个边长,以及所述N个边缘特征图所分别对应的N个通道数,其中,边长与通道数存在一一对应关系;
将所述梯度值特征图分别按照N个边长进行最大池化,得到N个中间边缘特征图;
对所述N个中间边缘特征图分别按照所述N个通道数进行复制,得到所述N个边缘特征图。
2.根据权利要求1所述的方法,其特征在于,获取所述图片数据中每个边缘点的梯度值,包括:
确定所述图片数据中每个边缘点的横坐标和纵坐标;
分别获取所述横坐标对应的增量以及所述纵坐标对应的增量,其中,所述横坐标对应的增量为相邻两个横坐标对应的坐标差值,所述纵坐标对应的增量为相邻两个纵坐标对应的坐标差值;
根据所述横坐标对应的增量以及所述纵坐标对应的增量依次确定所述每个边缘点的梯度值。
3.根据权利要求1所述的方法,其特征在于,将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据,包括:
将所述N个图像特征图以及所述N个边缘特征图的每个相同特征点的特征值相加,以得到融合后的图片数据。
4.根据权利要求1所述的方法,其特征在于,确定所述N个图像特征图分别对应的N个边缘特征图之后,所述方法还包括:
通过以下方式确定所述编码器的损失函数:
,其中,为根据所述图片数据预测到的特征图所对应的数值,为所述图片数据的像素标签所对应的数值,为根据所述N个图像特征图对应的预测边缘特征图所对应的数值,为所述N个边缘特征图所对应的数值。
5.一种图像数据的处理装置,其特征在于,包括:
池化模块,用于通过编码器的N个池化层依次对图片数据进行池化,以得到N个图像特征图,其中,N为大于1的整数;
确定模块,用于确定所述N个图像特征图分别对应的N个边缘特征图,其中,所述边缘特征图用于指示所述图片数据的边缘点的特征;
融合模块,用于将所述N个图像特征图以及所述N个边缘特征图进行融合,以得到融合后的图片数据;
其中,所述确定模块,还用于获取所述图片数据中每个边缘点的梯度值;根据所述每个边缘点的剃度值构建所述图片数据的梯度值特征图;对所述梯度值特征图处理,以得到所述N个边缘特征图;
其中,所述确定模块,还用于获取N个边缘特征图所分别对应的N个边长,以及所述N个边缘特征图所分别对应的N个通道数,其中,边长与通道数存在一一对应关系;将所述梯度值特征图分别按照N个边长进行最大池化,得到N个中间边缘特征图;对所述N个中间边缘特征图分别按照所述N个通道数进行复制,得到所述N个边缘特征图。
6.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至4任一项中所述的方法。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638257.1A CN112862842B (zh) | 2020-12-31 | 2020-12-31 | 图像数据的处理方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638257.1A CN112862842B (zh) | 2020-12-31 | 2020-12-31 | 图像数据的处理方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862842A CN112862842A (zh) | 2021-05-28 |
CN112862842B true CN112862842B (zh) | 2023-05-12 |
Family
ID=76001359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011638257.1A Active CN112862842B (zh) | 2020-12-31 | 2020-12-31 | 图像数据的处理方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862842B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113848736B (zh) * | 2021-09-13 | 2024-06-28 | 青岛海尔科技有限公司 | 基于智能衣柜的衣物信息处理方法及设备 |
CN117078761B (zh) * | 2023-10-07 | 2024-02-27 | 深圳爱博合创医疗机器人有限公司 | 细长型医疗器械自动定位方法、装置、设备以及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111612807A (zh) * | 2020-05-15 | 2020-09-01 | 北京工业大学 | 一种基于尺度和边缘信息的小目标图像分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019178702A1 (en) * | 2018-03-23 | 2019-09-26 | The Governing Council Of The University Of Toronto | Systems and methods for polygon object annotation and a method of training an object annotation system |
-
2020
- 2020-12-31 CN CN202011638257.1A patent/CN112862842B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111612807A (zh) * | 2020-05-15 | 2020-09-01 | 北京工业大学 | 一种基于尺度和边缘信息的小目标图像分割方法 |
Non-Patent Citations (1)
Title |
---|
《结合边缘检测的语义分割算法》;王囡 等;《计算机工程网络首发论文》;20200617;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112862842A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220108542A1 (en) | Image processing method and apparatus, electronic device and computer readable storage medium | |
CN109325954B (zh) | 图像分割方法、装置及电子设备 | |
CN110933497B (zh) | 视频图像数据插帧处理方法及相关设备 | |
CN110795976B (zh) | 一种训练物体检测模型的方法、装置以及设备 | |
CN112287912B (zh) | 基于深度学习的车道线检测方法以及装置 | |
CN112862842B (zh) | 图像数据的处理方法和装置、存储介质及电子装置 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110490203B (zh) | 图像分割方法及装置、电子设备和计算机可读存储介质 | |
CN111178355B (zh) | 印章识别方法、装置和存储介质 | |
CN113362246A (zh) | 一种图像带状伪影去除方法、装置、设备和介质 | |
CN111652181A (zh) | 目标跟踪方法、装置及电子设备 | |
CN111402301B (zh) | 积水检测方法及装置、存储介质及电子装置 | |
CN112750139A (zh) | 图像处理方法及装置、计算设备、存储介质 | |
CN105427230A (zh) | 可逆数据隐藏方法 | |
CN113688832B (zh) | 一种模型训练及图像处理方法、装置 | |
EP3410389A1 (en) | Image processing method and device | |
CN111353957A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN114119964A (zh) | 一种网络训练的方法及装置、目标检测的方法及装置 | |
KR101982203B1 (ko) | 개인정보 보호가 가능한, 영상 인식을 위한 단말 장치, 서버 장치 및 시스템 | |
CN117315406A (zh) | 一种样本图像处理方法、装置及设备 | |
CN116051811B (zh) | 区域识别方法、装置、计算机设备及计算机可读存储介质 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
CN113569771B (zh) | 视频分析方法及装置、电子设备和存储介质 | |
CN113724269B (zh) | 实例分割方法、实例分割网络的训练方法及相关设备 | |
CN117689894A (zh) | 一种图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |