CN113920313B - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113920313B CN113920313B CN202111156964.1A CN202111156964A CN113920313B CN 113920313 B CN113920313 B CN 113920313B CN 202111156964 A CN202111156964 A CN 202111156964A CN 113920313 B CN113920313 B CN 113920313B
- Authority
- CN
- China
- Prior art keywords
- image
- feature map
- convolution
- grained
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 76
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 66
- 238000010586 diagram Methods 0.000 claims description 27
- 230000005284 excitation Effects 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 8
- 239000011800 void material Substances 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 235000019580 granularity Nutrition 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像处理方法,涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于图像分割等场景。具体方案包括:将待处理图像输入第一卷积网络,得到待处理图像的粗粒度图像特征图;将粗粒度图像特征图输入第二卷积网络,得到待处理图像的细粒度图像特征图;以及基于细粒度图像特征图,得到图像处理结果。本公开还提供了一种图像处理装置、电子设备及存储介质。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可以应用于图像分割等场景。尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
语义分割指通过查找属于目标对象的所有像素,以识别图像中存在的目标对象和位置。标准语义分割又称为全像素分割,可以将图像中的每个像素分类为属于某个对象类。
发明内容
基于此,本公开提供了一种图像处理方法、装置、电子设备和存储介质。
根据本公开的一个方面,提供了一种图像处理方法,包括:将待处理图像输入第一卷积网络,得到上述待处理图像的粗粒度图像特征图;将上述粗粒度图像特征图输入第二卷积网络,得到上述待处理图像的细粒度图像特征图;以及基于上述细粒度图像特征图,得到图像处理结果。
根据本公开的另一个方面,提供了一种图像处理装置,包括:第一输入模块,用于将待处理图像输入第一卷积网络,得到上述待处理图像的粗粒度图像特征图;第二输入模块,用于将上述粗粒度图像特征图输入第二卷积网络,得到上述待处理图像的细粒度图像特征图;以及获得模块,基于上述细粒度图像特征图,得到图像处理结果。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的图像处理方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的图像处理方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现本公开提供的图像处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一个实施例的图像处理方法的流程图;
图2A是根据本公开一个实施例的第一卷积网络的示意原理图;
图2B是根据本公开另一个实施例的第一卷积网络的示意原理图;
图3是根据本公开实施例一个实施例特征提取子网络的示意原理图;
图4是根据本公开一个实施例的第二卷积网络的示意原理图;
图5是根据本公开一个实施例的图像处理方法的示意原理图;
图6是根据本公开实施例的图像处理装置的框图;以及
图7是用来实施本公开实施例的图像处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实时语义分割的推理速度需要达到30fps(Frame Per Second,每秒帧数),且对内存的占用较少(例如小于5MB)。
相关技术中,可以利用PSPNet(Pyramid Scene Parsing Network,金字塔场景解析网络)模型和DeepLab模型进行语义分割,以达到理想的效果指标。但PSPNet模型和DeepLab模型中参数的量级达到数千万,导致二者的推理速度小于1fps,无法用于实时语义分割。
还可以利用ENet(Efficient Neural Network,高效神经网络)模型、ESPNet(Efficient Spatial Pyramid Neural Network,高效空间金字塔神经网络)模型进行语义分割,以达到所需的推理速度。但ENet模型和ESPNet模型的分割效果较差。
图1是根据本公开一个实施例的图像处理方法的流程图。
如图1所示,该图像处理方法100可以包括操作S110~操作S130。
在操作S110,将待处理图像输入第一卷积网络,得到待处理图像的粗粒度图像特征图。
在本公开实施例中,第一卷积网络采用的卷积核可以是5*5的卷积核,也可以是7*7的卷积核。
在本公开实施例中,可以使用因式分解的方法对第一卷积网络采用的卷积核进行简化。
例如,可以使用2个串行的3*3的卷积核代替5*5的卷积核,以减少28%的参数量。又例如,可以使用3个串行的3*3的卷积核代替7*7的卷积核,以减少45%的参数量。
在本公开实施例中,可以将第一卷积网络采用的卷积核分解为非对称卷积核。
例如,可以将一个3*3的卷积核分解为3*1的卷积核和1*3的卷积核。
例如,在第一卷积网络中,可以使用3个串行的3*3的卷积核代替7*7的卷积核。然后可以使用串行的3*1的卷积核和1*3的卷积核,代替3个3*3的卷积核中一个或多个3*3的卷积核。将标准卷积核分解为非对称卷积核,可以进一步降低参数量,提高图像处理效率。
在本公开实施例中,可以将每个3*3的卷积核的卷积结果进行跳跃连接,得到粗粒度图像特征图。
例如,可以使用3个串行的3*3的卷积核代替7*7的卷积核。然后,可以使用串行的3*1的卷积核和1*3的卷积核,代替3个3*3的卷积核中每个3*3的卷积核。
待处理图像依次经第一个3*1的卷积核和第一个1*3的卷积核处理后,得到为第一粗粒度特征图。第一粗粒度特征图依次经第二个3*1的卷积核和第二个1*3的卷积核处理后,得到为第二粗粒度特征图。第二粗粒度特征图依次经第三个3*1的卷积核和第三个1*3的卷积核处理后,得到第三粗粒度特征图。将第一粗粒度特征图、第二粗粒度特征图和第三粗粒度特征图融合(比如拼接或相加)得到粗粒度图像特征图。采用跳跃连接的方式融合多个粗粒度特征图,可以得到多个尺度的特征映射。
在本公开实施例中,可以对粗粒度图像特征图进行下采样。
例如,可以对粗粒度图像特征图执行最大池化(Maxpooling)操作,以进行下采样,得到下采样后的粗粒度图像特征图。进行下采样可以进一步压缩特征图,并减少参数量。
在操作S120,将粗粒度图像特征图输入第二卷积网络,得到待处理图像的细粒度图像特征图。
在本公开实施例中,第二卷积网络包括多个级联的特征提取子网络,每个特征提取子网络用于依次提取相应粒度的图像特征。
在本公开示例中,每个特征提取子网络包括K个处理模块,每个处理模块用于利用标准卷积核对图像特征图执行空洞卷积。
例如,每个处理模块用于利用1个3*3的空洞卷积核对图像特征图执行空洞卷积。对图像特征图执行空洞卷积,可以进一步减少参数量。
在本公开实施例中,每个特征提取子网络包括K个处理模块,每个处理模块用于利用非对称卷积核对图像特征图执行空洞卷积。
例如,一个处理模块可以利用串行的3*1的卷积核和1*3的卷积核对图像特征图执行空洞卷积。
在本公开实施例中,K个处理模块中,第k个处理模块的空洞卷积扩张率为m/2n,其中,m为大于等于2的偶数,k=1,2,…K,n=K-1,…2,1,0,当m/2n小于1时,设置空洞卷积扩张率=1。
例如,m=2,K=4,那么n=3,2,1,0。K个处理模块的空洞卷积扩张率分别为1,1,1,2。又例如,m=16,K=4,那么n=3,2,1,0。K个处理模块的空洞卷积扩张率分别为2,4,8,16。又例如,m=16,K=5,那么n=4,3,2,1,0。K个处理模块的空洞卷积扩张率分别为1,2,4,8,16。针对K个处理模块,将空洞卷积扩张率设置为m/2n,能够提取不同粒度下的特征,保证特征不冗余且不遗漏。
在本公开实施例中,可以将图像特征图并行输入K个处理模块,得到K个特征图。
例如,图像特征图可以是粗粒度图像特征图,也可以是下采样后的粗粒度图像特征图。又例如,图像特征图也可以是上一个特征提取子网络的输出。
在本公开实施例中,可以将K个特征图进行求和,得到融合特征图,作为每个特征提取子网络的输出。
例如,在m=16且K=5时,n=4,3,2,1,0。K个处理模块的空洞卷积扩张率分别为1,2,4,8,16,可以得到5个特征图。在一个示例中,可以将第1个特征图与第2个特征图相加,得到第一子融合特征图。将第一子融合特征图与第3个特征图相加,得到第二子融合特征图。将第二子融合特征图与第4个特征图相加,得到第三子融合特征图。将第三子融合特征图与第5个特征图相加,得到第四子融合特征图。在将第1个特征图、第一子融合特征图、第二子融合特征图、第三子融合特征图、第四子融合特征图相加,得到融合特征图。
在本公开实施例中,多个级联的特征提取子网络中,m的取值依次增大。
例如,可以包括4个级联的特征提取子网络,m的取值依次为2,4,8,16。
在本公开实施例中,I个级联的特征提取子网络中,第i个特征提取网络中m的取值小于第i+2个特征提取网络中m的取值,第i个特征提取网络中m的取值等于第i+1个特征提取网络中m的取值,I为偶数,I≥4,i为奇数,i=1,……,I-1。
例如,8个级联的特征提取子网络中,在第1个特征提取子网络和第2个特征提取子网络中,m=2;在第3个特征提取子网络和第4个特征提取子网络中,m=4;在第5个特征提取子网络和第6个特征提取子网络中,m=8;在第7个特征提取子网络和第8个特征提取子网络中,m=16。通过每次利用同一m取值的特征提取子网络串行执行两次操作,可以更好的提取细粒度特征。本领域技术人员可以理解,根据实际应用场景,也可以串行执行三次或更多次操作,只需能够充分提取各个尺度的特征即可。
在本公开实施例中,可以对特征提取子网络的输出进行下采样。
例如,可以对多个级联的特征提取子网络中一个或多个的输出进行下采样。类似地,可以利用最大池化操作等方法进行下采样。通过下采样可以进一步压缩特征图,并减少参数量。本领域技术人员可以理解,可以使用各种方式来实现下采样操作,而无需局限于最大池化。
在本公开实施例中,可以对K个特征图中一个或多个进行下采样。
在操作S130,基于细粒度图像特征图,得到图像处理结果。
在本公开实施例中,对细粒度图像特征图进行激励,得到激励特征图。
例如,可以使用1*1的卷积核处理细粒度图像特征图,得到卷积后的细粒度图像特征图。之后,再使用PReLU(Parametric Rectified Linear Unit;带参数的线性整流单元)激励函数处理卷积后的细粒度图像特征图,得到激励特征图。由于第一卷积网络和第二卷积网络均为浅层网络,使用PreLU激励函数,可以取得更好的激励效果。
在本公开实施例中,根据激励特征图,得到待处理图像的分割掩码。
例如,可以对激励特征图进行上采样(比如线性插值)。然后,将上采样后的激励特征图输入二分类器,得到分割掩码。本领域技术人员可以理解,可以使用各种方式来实现上采样操作,而无需局限于线性插值。
在本公开实施例中,利用分割掩码,得到图像处理结果。
例如,可以直接将分割掩码作为图像处理结果。
通过本公开实施例,利用非对称卷积核替换标准卷积核,以及利用空洞卷积技术,减少图像分割过程中的参数量。将第一卷积网络中多个卷积层的输出融合,以及使用多个级联的特征提取子网络处理图像特征图,获取了多种尺度多种粒度的特征映射,保证了图像分割的效果。可以实现实时语义分割的效果和内存占用的平衡,使得语义分割可以应用在终端,扩展了语义分割的应用场景。
图2A是根据本公开一个实施例的第一卷积网络的示意原理图。
如图2A所示,第一卷积网络包括第一卷积层201、第二卷积层202和第三卷积层203。
第一卷积层201、第二卷积层202和第三卷积层203均可以采用标准卷积核(比如3*3的卷积核),也可以采用非对称卷积核。
例如,在第一卷积层201中,卷积核为3*3的卷积核,步长为2。在第二卷积层202中,卷积核为3*3的卷积核,步长为1。在第三卷积层203中,卷积核为3*3的卷积核,步长为1。
第一卷积层201以32维的待处理图像为输入,输出32维的第一粗粒度特征图。第二卷积层202以第一粗粒度特征图为输入,输出32维的第二粗粒度特征图。第三卷积层203以第二粗粒度特征图为输入,输出32维的第三粗粒度特征图。可以将第一粗粒度特征图、第二粗粒度特征图和第三粗粒度特征图相加,得到32维粗粒度图像特征图。
图2B是根据本公开另一个实施例的第一卷积网络的示例原理图。
如图2B所示,第一卷积层201包括第一非对称卷积层2011和第二非对称卷积层2012。第二卷积层202包括第三非对称卷积层2021和第四非对称卷积层2022。第三卷积层203包括第五非对称卷积层2031和第六非对称卷积层2032。
第一非对称卷积层2011、第三非对称卷积层2021和第五非对称卷积层2031可以采用一非对称卷积核(比如3*1卷积核)。第一非对称卷积层2011、第三非对称卷积层2021和第五非对称卷积层2031可以采用另一非对称卷积核(比如1*3卷积核)。
如图2B所示,第一非对称卷积层2011和第二非对称卷积层2012是串行连接的。
图3是根据本公开一个实施例的特征提取子网络的示意原理图。
如图3所示,该特征提取子网络中,K=5,m=16。
该特征提取子网络中,第1个处理模块301的空洞卷积扩张率为1,第2个处理模块302的空洞卷积扩张率为2,第3个处理模块303的空洞卷积扩张率为4,第4个处理模块304的空洞卷积扩张率为8,第5个处理模块305的空洞卷积扩张率为16。例如,任一处理模块的空洞卷积核可以分解为非对称空洞卷积核。
该第一特征提取子网络还包括第一子融合模块306、第二子融合模块307、第三子融合模块308、第四子融合模块309和融合模块310。
第一融合子模块306将第1个处理模块301输出的第1个特征图与第2个处理模块302输出的第2个特征图相加,输出第一子特征融合图。第二融合子模块307将第一子融合特征图与第3个处理模块303输出的第3个特征图相加,输出第二子融合特征图。第三融合子模块308将第二子融合特征图与第4个处理模块304输出的第4个特征图相加,输出第三子融合特征图。将第四融合子模块309将第三子融合特征图与第5个处理模块305输出的第5个特征图相加,输出第四子融合特征图。融合模块310将第1个特征图、第一子融合特征图、第二子融合特征图、第三子融合特征图、第四子融合特征图相加,输出融合特征图。
图4是根据本公开一个实施例的第二卷积网络的示意原理图。
如图4所示,该第二卷积网络可以包括8个级联的特征提取子网络。第1个特征提取子网络401以图像特征图为输入,输出融合特征图。图像特征图可以是例如图2A或图2B中的第一卷积网络输出的粗粒度图像特征图。
8个级联的特征提取子网络中,在第1个特征提取子网络401和第2个特征提取子网络402中,m=2;在第3个特征提取子网络403和第4个特征提取子网络404中,m=4;在第5个特征提取子网络405和第6个特征提取子网络406中,m=8;在第7个特征提取子网络407和第8个特征提取子网络408中,m=16。
在一些实施例中,8个级联的特征提取子网络之间可以加入下采样层。
例如,在第1个特征提取子网络之前加入第一下采样层。第一下采样层以例如图2A中的32维的粗粒度图像特征图为输入,输出64维的下采样后的粗粒度图像特征图。在该第一下采样层中,可以先利用一个3*3卷积核对32维的粗粒度图像特征图执行一次卷积操作(步长为2),再利用一个2*2的卷积核执行一次最大池化操作(步长为1),得到64维的下采样后的粗粒度图像特征图。
第1个特征提取子网络401以该64维的下采样后的粗粒度图像特征图为输入,输出第一融合特征图。第2个特征提取子网络402以第一融合特征图为输入,输出64维的第二融合特征图。
可以在第2个特征提取子网络402和第3个特征提取子网络403之间加入第二下采样层。该第二下采样层以64维的第二融合特征图为输入,输出下采样后的第二融合特征图。在该第二下采样层中,可以先利用一个3*3卷积核对64维的第二融合特征图执行一次卷积操作(步长为2),再利用一个2*2的卷积核执行一次最大池化操作(步长为1),得到128维的下采样后的第二融合特征图。
第3个特征提取子网络403以该128维的下采样后的第二融合特征图为输入,输出第三融合特征图。第4个特征提取子网络404以第三融合特征图为输入,输出128维的第四融合特征图。
第5个特征提取子网络405以128维的第四融合特征图为输入,输出第五融合特征图。第6个特征提取子网络406以第五融合特征图为输入,输出128维的第六融合特征图。第7个特征提取子网络407以第六融合特征图为输入,输出第七融合特征图。第8个特征提取子网络408以第七融合特征图为输入,输出128维的细粒度图像特征图。
图5是根据本公开一个实施例的图像处理方法的示意原理图。
如图5所示,第一卷积网络501以待处理图像为输入,输出粗粒度图像特征图。第一卷积网络可以是例如图2A或图2B中的第一卷积网络。
第二卷积网络502以粗粒度图像特征图为输入,输出细粒度图像特征图。第二卷积网络502可以是例如图4中的第二卷积网络,包括多个例如图3中的级联的特征提取子网络。
可以根据细粒度图像特征图,得到图像处理结果。
例如,可以将例如图4中的128维的细粒度图像特征图输入激励层中,得到32维的激励特征图。在该激励层中,可以使用一个1*1的卷积核对细粒度图像特征图执行一次卷积操作(步长为1),得到卷积后的细粒度图像特征图。之后,再使用PReLU激励函数对卷积后的细粒度图像特征图进行激励,得到激励特征图。
再将该32维的激励特征图输入上采样层,得到32维的上采样后的激励特征图。再将32维的上采样后的激励特征图输入二分类器中,得到分割掩码。可以利用该分割掩码,得到图像处理结果。
基于本公开提供的图像处理方法,本公开还提供了一种图像处理装置。以下将结合图6对该装置进行详细描述。
图6是根据本公开一个实施例的图像处理装置的框图。
如图6所示,该图像处理装置600包括第一输入模块610、第二输入模块620和获得模块630。
第一输入模块610,用于将待处理图像输入第一卷积网络,得到上述待处理图像的粗粒度图像特征图。
第二输入模块620,用于将上述粗粒度图像特征图输入第二卷积网络,得到上述待处理图像的细粒度图像特征图。
获得模块630,基于上述细粒度图像特征图,得到图像处理结果。
在一些实施例中,上述第二卷积网络包括多个级联的特征提取子网络,每个特征提取子网络用于依次提取相应粒度的图像特征。
在一些实施例中,上述每个特征提取子网络包括K个处理模块,每个处理模块用于利用非对称卷积核对图像特征图执行空洞卷积;上述第二输入模块包括:并行输入单元,用于将图像特征图并行输入上述K个处理模块,得到K个特征图;融合单元,用于将上述K个特征图进行求和,得到融合特征图,作为上述每个特征提取子网络的输出。
在一些实施例中,上述K个处理模块中,第k个处理模块的空洞卷积扩张率为m/2n,其中,m为大于等于2的偶数,k=1,2,…K,n=K-1,…2,1,0,当m/2n小于1时,空洞卷积扩张率=1。
在一些实施例中,多个级联的特征提取子网络中,m的取值依次增大。
在一些实施例中,该图像处理装置600还包括:下采样模块,用于对于上述图像特征图进行下采样。
在一些实施例中,上述获得模块包括:激励单元,用于对上述细粒度图像特征图进行激励,得到激励特征图;第一获得单元,用于根据激励特征图,得到上述待处理图像的分割掩码;以及第二获得单元,用于利用上述分割掩码,得到图像处理结果。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开实施例的图像处理方法的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如图像处理方法。例如,在一些实施例中,图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种图像处理方法,包括:
将待处理图像输入第一卷积网络,得到所述待处理图像的粗粒度图像特征图;
将所述粗粒度图像特征图输入第二卷积网络,得到所述待处理图像的细粒度图像特征图,其中,所述第二卷积网络包括多个级联的特征提取子网络,每个特征提取子网络用于依次提取相应粒度的图像特征;以及
基于所述细粒度图像特征图,得到图像处理结果,
其中,所述每个特征提取子网络包括K个处理模块,每个处理模块用于利用非对称卷积核对图像特征图执行空洞卷积,
所述将所述粗粒度图像特征图输入第二卷积网络,得到所述待处理图像的细粒度图像特征图包括:
将图像特征图并行输入所述K个处理模块,得到K个特征图;
将所述K个特征图进行求和,得到融合特征图,作为所述每个特征提取子网络的输出。
2.根据权利要求1所述的方法,其中,所述K个处理模块中,第k个处理模块的空洞卷积扩张率为m/2n,其中,m为大于等于2的偶数,k=1,2,...K,n=K-1,...2,1,0,当m/2n小于1时,空洞卷积扩张率=1。
3.根据权利要求2所述的方法,其中,多个级联的特征提取子网络中,m的取值依次增大。
4.根据权利要求1所述的方法,还包括:
对于所述图像特征图进行下采样。
5.根据权利要求1所述的方法,其中,所述基于所述细粒度图像特征图,得到图像处理结果包括:
对所述细粒度图像特征图进行激励,得到激励特征图;
根据激励特征图,得到所述待处理图像的分割掩码;以及
利用所述分割掩码,得到图像处理结果。
6.一种图像处理装置,包括:
第一输入模块,用于将待处理图像输入第一卷积网络,得到所述待处理图像的粗粒度图像特征图;
第二输入模块,用于将所述粗粒度图像特征图输入第二卷积网络,得到所述待处理图像的细粒度图像特征图,其中,所述第二卷积网络包括多个级联的特征提取子网络,每个特征提取子网络用于依次提取相应粒度的图像特征;以及
获得模块,基于所述细粒度图像特征图,得到图像处理结果,
其中,所述每个特征提取子网络包括K个处理模块,每个处理模块用于利用非对称卷积核对图像特征图执行空洞卷积;所述第二输入模块包括:
并行输入单元,用于将图像特征图并行输入所述K个处理模块,得到K个特征图;
融合单元,用于将所述K个特征图进行求和,得到融合特征图,作为所述每个特征提取子网络的输出。
7.根据权利要求6所述的装置,其中,所述K个处理模块中,第k个处理模块的空洞卷积扩张率为m/2n,其中,m为大于等于2的偶数,k=1,2,...K,n=K-1,...2,1,0,当m/2n小于1时,空洞卷积扩张率=1。
8.根据权利要求7所述的装置,其中,多个级联的特征提取子网络中,m的取值依次增大。
9.根据权利要求6所述的装置,还包括:
下采样模块,用于对于所述图像特征图进行下采样。
10.根据权利要求6所述的装置,其中,所述获得模块包括:
激励单元,用于对所述细粒度图像特征图进行激励,得到激励特征图;
第一获得单元,用于根据激励特征图,得到所述待处理图像的分割掩码;以及
第二获得单元,用于利用所述分割掩码,得到图像处理结果。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~5中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111156964.1A CN113920313B (zh) | 2021-09-29 | 2021-09-29 | 图像处理方法、装置、电子设备及存储介质 |
US17/858,768 US20220343512A1 (en) | 2021-09-29 | 2022-07-06 | Method and apparatus of processing image, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111156964.1A CN113920313B (zh) | 2021-09-29 | 2021-09-29 | 图像处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113920313A CN113920313A (zh) | 2022-01-11 |
CN113920313B true CN113920313B (zh) | 2022-09-09 |
Family
ID=79237483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111156964.1A Active CN113920313B (zh) | 2021-09-29 | 2021-09-29 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220343512A1 (zh) |
CN (1) | CN113920313B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792424A (zh) * | 2022-05-30 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置及电子设备 |
CN114842307B (zh) * | 2022-07-04 | 2022-10-28 | 中国科学院自动化研究所 | 掩码图像模型训练方法、掩码图像内容预测方法和设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754439A (zh) * | 2020-06-28 | 2020-10-09 | 北京百度网讯科技有限公司 | 图像处理的方法、装置、设备以及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776774A (zh) * | 2018-05-04 | 2018-11-09 | 华南理工大学 | 一种基于复杂度感知分类算法的面部表情识别方法 |
CN109359696B (zh) * | 2018-10-29 | 2021-04-02 | 重庆中科云从科技有限公司 | 一种车款识别方法、系统及存储介质 |
US11037051B2 (en) * | 2018-11-28 | 2021-06-15 | Nvidia Corporation | 3D plane detection and reconstruction using a monocular image |
CN109740154B (zh) * | 2018-12-26 | 2021-10-26 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
WO2020190821A1 (en) * | 2019-03-15 | 2020-09-24 | Genentech, Inc. | Deep convolutional neural networks for tumor segmentation with positron emission tomography |
US11170504B2 (en) * | 2019-05-02 | 2021-11-09 | Keyamed Na, Inc. | Method and system for intracerebral hemorrhage detection and segmentation based on a multi-task fully convolutional network |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
CN111832517A (zh) * | 2020-07-22 | 2020-10-27 | 福建帝视信息科技有限公司 | 基于门控卷积的低清人脸关键点检测方法 |
CN112183414A (zh) * | 2020-09-29 | 2021-01-05 | 南京信息工程大学 | 一种基于混合空洞卷积的弱监督遥感目标检测方法 |
CN112766313B (zh) * | 2020-12-29 | 2023-11-14 | 厦门贝启科技有限公司 | 基于U-net结构的水晶体分割及定位方法、装置、设备和介质 |
CN112950576B (zh) * | 2021-02-26 | 2023-04-07 | 中国科学院自动化研究所 | 基于深度学习的输电线路缺陷智能识别方法及系统 |
CN113255430A (zh) * | 2021-03-31 | 2021-08-13 | 中交第二公路勘察设计研究院有限公司 | 基于深度学习的视频中人群分布检测与计数方法 |
CN113128593A (zh) * | 2021-04-20 | 2021-07-16 | 南京林业大学 | 一种基于双线性卷积神经网络的植物细粒度识别方法 |
CN113436292B (zh) * | 2021-07-06 | 2022-11-11 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型的训练方法、装置及设备 |
-
2021
- 2021-09-29 CN CN202111156964.1A patent/CN113920313B/zh active Active
-
2022
- 2022-07-06 US US17/858,768 patent/US20220343512A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754439A (zh) * | 2020-06-28 | 2020-10-09 | 北京百度网讯科技有限公司 | 图像处理的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220343512A1 (en) | 2022-10-27 |
CN113920313A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115294349B (zh) | 训练模型的方法、装置、电子设备及存储介质 | |
CN113920313B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112488060B (zh) | 目标检测方法、装置、设备和介质 | |
CN114913325B (zh) | 语义分割方法、装置及计算机程序产品 | |
CN111967297A (zh) | 图像的语义分割方法、装置、电子设备及介质 | |
CN115409855B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113538235A (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN113902696A (zh) | 图像处理方法、装置、电子设备和介质 | |
CN114218931A (zh) | 信息抽取方法、装置、电子设备和可读存储介质 | |
CN114202648B (zh) | 文本图像矫正方法、训练方法、装置、电子设备以及介质 | |
CN114819084A (zh) | 模型推理方法、装置、设备及存储介质 | |
CN112632251B (zh) | 回复内容的生成方法、装置、设备和存储介质 | |
CN113361535A (zh) | 图像分割模型训练、图像分割方法及相关装置 | |
CN113657408B (zh) | 确定图像特征的方法、装置、电子设备和存储介质 | |
CN110633595B (zh) | 一种利用双线性插值的目标检测方法和装置 | |
CN115578261A (zh) | 图像处理方法、深度学习模型的训练方法、装置 | |
CN114897147A (zh) | 骨干网络的生成方法、装置、设备以及存储介质 | |
CN112784967B (zh) | 信息处理方法、装置以及电子设备 | |
CN112580787B (zh) | 神经网络加速器的数据处理方法、装置、设备及存储介质 | |
CN114943995A (zh) | 人脸识别模型的训练方法、人脸识别方法及装置 | |
CN114078097A (zh) | 图像去雾模型的获取方法、装置和电子设备 | |
CN114187318A (zh) | 图像分割的方法、装置、电子设备以及存储介质 | |
CN114723796A (zh) | 一种三维点云生成方法、装置及电子设备 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |