CN112883981A - 一种图像处理方法、设备及存储介质 - Google Patents
一种图像处理方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112883981A CN112883981A CN201911204496.3A CN201911204496A CN112883981A CN 112883981 A CN112883981 A CN 112883981A CN 201911204496 A CN201911204496 A CN 201911204496A CN 112883981 A CN112883981 A CN 112883981A
- Authority
- CN
- China
- Prior art keywords
- feature map
- size
- network layer
- convolution kernel
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 136
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000010586 diagram Methods 0.000 claims abstract description 27
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像处理方法、设备及存储介质,所述方法包括:将待处理图像对应的第一特征图输入残差块,以利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理;在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图,其中,所述第一尺寸大于所述第二尺寸;基于所述至少一个第二特征图,得到所述待处理图像的处理结果。据此,在利用残差块对第一特征图进行卷积的过程中,可获得更大的感受野,从而实现更多信息的输入,进而有效提高图像处理的准确度。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法、设备及存储介质。
背景技术
目前,以深度学习为基础的图像处理技术在多个领域内都有了广泛应用。其中,以改进的全卷积神经网络(Fully Convolutional Network,FCN)最为常用,例如U-Net网络等。
但U-Net网络难以处理复杂的图像处理任务,因此,催生了U-Net网络和残差网络ResNet结合的方案,这种方案虽然增强了网络对高层特征的识别,但图像处理的准确度依然不高。
发明内容
本申请的多个方面提供一种图像处理方法、设备及存储介质,用以提高图像处理的准确度。
本申请实施例提供一种图像处理方法,包括:
将待处理图像对应的第一特征图输入残差块,以利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理;
在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图,其中,所述第一尺寸大于所述第二尺寸;
基于所述至少一个第二特征图,得到所述待处理图像的处理结果。
本申请实施例还提供一种计算设备,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
将待处理图像对应的第一特征图输入残差块,以利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理;
在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图,其中,所述第一尺寸大于所述第二尺寸;
基于所述至少一个第二特征图,得到所述待处理图像的处理结果。
本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-10任一项所述的图像处理方法。
在本申请实施例中,基于一种改进的残差块,对待处理图像对应的第一特征图进行卷积处理。在残差块的每个网络层中,依次利用第一尺寸和第二尺寸的卷积核执行卷积处理,且第一尺寸大于第二尺寸,据此,在利用残差块对第一特征图进行卷积的过程中,可获得更大的感受野,从而实现更多信息的输入,进而有效提高图像处理的准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的一种图像处理方法的流程示意图;
图2为本申请一实施例提供的一种残差块的结构示意图;
图3为本申请一实施例提供的一种图像处理系统的结构示意图;
图4为本申请另一实施例提供的一种计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,利用U-Net网络和残差网络ResNet结合的方案进行图像处理时,虽然增强了网络对高层特征的识别,但图像处理的准确度不高。为了改善现有技术存在的问题,本申请的一些实施例中:基于一种改进的残差块,对待处理图像对应的第一特征图进行卷积处理。在残差块的每个网络层中,依次利用第一尺寸和第二尺寸的卷积核执行卷积处理,且第一尺寸大于第二尺寸,据此,在利用残差块对第一特征图进行卷积的过程中,可获得更大的感受野,从而实现更多信息的输入,进而有效提高图像处理的准确度。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请一实施例提供的图像处理方法的流程示意图。如图1所示,该方法包括:
100、将待处理图像对应的第一特征图输入残差块,以利用残差块中至少一个网络层依次对第一特征图进行卷积处理;
102、在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理,得到至少一个第二特征图,其中,第一尺寸大于第二尺寸;
103、基于至少一个第二特征图,得到待处理图像的处理结果。
本申请实施例提供的图像处理方法可应用于各种图像处理场景中,例如,图像匹配、图像分类、人脸特征提取、人脸识别、目标追踪、自动驾驶或图像分割等等,本实施例对此不做限定。本实施例中,残差块是残差网络的组成单元。本实施例中,可单独使用残差网络处理待处理图像,以获得处理结果。当然,残差网络也可与其它神经网络结合而构成图像处理系统,从而使用图像处理系统处理待处理图像,以获得处理结果。例如,图像处理系统可以是前文提及的U-Net网络和残差网络ResNet可组合为UR网络。本实施例对残差块所属的图像处理系统的架构不做限定。
以下将从残差块的维度对本申请的技术方案进行说明。
在步骤100中,可将待处理图像对应的第一特征图输入残差块。其中,在不同的应用场景中,第一特征图的来源可能不完全相同。例如,第一特征图可以是在前的残差块输出的feature map,也可以是待处理图像本身,还可以是对待处理图像执行其它处理后而输出的feature map,本实施例对此不做限定。据此,本实施例中,第一特征图可以是待处理图像本身,也可以是图像处理过程中产生的一组feature map的统称。
另外,本实施例中,第一特征图的通道数可以是一个或多个。其中,通道数用于表征一张图片的通道数量(如R、G、B通道)或用于表征feature map的数量。本文中,为了方便描述,将feature map的数量和图片的通道数量均描述为通道数,但应当理解的是,不同情况下,通道所表征的含义不同。
图2为本申请一实施例提供的一种残差块的结构示意图。如图2所示,本实施例中,残差块包括至少一个网络层10,每个网络层10依次串联,在前的网络层的输出作为在后的网络层的输入。基于此,可利用残差块中至少一个网络层10依次对第一特征图11进行卷积处理。也即是,残差块中的第一个网络层对第一特征图进行卷积处理后,将卷积处理结果作为第二个网络层的输入,以利用第二网络层继续进行卷积处理,依次类推,实现残差块中的至少一个网络层对第一特征图的卷积处理。
据此,本实施例中,残差块中的第一个网络层的输入为第一特征图,其它网络层的输入为其在前网络层的输出。
值得说明的是,图2中示出的残差块中包含三个网络层10,但本实施例中并不限定残差块中的网络层10的数量,根据实际需要,残差块中的网络层10可以是2个,也可以是3个或其它数量。而且,当前述的图像处理系统中包含多个残差块时,不同残差块中的网络层的数量也可不完全相同。另外,除图2中示出的网络层外,残差块还可包含池化层、输出层、激活函数等等组成部分,在此不再详述。
步骤101中,从网络层的维度描述了残差块内部的处理过程。在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理。其中,第一尺寸大于第二尺寸。
本实施例中,卷积核的尺寸用于确定卷积处理的感受野。先利用第一尺寸的卷积核对网络层的输入进行卷积处理,可获得较大的感受野,从而可从网络层的输入中获得更多的信息。之后,再以更小尺寸的卷积核对第一尺寸的卷积核的卷积结果进行继续卷积。
例如,若第一尺寸为3*3,第二尺寸为1*1,则可先基于3*3的卷积核,从网络层的输入中获取到对应于3*3感受野的输入信息,在此基础上,再以1*1的感受野进行继续卷积。而现有技术中的残差块,则需先以1*1的感受野从网络层的输入中获取输入信息,这直接造成了大量输入信息的损失。
据此,依次利用第一尺寸和第二尺寸的卷积核对网络层的输入进行卷积处理的方案,与现有技术中的残差块的处理方案相比,卷积处理过程中的感受野更大,因此,可获得更多的输入信息,这可有效提高残差块的处理准确度。
据此,残差块中的每个网络层可输出第二特征图。其中,不同网络层输出的第二特征图的尺寸、通道数等参数可不完全相同,本实施例对此不做限定。
在步骤102中,可基于残差块中每个网络层输出的第二特征图以及输入残差块的第一特征图,得到待处理图像的处理结果。
具体地,可将残差块中每个网络层输出的第二特征图与输入残差块的第一特征图进行残差处理,以获得残差块的输出,残差块的输出可参与待处理图像的其它处理过程,从而最终获得待处理图像的处理结果。具体的细节,将在后文中结合图像处理系统的架构进行说明。
本实施例中,基于一种改进的残差块,对待处理图像对应的第一特征图进行卷积处理。在残差块的每个网络层中,依次利用第一尺寸和第二尺寸的卷积核执行卷积处理,且第一尺寸大于第二尺寸,据此,在利用残差块对第一特征图进行卷积的过程中,可获得更大的感受野,从而实现更多信息的输入,进而有效提高图像处理的准确度。另外,基于本实施例中的残差块还可实现神经网络的量化,对神经网络进行压缩和加速,降低量化处理对各种技术指标的性能造成的损失。
在上述或下述实施例中,在残差块的每个网络层中,可利用第一尺寸的卷积核对网络层的输入进行卷积,以获得中间特征图,中间特征图的通道数与网络层的输入的通道数一致;利用第二尺寸的卷积核对中间特征图进行卷积,以获得第二特征图,其中,第二尺寸的卷积核的通道数小于或等于网络层的输入的通道数。
以下将以其中一个网络层为例,进行技术方案的详细说明。
对于该网络层来说,第一尺寸的卷积核的数量可配置为与该网络层的输入的通道数一致,以使基于该网络层而获得的中间特征图的通道数与该网络层的输入的通道数一致。
在一种实现方式中,若该网络层的输入的通道数为N,可将第i个第一尺寸的卷积核分别与该网络层的输入的各个通道进行卷积处理,并将针对各个通道而获得的卷积处理结果进行元素积的叠加,以获得中间特征图的第i个通道的数据。
在该实现方式中,第一尺寸的卷积核的通道数可与网络层的输入的通道数一致,当然,也可不一致,在此不做限定。
在另一种实现方式中,若该网络层的输入的通道数为N,可将第i个第一尺寸的卷积核与网络层的i个输入进行卷积,以获得中间特征图的第i个通道的数据。
在该实现方式中,优选地,第一尺寸的卷积核的通道数为1。当然,并不限于此。
上述两种实现方式相比,后一种实现方式所使用的参数量更低,图像处理的效率更高。其中,上述两种实施例中,N和i为正整数。
当然,上述两种实现方式也仅是示例性的,本实施例中,实现基于该网络层而获得的中间特征图的通道数与该网络层的输入的通道数一致的方式并不限于此。
基于第一尺寸的卷积核而获得的中间特征图,本实施例中,可继续利用第二尺寸的卷积核调整该网络层的输出的通道数。
可选地,第二尺寸可以是1*1。据此,可通过按需配置1*1卷积核的数量,来利用1*1的卷积核调整该网络层的输出的通道数。当然,本实施例中,第二尺寸并不限于此。
其中,可将第二尺寸的卷积核的数量配置为小于或等于网络层的输入的通道数,从而降低或保持网络层的输出的通道数。
至此,可获得该网络层对应的第二特征图。
在本实施例中,基于为不同网络层配置的第二尺寸的卷积核数量的不同,不同网络层输出的通道数可不完全相同。在一些实际应用中,网络层的输出的通道数可依次降低,以减少残差块的计算量。
例如,如图2所示,若第一特征图11的通道数为192,残差块的第一个网络层的输出的通道数可以是96,第二个网络层的输出的通道数可以是48,第三个网络层的输出的通道数可以保持48。当然,这仅是示例性的,各网络层的输出的通道数可根据实际需要进行调整。
本实施例中,通过降低残差块中各网络层的输出的通道数,可在残差块对第一特征图的处理过程中,减少参数量,从而降低计算量,提高处理效率。因此,尽管与现有技术中的残差块相比,前述实施例中通过扩大感受野而获得更多输入信息的技术手段,增加了一些计算量,但通过本实施例中提出的在残差块内部降低通道数的技术手段,可弥补因扩大感受野而造成的计算量的增加。也即是,本实施例中,可在保持与现有的残差块的计算量相当的情况下,在卷积过程中获得更大的感受野,从而获得更多的输入信息,以提高图像处理的准确度。
进一步,本实施例中,可将各网络层输出的第二特征图进行结合,以获得卷积后特征图;根据卷积后特征图和第一特征图,生成第三特征图,以基于第三特征图得到待处理图像的处理结果。
例如,如图2所示,本实施例中,可将残差块的第一个网络层、第二个网络层以及第三个网络层的输出进行通道叠加,以获得卷积后特征图。图2中,第一个网络层的输出的通道数为96,第二个网络层的输出的通道数为48,第三个网络层的输出的通道数为48,经过通道叠加后获得的卷积后特征图的通道数为:96+48+48=192。
在上述示例中,卷积后特征图的通道数与第一特征图的通道数一致。但应当理解的,本实施例对此并不限定,卷积后特征图的通道数也可与第一特征图的通道数不一致。当然,为了计算方便,当卷积后特征图的通道数也可与第一特征图的通道数不一致,可对卷积后特征图进行通道填充,以使卷积后特征图的通道数与第一特征图的通道数一致。
另外,正如上文提及的,不同网络层输出的第二特征图的尺寸也可能不完全相同,基于此,卷积后特征图中不同通道下的feature map的尺寸可能不完全相同。本实施例中,还可将卷积后特征图中不同通道下的feature map进行尺寸的填充,例如补零处理,以使卷积后特征图中各通道下的feature map的尺寸均与第一特征图的尺寸一致。
上述关于通道填充以及尺寸填充的处理均是为了便于后续卷积后特征图与第一特征图之间发生的计算过程,但应当理解的是,采用不同的计算方式时,上述单项或多项处理可能并不是必须的,因此,上述两项处理为可选地,可根据实际需要进行选配。
在一些实际应用中,如图2所示,可对卷积后特征图和第一特征图进行元素积的加叠,以获得第三特征图12。当然,本实施中,卷积后特征图和第一特征图的结合并不限于这一种实现方式。也可采用其它实现方式以将卷积后特征图和第一特征图进行结合,以通过第一特征图修正残差块的输出。
至此,可获得残差块的输出:第三特征图。第三特征图可用于对待处理图像的后续处理过程中。
基于残差块所属图像处理系统的架构的不同,第三特征图的去向也可能不完全相同。例如,若残差块用于前文中提及的UR网络中,则第三特征图可能作为下一个残差块的输入。
在上述或下述实施例中,一方面,可对待处理图像进行二值化处理,得到二值化图像。
正如前文提及的,第一特征图可以是待处理图像本身,也可以是待处理图像经过卷积处理后而产生的feature map等。基于对待处理图像进行的二值化处理,第一特征图也将二值化。
其中,本实施例对二值化处理的具体实现方式不做限定。例如,可以预设一标准值,将待处理图像的各通道中的元素与该标准值进行比较,将大于该标准值的元素转换为1,将小于或等于该标准值的元素转换为-1,从而实现待处理图像的二值化。
据此,可基于对待处理图像的二值化,实现第一特征图的二值化。当然,本实施例中,当第一特征图为经过对待处理图像进行卷积处理而获得的时,也可直接对第一特征图进行二值化,并以二值化后的第一特征图作为残差块的输入。本实施例对此不做限定。
相比于现有技术的残存块的输入所采用的浮点数方式,二值化后的第一特征图,作为残存块的输入,可大幅降低残差块的计算量,提升推理速度。
另一方面,还可对第一尺寸的卷积核和第二尺寸的卷积核进行二值化处理。在残差块的各个网络层中,可基于二值化后的卷积核执行卷积处理。具体的二值化过程也可参照上文中提供的二值化处理的实现方式,在此不再赘述。
与现有技术中的残差块中的卷积核所采用的浮点数方式,二值化后的卷积核可节省非常多的存储资源。以1和-1形式的二值化为例,现有的32为浮点数自身带有一位符号位,而本实施例中的二值化结果中也带有一位符号位,因此,即使考虑符号位的存在,本实施例中,二值化后的卷积核与现有的32位浮点数的卷积核相比,可节省31/32的存储资源。而由于卷积核通常需要存储在内存中,因此,二值化处理可大大降低对内存的占用量。
另外,二值化处理可降低卷积过程中的计算复杂度,基于此,数据量变小后,内存单次可读取更多的数据,因此,二值化处理可显著提高图像处理的效率。
值得说明的是,上述对第一特征图的二值化处理过程以及对卷积核的二值化处理过程可单独执行,也可结合执行。当两者结合执行时,可获得更佳的节约计算资源的效果。
在对第一特征图和卷积核均执行二值化处理的情况下,可采用位运算的方式执行卷积操作,从而可大幅提升残差块的推理速度。
本实施例中,还可将对卷积核的二值化处理方式延伸至残差块的训练过程中,也即是,在对残差块进行训练时,可在前向传播过程中对卷积核进行二值化处理,而在反向传播过程中,则可保持浮点数方式而不进行卷积核的二值化,以保证反向传播过程中的求导计算的准确性。当然,本实施例对此不做限定。
本实施例中,通过对第一特征图及残差块涉及到的卷积核的二值化处理,可大幅降低残差块的计算量,因此,可有效节约计算资源。由于二值化处理所导致的精度损失,可通过前述实施例中阐述的扩大感受野的技术手段进行弥补,且调整各网络层输出的通道数也可进一步降低计算量。从而,综合看来,本实施例提供的图像处理方法可保持良好的神经网络性能的前提下,大幅提升处理速度,节约计算资源。
在上述或下述实施例中,若在残差块所属的图像处理系统采用U-Net网络,图像处理系统将包括下采样(down_con)过程和上采样过程。
图3为本申请一实施例提供的一种图像处理系统的结构示意图。如图3所示,该图像处理系统采用U-Net网络架构,并以残差块实现U-net网络架构下的上采样(down_con)和下采样(up_conv)。
本实施例中,若残差块用于实现图像处理系统中的上采样,除了将前述的第一特征图输入残差块以外,还可基于变分自编码器,从待处理图像中提取与第一特征图的尺寸对应的鲁棒特征,并将提取到的鲁棒特征也作为残差块的输入,以在利用残差块中至少一个网络层依次对第一特征图进行卷积处理的过程中进程采样修正。
当然,本实施例中,残差块也可用于实现图像处理系统中的下采样,本实施例对此不做限定。
如图3所示,图像处理系统中,增加了变分自编码器。变分自编码器可从待处理图像中提取出4种尺寸的鲁棒特征,以分别提供给4次上采样操作。其中,变分自编码器可基于不同尺寸,从待处理图像中提取出不同尺寸下的鲁棒特征,鲁棒特征是指那些不同尺寸下通用的、稳定的或核心的特征。每次上采样操作可基于其对应尺寸的鲁棒特征进行采样修正,从而在上采样过程中强化待处理图像中的鲁棒特征,实现更多有效信息的传递。
据此,使用基于变分自编码器从待处理图像中提取出的不同尺寸的鲁棒特征直接作用于上采样过程,不再需要基于上采样过程计算传导特征,从而,可节省计算资源和时间。同时,在上采样过程中,可强化待处理图像中的有效特征,实现更多有效信息的传递,有效缓解上采样过程对不同尺寸物体的敏感性,提升图像处理的鲁棒性。其中,现有技术中的传导特征包含很多冗余特征,待处理图像中的有效特征反而没有得到传递,这将导致图像处理的准确性大打折扣。而本实施例引入的变分自编码可有效改善这一问题。
本实施例中,在使用变分自编码器之前,可对变分自编码器进行训练。在实际应用中,可采用不同图像数据库作为变分自编码器的训练样本,并根据变分自编码器的输出结果,反向修正变分自编码器的参数。修正过程可以针对不同图像数据库的输出结果的准确性的均值最大为目标。当然,本实施例并不限于此。其中,不同的图像数据库中的图像的内容、尺寸等属性可不完全相同。
据此,可训练出能够产生鲁棒性很强的特征的变分自编码器。从而,在将变分自编码器应用到图像处理过程中时,可产生适用于不同尺寸的鲁棒特征,避免由于采样尺寸的多样性带来的算法鲁棒性不足的问题。例如,可将图像处理系统用于图像分割和图像识别时,基于变分自编码器,可有效应对需要进行分割的物体存在比较多的形变的情况,减轻后续的图像识别的计算压力,提高鲁棒性。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如100、101等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的尺寸、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图4为本申请另一实施例提供的一种计算设备的结构示意图。如图4所示,该计算设备包括:存储器40和处理器41。
存储器40,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算设备上的操作。这些数据的示例包括用于在计算设备上操作的任何应用程序或方法的指令、消息,图片,视频等。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器41,与存储器40耦合,用于执行存储器40中的计算机程序,以用于:
将待处理图像对应的第一特征图输入残差块,以利用残差块中至少一个网络层依次对第一特征图进行卷积处理;
在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理,得到至少一个第二特征图,其中,第一尺寸大于第二尺寸;
基于至少一个第二特征图,得到待处理图像的处理结果。
在一可选实施例中,处理器41在依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理,得到至少一个第二特征图时,用于:
利用第一尺寸的卷积核对网络层的输入进行卷积,以获得中间特征图,中间特征图的通道数与网络层的输入的通道数一致;
利用第二尺寸的卷积核对中间特征图进行卷积,以获得第二特征图,其中,第二尺寸的卷积核的数量小于或等于网络层的输入的通道数。
在一可选实施例中,若网络层的输入的通道数为N,处理器41在利用第一尺寸的卷积核对网络层的输入进行卷积时,用于:
将第i个第一尺寸的卷积核与网络层的i个输入进行卷积,以获得中间特征图的第i个通道的数据,其中,i=1,2…N。
在一可选实施例中,第二尺寸为1*1。
在一可选实施例中,处理器41在基于至少一个第二特征图,得到待处理图像的处理结果时,用于:
将至少一个第二特征图进行通道叠加,以获得卷积后特征图;
对卷积后特征图和第一特征图进行元素积的加叠,以获得第三特征图;
基于第三特征图,得到待处理图像的处理结果。
在一可选实施例中,卷积后特征图的通道数量与第一特征图的通道数一致。
在一可选实施例中,若在残差块所属的图像处理系统采用U-Net网络,且残差块用于U-Net网络的上采样过程中,处理器41还用于:
基于变分自编码器,从待处理图像中提取与第一特征图的尺寸对应的鲁棒特征;
根据鲁棒特征,对利用残差块中至少一个网络层依次对第一特征图进行卷积处理的操作进行采样修正。
在一可选实施例中,在将待处理图像对应的第一特征图输入残差块之前,处理器41还用于:
对待处理图像进行二值化处理,得到二值化图像;
对二值化图像进行卷积处理,得到第一特征图。
在一可选实施例中,在依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理之前,处理器41还用于:
对第一尺寸的卷积核和第二尺寸的卷积核进行二值化处理。
在一可选实施例中,处理器41在依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理时,用于:
基于位运算,依次利用第一尺寸的卷积核和第二尺寸的卷积核对网络层的输入进行卷积处理。
值得说明的是,对于上述关于计算设备的各实施例中的技术细节,可参考前述图像处理方法的各实施例中的相关描述,为节省篇幅,在此不再重复赘述,但这不应造成对本申请保护范围的损失。
进一步,如图4所示,该计算设备还包括:通信组件42、电源组件43等其它组件。图4中仅示意性给出部分组件,并不意味着计算设备只包括图4所示组件。
其中,通信组件42被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其它技术来实现,以促进短程通信。
其中,电源组件43,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (21)
1.一种图像处理方法,其特征在于,包括:
将待处理图像对应的第一特征图输入残差块,以利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理;
在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图,其中,所述第一尺寸大于所述第二尺寸;
基于所述至少一个第二特征图,得到所述待处理图像的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图,包括:
利用所述第一尺寸的卷积核对所述网络层的输入进行卷积,以获得中间特征图,所述中间特征图的通道数与所述网络层的输入的通道数一致;
利用所述第二尺寸的卷积核对所述中间特征图进行卷积,以获得所述第二特征图,其中,所述第二尺寸的卷积核的数量小于或等于所述网络层的输入的通道数。
3.根据权利要求2所述的方法,其特征在于,若所述网络层的输入的通道数为N,所述利用所述第一尺寸的卷积核对所述网络层的输入进行卷积,包括:
将第i个第一尺寸的卷积核与所述网络层的i个输入进行卷积,以获得所述中间特征图的第i个通道的数据,其中,i=1,2…N。
4.根据权利要求2所述的方法,其特征在于,所述第二尺寸为1*1。
5.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个第二特征图,得到所述待处理图像的处理结果,包括:
将所述至少一个第二特征图进行通道叠加,以获得卷积后特征图;
对所述卷积后特征图和所述第一特征图进行元素积的加叠,以获得第三特征图;
基于所述第三特征图,得到所述待处理图像的处理结果。
6.根据权利要求5所述的方法,其特征在于,所述卷积后特征图的通道数量与所述第一特征图的通道数一致。
7.根据权利要求1所述的方法,其特征在于,若在所述残差块所属的图像处理系统采用U-Net网络,且所述残差块用于所述U-Net网络的上采样过程中,所述方法还包括:
基于变分自编码器,从所述待处理图像中提取与所述第一特征图的尺寸对应的鲁棒特征;
根据所述鲁棒特征,对所述利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理的操作进行采样修正。
8.根据权利要求1所述的方法,其特征在于,在将待处理图像对应的第一特征图输入残差块之前,还包括:
对所述待处理图像进行二值化处理,得到二值化图像;
对所述二值化图像进行卷积处理,得到所述第一特征图。
9.根据权利要求1或8所述的方法,其特征在于,在依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理之前,还包括:
对所述第一尺寸的卷积核和所述第二尺寸的卷积核进行二值化处理。
10.根据权利要求9所述的方法,其特征在于,所述依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,包括:
基于位运算,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理。
11.一种计算设备,其特征在于,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
将待处理图像对应的第一特征图输入残差块,以利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理;
在每个网络层中,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图,其中,所述第一尺寸大于所述第二尺寸;
基于所述至少一个第二特征图,得到所述待处理图像的处理结果。
12.根据权利要求11所述的计算设备,其特征在于,所述处理器在依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理,得到至少一个第二特征图时,用于:
利用所述第一尺寸的卷积核对所述网络层的输入进行卷积,以获得中间特征图,所述中间特征图的通道数与所述网络层的输入的通道数一致;
利用所述第二尺寸的卷积核对所述中间特征图进行卷积,以获得所述第二特征图,其中,所述第二尺寸的卷积核的数量小于或等于所述网络层的输入的通道数。
13.根据权利要求12所述的计算设备,其特征在于,若所述网络层的输入的通道数为N,所述处理器在利用所述第一尺寸的卷积核对所述网络层的输入进行卷积时,用于:
将第i个第一尺寸的卷积核与所述网络层的i个输入进行卷积,以获得所述中间特征图的第i个通道的数据,其中,i=1,2…N。
14.根据权利要求12所述的计算设备,其特征在于,所述第二尺寸为1*1。
15.根据权利要求12所述的计算设备,其特征在于,所述处理器在基于所述至少一个第二特征图,得到所述待处理图像的处理结果时,用于:
将所述至少一个第二特征图进行通道叠加,以获得卷积后特征图;
对所述卷积后特征图和所述第一特征图进行元素积的加叠,以获得第三特征图;
基于所述第三特征图,得到所述待处理图像的处理结果。
16.根据权利要求15所述的计算设备,其特征在于,所述卷积后特征图的通道数量与所述第一特征图的通道数一致。
17.根据权利要求11所述的计算设备,其特征在于,若在所述残差块所属的图像处理系统采用U-Net网络,且所述残差块用于所述U-Net网络的上采样过程中,所述处理器还用于:
基于变分自编码器,从所述待处理图像中提取与所述第一特征图的尺寸对应的鲁棒特征;
根据所述鲁棒特征,对所述利用所述残差块中至少一个网络层依次对所述第一特征图进行卷积处理的操作进行采样修正。
18.根据权利要求11所述的计算设备,其特征在于,在将待处理图像对应的第一特征图输入残差块之前,所述处理器还用于:
对所述待处理图像进行二值化处理,得到二值化图像;
对所述二值化图像进行卷积处理,得到所述第一特征图。
19.根据权利要求11或18所述的计算设备,其特征在于,在依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理之前,所述处理器还用于:
对所述第一尺寸的卷积核和所述第二尺寸的卷积核进行二值化处理。
20.根据权利要求19所述的计算设备,其特征在于,所述处理器在依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理时,用于:
基于位运算,依次利用第一尺寸的卷积核和第二尺寸的卷积核对所述网络层的输入进行卷积处理。
21.一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-10任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204496.3A CN112883981A (zh) | 2019-11-29 | 2019-11-29 | 一种图像处理方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204496.3A CN112883981A (zh) | 2019-11-29 | 2019-11-29 | 一种图像处理方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883981A true CN112883981A (zh) | 2021-06-01 |
Family
ID=76038900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911204496.3A Pending CN112883981A (zh) | 2019-11-29 | 2019-11-29 | 一种图像处理方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883981A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511794A (zh) * | 2022-01-13 | 2022-05-17 | 广东电网有限责任公司广州供电局 | 基于配网机巡影像数据的典型缺陷智能识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764317A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 一种基于多路特征加权的残差卷积神经网络图像分类方法 |
WO2019020075A1 (zh) * | 2017-07-28 | 2019-01-31 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN110163080A (zh) * | 2019-04-02 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 人脸关键点检测方法及装置、存储介质和电子设备 |
CN110163215A (zh) * | 2018-06-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
-
2019
- 2019-11-29 CN CN201911204496.3A patent/CN112883981A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019020075A1 (zh) * | 2017-07-28 | 2019-01-31 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN108764317A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 一种基于多路特征加权的残差卷积神经网络图像分类方法 |
CN110163215A (zh) * | 2018-06-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN110163080A (zh) * | 2019-04-02 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 人脸关键点检测方法及装置、存储介质和电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511794A (zh) * | 2022-01-13 | 2022-05-17 | 广东电网有限责任公司广州供电局 | 基于配网机巡影像数据的典型缺陷智能识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304921B (zh) | 卷积神经网络的训练方法及图像处理方法、装置 | |
US11748595B2 (en) | Convolution acceleration operation method and apparatus, storage medium and terminal device | |
CN113505848B (zh) | 模型训练方法和装置 | |
CN111369599B (zh) | 一种图像匹配方法、设备、装置及存储介质 | |
CN116342884B (zh) | 图像分割及模型训练的方法、服务器 | |
KR20210090249A (ko) | 이미지 처리 방법, 장치, 차량 탑재 연산 플랫폼, 전자 디바이스 및 시스템 | |
CN112883981A (zh) | 一种图像处理方法、设备及存储介质 | |
CN113963236A (zh) | 目标检测方法及装置 | |
WO2019127926A1 (zh) | 一种稀疏神经网络的计算方法及计算装置、电子装置、计算机可读存储介质以及计算机程序产品 | |
CN115393868B (zh) | 文本检测方法、装置、电子设备和存储介质 | |
US10761847B2 (en) | Linear feedback shift register for a reconfigurable logic unit | |
CN110309877A (zh) | 一种特征图数据的量化方法、装置、电子设备及存储介质 | |
CN110019295B (zh) | 数据库检索方法、装置、系统以及存储介质 | |
CN113706470B (zh) | 一种虹膜图像分割方法、装置、电子设备及存储介质 | |
CN113222121B (zh) | 一种数据处理方法、装置及设备 | |
JP7551665B2 (ja) | 高精度のニューラル処理要素 | |
CN113537491A (zh) | 神经网络训练方法、设备及计算机可读介质 | |
CN114387588A (zh) | 一种字符识别方法、装置、电子设备及存储介质 | |
CN114626501A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111383156B (zh) | 图像处理方法、装置、智能驾驶系统和车载运算平台 | |
CN117972436B (zh) | 大语言模型的训练方法、训练装置、存储介质及电子设备 | |
CN115175248B (zh) | 用于通信系统的定点数据压缩、解压方法、装置及设备 | |
CN118072002A (zh) | 网络模型训练、实例分割方法、装置、设备和存储介质 | |
CN116977639A (zh) | 模型训练方法、实例分割方法、电子设备及存储介质 | |
CN118509599A (zh) | 一种基于梯度注意力机制的图像压缩方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |