CN113362409B - 图像上色及其模型训练方法、装置、电子设备、存储介质 - Google Patents
图像上色及其模型训练方法、装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN113362409B CN113362409B CN202110597143.5A CN202110597143A CN113362409B CN 113362409 B CN113362409 B CN 113362409B CN 202110597143 A CN202110597143 A CN 202110597143A CN 113362409 B CN113362409 B CN 113362409B
- Authority
- CN
- China
- Prior art keywords
- convolution
- feature map
- initial
- module
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004040 coloring Methods 0.000 title claims abstract description 200
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012549 training Methods 0.000 title claims abstract description 77
- 230000006870 function Effects 0.000 claims abstract description 83
- 238000010586 diagram Methods 0.000 claims abstract description 61
- 230000004913 activation Effects 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims description 68
- 230000007246 mechanism Effects 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请提出了一种图像上色及其模型训练方法、装置、设备及存储介质,涉及计算机视觉及深度学习等人工智能领域,可用于图像处理场景。具体实现方案为:获取待上色图像,并提取待上色图像的特征以生成第一特征图;对第一特征图进行卷积操作以得到卷积特征图,并将卷积特征图经过激活函数处理后与第一特征图进行点乘,获得第二特征图;其中,卷积特征图的尺寸大小与第一特征图的尺寸大小相同,第二特征图同时包含空间信息的特征和通道信息的特征;将第一特征图与第二特征图进行残差连接操作,获得第三特征图;对第三特征图进行卷积操作,获得与待上色图像对应的彩色图像。本申请降低了图像上色算法的运行时间,降低了成本,提高了颜色预测的准确性。
Description
技术领域
本申请涉及人工智能领域,具体为计算机视觉和深度学习技术领域,尤其涉及一种图像上色及其模型训练方法、装置、电子设备、存储介质,可用于图像处理场景下。
背景技术
现今生活中,越来越多的老照片和老电影需要修复,其中一项修复技术就是图像上色。对过去的照片和电影上色,还原过去几十甚至上百年拍摄场景的色彩是件很令人激动的事情。此外,对过去黑白照片上色,能帮助当今的人们重现过去逝去亲人的样貌,帮助一些年纪大的老人怀念过去他们的父母或者长辈,这也是一件用技术温暖人心的事情。
随着科学技术的发展,目前已经实现了黑白图像的全自动上色。但是,现有的图像全自动上色算法普遍运行时间较长,且图像上色效果不佳。
发明内容
本申请提供了一种可用于图像处理场景下的图像上色及其模型训练的方法、装置、设备以及存储介质。
根据本申请的第一方面,提供了一种图像上色方法,包括:
获取待上色图像,并提取所述待上色图像的特征以生成第一特征图;
对所述第一特征图进行卷积操作以得到卷积特征图,并将所述卷积特征图经过激活函数处理后与所述第一特征图进行点乘,获得第二特征图;其中,所述卷积特征图的尺寸大小与所述第一特征图的尺寸大小相同,所述第二特征图同时包含空间信息的特征和通道信息的特征;
将所述第一特征图与所述第二特征图进行残差连接操作,获得第三特征图;
对所述第三特征图进行卷积操作,获得与所述待上色图像对应的彩色图像。
根据本申请的第二方面,提供了一种图像上色模型训练方法,包括:
获取待上色图像样本和所述待上色图像样本对应的彩色图像样本,并提取所述待上色图像样本的特征以生成输入特征;
将所述输入特征输入至初始的图像上色模型,其中,所述初始的图像上色模型包括初始残差卷积块,所述初始残差卷积块包括初始像素稠密注意力模块;所述初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始激活函数对所述卷积特征图样本进行处理,并将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本;
将所述输入特征图与所述第二特征图样本进行残差连接操作,获得第三特征图样本,并对所述第三特征图样本进行卷积操作,获得预测的彩色图像;
根据所述预测的彩色图像和所述彩色图像样本生成损失函数值,并根据所述损失函数值对所述图像上色模型进行训练。
根据本申请的第三方面,提供了一种图像上色装置,包括:
第一获取模块,用于获取待上色图像;
特征提取模块,用于提取所述待上色图像的特征以生成第一特征图;
第二获取模块,用于对所述第一特征图进行卷积操作以得到卷积特征图,并将所述卷积特征图经过激活函数处理后与所述第一特征图进行点乘,获得第二特征图;其中,所述卷积特征图的尺寸大小与所述第一特征图的尺寸大小相同,所述第二特征图同时包含空间信息的特征和通道信息的特征;
第三获取模块,用于将所述第一特征图与所述第二特征图进行残差连接操作,获得第三特征图;
第四获取模块,用于对所述第三特征图进行卷积操作,获得与所述待上色图像对应的彩色图像。
根据本申请的第四方面,提供了一种图像上色模型训练装置,包括:
第一获取模块,用于获取待上色图像样本和所述待上色图像样本对应的彩色图像样本;
特征提取模块,用于提取所述待上色图像样本的特征以生成输入特征;
输入模块,用于将所述输入特征输入至初始的图像上色模型,其中,所述初始的图像上色模型包括初始残差卷积块,所述初始残差卷积块包括初始像素稠密注意力模块;所述初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
第二获取模块,用于通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本;
第三获取模块,用于通过所述初始像素稠密注意力模块之中的所述初始激活函数对所述卷积特征图样本进行处理,并将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本;
第四获取模块,用于将所述输入特征图与所述第二特征图样本进行残差连接操作,获得第三特征图样本,并对所述第三特征图样本进行卷积操作,获得预测的彩色图像;
训练模块,用于根据所述预测的彩色图像和所述彩色图像样本生成损失函数值,并根据所述损失函数值对所述图像上色模型进行训练。
根据本申请的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的图像上色方法,或者执行前述第二方面所述的图像上色模型训练方法。
根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的图像上色方法,或者执行前述第二方面所述的图像上色模型训练方法。
根据本申请的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述第一方面所述的图像上色方法,或者执行前述第二方面所述的图像上色模型训练方法。
根据本申请的技术方案,通过将待上色图像对应的第一特征图进行卷积操作得到一个与第一特征尺寸大小相同的卷积特征图,并将卷积特征图经过激活函数处理后与第一特征图进行点乘,获得同时包含空间信息和通道信息的第二特征图,从而实现了只通过一个卷积层同时提取了空间信息的特征和通道信息的特征,降低了模型算法的复杂度,节省了图像自动上色的计算开销。此外,残差连接的引入,可以避免特征的丢失,保证了深层特征也能利用浅层特征信息,从而使图像自动上色效果更佳,提高了颜色预测的准确性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提出的一种图像上色方法流程图;
图2是根据本申请实施例提出的一种图像上色方法对应的网络结构示意图;
图3是根据本申请实施例提出的另一种图像上色方法流程图;
图4是关于注意力机制的示意图;
图5是根据本申请实施例提出的另一种图像上色方法对应的网络结构示意图;
图6是根据本申请实施例提出的又一种图像上色方法流程图;
图7是根据本申请实施例提出的一种图像上色模型训练方法流程图;
图8是根据本申请实施例提出的另一种图像上色模型训练方法流程图;
图9是根据本申请实施例提出的一种图像上色装置的结构框图;
图10是根据本申请实施例提出的另一种图像上色装置的结构框图;
图11是根据本申请实施例提出的一种图像上色模型训练装置的结构框图;
图12是用来实现本申请实施例的图像上色方法和/或图像上色模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
首先需要说明的是,黑白的图片是不包含颜色信息的,图像上色就是对图像中的内容比如树木,花草,天空,人,动物,湖水等生成合适的颜色。图像全自动上色算法是对输入的灰度图自动的根据图像内容增加合适的颜色,也就是说,输入只有一张灰色的图片,通过训练好的神经网络结构预测出有色彩的图片。
现有的图像全自动上色算法主要是依靠普通的卷积层,激活层,归一化层的组合来提取图像的特征实现上色算法,或者是把当前的图像上色任务当成一个分类任务,这些算法普遍运行时间比较久,占用资源较多,且上色效果有待提高。
基于上述问题,本申请提出了一种图像上色及其模型训练方法、装置、电子设备、存储介质。
图1为本申请实施例提供的一种图像上色方法流程图。需要说明的是,本申请实施例的图像上色方法可应用于本申请实施例的图像上色装置,该图像上色装置可被配置于电子设备。如图1所示,该图像上色方法包括以下步骤:
步骤101,获取待上色图像,并提取待上色图像的特征以生成第一特征图。
在本申请实施例中,待上色图像也就是灰度图。在图像进行自动上色时为了后续对图像进行颜色预测,需要将图像中的特征进行提取,通常采用卷积的方式进行特征提取。需要说明的是,在本申请实施例中,提取待上色图像的特征的方式可以根据实际情况使用现有技术中的图像特征提取方式,此处不做限定。
步骤102,对第一特征图进行卷积操作以得到卷积特征图,并将卷积特征图经过激活函数处理后与第一特征图进行点乘,获得第二特征图。
为实现待上色图像颜色的准确预测,需要基于第一特征图进一步提取图像特征,也就是进一步针对待上色图像进行彩色图像的映射。
在本申请实施例中,对第一特征图进行卷积操作得到的卷积特征图的尺寸大小与第一特征图的尺寸大小相同,相当于对每个像素点均进行了处理。其中,卷积操作对应的参数通过使用大量的待上色图像及其对应的彩色图像训练得到。
需要说明的是,神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数。激活函数的作用是通过非线性函数的引入,使深层神经网络表达能力更加强大。在本申请实施例中,通过将卷积特征图经过激活函数处理,将卷积特征图中的各特征值映射到0到1的值域内,减少了卷积操作对整体特征值的影响。
可以理解,卷积特征图经过激活函数处理后与第一特征图进行点乘,相当于将卷积操作提取到的特征作用于第一特征图,其中卷积特征图经过激活函数处理后相当于得到的各像素点的权重值。
此外,现有技术中通常采用并行或者串行的方式获取空间信息的特征和通道信息的特征,往往需要较多的步骤操作,同时需要较大的计算开销。在本申请实施例中,得到的第二特征图同时包含空间信息的特征和通道信息的特征,也就是经过一个卷积操作实现了同时对空间信息的特征和通道信息的特征提取,从而降低了实现的复杂性。
步骤103,将第一特征图与第二特征图进行残差连接操作,获得第三特征图。
在一定程度上,网络越深表达能力越强,性能越好。但是随着网络深度的增加,也可能会出现网络退化的现象。当网络退化时,浅层网络比深层网络具有更好的表达效果,为了提高深层网络的效果,可以使用残差连接的方式将浅层的特征传到深层网络,使整体的网络具体更高的表达效果。
在本申请实施例中,为了避免上述网络退化现象发生,同时也为了提高网络的表达效果,将第一特征图与第二特征图进行残差连接操作,获得第三特征图。
步骤104,对第三特征图进行卷积操作,获得与待上色图像对应的彩色图像。
根据本申请实施例提出的图像上色方法,通过将待上色图像对应的第一特征图进行卷积操作得到一个与第一特征尺寸大小相同的卷积特征图,实现了只通过一个卷积层同时提取了空间信息的特征和通道信息的特征,降低了模型算法的复杂度,节省了图像自动上色的计算开销。此外,残差连接的引入,可以避免特征的丢失,保证了深层特征也能利用浅层特征信息,从而使图像自动上色效果更佳,提高了颜色预测的准确性。
基于上述实施例,为了进一步对本申请提出的图像上色方法进行描述,可以采用图像上色模型实现深层特征的提取。图2为本申请实施例提出的图像上色方法对应的网络结构示意图,如图2所示,图像上色模型包括基于像素稠密注意力机制的残差卷积块,该残差卷积块包括像素稠密注意力模块,且该像素稠密注意力模块包括卷积网络层和激活函数。
图3为本申请实施例提出的另一种图像上色方法的流程图。如图3所示,该图像上色方法的步骤包括:
步骤301,获取待上色图像,并提取待上色图像的特征以生成第一特征图。
步骤302,将第一特征图输入至经过训练的图像上色模型。
在本申请实施例中,图像上色模型是已通过大量的待上色图像及其对应的彩色图像进行训练得到的。如图2所示,图像上色模型包括基于像素稠密注意力机制的残差卷积块,该残差卷积块包括像素稠密注意力模块,且该像素稠密注意力模块包括卷积网络层和激活函数。
由于人类视觉注意力机制是人类视觉所特有的大脑信号处理机制,人类视觉可以通过快速扫描全局图像,获得需要关注的目标区域,也就是一般所说的注意力焦点。从而对这一目标区域投入更多的注意力资源,以获取更多需要关注目标的细节信息,抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。
深度学习的注意力机制从本质上讲,与人类视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更为关键的信息,从而可以将更多的注意力放在关键信息上。
本申请提出的像素稠密注意力机制是对现有的普通注意力机制的改进,通过一个卷积层同时提取包括空间和通道信息的特征,然后将这个特征和输入特征点乘,从而实现对空间和通道信息的利用。此外,其中通过卷积得到的特征与输入特征具有相同的尺寸大小,也就是该注意力机制是对每个像素点都进行了处理,所以本申请将其称为像素稠密注意力机制。
为了使本申请提出的像素稠密注意力机制更容易理解,接下来将结合现有的通道注意力机制和空间注意力机制进行介绍。图4为各注意力机制的示意图,其中(a)为通道注意力机制示意图,(b)为空间注意力机制示意图,(c)为本申请实施例中的像素稠密注意力机制的示意图。如图4所示,通道注意力机制将大小为C×H×W的输入特征经过全局池化GP操作后得到大小为C×1×1的特征,然后又经过一个全连接层FC得到M分之C长度的特征,在经过一个全连接层FC将缩小通道数的特征又拉回C×1×1大小,最后经过激活函数S得到新的特征大小为C×1×1,将其与输入特征相乘后得到包含注意力信息的新特征。空间注意力机制与通道注意力机制相比,只有一个卷积操作C和一个激活函数S,其中,卷积操作的卷积核大小一般为1×1,生成特征1×H×W大小的特征经过激活函数,最终与输入特征相乘得到具有空间注意力的特征。而本申请提出的像素稠密注意力机制虽然也只有一个卷积操作C和一个激活函数S,但是其与空间注意力机制不同。在像素稠密注意力机制中,输入特征经过卷积操作后得到一个和输入特征相同尺寸的特征C×H×W,然后经过激活函数S和输入特征相乘得到既包括空间又包括通道信息的特征。
步骤303,通过像素稠密注意力模块之中的卷积网络层对第一特征图进行卷积操作以得到卷积特征图。
也就是说,像素稠密注意力模块之中的卷积网络层通过对第一特征图进行学习,可以知道哪些信息是关键信息,哪些信息不需要关注等,具体体现在得到的卷积特征图上。
步骤304,通过像素稠密注意力模块之中的激活函数对卷积特征图进行处理。
在本申请实施例中,通过将卷积特征图经过激活函数处理,将卷积特征图中的各特征值映射到0到1的值域内,减少了卷积操作对整体特征值的影响。其中,激活函数可以为Sigmoid函数,也可以为现有技术中其他的激活函数,本申请对此不做限定。
步骤305,将经过处理后的卷积特征图与第一特征图进行点乘,获得第二特征图。
可以理解为,经过处理后的卷积特征图相当于权重分布,将其与第一特征进行点乘的目的就是将注意力机制提取到的特征作用于第一特征图,也就是通过经过处理后的卷积特征图让第一特征图知道,哪些信息是关键信息,哪些信息是非关键信息,从而得到提取到深层特征的第二特征图。
步骤306,将第一特征图与第二特征图进行残差连接操作,获得第三特征图。
在本申请实施例中,图像上色模型中基于像素稠密注意力机制的残差卷积块还包括残差连接,将第一特征图与第二特征图进行残差连接操作,也就是将浅层的特征传到深层网络,这样,使后面深层特征也能利用前面的浅层信息,从而使整体的网络具体更好的表达效果。
步骤307,对第三特征图进行卷积操作,获得与待上色图像对应的彩色图像。
根据本申请实施例提出的图像上色方法,通过对普通注意力机制的改进,提出了像素稠密注意力机制,这样,只用一个卷积层同时提取了空间信息的特征和通道信息的特征,与现有的注意力机制中通过将空间注意力机制和通道注意力机制串行或并行才能获取空间和通道的注意力相比,不仅降低了图像上色模型的复杂度,节省了图像自动上色的计算开销,也减少了模型运行的时间。此外,注意力模块的引入可以帮助网络更好的学习关键信息,减少冗余的表达,使得最后颜色的预测更加准确合理,降低无关物体对主要物体颜色的干扰,从而提高了图像上色的效率和准确率。
为了进一步提升图像上色模型的表达能力,提高图像上色的准确率,本申请提出了又一种图像上色方法。图5为该图像上色方法对应的网络结构示意图。如图5所示,图像上色模型中的基于像素稠密注意力机制的残差卷积块还包括并行卷积模块和融合模块,其中并行卷积模块包括第一卷积子模块和第二卷积子模块。在本申请实施例中采用并行卷积模块进行特征提取,相比单独的卷积模块能增强神经网络的表征能力。
图6为本申请实施例提出的又一种图像上色方法,如图6所示,该方法的实现方式如下:
步骤601,获取待上色图像,并提取待上色图像的特征以生成第一特征图。
步骤602,将第一特征图输入至经过训练的图像上色模型。
为了进一步对图像特征的提取,增强神经网络的表征能力,本申请实施例的图像上色模型中增加了并行卷积模块和融合模块,将第一特征图像先经过并行卷积模块分成两路分别进行特征提取后,使用融合模块将上下两路卷积模块的输出进行特征融合。
步骤603,通过第一卷积子模块和第二卷积子模块分别对第一特征图进行处理,对应的得到第一卷积特征图和第二卷积特征图。
也就是说,将同一个第一特征图分别经过第一卷积子模块和第二卷积子模块两个卷积模块进行处理,这样可以分别得到两个卷积特征图,使神经网络的表征能力大大提高。
步骤604,将第一卷积特征图和第二卷积特征图合并后输入至融合模块进行融合处理,获得融合特征图。
也就是说,将分别经过两个卷积模块处理后获得的特征通过融合模块进行合并,这样就可以将第一卷积特征图和第二卷积特征图合并成一个融合特征图,且融合特征图中既包含了第一卷积特征图中的特征也包含了第二卷积特征图中的特征。
在本申请实施例中,融合模块包含一个卷积层和一个激活层。作为一种示例,若第一卷积子模块和第二卷积子模块的输出通道大小均为C,则融合模块中的卷积层的输入通道大小为2C,且输出通道大小为C,卷积核的大小是1,从而实现上下两路卷积子模块的输出特征的融合。
步骤605,通过像素稠密注意力模块之中的卷积网络层对融合特征图进行卷积操作以得到卷积特征图。
也就是说,将融合特征图输入到像素稠密注意力模块的卷积网络层进行深层特征的提取,得到卷积特征图。
步骤606,通过像素稠密注意力模块之中的激活函数对卷积特征图进行处理。
步骤607,将经过处理后的卷积特征图与融合特征图进行点乘,获得第二特征图。
在本申请实施例中,将经过处理后的卷积特征图与融合特征图进行点乘,也就是将像素稠密注意力机制作用于融合特征图,其中经过处理后的卷积特征图相当于权重分布,与融合特征图进行点乘后,获得第二特征图。
步骤608,将第一特征图与第二特征图进行残差连接操作,获得第三特征图。
步骤609,对第三特征图进行卷积操作,获得与待上色图像对应的彩色图像。
根据本申请实施例提出的图像上色方法,在图像上色模型的基于像素稠密注意力机制的残差卷积块中引入的并行卷积模块和融合模块,这样,第一特征图经过并行卷积模块分别进行特征提取后再进行融合,大大增加了神经网络的表征能力,扩大了整个网络的感受野,进一步地提高了图像上色的效率和准确率。
基于上述实施例中的图像上色方法,其中图像上色模型均为预先训练得到的,为进一步对图像上色方法进行说明,本申请提出了一种针对上述图像上色模型进行训练的方法。图7为本申请实施例提出的一种图像上色模型训练方法流程图。需要说明的是,本申请实施例的图像上色模型训练方法可应用于本申请实施例的图像上色模型训练装置,该图像上色模型训练装置可被配置于电子设备。如图7所示,该图像上色模型训练方法包括以下步骤:
步骤701,获取待上色图像样本和待上色图像样本对应的彩色图像样本。
步骤702,提取待上色图像样本的特征以生成输入特征。
在本申请实施例中,待上色图像也就是灰度图。在图像进行自动上色时为了后续对图像进行颜色预测,需要将图像中的特征进行提取,通常采用卷积的方式进行特征提取。需要说明的是,在本申请实施例中,提取待上色图像的特征的方式可以根据实际情况使用现有技术中的图像特征提取方式,此处不做限定。
步骤703,将输入特征输入至初始的图像上色模型。
在本申请实施例中,初始的图像上色模型包括初始残差卷积块,且初始残差卷积块包括初始像素稠密注意力模块,其中,初始像素稠密注意力模块包括初始卷积网络层和初始激活函数。
其中,像素稠密注意力机制是对现有的普通注意力机制的改进,通过一个卷积层同时提取包括空间和通道信息的特征,然后将这个特征和输入特征点乘,从而实现对空间和通道信息的利用。此外,通过卷积得到的特征与输入特征具有相同的尺寸大小,也就是该注意力机制是对每个像素点都进行了处理,所以本申请将其称为像素稠密注意力机制。
步骤704,通过初始像素稠密注意力模块之中的初始卷积网络层对输入特征图进行卷积操作以得到卷积特征图样本。
也就是说,初始像素稠密注意力模块之中的初始卷积网络层通过对输入特征进行学习,可以知道哪些信息是关键信息,哪些信息不需要关注等,具体体现在得到的卷积特征图样本上。
步骤705,通过初始像素稠密注意力模块之中的初始激活函数对卷积特征图样本进行处理。
在本申请实施例中,通过将卷积特征图样本经过初始激活函数处理,将卷积特征图样本中的各特征值映射到0到1的值域内,减少了卷积操作对整体特征值的影响。
步骤706,将经过处理后的卷积特征图样本与输入特征图进行点乘,获得第二特征图样本。
可以理解为,经过处理后的卷积特征图样本相当于权重分布,将其与输入特征进行点乘的目的就是将注意力机制提取到的特征作用于输入特征,也就是通过经过处理后的卷积特征图样本让输入特征知道,哪些信息是关键信息,哪些信息是非关键信息,从而得到提取到深层特征的第二特征图样本。
步骤707,将输入特征图与第二特征图样本进行残差连接操作,获得第三特征图样本,并对第三特征图样本进行卷积操作,获得预测的彩色图像。
在本申请实施例中,图像上色模型中基于像素稠密注意力机制的残差卷积块还包括残差连接,将输入特征与第二特征图样本进行残差连接操作,也就是将浅层的特征传到深层网络,这样,使后面深层特征也能利用前面的浅层信息,从而使整体的网络具体更高的表达效果。
步骤708,根据预测的彩色图像和彩色图像样本生成损失函数值,并根据损失函数值对图像上色模型进行训练。
可以理解,根据预测彩色图像与彩色图像样本生成损失函数,根据损失函数不断调整图像上色模型中的参数值,直至预测彩色图像与彩色图像样本的差值满足预期后,完成图像上色模型的训练。
根据本申请实施例提出的图像上色模型训练方法,通过引入像素稠密注意力机制,只通过一个卷积层就可以同时提取了待上色图像样本的空间信息和通道信息的特征,降低了图像上色模型的复杂度,减少了冗余的表达,提高了模型训练的效率。
为了进一步提升图像上色模型的表达能力,提高图像上色的准确率,本申请提出了又一种图像上色模型训练方法。该初始图像上色模型中的初始残差卷积块还包括初始并行卷积模型和初始融合模块,其中初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块。图8为该图像上色模型训练方法的流程图,如图8所示,该方法包括以下步骤:
步骤801,获取待上色图像样本和待上色图像样本对应的彩色图像样本。
步骤802,提取待上色图像样本的特征以生成输入特征。
步骤803,将输入特征输入至初始的图像上色模型。
为了进一步对图像特征的提取,增强神经网络的表征能力,本申请实施例的参数图像上色模型中增加了参数并行卷积模块和参数融合模块,将输入特征先经过初始并行卷积模块分成两路分别进行特征提取后,使用初始融合模块将上下两路卷积模块的输出进行特征融合。
步骤804,通过第一初始卷积子模块和第二初始卷积子模块分别对输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本。
也就是说,将同一个输入特征分别经过第一初始卷积子模块和第二初始卷积子模块两个卷积模块进行处理,这样可以分别得到两个卷积特征图,使神经网络的表征能力大大提高。
步骤805,将第一卷积特征图样本和第二卷积特征图样本合并后输入至初始融合模块进行融合处理,获得融合特征图样本。
也就是说,将分别经过两个卷积模块处理后获得的特征通过初始融合模块进行合并,这样就可以将第一卷积特征图样本和第二卷积特征图样本合并成一个融合特征图样本,且融合特征图样本中既包含了第一卷积特征图样本中的特征也包含了第二卷积特征图样本中的特征。
在本申请实施例中,初始融合模块包含一个初始卷积层和一个初始激活层。若第一初始卷积子模块和第二初始卷积子模块的输出通道大小均为C,则初始融合模块中的卷积层的输入通道大小为2C,且输出通道大小为C,卷积核的大小是1,从而实现上下两路卷积子模块的输出特征的融合。
步骤806,通过初始像素稠密注意力模块之中的初始卷积网络层对融合特征图样本进行卷积操作以得到卷积特征图样本。
也就是说,将融合特征图样本输入到初始像素稠密注意力模块的初始卷积网络层进行深层特征的提取,得到卷积特征图样本。
步骤807,通过初始像素稠密注意力模块之中的初始激活函数对卷积特征图样本进行处理。
步骤808,将经过处理后的卷积特征图样本与融合特征图样本进行点乘,获得第二特征图样本。
在本申请实施例中,将经过处理后的卷积特征图样本与融合特征图样本进行点乘,也就是将像素稠密注意力机制作用于融合特征图样本,其中经过处理后的卷积特征图样本相当于权重分布,与融合特征图样本进行点乘后,获得的第二特征图样本。
步骤809,将输入特征图与第二特征图样本进行残差连接操作,获得第三特征图样本,并对第三特征图样本进行卷积操作,获得预测的彩色图像。
步骤810,根据预测的彩色图像和彩色图像样本生成损失函数值,并根据损失函数值对图像上色模型进行训练。
可以理解,根据预测彩色图像与彩色图像样本生成损失函数,根据损失函数不断调整图像上色模型中的参数值,直至预测彩色图像与彩色图像样本的差值满足预期后,完成图像上色模型的训练。
根据本申请实施例提出的图像上色模型训练方法,在初始图像上色模型的初始残差卷积块中引入了初始并行卷积模块和初始融合模块,这样,输入特征经过初始并行卷积模块分别进行特征提取后再进行融合,大大增加了神经网络的表征能力,进一步提高了模型训练的效率,也提高了该图像上色模型对颜色预测的准确率。
为了实现上述实施例,本申请还提出了一种图像上色装置。
图9为本申请实施例提出的一种图像上色装置的结构框图。如图9所示,该图像上色装置包括:
第一获取模块910,用于获取待上色图像;
特征提取模块920,用于提取待上色图像的特征以生成第一特征图;
第二获取模块930,用于对第一特征图进行卷积操作以得到卷积特征图,并将卷积特征图经过激活函数处理后与第一特征图进行点乘,获得第二特征图;其中,卷积特征图的尺寸大小与第一特征图的尺寸大小相同,第二特征图同时包含空间信息的特征和通道信息的特征;
第三获取模块940,用于将第一特征图与第二特征图进行残差连接操作,获得第三特征图;
第四获取模块950,用于对第三特征图进行卷积操作,获得与待上色图像对应的彩色图像。
在本申请实施例中,第二获取模块930具体用于:
将第一特征图输入至经过训练的图像上色模型,其中,图像上色模型包括基于像素稠密注意力机制的残差卷积块,残差卷积块包括像素稠密注意力模块;像素稠密注意力模块包括卷积网络层和激活函数;
通过像素稠密注意力模块之中的卷积网络层对第一特征图进行卷积操作以得到卷积特征图;
通过像素稠密注意力模块之中的激活函数对卷积特征图进行处理;
将经过处理后的卷积特征图与第一特征图进行点乘,获得第二特征图。
在本申请的一些实施例中,残差卷积块还包括并行卷积模块和融合模块,并行卷积模块包括第一卷积子模块和第二卷积子模块;其中,第二获取模块930具体用于:
通过第一卷积子模块和第二卷积子模块分别对第一特征图进行处理,对应的得到第一卷积特征图和第二卷积特征图;
将第一卷积特征图和第二卷积特征图合并后输入至融合模块进行融合处理,获得融合特征图;
通过像素稠密注意力模块之中的卷积网络层对融合特征图进行卷积操作以得到卷积特征图。
此外,在本申请实施例中,第二获取模块具体用于:将经过处理后的卷积特征图与融合特征图进行点乘,获得第二特征图。
根据本申请实施例提出的图像上色装置,通过对普通注意力机制的改进,提出了像素稠密注意力机制,这样,只用一个卷积层同时提取了空间信息的特征和通道信息的特征,与现有的注意力机制中通过将空间注意力机制和通道注意力机制串行或并行才能获取空间和通道的注意力相比,不仅降低了图像上色模型的复杂度,节省了图像自动上色的计算开销,也减少了模型运行的时间。此外,注意力模块的引入可以帮助网络更好的学习关键信息,减少冗余的表达,使得最后颜色的预测更加准确合理,降低无关物体对主要物体颜色的干扰,从而提高了图像上色的效率和准确率。另外,在残差卷积块中引入并行卷积模块和融合模块,使第一特征图经过并行卷积模块分别进行特征提取后再进行融合,大大增加了神经网络的表征能力,扩大了整个网络的感受野,进一步地提高了图像上色的效率和准确率。
为了进一步对该图像上色装置进行描述,本申请提出了另一种图像上色装置。图10为本申请实施例提出的另一种图像上色装置的结构框图,如图10所示,该图像上色装置还包括:
模型训练模块1060,用于预先训练图像上色模型;其中,模型训练模块1060具体用于:
获取待上色图像样本和待上色图像样本对应的彩色图像样本;
提取待上色图像样本的特征以生成输入特征;
将输入特征输入至初始的图像上色模型,其中,初始的图像上色模型包括初始残差卷积块,初始残差卷积块包括初始像素稠密注意力模块;初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
通过初始像素稠密注意力模块之中的初始卷积网络层对输入特征图进行卷积操作以得到卷积特征图样本;
通过初始像素稠密注意力模块之中的初始激活函数对卷积特征图样本进行处理;
将经过处理后的卷积特征图样本与输入特征图进行点乘,获得第二特征图样本;
将输入特征图与第二特征图样本进行残差连接操作,获得第三特征图样本,并对第三特征图样本进行卷积操作,获得预测的彩色图像;
根据预测的彩色图像和彩色图像样本生成损失函数值;
根据损失函数值对图像上色模型进行训练。
在本申请实施例中,初始残差卷积块还包括初始并行卷积模块和初始融合模块,初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块;其中,模型训练模块1060具体用于:
通过第一初始卷积子模块和第二初始卷积子模块分别对输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本;
将第一卷积特征图样本和第二卷积特征图样本合并后输入至初始融合模块进行融合处理,获得融合特征图样本;
通过初始像素稠密注意力模块之中的初始卷积网络层对融合特征图样本进行卷积操作以得到卷积特征图样本。
此外,在本申请实施例中,模型训练模块1060具体用于:
将经过处理后的卷积特征图样本与融合特征图样本进行点乘,获得第二特征图样本。
需要说明的是,在本申请实施例中,图10中的1010~1050与图9中的910~950的功能结构完全一致,此处不再赘述。
为了实现上述实施例,本申请提出了一种图像上色模型训练装置。
图11为本申请实施例提出的一种图像上色模型训练装置的结构框图。如图11所示,该图像上色模型训练装置包括:
第一获取模块1110,用于获取待上色图像样本和待上色图像样本对应的彩色图像样本;
特征提取模块1120,用于提取待上色图像样本的特征以生成输入特征;
输入模块1130,用于将输入特征输入至初始的图像上色模型,其中,初始的图像上色模型包括初始残差卷积块,初始残差卷积块包括初始像素稠密注意力模块;初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
第二获取模块1140,用于通过初始像素稠密注意力模块之中的初始卷积网络层对输入特征图进行卷积操作以得到卷积特征图样本;
第三获取模块1150,用于通过初始像素稠密注意力模块之中的初始激活函数对卷积特征图样本进行处理,并将经过处理后的卷积特征图样本与输入特征图进行点乘,获得第二特征图样本;
第四获取模块1160,用于将输入特征图与第二特征图样本进行残差连接操作,获得第三特征图样本,并对第三特征图样本进行卷积操作,获得预测的彩色图像;
训练模块1170,用于根据预测的彩色图像和彩色图像样本生成损失函数值,并根据损失函数值对图像上色模型进行训练。
在本申请的一些实施例中,该图像上色模型的初始残差卷积块还包括初始并行卷积模块和初始融合模块,且初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块。其中第二获取模块1140具体用于:
通过第一初始卷积子模块和第二初始卷积子模块分别对输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本;
将第一卷积特征图样本和第二卷积特征图样本合并后输入至初始融合模块进行融合处理,获得融合特征图样本;
通过初始像素稠密注意力模块之中的初始卷积网络层对融合特征图样本进行卷积操作以得到卷积特征图样本。
在本申请实施例中,第三获取模块1150具体用于:
将经过处理后的卷积特征图样本与融合特征图样本进行点乘,获得第二特征图样本。
根据本申请实施例提出的图像上色模型训练装置,通过引入像素稠密注意力机制,只通过一个卷积层就可以同时提取了待上色图像样本的空间信息和通道信息的特征,降低了图像上色模型的复杂度,减少了冗余的表达,提高了模型训练的效率。此外,在初始图像上色模型的初始残差卷积块中引入了初始并行卷积模块和初始融合模块,这样,输入特征经过初始并行卷积模块分别进行特征提取后再进行融合,大大增加了神经网络的表征能力,进一步提高了模型训练的效率,也提高了该图像上色模型对颜色预测的准确率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质及一种计算机程序产品。
如图12所示,是根据本申请实施例的图像上色方法和/或图像上色模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。
存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的图像上色方法和/或图像上色模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的图像上色方法和/或图像上色模型训练方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的图像上色方法对应的程序指令/模块(例如,附图9所示的第一获取模块910、特征提取模块920、第二获取模块930、第三获取模块940及第四获取模块950)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像上色方法和/或图像上色模型训练方法。本申请的计算机程序产品,包括计算机程序,该计算机程序在被处理器1201执行时实现上述方法实施例中的图像上色方法和/或图像上色模型训练方法。
存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据图像上色方法和/或图像上色模型训练方法的电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至图像上色方法和/或图像上色模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
图像上色方法和/或图像上色模型训练方法的电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与图像上色方法和/或图像上色模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种图像上色方法,包括:
获取待上色图像,并提取所述待上色图像的特征以生成第一特征图;
对所述第一特征图进行卷积操作以得到卷积特征图,并将所述卷积特征图经过激活函数处理后与所述第一特征图进行点乘,获得第二特征图;其中,所述卷积特征图的尺寸大小与所述第一特征图的尺寸大小相同,所述第二特征图同时包含空间信息的特征和通道信息的特征;
将所述第一特征图与所述第二特征图进行残差连接操作,获得第三特征图;
对所述第三特征图进行卷积操作,获得与所述待上色图像对应的彩色图像;
其中,所述对所述第一特征图进行卷积操作以得到卷积特征图,并将所述卷积特征图经过激活函数处理后与所述第一特征图进行点乘,获得第二特征图,包括:
将所述第一特征图输入至经过训练的图像上色模型,其中,所述图像上色模型包括基于像素稠密注意力机制的残差卷积块,所述残差卷积块包括像素稠密注意力模块;所述像素稠密注意力模块包括卷积网络层和激活函数;
通过所述像素稠密注意力模块之中的所述卷积网络层对所述第一特征图进行卷积操作以得到卷积特征图;
通过所述像素稠密注意力模块之中的所述激活函数对所述卷积特征图进行处理;
将经过处理后的所述卷积特征图与所述第一特征图进行点乘,获得第二特征图。
2.根据权利要求1所述的图像上色方法,其中,所述残差卷积块还包括并行卷积模块和融合模块,所述并行卷积模块包括第一卷积子模块和第二卷积子模块;其中,所述通过所述像素稠密注意力模块之中的所述卷积网络层对所述第一特征图进行卷积操作以得到卷积特征图,包括:
通过所述第一卷积子模块和所述第二卷积子模块分别对所述第一特征图进行处理,对应的得到第一卷积特征图和第二卷积特征图;
将所述第一卷积特征图和第二卷积特征图合并后输入至所述融合模块进行融合处理,获得融合特征图;
通过所述像素稠密注意力模块之中的所述卷积网络层对所述融合特征图进行卷积操作以得到卷积特征图。
3.根据权利要求2所述的图像上色方法,其中,所述将经过处理后的所述卷积特征图与所述第一特征图进行点乘,获得第二特征图,包括:
将经过处理后的所述卷积特征图与所述融合特征图进行点乘,获得第二特征图。
4.根据权利要求1至3中任一项所述的图像上色方法,其中,所述图像上色模型是通过以下方式进行预先训练的:
获取待上色图像样本和所述待上色图像样本对应的彩色图像样本;
提取所述待上色图像样本的特征以生成输入特征;
将所述输入特征输入至初始的图像上色模型,其中,所述初始的图像上色模型包括初始残差卷积块,所述初始残差卷积块包括初始像素稠密注意力模块;所述初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始激活函数对所述卷积特征图样本进行处理;
将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本;
将所述输入特征图与所述第二特征图样本进行残差连接操作,获得第三特征图样本,并对所述第三特征图样本进行卷积操作,获得预测的彩色图像;
根据所述预测的彩色图像和所述彩色图像样本生成损失函数值;
根据所述损失函数值对所述图像上色模型进行训练。
5.根据权利要求4所述的图像上色方法,其中,所述初始残差卷积块还包括初始并行卷积模块和初始融合模块,所述初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块;其中,所述通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本,包括:
通过所述第一初始卷积子模块和所述第二初始卷积子模块分别对所述输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本;
将所述第一卷积特征图样本和第二卷积特征图样本合并后输入至所述初始融合模块进行融合处理,获得融合特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述融合特征图样本进行卷积操作以得到卷积特征图样本。
6.根据权利要求5所述的图像上色方法,其中,所述将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本,包括:
将经过处理后的所述卷积特征图样本与所述融合特征图样本进行点乘,获得第二特征图样本。
7.一种图像上色模型训练方法,包括:
获取待上色图像样本和所述待上色图像样本对应的彩色图像样本,并提取所述待上色图像样本的特征以生成输入特征;
将所述输入特征输入至初始的图像上色模型,其中,所述初始的图像上色模型包括初始残差卷积块,所述初始残差卷积块包括初始像素稠密注意力模块;所述初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始激活函数对所述卷积特征图样本进行处理,并将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本;
将所述输入特征图与所述第二特征图样本进行残差连接操作,获得第三特征图样本,并对所述第三特征图样本进行卷积操作,获得预测的彩色图像;
根据所述预测的彩色图像和所述彩色图像样本生成损失函数值,并根据所述损失函数值对所述图像上色模型进行训练。
8.根据权利要求7所述的图像上色模型训练方法,其中,所述初始残差卷积块还包括初始并行卷积模块和初始融合模块,所述初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块;其中,所述通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本,包括:
通过所述第一初始卷积子模块和所述第二初始卷积子模块分别对所述输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本;
将所述第一卷积特征图样本和第二卷积特征图样本合并后输入至所述初始融合模块进行融合处理,获得融合特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述融合特征图样本进行卷积操作以得到卷积特征图样本。
9.根据权利要求8所述的图像上色模型训练方法,其中,所述将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本,包括:
将经过处理后的所述卷积特征图样本与所述融合特征图样本进行点乘,获得第二特征图样本。
10.一种图像上色装置,包括:
第一获取模块,用于获取待上色图像;
特征提取模块,用于提取所述待上色图像的特征以生成第一特征图;
第二获取模块,用于对所述第一特征图进行卷积操作以得到卷积特征图,并将所述卷积特征图经过激活函数处理后与所述第一特征图进行点乘,获得第二特征图;其中,所述卷积特征图的尺寸大小与所述第一特征图的尺寸大小相同,所述第二特征图同时包含空间信息的特征和通道信息的特征;
第三获取模块,用于将所述第一特征图与所述第二特征图进行残差连接操作,获得第三特征图;
第四获取模块,用于对所述第三特征图进行卷积操作,获得与所述待上色图像对应的彩色图像;
其中,所述第二获取模块具体用于:
将所述第一特征图输入至经过训练的图像上色模型,其中,所述图像上色模型包括基于像素稠密注意力机制的残差卷积块,所述残差卷积块包括像素稠密注意力模块;所述像素稠密注意力模块包括卷积网络层和激活函数;
通过所述像素稠密注意力模块之中的所述卷积网络层对所述第一特征图进行卷积操作以得到卷积特征图;
通过所述像素稠密注意力模块之中的所述激活函数对所述卷积特征图进行处理;
将经过处理后的所述卷积特征图与所述第一特征图进行点乘,获得第二特征图。
11.根据权利要求10所述的图像上色装置,其中,所述残差卷积块还包括并行卷积模块和融合模块,所述并行卷积模块包括第一卷积子模块和第二卷积子模块;其中,所述第二获取模块具体用于:
通过所述第一卷积子模块和所述第二卷积子模块分别对所述第一特征图进行处理,对应的得到第一卷积特征图和第二卷积特征图;
将所述第一卷积特征图和第二卷积特征图合并后输入至所述融合模块进行融合处理,获得融合特征图;
通过所述像素稠密注意力模块之中的所述卷积网络层对所述融合特征图进行卷积操作以得到卷积特征图。
12.根据权利要求11所述的图像上色装置,其中,所述第二获取模块具体用于:将经过处理后的所述卷积特征图与所述融合特征图进行点乘,获得第二特征图。
13.根据权利要求10至12中任一项所述的图像上色装置,还包括:
模型训练模块,用于预先训练所述图像上色模型;其中,所述模型训练模块具体用于:
获取待上色图像样本和所述待上色图像样本对应的彩色图像样本;
提取所述待上色图像样本的特征以生成输入特征;
将所述输入特征输入至初始的图像上色模型,其中,所述初始的图像上色模型包括初始残差卷积块,所述初始残差卷积块包括初始像素稠密注意力模块;所述初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始激活函数对所述卷积特征图样本进行处理;
将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本;
将所述输入特征图与所述第二特征图样本进行残差连接操作,获得第三特征图样本,并对所述第三特征图样本进行卷积操作,获得预测的彩色图像;
根据所述预测的彩色图像和所述彩色图像样本生成损失函数值;
根据所述损失函数值对所述图像上色模型进行训练。
14.根据权利要求13所述的图像上色装置,其中,所述初始残差卷积块还包括初始并行卷积模块和初始融合模块,所述初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块;其中,所述模型训练模块具体用于:
通过所述第一初始卷积子模块和所述第二初始卷积子模块分别对所述输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本;
将所述第一卷积特征图样本和第二卷积特征图样本合并后输入至所述初始融合模块进行融合处理,获得融合特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述融合特征图样本进行卷积操作以得到卷积特征图样本。
15.根据权利要求14所述的图像上色装置,其中,所述模型训练模块具体用于:
将经过处理后的所述卷积特征图样本与所述融合特征图样本进行点乘,获得第二特征图样本。
16.一种图像上色模型训练装置,包括:
第一获取模块,用于获取待上色图像样本和所述待上色图像样本对应的彩色图像样本;
特征提取模块,用于提取所述待上色图像样本的特征以生成输入特征;
输入模块,用于将所述输入特征输入至初始的图像上色模型,其中,所述初始的图像上色模型包括初始残差卷积块,所述初始残差卷积块包括初始像素稠密注意力模块;所述初始像素稠密注意力模块包括初始卷积网络层和初始激活函数;
第二获取模块,用于通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述输入特征图进行卷积操作以得到卷积特征图样本;
第三获取模块,用于通过所述初始像素稠密注意力模块之中的所述初始激活函数对所述卷积特征图样本进行处理,并将经过处理后的所述卷积特征图样本与所述输入特征图进行点乘,获得第二特征图样本;
第四获取模块,用于将所述输入特征图与所述第二特征图样本进行残差连接操作,获得第三特征图样本,并对所述第三特征图样本进行卷积操作,获得预测的彩色图像;
训练模块,用于根据所述预测的彩色图像和所述彩色图像样本生成损失函数值,并根据所述损失函数值对所述图像上色模型进行训练。
17.根据权利要求16所述的图像上色模型训练装置,其中,所述初始残差卷积块还包括初始并行卷积模块和初始融合模块,所述初始并行卷积模块包括第一初始卷积子模块和第二初始卷积子模块;其中,所述第二获取模块具体用于:
通过所述第一初始卷积子模块和所述第二初始卷积子模块分别对所述输入特征图进行处理,对应的得到第一卷积特征图样本和第二卷积特征图样本;
将所述第一卷积特征图样本和第二卷积特征图样本合并后输入至所述初始融合模块进行融合处理,获得融合特征图样本;
通过所述初始像素稠密注意力模块之中的所述初始卷积网络层对所述融合特征图样本进行卷积操作以得到卷积特征图样本。
18.根据权利要求17所述的图像上色模型训练装置,其中,所述第三获取模块具体用于:
将经过处理后的所述卷积特征图样本与所述融合特征图样本进行点乘,获得第二特征图样本。
19. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110597143.5A CN113362409B (zh) | 2021-05-28 | 2021-05-28 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110597143.5A CN113362409B (zh) | 2021-05-28 | 2021-05-28 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362409A CN113362409A (zh) | 2021-09-07 |
CN113362409B true CN113362409B (zh) | 2023-10-31 |
Family
ID=77528216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110597143.5A Active CN113362409B (zh) | 2021-05-28 | 2021-05-28 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362409B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299193B (zh) * | 2021-12-30 | 2024-05-03 | 山东大学 | 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019233244A1 (zh) * | 2018-06-08 | 2019-12-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN110574044A (zh) * | 2017-05-23 | 2019-12-13 | 英特尔公司 | 用于使用依赖树来增强二进制权重神经网络的方法和装置 |
CN111028246A (zh) * | 2019-12-09 | 2020-04-17 | 北京推想科技有限公司 | 一种医学图像分割方法、装置、存储介质及电子设备 |
CN111199516A (zh) * | 2019-12-30 | 2020-05-26 | 深圳大学 | 基于图像生成网络模型的图像处理方法、系统及存储介质 |
CN111696026A (zh) * | 2020-05-06 | 2020-09-22 | 华南理工大学 | 基于l0正则项的可逆灰度图算法、计算设备 |
CN112541482A (zh) * | 2020-12-25 | 2021-03-23 | 北京百度网讯科技有限公司 | 深度信息补全模型训练方法、装置、设备以及存储介质 |
CN112836773A (zh) * | 2021-04-08 | 2021-05-25 | 河海大学 | 一种基于全局注意力残差网络的高光谱图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245659B (zh) * | 2019-05-21 | 2021-08-13 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
-
2021
- 2021-05-28 CN CN202110597143.5A patent/CN113362409B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110574044A (zh) * | 2017-05-23 | 2019-12-13 | 英特尔公司 | 用于使用依赖树来增强二进制权重神经网络的方法和装置 |
WO2019233244A1 (zh) * | 2018-06-08 | 2019-12-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN111028246A (zh) * | 2019-12-09 | 2020-04-17 | 北京推想科技有限公司 | 一种医学图像分割方法、装置、存储介质及电子设备 |
CN111199516A (zh) * | 2019-12-30 | 2020-05-26 | 深圳大学 | 基于图像生成网络模型的图像处理方法、系统及存储介质 |
CN111696026A (zh) * | 2020-05-06 | 2020-09-22 | 华南理工大学 | 基于l0正则项的可逆灰度图算法、计算设备 |
CN112541482A (zh) * | 2020-12-25 | 2021-03-23 | 北京百度网讯科技有限公司 | 深度信息补全模型训练方法、装置、设备以及存储介质 |
CN112836773A (zh) * | 2021-04-08 | 2021-05-25 | 河海大学 | 一种基于全局注意力残差网络的高光谱图像分类方法 |
Non-Patent Citations (3)
Title |
---|
一种改进的生成对抗网络的图像上色方法研究;蒋文杰;罗晓曙;戴沁璇;;计算机技术与发展(07);全文 * |
基于卷积神经网络的人脸检测与特征点标定算法研究;王维;中国优秀硕士学位论文全文数据库(第4期);全文 * |
基于深度学习的灰度图像实际颜色预测;李智敏;陆宇豪;俞成海;;计算机应用(S2);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113362409A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291885B (zh) | 近红外图像的生成方法、生成网络的训练方法和装置 | |
CN111753961B (zh) | 模型训练方法和装置、预测方法和装置 | |
CN111709470B (zh) | 图像生成方法、装置、设备及介质 | |
CN111832745B (zh) | 数据增广的方法、装置及电子设备 | |
CN111709873B (zh) | 图像转换模型生成器的训练方法和装置 | |
CN112541482B (zh) | 深度信息补全模型训练方法、装置、设备以及存储介质 | |
CN111860167B (zh) | 人脸融合模型获取及人脸融合方法、装置及存储介质 | |
CN110379020B (zh) | 一种基于生成对抗网络的激光点云上色方法和装置 | |
CN109086683A (zh) | 一种基于点云语义增强的人手姿态回归方法和系统 | |
CN111739005B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN112634282B (zh) | 图像处理方法、装置以及电子设备 | |
CN113408662B (zh) | 图像识别、图像识别模型的训练方法和装置 | |
CN112614072B (zh) | 一种图像复原方法、装置、图像复原设备及存储介质 | |
US20220101642A1 (en) | Method for character recognition, electronic device, and storage medium | |
CN112149634A (zh) | 图像生成器的训练方法、装置、设备以及存储介质 | |
CN111539897A (zh) | 用于生成图像转换模型的方法和装置 | |
US20220103782A1 (en) | Method for video frame interpolation, and electronic device | |
CN112328345A (zh) | 用于确定主题色的方法、装置、电子设备及可读存储介质 | |
CN111967591B (zh) | 神经网络自动剪枝方法、装置及电子设备 | |
CN112561056A (zh) | 神经网络模型的训练方法、装置、电子设备和存储介质 | |
CN113362409B (zh) | 图像上色及其模型训练方法、装置、电子设备、存储介质 | |
Guo et al. | Reinforced depth-aware deep learning for single image dehazing | |
CN113313048B (zh) | 脸部表情识别方法和装置 | |
CN112053362B (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN116402914A (zh) | 用于确定风格化图像生成模型的方法、装置及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |