CN109003282B - 一种图像处理的方法、装置及计算机存储介质 - Google Patents
一种图像处理的方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN109003282B CN109003282B CN201810847581.0A CN201810847581A CN109003282B CN 109003282 B CN109003282 B CN 109003282B CN 201810847581 A CN201810847581 A CN 201810847581A CN 109003282 B CN109003282 B CN 109003282B
- Authority
- CN
- China
- Prior art keywords
- image
- region
- static
- static image
- binary mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 8
- 230000003068 static effect Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000011176 pooling Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G06T5/60—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种图像处理的方法、装置及计算机存储介质,包括:分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像。本发明实施例提升了图像融合的显示效果。
Description
技术领域
本文涉及但不限于多媒体技术,尤指一种图像处理的方法、装置及计算机存储介质。
背景技术
近些年来,很多研究机构和企业都在图像分割和融合领域进行了大量的资源投入,并且获得了一系列的成果,这些成果在军事,交通,商业,医疗等行业也有了很多的应用。而随着深度学习的兴起,图像分割与融合算法均突破了传统算法的瓶颈,有了长足的发展,基于深度学习算法架构的一些应用,都显著的改善了分割效果。图像分割技术是在数字图像处理中应用非常广泛的技术。分割技术要求根据指定目标的特征,在复杂的图像内容中,将指定目标识别分割出来。图像融合技术主要应用于图像增强领域,其目标是将其他图像中的结构特征合成到目标图像中,且合成边界连续自然,能达到增强图像信息或添加图像内容的目的。目前,融合技术在安防,医疗,娱乐等领域发挥着重要作用。
目前,对包括夜晚和有浓雾的天空等进行图像分割和融合处理,融合获得的图像效果不佳。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种图像处理的方法、装置及计算机存储介质,能够提升图像融合的显示效果。
本发明实施例提供了一种图像处理的方法,包括:
分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;
基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像。
可选的,所述分割第一静态图像中的第一特征区域包括:
通过预设的深度卷积神经网络对所述第一静态图像进行处理,从所述第一静态图像中分割出所述第一特征区域。
可选的,所述通过预设的深度卷积神经网络对所述第一静态图像进行处理包括:
基于视觉几何组VGG-19预训练网络提取所述第一静态图像两个或两个以上不同尺度的语义特征层;
采用预设的优化网络RefineNet,对提取的所有语义特征层进行学习;
通过所述优化网络将学习获得的各尺度下的特征进行合并和插值处理;
通过合并和插值处理后的特征进行所述优化网络的训练,以对所述第一静态图像的第一特征区域进行预测和分割,并通过二值掩膜输出分割出的所述第一特征区域。
可选的,分割获得所述第一特征区域之前,所述方法还包括:
将预设的损失函数作为目标函数,对所述深度卷积神经网络进行训练处理;
其中,所述损失函数为:所述Iij’为预测的所述第一静态图像的第一特征区域;所述Iij为所述第一特征区域的实际分割区域;所述H为图像矩阵的行数,所述W为图像矩阵的列数;所述i为像素的具体行坐标,j为像素的具体列坐标。
可选的,所述将第一静态图像和第一动态图像的图像帧进行融合之前,所述方法还包括:
对所述第一动态图像的图像帧序列进行分解;
基于输出的二值掩膜,确定所述第一特征区域;
将第一动态图像分解为红绿蓝RGB通道;
计算分解的各通道的均值后,合成主色调参考图Iref;
对第一静态图像中的第二特征区域图像Igd预设尺度的高斯模糊处理后,获得模糊图像Iblur;
根据下式对所述第二特征区域图像Igd进行颜色校正:
Ical=Igd*α+Igd*(Iref/Iblur)*(1-α);
其中,所述第二特征区域包括:所述第一静态图像中除所述第一特征区域外的其他区域;α为校正比例系数,0≤α≤1。
另一方面,本发明实施例还提供一种图像处理的装置,包括:分割模块和融合模块;其中,
分割模块用于:分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;
融合模块用于:基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像。
可选的,所述分割模块用于分割第一静态图像中的第一特征区域包括:
通过预设的深度卷积神经网络对所述第一静态图像进行处理,从所述第一静态图像中分割出所述第一特征区域。
可选的,所述分割模块具体用于:
基于视觉几何组VGG-19预训练网络提取所述第一静态图像两个或两个以上不同尺度的语义特征层;
采用预设的优化网络RefineNet,对提取的所有语义特征层进行学习;
通过所述优化网络将学习获得的各尺度下的特征进行合并和插值处理;
通过合并和插值处理后的特征进行所述优化网络的训练,以对所述第一静态图像的第一特征区域进行预测和分割,并通过二值掩膜输出分割出的所述第一特征区域。
可选的,所述装置还包括误差处理单元,用于:
将预设的损失函数作为目标函数,对所述深度卷积神经网络进行训练处理;
其中,所述损失函数为:所述Iij’为预测的所述第一静态图像的第一特征区域;所述Iij为所述第一特征区域的实际分割区域;所述H为图像矩阵的行数,所述W为图像矩阵的列数;所述i为像素的具体行坐标,j为像素的具体列坐标。
可选的,所述装置还包括校正单元,用于:
对所述第一动态图像的图像帧序列进行分解;
基于输出的二值掩膜,确定所述第一特征区域;
将第一动态图像分解为红绿蓝RGB通道;
计算分解的各通道的均值后,合成主色调参考图Iref;
对第一静态图像中的第二特征区域图像Igd预设尺度的高斯模糊处理后,获得模糊图像Iblur;
根据下式对所述第二特征区域图像Igd进行颜色校正:
Ical=Igd*α+Igd*(Iref/Iblur)*(1-α);
其中,所述第二特征区域包括:所述第一静态图像中除所述第一特征区域外的其他区域;α为校正比例系数,0≤α≤1。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述图像处理的方法。
与相关技术相比,本申请技术方案包括:分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像。本发明实施例提升了图像融合的显示效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例图像处理的方法的流程图;
图2为本发明实施例深度卷积神经网络的处理流程示意图;
图3为本发明实施例优化网络的结构示意图;
图4为本发明实施例残差卷积单元的组成结构示意图;
图5为本发明实施例链式残差池化单元的组成结构示意图;
图6为本发明实施例融合处理的流程示意图;
图7为本发明实施例图像处理的装置的结构框图;
图8为本发明应用示例图像处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例图像处理的方法的流程图,如图1所示,包括:
步骤101、分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;
需要说明的是,二值掩膜为相关技术中对需要区分的区域赋值不同的参数;例如、对第一特征区域赋值为1,对第一静态图像中的除第一特征区域以外的其他区域赋值为0,经过上述赋值处理,可以直接高效的区分第一特征区域。
可选的,本发明实施例所述分割第一静态图像中的第一特征区域包括:
通过预设的深度卷积神经网络对所述第一静态图像进行处理,从所述第一静态图像中分割出所述第一特征区域。
可选的,本发明实施例所述通过预设的深度卷积神经网络对所述第一静态图像进行处理包括:
基于视觉几何组VGG-19预训练网络提取所述第一静态图像两个或两个以上不同尺度的语义特征层;
采用预设的优化网络RefineNet,对提取的所有语义特征层进行学习;
通过所述优化网络将学习获得的各尺度下的特征进行合并和插值处理;
通过合并和插值处理后的特征进行所述优化网络的训练,以对所述第一静态图像的第一特征区域进行预测和分割,并通过二值掩膜输出分割出的所述第一特征区域。
需要说明的是,提取所述第一静态图像语义特征层包括提取第一静态图像不同尺度下的语义特征层本领域技术人员可以根据相关理论确定各个尺度;图2为本发明实施例深度卷积神经网络的处理流程示意图,如图2所示,将第一静态图像输入VGG-19网络,并从中获得第4、8、12、16卷积层所输出的特征,作为1/2尺度,1/4尺度,1/8尺度和1/16尺度的语义特征层,传送到RefineNet中进行处理。本发明采用RefineNet网络对不同尺度的特征层进行进一步处理,输出分割的第一特征区域的二值化掩膜图像。
可选的,本发明实施例所述优化网络包括以下部分或全部单元:残差卷积单元、融合模块和链式残差池化单元。
需要说明的是,本发明实施例网络RefineNet主要由残差卷积单元(Residualconvuint)、融合模块(Fusion,包括用于特征提取的卷积层(CONV3*3,每个CONV相当于一组神经元,用来存储神经网络的单元参数,但CONV具有神经元局部权值共享的特点,因此适合于图像这种结构化信息处理)、上采样和融合(SUM))和链式残差池化单元(Chain residualpooling)构成。不同尺度的特征分别经过残差卷积单元,可以提取对应尺度下的全局特征,然后进入融合模块进行不同尺度的特征融合,最后经过链式残差池化层提取低频背景的语义特征,转换(CONV3*3)并输出(OUTPUT)大尺度下的语义特征。本发明实施例深度卷积神经网络中进行的上采样各优化网络中所采用的上采样的处理为相同的处理方法,主要用于进行插值操作,为本领域技术人员公知的技术,在此不做赘述。本发明实施例各个组成部分中的CONV所进行了处理相同,所配置的参数通过训练进行自适应调整。本发明实施例各个组成部分中的SUM所进行了处理相同,所配置的参数通过训练进行自适应调整。
图3为本发明实施例优化网络的结构示意图,如图3所示,包括:对不同尺度的特征层划分为低尺度层(Low scale layer)和高尺度层(High scale layer)后,通过残差卷积单元(Residual convuint)提取对应尺度下的全局特征;其以图2为例,1/16层为低尺度层;相对的,1/8层属于高尺度层;提取的全局特征进入融合模块进行不同尺度的特征融合后,链式残差池化单元(Chain residual pooling)提取低频背景的语义特征,输出大尺度下的语义特征。图4为本发明实施例残差卷积单元的组成结构示意图,如图4所示,低尺度层和高尺度层输入时,通过激活层(Relu)对卷积层的参数进行非线性处理;卷积层(CONV),对前一层的输出特征图像进行特征抽取;正则化层(BN),当深度网络进行训练时,该层可以对网络参数进行正则化,防止训练过程中产生梯度爆炸。融合(SUM)层用于进行融合处理。图5为本发明实施例链式残差池化单元的组成结构示意图,如图5所示,图5中,池化层(Pooling),对输出特征图像做低频滤波处理;其他各个组件的处理与图4相同,相关参数可以通过训练网络进行自适应的调整。
另外,本发明实施例在训练过程中,直接导入VGG-19的预目标函数,可以节省训练时间。另外,本发明利用天空分割数据集(skyFinder)数据集进行训练与测试,训练集与测试集的比例可以为9:1。本发明使用随机梯度下降法对网络进行训练,学习率设置为1e-4。skyFinder数据集有46个场景,8万余帧图片;训练时,每次迭代过程会从每个场景随机抽取20帧图片进行训练,即每次迭代抽取900帧图片进行训练,训练100次迭代,会有90000帧次图像参与训练。而在参与训练的图像中,某些图像会被抽取多次,某些图像则不会被抽取。这样可以防止出现过拟合的情况。
步骤102、基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像。
可选的,本发明实施例分割获得所述第一特征区域之前,本发明实施例方法还包括:
将预设的损失函数作为目标函数,对所述深度卷积神经网络进行训练处理;
其中,所述损失函数为:所述Iij’为预测的所述第一静态图像的第一特征区域;所述Iij为所述第一特征区域的实际分割区域;所述H为图像矩阵的行数,所述W为图像矩阵的列数;所述i为像素的具体行坐标,j为像素的具体列坐标。
可选的,所述将第一静态图像和第一动态图像的图像帧进行融合之前,本发明实施例方法还包括:
对所述第一动态图像的图像帧序列进行分解;
根据所述第一动态图像的主色调,对所述第一静态图像的第二特征区域的图像帧进行颜色校正;
其中,所述第二特征区域包括:所述第一静态图像中除所述第一特征区域外的其他区域。
可选的,本发明实施例对所述第一静态图像的第二特征区域的图像帧进行颜色校正包括:
基于输出的二值掩膜,确定所述第一特征区域;
将第一动态图像分解为红绿蓝RGB通道;
计算分解的各通道的均值后,合成主色调参考图Iref;
对第一静态图像中的第二特征区域图像Igd预设尺度的高斯模糊处理后,获得模糊图像Iblur;
根据下式对所述第二特征区域图像Igd进行颜色校正:
Ical=Igd*α+Igd*(Iref/Iblur)*(1-α);
其中,α为校正比例系数,0≤α≤1。
可选的,本发明实施例第一静态图像包括天空区域的风景图像;第一特征区域包括天空区域;第一动态图像为动态天空图像。
需要说明的是,第一特征区域为天空区域时,本发明实施例第二特征区域可以是除天空区域外的其他区域,也可以是地面区域,可以由本领域技术人员根据图像融合的要求进行分析确定。
可选的,本发明实施例将第一静态图像和第一动态图像的图像帧进行融合包括:将所述第一静态图像和所述第一动态图像的图像帧,通过拉普拉斯金字塔进行融合。
需要说明的是,拉普拉斯金字塔融合方法是将待融合的两帧图像分别做拉普拉斯金字塔分解,且分解层数相同。二值掩膜图像做高斯金字塔分解,分解层数与拉普拉斯金字塔一致;然后在每一层,将对应的待融合图像按该层的掩膜图像进行比例融合,融合公式如下:
其中,l代表金字塔层数,分别代表该层的待融合图像I1和I2,以及对应的掩膜图像Mask;各层图像融合后,将其进行拉普拉斯金字塔重构,最后得到融合结果;图6为本发明实施例融合处理的流程示意图,如图6所示,包括:待融合图像1(可以是第一静态图像)和待融合图像2(可以是第一动态图像)分别拉普拉斯金字塔进行分解处理,二值掩膜图像通过高斯金字塔分解;图像各层按二值掩膜进行图像比例融合;对融合的各层图像,采用拉普拉斯金字塔重构后,输出融合获得的图像。
图7为本发明实施例图像处理的装置的结构框图,如图7所示,包括:分割模块701和融合模块702;其中,
分割模块701用于:分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;
可选的,本发明实施例分割模块701用于分割第一静态图像中的第一特征区域包括:
通过预设的深度卷积神经网络对所述第一静态图像进行处理,从所述第一静态图像中分割出所述第一特征区域。
可选的,本发明实施例分割模块701具体用于:
基于视觉几何组VGG-19预训练网络提取所述第一静态图像两个或两个以上不同尺度的语义特征层;
采用预设的优化网络RefineNet,对提取的所有语义特征层进行学习;
通过所述优化网络将学习获得的各尺度下的特征进行合并和插值处理;
通过合并和插值处理后的特征进行所述优化网络的训练,以对所述第一静态图像的第一特征区域进行预测和分割,并通过二值掩膜输出分割出的所述第一特征区域。
需要说明的是,提取所述第一静态图像语义特征层包括提取第一静态图像不同尺度下的语义特征层本领域技术人员可以根据相关理论确定各个尺度;例如,将第一静态图像输入VGG-19网络,并从中获得第4、8、12、16卷积层所输出的特征,作为1/2尺度,1/4尺度,1/8尺度和1/16尺度的语义特征层,传送到RefineNet中进行处理。
可选的,本发明实施例优化网络包括以下部分或全部单元:残差卷积单元、融合单元和链式残差池化单元。
需要说明的是,本发明实施例网络RefineNet主要由残差卷积单元(Residualconvuint)、融合单元(Fusion)和链式残差池化单元(Chain residual pooling)构成。不同尺度的特征分别经过残差卷积单元,可以提取对应尺度下的全局特征,然后进入融合单元进行不同尺度的特征融合,最后经过链式残差池化层提取低频背景的语义特征,输出大尺度下的语义特征。
融合模块用于:基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像。
可选的,本发明实施例装置还包括误差处理单元703,用于:
将预设的损失函数作为目标函数,对所述深度卷积神经网络进行训练处理;
可选的,本发明实施例装置还包括校正单元704,用于:
对所述第一动态图像的图像帧序列进行分解;
根据所述第一动态图像的主色调,对所述第一静态图像的第二特征区域的图像帧进行颜色校正。
可选的,本发明实施例校正单元用于对所述第一静态图像的第二特征区域的图像帧进行颜色校正包括:
基于输出的二值掩膜,确定所述第一特征区域;
将第一动态图像分解为红绿蓝RGB通道;
计算分解的各通道的均值后,合成主色调参考图Iref;
对第一静态图像中的第二特征区域图像Igd预设尺度的高斯模糊处理后,获得模糊图像Iblur;
根据下式对所述第二特征区域图像Igd进行颜色校正:
Ical=Igd*α+Igd*(Iref/Iblur)*(1-α);
其中,α为校正比例系数,0≤α≤1。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述图像处理的方法。
以下通过应用示例对本发明实施例方法进行清楚详细的说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。
应用示例
图8为本发明应用示例图像处理过程示意图,如图8所示,本发明应用示例可以将输入的带天空区域的静态风景图像(第一静态图像),进行天空区域(第一特征区域)分割,将分割出的天空区域用二值掩膜的方式输出。同时,对动态天空图像(第一动态图像)的图像帧序列进行分解,并参考静态风景图像的天空区域的主色调进行颜色校正。将输入的动态天空图像的图像帧与静态风景图像,以二值掩膜为参考,进行拉普拉斯金字塔融合。最后将融合的各图像帧序列合成为动态帧序列,达到让静态风景图“动起来”的目的。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (9)
1.一种图像处理的方法,其特征在于,包括:
分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;
基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像;
所述将第一静态图像和第一动态图像的图像帧进行融合之前,所述方法还包括:
对所述第一动态图像的图像帧序列进行分解;
基于输出的二值掩膜,确定所述第一特征区域;
将所述第一动态图像分解为红绿蓝RGB通道;
计算分解的各通道的均值后,合成主色调参考图Iref;
对所述第一静态图像中的第二特征区域图像Igd预设尺度的高斯模糊处理后,获得模糊图像Iblur;
根据下式对所述第二特征区域图像Igd进行颜色校正:
Ical=Igd*α+Igd*(Iref/Iblur)*(1-α);
其中,所述第二特征区域包括:所述第一静态图像中除所述第一特征区域外的其他区域;α为校正比例系数,0≤α≤1。
2.根据权利要求1所述的方法,其特征在于,所述分割第一静态图像中的第一特征区域包括:
通过预设的深度卷积神经网络对所述第一静态图像进行处理,从所述第一静态图像中分割出所述第一特征区域。
3.根据权利要求2所述的方法,其特征在于,所述通过预设的深度卷积神经网络对所述第一静态图像进行处理包括:
基于视觉几何组VGG-19预训练网络提取所述第一静态图像两个或两个以上不同尺度的语义特征层;
采用预设的优化网络RefineNet,对提取的所有语义特征层进行学习;
通过所述优化网络将学习获得的各尺度下的特征进行合并和插值处理;
通过合并和插值处理后的特征进行所述优化网络的训练,以对所述第一静态图像的第一特征区域进行预测和分割,并通过二值掩膜输出分割出的所述第一特征区域。
5.一种图像处理的装置,其特征在于,包括:分割模块、融合模块和校正单元;其中,
分割模块用于:分割第一静态图像中的第一特征区域,并将分割出的第一特征区域通过二值掩膜输出;
融合模块用于:基于输出的二值掩膜,将第一静态图像和第一动态图像的图像帧进行融合,获得第二动态图像;
校正单元,用于:
对所述第一动态图像的图像帧序列进行分解;
基于输出的二值掩膜,确定所述第一特征区域;
将第一动态图像分解为红绿蓝RGB通道;
计算分解的各通道的均值后,合成主色调参考图Iref;
对第一静态图像中的第二特征区域图像Igd预设尺度的高斯模糊处理后,获得模糊图像Iblur;
根据下式对所述第二特征区域图像Igd进行颜色校正:
Ical=Igd*α+Igd*(Iref/Iblur)*(1-α);
其中,所述第二特征区域包括:所述第一静态图像中除所述第一特征区域外的其他区域;α为校正比例系数,0≤α≤1。
6.根据权利要求5所述的装置,其特征在于,所述分割模块用于分割第一静态图像中的第一特征区域包括:
通过预设的深度卷积神经网络对所述第一静态图像进行处理,从所述第一静态图像中分割出所述第一特征区域。
7.根据权利要求6所述的装置,其特征在于,所述分割模块具体用于:
基于视觉几何组VGG-19预训练网络提取所述第一静态图像两个或两个以上不同尺度的语义特征层;
采用预设的优化网络RefineNet,对提取的所有语义特征层进行学习;
通过所述优化网络将学习获得的各尺度下的特征进行合并和插值处理;
通过合并和插值处理后的特征进行所述优化网络的训练,以对所述第一静态图像的第一特征区域进行预测和分割,并通过二值掩膜输出分割出的所述第一特征区域。
9.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~4中任一项所述的图像处理的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847581.0A CN109003282B (zh) | 2018-07-27 | 2018-07-27 | 一种图像处理的方法、装置及计算机存储介质 |
US16/399,683 US10929720B2 (en) | 2018-07-27 | 2019-04-30 | Image processing method, image processing apparatus, and computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847581.0A CN109003282B (zh) | 2018-07-27 | 2018-07-27 | 一种图像处理的方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109003282A CN109003282A (zh) | 2018-12-14 |
CN109003282B true CN109003282B (zh) | 2022-04-29 |
Family
ID=64597695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810847581.0A Active CN109003282B (zh) | 2018-07-27 | 2018-07-27 | 一种图像处理的方法、装置及计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10929720B2 (zh) |
CN (1) | CN109003282B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019868A (zh) * | 2019-05-31 | 2020-12-01 | 广州虎牙信息科技有限公司 | 人像分割方法、装置及电子设备 |
CN110363171A (zh) * | 2019-07-22 | 2019-10-22 | 北京百度网讯科技有限公司 | 天空区域预测模型的训练方法和识别天空区域的方法 |
CN110458815B (zh) * | 2019-08-01 | 2023-05-30 | 阿波罗智能技术(北京)有限公司 | 自动驾驶有雾场景检测的方法及装置 |
US11182903B2 (en) * | 2019-08-05 | 2021-11-23 | Sony Corporation | Image mask generation using a deep neural network |
CN111079761B (zh) * | 2019-11-05 | 2023-07-18 | 北京航空航天大学青岛研究院 | 图像处理方法、装置及计算机存储介质 |
CN113382153B (zh) * | 2020-02-25 | 2022-11-22 | 北京小米移动软件有限公司 | 显示图像的方法和装置、电子设备、存储介质 |
CN111353966B (zh) * | 2020-03-03 | 2024-02-09 | 南京一粹信息科技有限公司 | 基于全变分深度学习的图像融合方法及其应用与系统 |
CN111402181A (zh) * | 2020-03-13 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 图像融合方法、装置及计算机可读存储介质 |
CN111597992B (zh) * | 2020-05-15 | 2023-04-18 | 哈尔滨工业大学 | 一种基于视频监控的场景物体异常的识别方法 |
CN111898608B (zh) * | 2020-07-04 | 2022-04-26 | 西北工业大学 | 一种基于边界预测的自然场景多语言文字检测方法 |
CN111754396B (zh) * | 2020-07-27 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 脸部图像处理方法、装置、计算机设备和存储介质 |
CN112036284B (zh) * | 2020-08-25 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112257759A (zh) * | 2020-09-27 | 2021-01-22 | 华为技术有限公司 | 一种图像处理的方法以及装置 |
CN112584076B (zh) * | 2020-12-11 | 2022-12-06 | 北京百度网讯科技有限公司 | 视频的插帧方法、装置及电子设备 |
CN112529914B (zh) * | 2020-12-18 | 2021-08-13 | 北京中科深智科技有限公司 | 一种实时头发分割方法和系统 |
CN113643318B (zh) * | 2021-06-30 | 2023-11-24 | 深圳市优必选科技股份有限公司 | 图像分割方法、图像分割装置及终端设备 |
CN113486271A (zh) * | 2021-07-06 | 2021-10-08 | 网易(杭州)网络有限公司 | 一种图像主色调的确定方法、装置以及电子终端 |
CN113723278B (zh) * | 2021-08-27 | 2023-11-03 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113807367B (zh) * | 2021-09-17 | 2023-06-16 | 平安科技(深圳)有限公司 | 图像特征的提取方法、装置、设备及存储介质 |
CN114581347B (zh) * | 2022-01-24 | 2024-03-12 | 中国科学院空天信息创新研究院 | 无参考影像的光学遥感空谱融合方法、装置、设备及介质 |
CN117333586A (zh) * | 2023-11-30 | 2024-01-02 | 浙江口碑网络技术有限公司 | 一种图像处理方法及装置、存储介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103189899A (zh) * | 2010-11-08 | 2013-07-03 | 株式会社Ntt都科摩 | 对象显示装置以及对象显示方法 |
CN104811797A (zh) * | 2015-04-15 | 2015-07-29 | 广东欧珀移动通信有限公司 | 一种视频处理的方法及移动终端 |
CN107045722A (zh) * | 2017-03-27 | 2017-08-15 | 西安电子科技大学 | 融合静态信息与动态信息的视频序列分割方法 |
CN107563349A (zh) * | 2017-09-21 | 2018-01-09 | 电子科技大学 | 一种基于VGGNet的人数估计方法 |
CN107680678A (zh) * | 2017-10-18 | 2018-02-09 | 北京航空航天大学 | 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统 |
CN107730528A (zh) * | 2017-10-28 | 2018-02-23 | 天津大学 | 一种基于grabcut算法的交互式图像分割与融合方法 |
CN107909552A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 基于水下先验约束的图像复原方法 |
CN107958458A (zh) * | 2016-10-17 | 2018-04-24 | 京东方科技集团股份有限公司 | 图像分割方法、图像分割系统及包括其的设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6453069B1 (en) * | 1996-11-20 | 2002-09-17 | Canon Kabushiki Kaisha | Method of extracting image from input image using reference image |
US10203762B2 (en) * | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
US10445921B1 (en) * | 2018-06-13 | 2019-10-15 | Adobe Inc. | Transferring motion between consecutive frames to a digital image |
-
2018
- 2018-07-27 CN CN201810847581.0A patent/CN109003282B/zh active Active
-
2019
- 2019-04-30 US US16/399,683 patent/US10929720B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103189899A (zh) * | 2010-11-08 | 2013-07-03 | 株式会社Ntt都科摩 | 对象显示装置以及对象显示方法 |
CN104811797A (zh) * | 2015-04-15 | 2015-07-29 | 广东欧珀移动通信有限公司 | 一种视频处理的方法及移动终端 |
CN107958458A (zh) * | 2016-10-17 | 2018-04-24 | 京东方科技集团股份有限公司 | 图像分割方法、图像分割系统及包括其的设备 |
CN107045722A (zh) * | 2017-03-27 | 2017-08-15 | 西安电子科技大学 | 融合静态信息与动态信息的视频序列分割方法 |
CN107563349A (zh) * | 2017-09-21 | 2018-01-09 | 电子科技大学 | 一种基于VGGNet的人数估计方法 |
CN107680678A (zh) * | 2017-10-18 | 2018-02-09 | 北京航空航天大学 | 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统 |
CN107730528A (zh) * | 2017-10-28 | 2018-02-23 | 天津大学 | 一种基于grabcut算法的交互式图像分割与融合方法 |
CN107909552A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 基于水下先验约束的图像复原方法 |
Non-Patent Citations (4)
Title |
---|
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation;Guosheng Lin等;《arXiv:1611.06612v3 [cs.CV]》;20161125;摘要、正文第1-3节、图2、图3 * |
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION;Karen Simonyan等;《arXiv:1409.1556v6 [cs.CV]》;20150410;1-14 * |
基于深度学习的图像描述研究;杨楠等;《红外与激光工程》;20180225;第47卷(第02期);18-25 * |
基于颜色特征分析的色偏检测与校正算法研究;户尊兰;《中国优秀硕士学位论文全文数据库_信息科技辑》;20170815;I138-454 * |
Also Published As
Publication number | Publication date |
---|---|
CN109003282A (zh) | 2018-12-14 |
US20200034667A1 (en) | 2020-01-30 |
US10929720B2 (en) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109003282B (zh) | 一种图像处理的方法、装置及计算机存储介质 | |
Zhang et al. | Single image defogging based on multi-channel convolutional MSRCR | |
Zhang et al. | Joint transmission map estimation and dehazing using deep networks | |
Hai et al. | R2rnet: Low-light image enhancement via real-low to real-normal network | |
US10593021B1 (en) | Motion deblurring using neural network architectures | |
Jiang et al. | Unsupervised decomposition and correction network for low-light image enhancement | |
Yin et al. | Color transferred convolutional neural networks for image dehazing | |
CN111915525B (zh) | 基于改进深度可分离生成对抗网络的低照度图像增强方法 | |
Panetta et al. | Tmo-net: A parameter-free tone mapping operator using generative adversarial network, and performance benchmarking on large scale hdr dataset | |
Xiao et al. | Single image dehazing based on learning of haze layers | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
Liu et al. | PD-GAN: perceptual-details gan for extremely noisy low light image enhancement | |
CN114038006A (zh) | 一种抠图网络训练方法及抠图方法 | |
US20220156891A1 (en) | Methods and systems for deblurring blurry images | |
Guo et al. | Joint raindrop and haze removal from a single image | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
CN113284061A (zh) | 一种基于梯度网络的水下图像增强方法 | |
Lv et al. | Low-light image enhancement via deep Retinex decomposition and bilateral learning | |
Wu et al. | LiTMNet: A deep CNN for efficient HDR image reconstruction from a single LDR image | |
Song et al. | Multistage curvature-guided network for progressive single image reflection removal | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
TW202221639A (zh) | 顯著圖產生方法及使用該方法的影像處理系統 | |
CN111815529A (zh) | 一种基于模型融合和数据增强的低质图像分类增强方法 | |
Zeng et al. | \mathrm 3D^ 2Unet 3 D 2 U net: 3D Deformable Unet for Low-Light Video Enhancement | |
CN111161189A (zh) | 一种基于细节弥补网络的单幅图像再增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |