CN105979244A - 一种基于深度学习的2d图像转3d图像的方法及系统 - Google Patents

一种基于深度学习的2d图像转3d图像的方法及系统 Download PDF

Info

Publication number
CN105979244A
CN105979244A CN201610377597.0A CN201610377597A CN105979244A CN 105979244 A CN105979244 A CN 105979244A CN 201610377597 A CN201610377597 A CN 201610377597A CN 105979244 A CN105979244 A CN 105979244A
Authority
CN
China
Prior art keywords
depth
degree
relation
convolutional neural
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610377597.0A
Other languages
English (en)
Inventor
赵天奇
渠源
张阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing cohesion Technology Co., Ltd.
Original Assignee
Twelve Dimensional (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Twelve Dimensional (beijing) Technology Co Ltd filed Critical Twelve Dimensional (beijing) Technology Co Ltd
Priority to CN201610377597.0A priority Critical patent/CN105979244A/zh
Publication of CN105979244A publication Critical patent/CN105979244A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于深度学习的2D图像转3D图像的方法及系统。该方法包括:获取2D单视差图像的像素单元信息;利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。本发明避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷,实现了自动将2D图像转换为3D图像。

Description

一种基于深度学习的2D图像转3D图像的方法及系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于深度学习的2D图像转3D图像的方法及系统。
背景技术
近年来,三维显示技术已经成为当前社会中的热点技术,被应用在生活的各种场景中。同时,由于3D技术的兴起,随之而来的2D图像转3D图像的需求也不断增加,但是,在将2D转3D的过程中,通常采用人工处理方式进行,由人工对图像帧进行roto分割、深度信息生成、人工补图等操作,人工将原始2d图像转成深度图像,需要roto后,把图像中的一个roto圈中内容加入深度信息,这个深度信息一般是靠感觉加入,因而深度生成结果倾向于生成深度的人的主观观看感受。对于商业成果的展示,经常要做多次检查及修正。同时,人工处理图像的成本过高。
在深度信息生成中,随着深度学习发展迅速,在各个领域都出现了令人欣喜的成果,越来越多的研究采用深度卷积神经网络(Convolutional Neural Networks,CNN)实现深度估计。传统的深度卷积神经网络如AlexNet,vggNet等都是全连接深度卷积神经网络,由卷积层和全连接层构成,通常都是将图像以标准尺寸作为输入,产生非空间排布输出。由于2D转3D目的是通过任意尺寸的单视差2D图像,自动生成3D深度信息图像,因此非空间排布的输出结果无法实现2D转3D的实际应用。
传统深度图像信息输入的应用中,通常是以双视差图像作为输入,输出是深度信息估计结果。但是,目前的2D转3D应用中,是通过输入单视差图片和深度图像信息,进行立体显示,所以此类应用无法实现2D转3D的需求。
发明内容
本发明所要解决的技术问题是:现有的人工由2D单视差图像生成深度图像结果不准确、成本高的问题。
为解决上述技术问题,本发明提出了一种基于深度学习的2D图像转3D图像的方法,该基于深度学习的2D图像转3D图像的方法包括:
获取2D单视差图像的像素单元信息;
利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;
获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;
根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;
利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;
将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。
可选地,所述获取2D单视差图像的像素单元信息包括:
将所述2D单视差图像分割为多个大小相同的像素块;
对各个像素块进行高斯模糊处理获取像素单元信息;
其中,所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。
可选地,所述利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息包括:
利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。
可选地,所述获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系包括:
利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。
可选地,所述根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络包括:
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分,经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分;
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络,经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。
本发明还提出了一种基于深度学习的2D图像转3D图像的系统,该系统包括:
像素单元信息获取单元,用于获取2D单视差图像的像素单元信息;
一元信息获取单元,用于利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;
相邻关系获取单元,用于获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;
神经网络训练单元,用于根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;
单元像素块预测单元,用于利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;
3D图像获取单元,用于将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。
可选地,所述像素单元信息获取单元进一步用于:
将所述2D单视差图像分割为多个大小相同的像素块;
对各个像素块进行高斯模糊处理获取像素单元信息;
其中,所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。
可选地,所述一元信息获取单元进一步用于:
利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。
可选地,所述相邻关系获取单元进一步用于:
利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。
可选地,所述神经网络训练单元进一步用于:
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分,经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分;
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络,经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。
本发明提供的基于深度学习的2D图像转3D图像的方法及系统,基于传统深度卷积神经网络,构建出多尺度深度全卷积神经网络,基于单视差图像作为输入,进行深度信息估计,将深度信息输入着色器获取3D图像,避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷,实现了自动将2D图像转换为3D图像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的基于深度学习的2D图像转3D图像的方法的流程示意图;
图2是本发明一个实施例的获取像素单元信息的原理图;
图3是本发明一个实施例的获取一元信息的原理图;
图4a是本发明一个实施例的预训练多尺度深度全卷积神经网络的效果图;
图4b是本发明一个实施例的微调整多尺度深度全卷积神经网络的效果图;
图5是本发明一个实施例的基于深度学习的2D图像转3D图像的系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例基于使用ImageNet图像数据库预训练好的VGG16模型进行开发,构造出全卷积深度神经网络,网络由七个卷积层构成,前五个卷积层直接采用VGG16模型中的前五层,添加了一些卷积层,以实现更深的全卷积神经网络。
图1是本发明一个实施例的基于深度学习的2D图像转3D图像的方法的流程示意图。如图1所示,本发明实施例方法包括:
S11:获取2D单视差图像的像素单元信息;
S12:利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;
S13:获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;
S14:根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;
S15:利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;
S16:将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。
本发明实施例的基于深度学习的2D图像转3D图像的方法,基于传统深度卷积神经网络,构建出多尺度深度全卷积神经网络,基于单视差图像作为输入,进行深度信息估计,将深度信息输入着色器获取3D图像,避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷,实现了自动将2D图像转换为3D图像。
在本发明实施例的一种优选的实施方式中,与图1中的方法类似,步骤S11具体包括:
将所述2D单视差图像分割为多个大小相同的像素块;
对各个像素块进行高斯模糊处理获取像素单元信息;
其中,所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。
图2是本发明一个实施例的获取像素单元信息的原理图。如图2所示,本发明实施例对于网络训练的目的是推断每个像素的深度在单个图像中描绘的一个场景,因此可以假设图像由大小均匀的像素区域构成。原始2D单视差图像大小比如是640×480(如图2中第一幅图),按20×20的尺寸把原图像划分成相同大小的像素块(如图2中的第二幅图),对各个像素块进行高斯模糊处理,再取各个像素块的中心像素的深度值,组成32×24的图像(如图2中的第三幅图),由此得到一个方块深度值矩阵。
图1中的步骤S12具体包括:
利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。
生成一元信息的前部分网络结构(即多尺度深度全卷积神经网络的第一部分)由五个卷积层(conv)和最大池化层(Max-pooling)交替构成,如图2所示,具体流程如下:
第一层:卷积层conv_1,卷积核大小为3×3,步长stride为1;
第二层:最大池化层,池化区间为2×2,步长stride为2;
第三层:卷积层conv_2,卷积核大小为3×3,步长stride为1;
第四层:最大池化层,池化区间为2×2,步长stride为2;
第五层:卷积层conv_3,卷积核大小为3×3,步长stride为1;
第六层:最大池化层,池化区间为2×2,步长stride为2;
第七层:卷积层conv_4,卷积核大小为3×3,步长stride为1;
第八层:最大池化层,池化区间为2×2,步长stride为2;
第九层:卷积层conv_5,卷积核大小为3×3,步长stride为1;
第十层:最大池化层,池化区间为2×2,步长stride为2。
通过前部分全卷积神经网络,将尺寸为480×640,维度为3的输入图像提取为尺寸为32×42,维度为512的特征图。
图1中的步骤S13具体包括:
利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。
需要说明的是,本发明实施例将深度卷积神经网络与连续条件随机场(CRF)进行结合,解决了深度连续性问题。在对图像进行全卷积中,虽然每个像素单元都参与计算,但是相邻像素单元间的连续性并没有得到考虑。本发明考虑到马尔可夫独立性假设,其主要观点是,对一个节点,在给定他所连接的所有节点的前提下,他与外接是独立的。也就是说,一个像素单元的连续性只与和它相邻的像素单元有关系,和其他的像素单元的关系是独立的。因此,本发明基于隐马尔可夫模型的线性条件随机场(CRF)提取输入图像相邻像素单元的颜色直方图关系、luv色彩空间关系及纹理关系,作为多尺度的一个输入,解决每个像素单元和其相邻像素单元的特征连续性问题,构建出多尺度深度全卷积神经网络。
图1中的步骤S14具体包括:
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分,经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分;
后部分网络(即多尺度深度全卷积神经网络的第二部分)的具体结构如下:
第一层:卷积层conv_1,卷积核大小为3×3,步长stride为1;
第二层:卷积层conv_2,卷积核大小为3×3,步长stride为1;
第三层:单元像素池化层,将尺寸为32×42维度为512的输入向量合并成1344;
第四层:卷积层conv_3,卷积核大小为1×1,步长stride为1;
第五层:卷积层conv_4,卷积核大小为1×1,步长stride为1;
第六层:逻辑层logistic,把激活函数作为逻辑函数,如下式:
f(x)=(1+e-x)-1
第七层:卷积层conv_5,卷积核大小为1×1,步长stride为1;
第八层:CRF损耗层。
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络,经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。
本发明构建的多尺度深度全卷积神经网络基于反向传播算法,将训练分为预训练(Pretrain)和微调整训练(Finetune)两个部分,在预训练中,本发明实施例首先经过VGG16的卷积层,提取输入图像的一元信息,随后将一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系进行结合,传入后面的网络。这样在提取一元信息的网络中,不需要进行反向传递,节省了修改生成一元信息的网络的权重时间。而在微调整网络中,将原图作为输入,网络进行到一元特征阶段将其他特征信息与之结合,这样,在进行反向传播中,用来生成一元信息的网络部分权重也会被修正,很好的节省了整体训练时间,提高了训练效率。
本发明实施例采用60291张单视差图像及深度信息图作为训练集(train),10000张单视差图像及深度信息图作为检验集(val),经过预训练20轮(如图4a),微调整训练15轮(如图4b)后,错误率(regressionerror)降到10以下,并没有发生过拟合现象。
本发明实施例网络训练中采用反向传播算法,在前向传播中,网络训练的误差采用平方误差代价函数进行评定,在取得总误差后,对误差进行平均,可以得到每轮的误差率。总误差的平均值计算公式如下:
E N = 1 N · 1 2 · Σ n = 1 N Σ k = 1 c ( t k n - y k ) 2
其中,c代表最终输出的像素单元总数,n代表训练的总轮数,由此表示第k个像素单元在第n轮的训练后深度值,yk表示第k个像素单元输入时的深度值,EN表示总误差的平均值。
因为在全部训练集上的误差只是每个训练样本的误差的总和,所以只讨论对于一个误差样本的反向传播,对于第n个样本的误差计算公式如下:
E n = 1 2 Σ k = 1 c ( t k n - y k ) 2 = 1 2 | | t n - y | | 2 2
一般,为了在梯度下降过程中增加收敛性,数据集数据先进性归一化处理。根据反向传播规则计算代价损失E关于网络中每一个权值的偏导数,偏导数的计算公式如下:
xε=f(uε)
uε=Wεxε-1+bε
在反向传播中,反向传播回来的误差可以看作是每个神经元的基的灵敏度,即b变化多少,误差会随着变化多少,也就是误差对基的变化率,即导数,计算公式如下:
∂ E ∂ b = ∂ E ∂ u · ∂ u ∂ b = δ
通过在每一层的误差修正神经元的权重,实现权重更新。将更新后的权重保存为训练模型。由于所以也就是说基的灵敏度和误差E对一个节点的全部输入u的导数是相等的。由于输出层每个神经元的灵敏度不同,所以用点乘来修正神经元灵敏度;反向传播计算公式如下:
δε=(Wε+1ε+1.*(uε)
最后,对每个神经元δ规则进行权值更新,即对给定的神经元,得到它的输入,然后用这个神经元的δ进行缩放。以向量形式表述为,对于第i层,误差对于该层每个权值的导数是该层的输入与该层灵敏度的叉乘。然后得到偏导数乘以一个负学习率就是该层的神经元的权值更新,对于每一个权值W都有一个特定的学习率η,计算公式如下:
∂ E ∂ W l = x l - 1 ( δ l ) T
ΔW l = - η ∂ E ∂ W l
本发明实施例利用训练网络训练出的网络模型,将原始2D图像作为输入,从网络第一层开始逐层前进,直至网络最后一层,输出深度图。由于采用了单元像素块的方式进行深度预测,预测出的深度图像信息由尺寸相等的方块像素信息构成。在实际应用中,需要将单元像素块深度图转换成平滑连续的深度图像才能进行2D转3D应用。因此,在网络预测结束后,将单元像素块深度图输入着色器(Anat Levin研究的Colorization Using Optimization)进行转换,获得转换后的深度图像。
图5是本发明一个实施例的基于深度学习的2D图像转3D图像的系统的结构示意图。如图5所示,本发明实施例的系统包括:像素单元信息获取单元51、一元信息获取单元52、相邻关系获取单元53、神经网络训练单元54、单元像素块预测单元55和3D图像获取单元56;具体地:
像素单元信息获取单元51,用于获取2D单视差图像的像素单元信息;
一元信息获取单元52,用于利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;
相邻关系获取单元53,用于获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;
神经网络训练单元54,用于根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;
单元像素块预测单元55,用于利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;
3D图像获取单元56,用于将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。
在一种可选的实施方式中,像素单元信息获取单元51进一步用于:
将所述2D单视差图像分割为多个大小相同的像素块;
对各个像素块进行高斯模糊处理获取像素单元信息;
其中,所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。
进一步地,一元信息获取单元52用于:
利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。
进一步地,相邻关系获取单元53用于:
利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。
进一步地,神经网络训练单元54用于:
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分,经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分;
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络,经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。
本实施例的基于深度学习的2D图像转3D图像的系统可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
本发明提供的基于深度学习的2D图像转3D图像的方法及系统,基于传统深度卷积神经网络,构建出多尺度深度全卷积神经网络,基于单视差图像作为输入,进行深度信息估计,将深度信息输入着色器获取3D图像,避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷,实现了自动将2D图像转换为3D图像。
需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的2D图像转3D图像的方法,其特征在于,包括:
获取2D单视差图像的像素单元信息;
利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;
获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;
根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;
利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;
将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。
2.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法,其特征在于,所述获取2D单视差图像的像素单元信息包括:
将所述2D单视差图像分割为多个大小相同的像素块;
对各个像素块进行高斯模糊处理获取像素单元信息;
其中,所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。
3.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法,其特征在于,所述利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息包括:
利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。
4.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法,其特征在于,所述获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系包括:
利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。
5.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法,其特征在于,所述根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络包括:
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分,经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分;
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络,经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。
6.一种基于深度学习的2D图像转3D图像的系统,其特征在于,包括:
像素单元信息获取单元,用于获取2D单视差图像的像素单元信息;
一元信息获取单元,用于利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息;
相邻关系获取单元,用于获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;
神经网络训练单元,用于根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络;
单元像素块预测单元,用于利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图;
3D图像获取单元,用于将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。
7.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统,其特征在于,所述像素单元信息获取单元进一步用于:
将所述2D单视差图像分割为多个大小相同的像素块;
对各个像素块进行高斯模糊处理获取像素单元信息;
其中,所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。
8.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统,其特征在于,所述一元信息获取单元进一步用于:
利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。
9.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统,其特征在于,所述相邻关系获取单元进一步用于:
利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。
10.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统,其特征在于,所述神经网络训练单元进一步用于:
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分,经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分;
根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络,经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。
CN201610377597.0A 2016-05-31 2016-05-31 一种基于深度学习的2d图像转3d图像的方法及系统 Pending CN105979244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610377597.0A CN105979244A (zh) 2016-05-31 2016-05-31 一种基于深度学习的2d图像转3d图像的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610377597.0A CN105979244A (zh) 2016-05-31 2016-05-31 一种基于深度学习的2d图像转3d图像的方法及系统

Publications (1)

Publication Number Publication Date
CN105979244A true CN105979244A (zh) 2016-09-28

Family

ID=57009913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610377597.0A Pending CN105979244A (zh) 2016-05-31 2016-05-31 一种基于深度学习的2d图像转3d图像的方法及系统

Country Status (1)

Country Link
CN (1) CN105979244A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600583A (zh) * 2016-12-07 2017-04-26 西安电子科技大学 基于端到端神经网络的视差图获取方法
CN106612427A (zh) * 2016-12-29 2017-05-03 浙江工商大学 一种基于卷积神经网络的时空一致性深度图序列的生成方法
CN106991666A (zh) * 2017-02-24 2017-07-28 中国科学院合肥物质科学研究院 一种适用于多尺寸图片信息的病害图像识别方法
CN107018400A (zh) * 2017-04-07 2017-08-04 华中科技大学 一种将2d视频转换成3d视频的方法
CN107067452A (zh) * 2017-02-20 2017-08-18 同济大学 一种基于全卷积神经网络的电影2d转3d方法
CN107492122A (zh) * 2017-07-20 2017-12-19 深圳市佳创视讯技术股份有限公司 一种基于多层深度平面的深度学习视差估计方法
CN107622244A (zh) * 2017-09-25 2018-01-23 华中科技大学 一种基于深度图的室内场景精细化解析方法
WO2018068755A1 (en) * 2016-10-14 2018-04-19 Marvel Digital Limited Method for improving quality of 2d-to-3d automatic conversion by using machine learning techniques
CN107992848A (zh) * 2017-12-19 2018-05-04 北京小米移动软件有限公司 获取深度图像的方法、装置及计算机可读存储介质
CN108010113A (zh) * 2017-11-21 2018-05-08 成都品果科技有限公司 一种基于像素着色器的深度学习模型执行方法
WO2018082084A1 (zh) * 2016-11-07 2018-05-11 中国科学院自动化研究所 融合全卷积神经网络和条件随机场的脑肿瘤自动分割方法
CN108205803A (zh) * 2017-07-19 2018-06-26 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
WO2018119808A1 (zh) * 2016-12-29 2018-07-05 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN108596120A (zh) * 2018-04-28 2018-09-28 北京京东尚科信息技术有限公司 一种基于深度学习的目标检测方法和装置
CN108876870A (zh) * 2018-05-30 2018-11-23 福州大学 一种考虑纹理复杂性的域映射GANs图像着色方法
CN108921942A (zh) * 2018-07-11 2018-11-30 北京聚力维度科技有限公司 对图像进行2d转制3d的方法及装置
CN109685853A (zh) * 2018-11-30 2019-04-26 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
CN109977967A (zh) * 2019-03-06 2019-07-05 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN109996056A (zh) * 2019-05-08 2019-07-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595A (zh) * 2019-05-08 2019-08-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110291358A (zh) * 2017-02-20 2019-09-27 欧姆龙株式会社 形状估计装置
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110533663A (zh) * 2018-05-25 2019-12-03 杭州海康威视数字技术股份有限公司 一种图像视差确定方法、装置、设备及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040189796A1 (en) * 2003-03-28 2004-09-30 Flatdis Co., Ltd. Apparatus and method for converting two-dimensional image to three-dimensional stereoscopic image in real time using motion parallax
CN102509294A (zh) * 2011-11-08 2012-06-20 清华大学深圳研究生院 一种基于单幅图像的全局深度估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040189796A1 (en) * 2003-03-28 2004-09-30 Flatdis Co., Ltd. Apparatus and method for converting two-dimensional image to three-dimensional stereoscopic image in real time using motion parallax
CN102509294A (zh) * 2011-11-08 2012-06-20 清华大学深圳研究生院 一种基于单幅图像的全局深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FAYAO LIU ET AL.: "Deep Convolutional Neural Fields for Depth Estimation from a Single Image", 《COMPUTER VISION AND PATTERN RECOGNITION(CVPR), 2015 IEEE CONFERENCE ON》 *
FAYAO LIU ET AL.: "Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields", 《HTTPS:ARXIV.ORG/ABS/1502.07411》 *
田虎: "单目图像的深度估计", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595006B2 (en) 2016-10-14 2020-03-17 Marvel Digital Limited Method, system and medium for improving the quality of 2D-to-3D automatic image conversion using machine learning techniques
WO2018068755A1 (en) * 2016-10-14 2018-04-19 Marvel Digital Limited Method for improving quality of 2d-to-3d automatic conversion by using machine learning techniques
WO2018082084A1 (zh) * 2016-11-07 2018-05-11 中国科学院自动化研究所 融合全卷积神经网络和条件随机场的脑肿瘤自动分割方法
US10679352B2 (en) 2016-11-07 2020-06-09 Institute Of Automation, Chinese Academy Of Sciences Method for automatic segmentation of brain tumors merging full convolution neural networks with conditional random fields
CN106600583B (zh) * 2016-12-07 2019-11-01 西安电子科技大学 基于端到端神经网络的视差图获取方法
CN106600583A (zh) * 2016-12-07 2017-04-26 西安电子科技大学 基于端到端神经网络的视差图获取方法
US10542249B2 (en) * 2016-12-29 2020-01-21 Zhejiang Gongshang University Stereoscopic video generation method based on 3D convolution neural network
CN106612427A (zh) * 2016-12-29 2017-05-03 浙江工商大学 一种基于卷积神经网络的时空一致性深度图序列的生成方法
WO2018119808A1 (zh) * 2016-12-29 2018-07-05 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN106612427B (zh) * 2016-12-29 2018-07-06 浙江工商大学 一种基于卷积神经网络的时空一致性深度图序列的生成方法
CN107067452A (zh) * 2017-02-20 2017-08-18 同济大学 一种基于全卷积神经网络的电影2d转3d方法
CN110291358A (zh) * 2017-02-20 2019-09-27 欧姆龙株式会社 形状估计装置
CN110291358B (zh) * 2017-02-20 2022-04-05 欧姆龙株式会社 形状估计装置
US11036965B2 (en) 2017-02-20 2021-06-15 Omron Corporation Shape estimating apparatus
CN106991666B (zh) * 2017-02-24 2019-06-07 中国科学院合肥物质科学研究院 一种适用于多尺寸图片信息的病害图像识别方法
CN106991666A (zh) * 2017-02-24 2017-07-28 中国科学院合肥物质科学研究院 一种适用于多尺寸图片信息的病害图像识别方法
CN107018400A (zh) * 2017-04-07 2017-08-04 华中科技大学 一种将2d视频转换成3d视频的方法
CN108205803B (zh) * 2017-07-19 2020-12-25 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
CN108205803A (zh) * 2017-07-19 2018-06-26 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
CN107492122A (zh) * 2017-07-20 2017-12-19 深圳市佳创视讯技术股份有限公司 一种基于多层深度平面的深度学习视差估计方法
CN107622244B (zh) * 2017-09-25 2020-08-28 华中科技大学 一种基于深度图的室内场景精细化解析方法
CN107622244A (zh) * 2017-09-25 2018-01-23 华中科技大学 一种基于深度图的室内场景精细化解析方法
CN108010113B (zh) * 2017-11-21 2021-07-27 成都品果科技有限公司 一种基于像素着色器的深度学习模型执行方法
CN108010113A (zh) * 2017-11-21 2018-05-08 成都品果科技有限公司 一种基于像素着色器的深度学习模型执行方法
CN107992848B (zh) * 2017-12-19 2020-09-25 北京小米移动软件有限公司 获取深度图像的方法、装置及计算机可读存储介质
CN107992848A (zh) * 2017-12-19 2018-05-04 北京小米移动软件有限公司 获取深度图像的方法、装置及计算机可读存储介质
CN108596120A (zh) * 2018-04-28 2018-09-28 北京京东尚科信息技术有限公司 一种基于深度学习的目标检测方法和装置
CN110533663A (zh) * 2018-05-25 2019-12-03 杭州海康威视数字技术股份有限公司 一种图像视差确定方法、装置、设备及系统
CN110533663B (zh) * 2018-05-25 2022-03-04 杭州海康威视数字技术股份有限公司 一种图像视差确定方法、装置、设备及系统
CN108876870A (zh) * 2018-05-30 2018-11-23 福州大学 一种考虑纹理复杂性的域映射GANs图像着色方法
CN108876870B (zh) * 2018-05-30 2022-12-13 福州大学 一种考虑纹理复杂性的域映射GANs图像着色方法
CN108921942A (zh) * 2018-07-11 2018-11-30 北京聚力维度科技有限公司 对图像进行2d转制3d的方法及装置
CN109685853A (zh) * 2018-11-30 2019-04-26 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
CN109977967A (zh) * 2019-03-06 2019-07-05 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN109977967B (zh) * 2019-03-06 2020-12-25 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN109996056A (zh) * 2019-05-08 2019-07-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595B (zh) * 2019-05-08 2021-04-30 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN109996056B (zh) * 2019-05-08 2021-03-26 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595A (zh) * 2019-05-08 2019-08-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法

Similar Documents

Publication Publication Date Title
CN105979244A (zh) 一种基于深度学习的2d图像转3d图像的方法及系统
CN111046962B (zh) 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统
CN108510485B (zh) 一种基于卷积神经网络的无参照图像质量评估方法
CN105243670B (zh) 一种稀疏和低秩联合表达的视频前景对象精准提取方法
WO2017219263A1 (zh) 基于双向递归卷积神经网络的图像超分辨率增强方法
CN108830913B (zh) 基于用户颜色引导的语义级别线稿上色方法
Chen et al. Assessing four neural networks on handwritten digit recognition dataset (MNIST)
CN107274419A (zh) 一种基于全局先验和局部上下文的深度学习显著性检测方法
CN108090403A (zh) 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN107358575A (zh) 一种基于深度残差网络的单幅图像超分辨率重建方法
CN107609638A (zh) 一种基于线性解码器和插值采样优化卷积神经网络的方法
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN109920012A (zh) 基于卷积神经网络的图像着色系统及方法
CN107590786A (zh) 一种基于对抗学习网络的图像增强方法
CN110399518A (zh) 一种基于图卷积的视觉问答增强方法
CN110675462A (zh) 一种基于卷积神经网络的灰度图像彩色化方法
CN105678248A (zh) 基于深度学习的人脸关键点对齐算法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN107103285A (zh) 基于卷积神经网络的人脸深度预测方法
CN106846261A (zh) 基于卷积神经网络的水下图像处理方法
CN105787892A (zh) 一种基于机器学习的蒙特卡洛噪声去除方法
CN112580473A (zh) 一种融合运动特征的视频超分辨率重构方法
CN111179196A (zh) 一种基于分而治之的多分辨率深度网络图像去高光方法
CN114021704B (zh) 一种ai神经网络模型的训练方法及相关装置
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161215

Address after: 100024 Beijing City, Chaoyang District, Five Mile Bridge No. 1 Street, building 5, building 4, floor 1

Applicant after: Beijing cohesion Technology Co., Ltd.

Address before: 100024 Beijing City, Chaoyang District, Five Mile Bridge No. 1 Street, building 5, building 4, floor 1

Applicant before: Twelve dimensional (Beijing) Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928