CN107067452A - 一种基于全卷积神经网络的电影2d转3d方法 - Google Patents

一种基于全卷积神经网络的电影2d转3d方法 Download PDF

Info

Publication number
CN107067452A
CN107067452A CN201710089850.7A CN201710089850A CN107067452A CN 107067452 A CN107067452 A CN 107067452A CN 201710089850 A CN201710089850 A CN 201710089850A CN 107067452 A CN107067452 A CN 107067452A
Authority
CN
China
Prior art keywords
super
convolutional neural
neural networks
full convolutional
pixel region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710089850.7A
Other languages
English (en)
Inventor
尤鸣宇
朱江
沈春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710089850.7A priority Critical patent/CN107067452A/zh
Publication of CN107067452A publication Critical patent/CN107067452A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于全卷积神经网络的电影2D转3D方法,该方法包括如下步骤:(1)提取拍摄的电影2D视频中的每一帧2D图像;(2)对每一帧2D图像分别采用全卷积神经网络提取特征值并计算深度值;(3)对每一帧2D图像分别根据其深度值进行着色生成对应的3D图像;(4)将所有3D图像依次整合形成3D电影。与现有技术相比,本发明场景适应性强,深度估计质量高,计算快速,能够高效地用于各种场景下的电影2D转3D。

Description

一种基于全卷积神经网络的电影2D转3D方法
技术领域
本发明涉及一种电影2D转3D方法,尤其是涉及一种基于全卷积神经网络的电影2D转3D方法。
背景技术
3D视频是传统2D视频的扩展,通过增加图像深度信息,用户能够体验到富有立体感和临场感的视频内容。三维显示技术已经成为当前社会的热点技术,被应用在生活的各种场景中,具有重要的现实意义。3D内容贫乏及其高昂的拍摄成本是制约当前3D视频发展的主要因素。现有3D电影拍摄时需将两台摄影机架在一具可调角度的特制云台上,并以特定的夹角来拍摄。这对摄影师拍摄的要求较高,且工作量成倍增加,需要后期进行双素材的平衡处理,导致3D成本高而资源少。单幅图像2D转3D方法能够在较短时间内以较低成本将现有2D视频资源转换为可立体显示的3D视频,从而解决上述的问题。
2D转3D方法的核心任务是从2D图像中提取景物的深度信息。传统深度图像信息输入的应用中,通常以双视差图像作为输入,输出深度信息估计结果,但此类应用难以实现视频2D转3D的应用需求。所以通常需要通过输入单视差图片来进行立体显示,而目前的单目图像深度估计的方法大多基于几何模型或其他的视觉线索,使用手工标记的特征,这些都不适用于2D电影转3D电影的应用。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于全卷积神经网络的电影2D转3D方法。
本发明的目的可以通过以下技术方案来实现:
一种基于全卷积神经网络的电影2D转3D方法,该方法包括如下步骤:
(1)提取拍摄的电影2D视频中的每一帧2D图像;
(2)对每一帧2D图像分别采用全卷积神经网络提取特征值并计算深度值;
(3)对每一帧2D图像分别根据其深度值进行着色生成对应的3D图像;
(4)将所有3D图像依次整合形成3D电影。
所述的步骤(2)包括如下子步骤:
(201)将2D图像分隔成超像素,形成超像素图像;
(202)对超像素图像进行处理和计算得到所述的2D图像的一元部分输出和二元部分输出;
(203)根据2D图像的一元部分输出和二元部分输出进行深度估计得到深度值。
步骤(202)中具体为:
(a)将超像素图像输入至全卷积神经网络,得到多个卷积特征图;
(b)将卷积特征图进行超像素池化,进而得到该2D图像的一元部分输出;
(c)对超像素图像进行计算得到二元部分输出。
所述的全卷积神经网络包括多个依次级联的特征提取基本单元,每个特征提取单元包括依次连接的卷积层和池化层。
步骤(b)中超像素池化具体操作为:首先在卷积特征图上进行上采样操作,使得卷积特征图大小与原始2D图像大小相同,然后,对经过上采样操作后的卷积特征图中的每个超像素区域分别计算特征值的平均值,得到n维特征向量,n为超像素区域的个数,最后,将n维特征向量输入到一元部分计算单元进行计算得到一元部分输出矩阵Z,Z为n维行向量,向量中第p个元素记作Zp,Zp表示第p个超像素区域的一元部分计算值,p=1,2,……n。
步骤(c)具体为:
对于第i个超像素区域,考虑所有与其相邻的所有超像素区域,设其中一个与第i个超像素区域相邻的超像素区域记作第j个超像素区域,分别计算第i个超像素区域和第j个超像素区域之间的K种相似度,得到相似度向量其中i=1,2,……n,对每个超像素区域进行上述操作得到相似度向量,最后将所有相似度向量输入到二元部分计算单元计算得到二元部分输出矩阵R,R为n*n维矩阵,其第p行第q列元素记作Rpq,Rpq表示第p个超像素区域相对于第q个超像素区域的二元部分计算值,p=1,2,……n,q=1,2,……n,n为超像素区域的个数。
所述的一元部分计算单元和二元部分计算单元均包括多个依次连接的全连接层。
步骤(203)具体为:
根据下式求取深度值:
y=(I+D-R)-1Z,
其中y为深度值矩阵,I为n*n维单位阵,D为n*n对角矩阵,其对角元素记作Dppp=1,2,……n,y为n维行向量,y中的第i个元素记作yi,yi表示第i个超像素区域的深度值,i=1,2,……n,n为超像素区域的个数。
所述的全卷积神经网络为针对不同场景下的全卷积神经网络,所述的不同场景包括室内、室外、白天和夜晚,在进行2D图像转3D图像时,根据该图像选择对应场景下的全卷积神经网络。
与现有技术相比,本发明具有如下优点:
(1)本发明不需要额外的几何视觉线索,仅用单幅图像即可完成2D转3D,从而实现整个电影2D视频的转化,操作简单方便;
(2)本发明将单幅2D图像的一元部分输出矩阵和二元部分输出矩阵相结合,从而计算每个超像素区域的深度值,使得图像深度估计结果更加准确,进而提高3D效果;
(3)本发明中采用全卷积神经网络和超像素池化,极大提升了电影2D转3D的速度;
(4)本发明针对不同场景下设置不同的全卷积神经网络,从而提高3D效果,提升用户的观赏体验。
附图说明
图1为本发明基于全卷积神经网络的电影2D转3D方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于全卷积神经网络的电影2D转3D方法,该方法包括如下步骤:
(1)拍摄拍摄2D视频:普通的单摄影机拍摄即可;
(2)提取拍摄的电影2D视频中的每一帧2D图像;
(3)对每一帧2D图像分别采用全卷积神经网络提取特征值并计算深度值;
(4)对每一帧2D图像分别根据其深度值进行着色生成对应的3D图像;
(5)将所有3D图像依次整合形成3D电影。
步骤(3)包括如下子步骤:
(301)预处理:将2D图像分隔成超像素,形成超像素图像,超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。这些小区域大多保留了进一步进行图像分割的有效信息,且一般不会破坏图像中物体的边界信息;
(302)对超像素图像进行处理和计算得到2D图像的一元部分输出和二元部分输出;
(303)根据2D图像的一元部分输出和二元部分输出进行深度估计得到深度值。
步骤(302)中具体为:
(a)将超像素图像输入至全卷积神经网络,得到多个卷积特征图,卷积层通过多个卷积核对图像逐行逐列做卷积,可以学习到图像的特征;池化层是在卷积特征提取的基础上,对每个2×2区域的卷积特征进行取平均等。多种卷积核提取出来一个区域的多种特征,这样全卷积神经网络的输出为多通道的卷积特征图;
(b)将卷积特征图进行超像素池化,进而得到该2D图像的一元部分输出;
(c)对超像素图像进行计算得到二元部分输出。
全卷积神经网络包括多个依次级联的特征提取基本单元,每个特征提取单元包括依次连接的卷积层和池化层。
步骤(b)中超像素池化具体操作为:首先在卷积特征图上进行上采样操作,使得卷积特征图大小与原始2D图像大小相同,然后,对经过上采样操作后的卷积特征图中的每个超像素区域分别计算特征值的平均值,得到n维特征向量,n为超像素区域的个数,最后,将n维特征向量输入到一元部分计算单元进行计算得到一元部分输出矩阵Z,Z为n维行向量,向量中第p个元素记作Zp,Zp表示第p个超像素区域的一元部分计算值,p=1,2,……n。
步骤(c)具体为:
对于第i个超像素区域,考虑所有与其相邻的所有超像素区域,设其中一个与第i个超像素区域相邻的超像素区域记作第j个超像素区域,分别计算第i个超像素区域和第j个超像素区域之间的K种相似度,得到相似度向量其中i=1,2,……n,对每个超像素区域进行上述操作得到相似度向量,最后将所有相似度向量输入到二元部分计算单元计算得到二元部分输出矩阵R,R为n*n维矩阵,其第p行第q列元素记作Rpq,Rpq表示第p个超像素区域相对于第q个超像素区域的二元部分计算值,p=1,2,……n,q=1,2,……n,n为超像素区域的个数。
一元部分计算单元和二元部分计算单元均包括多个依次连接的全连接层。
步骤(303)具体为:
根据下式求取深度值:
y=(I+D-R)-1Z,
其中y为深度值矩阵,I为n*n维单位阵,D为n*n对角矩阵,其对角元素记作Dppp=1,2,……n,y为n维行向量,y中的第i个元素记作yi,yi表示第i个超像素区域的深度值,i=1,2,……n,n为超像素区域的个数。
全卷积神经网络为针对不同场景下的全卷积神经网络,不同场景包括室内、室外、白天和夜晚,在进行2D图像转3D图像时,根据该图像选择对应场景下的全卷积神经网络。上述全卷积神经网络的参数是在训练数据集上通过CRF损失层中SGD反向传播算法来训练的。针对不同场景(室内、室外、白天、夜晚等)下的数据集,可以训练得到不同的模型。选择适应场景下的模型来进行精调,而精调过程选取的是该2D电影中具有代表性、出现次数多的一些图像。

Claims (9)

1.一种基于全卷积神经网络的电影2D转3D方法,其特征在于,该方法包括如下步骤:
(1)提取拍摄的电影2D视频中的每一帧2D图像;
(2)对每一帧2D图像分别采用全卷积神经网络提取特征值并计算深度值;
(3)对每一帧2D图像分别根据其深度值进行着色生成对应的3D图像;
(4)将所有3D图像依次整合形成3D电影。
2.根据权利要求1所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,所述的步骤(2)包括如下子步骤:
(201)将2D图像分隔成超像素,形成超像素图像;
(202)对超像素图像进行处理和计算得到所述的2D图像的一元部分输出和二元部分输出;
(203)根据2D图像的一元部分输出和二元部分输出进行深度估计得到深度值。
3.根据权利要求2所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,步骤(202)中具体为:
(a)将超像素图像输入至全卷积神经网络,得到多个卷积特征图;
(b)将卷积特征图进行超像素池化,进而得到该2D图像的一元部分输出;
(c)对超像素图像进行计算得到二元部分输出。
4.根据权利要求3所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,所述的全卷积神经网络包括多个依次级联的特征提取基本单元,每个特征提取单元包括依次连接的卷积层和池化层。
5.根据权利要求3所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,步骤(b)中超像素池化具体操作为:首先在卷积特征图上进行上采样操作,使得卷积特征图大小与原始2D图像大小相同,然后,对经过上采样操作后的卷积特征图中的每个超像素区域分别计算特征值的平均值,得到n维特征向量,n为超像素区域的个数,最后,将n维特征向量输入到一元部分计算单元进行计算得到一元部分输出矩阵Z,Z为n维行向量,向量中第p个元素记作Zp,Zp表示第p个超像素区域的一元部分计算值,p=1,2,……n。
6.根据权利要求5所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,步骤(c)具体为:
对于第i个超像素区域,考虑所有与其相邻的所有超像素区域,设其中一个与第i个超像素区域相邻的超像素区域记作第j个超像素区域,分别计算第i个超像素区域和第j个超像素区域之间的K种相似度,得到相似度向量其中i=1,2,……n,对每个超像素区域进行上述操作得到相似度向量,最后将所有相似度向量输入到二元部分计算单元计算得到二元部分输出矩阵R,R为n*n维矩阵,其第p行第q列元素记作Rpq,Rpq表示第p个超像素区域相对于第q个超像素区域的二元部分计算值,p=1,2,……n,q=1,2,……n,n为超像素区域的个数。
7.根据权利要求6所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,所述的一元部分计算单元和二元部分计算单元均包括多个依次连接的全连接层。
8.根据权利要求6所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,步骤(203)具体为:
根据下式求取深度值:
y=(I+D-R)-1Z,
其中y为深度值矩阵,I为n*n维单位阵,D为n*n对角矩阵,其对角元素记作Dppp=1,2,……n,y为n维行向量,y中的第i个元素记作yi,yi表示第i个超像素区域的深度值,i=1,2,……n,n为超像素区域的个数。
9.根据权利要求3所述的一种基于全卷积神经网络的电影2D转3D方法,其特征在于,所述的全卷积神经网络为针对不同场景下的全卷积神经网络,所述的不同场景包括室内、室外、白天和夜晚,在进行2D图像转3D图像时,根据该图像选择对应场景下的全卷积神经网络。
CN201710089850.7A 2017-02-20 2017-02-20 一种基于全卷积神经网络的电影2d转3d方法 Pending CN107067452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710089850.7A CN107067452A (zh) 2017-02-20 2017-02-20 一种基于全卷积神经网络的电影2d转3d方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710089850.7A CN107067452A (zh) 2017-02-20 2017-02-20 一种基于全卷积神经网络的电影2d转3d方法

Publications (1)

Publication Number Publication Date
CN107067452A true CN107067452A (zh) 2017-08-18

Family

ID=59621476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710089850.7A Pending CN107067452A (zh) 2017-02-20 2017-02-20 一种基于全卷积神经网络的电影2d转3d方法

Country Status (1)

Country Link
CN (1) CN107067452A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921942A (zh) * 2018-07-11 2018-11-30 北京聚力维度科技有限公司 对图像进行2d转制3d的方法及装置
CN109636818A (zh) * 2018-12-14 2019-04-16 成都航空职业技术学院 一种拉普拉斯正则约束下低秩稀疏优化的目标分割方法
CN109784192A (zh) * 2018-12-20 2019-05-21 西安电子科技大学 基于超像素特征提取神经网络算法的高光谱影像分类方法
CN109996056A (zh) * 2019-05-08 2019-07-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595A (zh) * 2019-05-08 2019-08-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693552A (zh) * 2011-03-24 2012-09-26 雷欧尼斯(北京)信息技术有限公司 数字内容的2d转3d的方法及装置
CN105608666A (zh) * 2015-12-25 2016-05-25 普瑞福克斯(北京)数字媒体科技有限公司 一种二维图形生成三维图像的方法及系统
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693552A (zh) * 2011-03-24 2012-09-26 雷欧尼斯(北京)信息技术有限公司 数字内容的2d转3d的方法及装置
CN105608666A (zh) * 2015-12-25 2016-05-25 普瑞福克斯(北京)数字媒体科技有限公司 一种二维图形生成三维图像的方法及系统
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FAYAO LIU等: "Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields", 《EEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921942A (zh) * 2018-07-11 2018-11-30 北京聚力维度科技有限公司 对图像进行2d转制3d的方法及装置
CN109636818A (zh) * 2018-12-14 2019-04-16 成都航空职业技术学院 一种拉普拉斯正则约束下低秩稀疏优化的目标分割方法
CN109784192A (zh) * 2018-12-20 2019-05-21 西安电子科技大学 基于超像素特征提取神经网络算法的高光谱影像分类方法
CN109784192B (zh) * 2018-12-20 2023-04-18 西安电子科技大学 基于超像素特征提取神经网络算法的高光谱影像分类方法
CN109996056A (zh) * 2019-05-08 2019-07-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595A (zh) * 2019-05-08 2019-08-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN109996056B (zh) * 2019-05-08 2021-03-26 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595B (zh) * 2019-05-08 2021-04-30 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Gao et al. Dynamic view synthesis from dynamic monocular video
Liu et al. Learning temporal dynamics for video super-resolution: A deep learning approach
CN107067452A (zh) 一种基于全卷积神经网络的电影2d转3d方法
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
US10542249B2 (en) Stereoscopic video generation method based on 3D convolution neural network
CN112653899B (zh) 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107578436A (zh) 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN112132023A (zh) 基于多尺度上下文增强网络的人群计数方法
CN109829868B (zh) 一种轻量级深度学习模型图像去雾方法、电子设备及介质
CN109147036A (zh) 一种基于深度学习的集成成像微图像阵列快速生成方法
CN107767357A (zh) 一种基于多方向字典的深度图像超分辨率方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN108875751A (zh) 图像处理方法和装置、神经网络的训练方法、存储介质
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
CN114693545A (zh) 一种基于曲线族函数的低光照增强方法及系统
CN105374010A (zh) 全景图像的生成方法
Singh et al. Low-light image enhancement for UAVs with multi-feature fusion deep neural networks
WO2021057091A1 (zh) 视点图像处理方法及相关设备
CN112767246A (zh) 光场图像多倍率空间超分辨方法及装置
CN110189262A (zh) 基于神经网络以及直方图匹配的图像去雾算法
CN115170921A (zh) 一种基于双边网格学习和边缘损失的双目立体匹配方法
CN111669563B (zh) 一种基于强化学习的立体图像视觉舒适度增强方法
CN113538505A (zh) 一种基于深度学习的单张图片的运动估计系统及方法
TWI748426B (zh) 單視角影像深度圖序列生成方法、系統與電腦程式產品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818

RJ01 Rejection of invention patent application after publication