CN109584340A - 基于深度卷积神经网络的新视角合成方法 - Google Patents
基于深度卷积神经网络的新视角合成方法 Download PDFInfo
- Publication number
- CN109584340A CN109584340A CN201811507472.0A CN201811507472A CN109584340A CN 109584340 A CN109584340 A CN 109584340A CN 201811507472 A CN201811507472 A CN 201811507472A CN 109584340 A CN109584340 A CN 109584340A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural networks
- new century
- depth convolutional
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的新视角合成方法,通过深度卷积神经网络预测新视角绘制中的各步骤依赖的一些关键数据,利用深度卷积神经网络对数据的强大的拟合能力,从大量多视角图像数据中学习新视角合成方法,该方法在较少的视角上也可以绘制出稠密的视角图像,优化展示效果。
Description
技术领域
本发明涉及摄像技术领域,具体是一种基于深度卷积神经网络的新视角合成方法。
背景技术
在电子商务等业务中,存在使用多视角图片序列展示物品的需求,更稠密的视角会有更好的展示效果,但图片序列大小受网络传输等条件的限制,只能保存较少的视角图像,为了能在较少的视角基础上得到更好的展示效果,可以利用已有视角的图像合成新视角。
神经网络由多个神经元计算单元组成,神经元由线性计算模块和非线性模块组合而成,通过梯度的反向传播方法,神经网络具有较强的拟合能力。而深度神经网络通过叠加多层的计算模块,增强了拟合能力,而卷积神经网络,善于在类似图像这类在空间维度上具有较强相关性的数据格式上的数据拟合能力。深度卷积神经网络在图像分类、检测、风格迁移等领域有丰富的研究成果。
发明内容
发明目的:为了解决现有技术的不足,本发明所述的一种基于深度卷积神经网络的新视角合成方法,使用深度卷积神经网络合成新视角,输入拍摄同一物体的相邻视角,输出中间视角的图像内容。
技术方案:为了实现上述目的,本发明所述的一种基于深度卷积神经网络的新视角合成方法,其特征在于:该方法包括以下步骤:
(一)、对拍摄物体稠密的多视角图像做训练数据,采样重复内容较多的一对视角作为输入,选取这对视角的中间视角作为预测输出训练网络参数;
(二)、使用深度预测网络预测图像内容的深度;
(三)、使用相机位姿变换预测网络预测第一帧到第二帧的相机视角变换;
(四)、使用新视角预测网络根据图像深度信息和视角变换信息预测新视角内容;
(五)、网络训练时先对相机位姿预测网络进行单独训练,再将三个网络联合在一起做训练。
作为本发明的进一步优选,步骤一中,拍摄稠密的视角图像作为真值训练网络预测新的视角的图像。
作为本发明的进一步优选,所述步骤二中,通过设计深度卷积神经网络预测图像内容深度。
作为本发明的进一步优选,所述步骤三中,通过设计深度卷积神经网络预测相机视角变换。
作为本发明的进一步优选,步骤四中通过使用深度卷积神经网络合成新视角图像。
作为本发明的进一步优选,步骤四中,通过设计深度卷积神经网络根据预测的深度信息与视角变换信息来预测新视角内容。
作为本发明的进一步优选,所述步骤五中,通过训练网络时先对相机视角变换预测网络进行预训练。
有益效果:本发明所述的一种基于深度卷积神经网络的新视角合成方法,通过使用深度卷积神经网络合成新视角,在较少的视角上也可以绘制出稠密的视角图像,优化展示效果。
附图说明
图1为物体稠密视角拍摄示意图;
图2为左视角、中间视角、右视角位置示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步的详细说明,但并不局限于此,凡是对本发明技术方案进行修改或者同等替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
实施例
步骤一、拍摄稠密的物体视角作为训练数据:
如图1拍摄稠密的物体视角,视角之间的相机位姿变换是已知的,且相邻视角间的位姿变换相等,在这些视角中选取相邻的三个视角作为一个数据样本,按照从左到右分为左视角、中间视角、右视角。网络的输入为左视角和右视角,预测的内容为中间视角。
步骤二、深度预测网络输出图像内容的深度预测;
深度预测网络为全卷积深度神经网络,由多个隐层叠加而成,隐层有线性的卷积运算和非线性的激活函数组成,将左视角、右视角两张图片的像素信息拼接在一起,设左视角为P1,右视角为P2,图片的第i个像素可以表达为。
P(i)={r,g,b}
其中r、g、b分别为红色、绿色、蓝色像素分量。
将两图的相同坐标位置的像素值拼接,得到网络输入:
Pinput(i)={P1(i).r,P1(i).g,P1(i).b,P2(i).r,P2(i).g,P2(i).b}
网络输出为对图1内容的深度预测,深度预测的尺寸与输入图像一致,每个像素的值为深度值。
D(i)={d}
步骤三、相机位姿变换预测网络预测左视角和右视角之间的相机位姿变换:
相机位姿变换预测网络为卷积深度神经网络,由多个隐层叠加而成,隐层有线性的卷积运算和非线性的激活函数组成,最终层为全连接层预测8维向量,作为对偶四元数描述相机位姿的变化,与步骤二中的输入一致,
Pinput(i)={P1(i).r,P1(i).g,P1(i).b,P2(i).r,P2(i).g,P2(i).b}
输出对偶四元数:
步骤四、使用新视角预测网络根据图像深度信息和视角变换信息预测新视角内容:
左视角到右视角的相机变换为:
左视角到中间视角的相机变换为:
右视角到中间视角的相机变换为:
左视角的深度预测D1,右视角的深度预测D2,将对偶四元数转换为变换矩阵R,深度转化为点云格式P={x,y,z},RP1的齐次部分为从左视角预测中间视角每个像素对应的新的像素坐标。RP2的齐次部分为从右视角预测中间视角每个像素对应的新的像素坐标。
将左右视角的原图、预测中间视角结果、深度预测结果,以步骤三中的方法拼接,输入新视角预测网络中,输出为中间视角图像内容。
步骤五、网络训练时先对相机位姿预测网络进行单独训练,再将三个网络联合在一起做训练:
因在采集物体多视角图像时已经记录了视角变换的真值数据,所以先用此数据训练相机位姿变换预测网络,训练至收敛时再与深度预测网络,新视角预测网络联合训练。变换预测结果为qoutput,真值为qgt,
引导相机位姿变换预测网络训练的损失函数为
联合训练指将深度预测网络、相机位姿预测网络的输出经过步骤四的处理输入新视角预测网络,输出新视角的预测结果poutput与采集到的视角的真值pgt做L2的残差。以此作为监督信号进行训练。
引导联合训练的损失函数为
Claims (7)
1.一种基于深度卷积神经网络的新视角合成方法,其特征在于:该方法包括以下步骤:
(一)、对拍摄物体稠密的多视角图像做训练数据,采样重复内容较多的一对视角作为输入,选取这对视角的中间视角作为预测输出训练网络参数;
(二)、使用深度预测网络预测图像内容的深度;
(三)、使用相机位姿变换预测网络预测第一帧到第二帧的相机视角变换;
(四)、使用新视角预测网络根据图像深度信息和视角变换信息预测新视角内容;
(五)、网络训练时先对相机位姿预测网络进行单独训练,再将三个网络联合在一起做训练。
2.根据权利要求1所述的基于深度卷积神经网络的新视角合成方法,其特征在于:步骤一中,拍摄稠密的视角图像作为真值训练网络预测新的视角的图像。
3.根据权利要求1所述的基于深度卷积神经网络的新视角合成方法,其特征在于:所述步骤二中,通过设计深度卷积神经网络预测图像内容深度。
4.根据权利要求1所述的基于深度卷积神经网络的新视角合成方法,其特征在于:所述步骤三中,通过设计深度卷积神经网络预测相机视角变换。
5.根据权利要求1所述的基于深度卷积神经网络的新视角合成方法,其特征在于:步骤四中通过使用深度卷积神经网络合成新视角图像。
6.根据权利要求1所述的基于深度卷积神经网络的新视角合成方法,其特征在于:步骤四中,通过设计深度卷积神经网络根据预测的深度信息与视角变换信息来预测新视角内容。
7.根据权利要求1所述的基于深度卷积神经网络的新视角合成方法,其特征在于:所述步骤五中,通过训练网络时先对相机视角变换预测网络进行预训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811507472.0A CN109584340B (zh) | 2018-12-11 | 2018-12-11 | 基于深度卷积神经网络的新视角合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811507472.0A CN109584340B (zh) | 2018-12-11 | 2018-12-11 | 基于深度卷积神经网络的新视角合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109584340A true CN109584340A (zh) | 2019-04-05 |
CN109584340B CN109584340B (zh) | 2023-04-18 |
Family
ID=65928183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811507472.0A Active CN109584340B (zh) | 2018-12-11 | 2018-12-11 | 基于深度卷积神经网络的新视角合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109584340B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110113593A (zh) * | 2019-06-11 | 2019-08-09 | 南开大学 | 基于卷积神经网络的宽基线多视点视频合成方法 |
CN110381268A (zh) * | 2019-06-25 | 2019-10-25 | 深圳前海达闼云端智能科技有限公司 | 生成视频的方法,装置,存储介质及电子设备 |
CN111105347A (zh) * | 2019-11-19 | 2020-05-05 | 贝壳技术有限公司 | 一种生成带深度信息的全景图的方法、装置及存储介质 |
WO2021057091A1 (zh) * | 2019-09-23 | 2021-04-01 | 华为技术有限公司 | 视点图像处理方法及相关设备 |
CN112634339A (zh) * | 2019-09-24 | 2021-04-09 | 阿里巴巴集团控股有限公司 | 商品对象信息展示方法、装置及电子设备 |
US11055835B2 (en) | 2019-11-19 | 2021-07-06 | Ke.com (Beijing) Technology, Co., Ltd. | Method and device for generating virtual reality data |
WO2022083118A1 (zh) * | 2020-10-23 | 2022-04-28 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN112634339B (zh) * | 2019-09-24 | 2024-05-31 | 阿里巴巴集团控股有限公司 | 商品对象信息展示方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102316354A (zh) * | 2011-09-22 | 2012-01-11 | 冠捷显示科技(厦门)有限公司 | 显像技术中可平行处理的多视角图像合成方法 |
CN104601978A (zh) * | 2015-01-06 | 2015-05-06 | 北京中科广视科技有限公司 | 自由视点图像的获取系统与方法 |
US20150324655A1 (en) * | 2013-12-01 | 2015-11-12 | University Of Florida Research Foundation, Inc. | Distributive Hierarchical Model for Object Recognition in Video |
CN106683182A (zh) * | 2017-01-12 | 2017-05-17 | 南京大学 | 一种权衡立体匹配和视觉外形的三维重建方法 |
CN106845515A (zh) * | 2016-12-06 | 2017-06-13 | 上海交通大学 | 基于虚拟样本深度学习的机器人目标识别和位姿重构方法 |
CN106951923A (zh) * | 2017-03-21 | 2017-07-14 | 西北工业大学 | 一种基于多视角信息融合的机器人三维形状识别方法 |
CN107993260A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工商大学 | 一种基于混合型卷积神经网络的光场图像深度估计方法 |
WO2018119808A1 (zh) * | 2016-12-29 | 2018-07-05 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN108389226A (zh) * | 2018-02-12 | 2018-08-10 | 北京工业大学 | 一种基于卷积神经网络和双目视差的无监督深度预测方法 |
CN108876814A (zh) * | 2018-01-11 | 2018-11-23 | 南京大学 | 一种生成姿态流图像的方法 |
-
2018
- 2018-12-11 CN CN201811507472.0A patent/CN109584340B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102316354A (zh) * | 2011-09-22 | 2012-01-11 | 冠捷显示科技(厦门)有限公司 | 显像技术中可平行处理的多视角图像合成方法 |
US20150324655A1 (en) * | 2013-12-01 | 2015-11-12 | University Of Florida Research Foundation, Inc. | Distributive Hierarchical Model for Object Recognition in Video |
CN104601978A (zh) * | 2015-01-06 | 2015-05-06 | 北京中科广视科技有限公司 | 自由视点图像的获取系统与方法 |
CN106845515A (zh) * | 2016-12-06 | 2017-06-13 | 上海交通大学 | 基于虚拟样本深度学习的机器人目标识别和位姿重构方法 |
WO2018119808A1 (zh) * | 2016-12-29 | 2018-07-05 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN106683182A (zh) * | 2017-01-12 | 2017-05-17 | 南京大学 | 一种权衡立体匹配和视觉外形的三维重建方法 |
CN106951923A (zh) * | 2017-03-21 | 2017-07-14 | 西北工业大学 | 一种基于多视角信息融合的机器人三维形状识别方法 |
CN107993260A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工商大学 | 一种基于混合型卷积神经网络的光场图像深度估计方法 |
CN108876814A (zh) * | 2018-01-11 | 2018-11-23 | 南京大学 | 一种生成姿态流图像的方法 |
CN108389226A (zh) * | 2018-02-12 | 2018-08-10 | 北京工业大学 | 一种基于卷积神经网络和双目视差的无监督深度预测方法 |
Non-Patent Citations (7)
Title |
---|
DENG, ZENGMING ET AL.: "Reliability-Based View Synthesis for Free Viewpoint Video", 《APPLIED SCIENCES》 * |
DINGHUANG JI ET AL.: "Deep View Morphing", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
LI ZHAOXIN ET AL.: "Detail-preserving and Content-aware Variational Multi-view Stereo Reconstruction", 《ARXIV.ORG》 * |
TEWODROS HABTEGEBRIAL ET AL.: "Fast View Synthesis with Deep Stereo Vision", 《ARXIV.ORG》 * |
吴清江 等: "基于卷积神经网络的有限视角CT重建", 《电脑知识与技术》 * |
朱俊鹏等: "基于卷积神经网络的视差图生成技术", 《计算机应用》 * |
邓武等: "融合全局与局部视角的光场超分辨率重建", 《计算机应用研究》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110113593A (zh) * | 2019-06-11 | 2019-08-09 | 南开大学 | 基于卷积神经网络的宽基线多视点视频合成方法 |
CN110381268A (zh) * | 2019-06-25 | 2019-10-25 | 深圳前海达闼云端智能科技有限公司 | 生成视频的方法,装置,存储介质及电子设备 |
CN110381268B (zh) * | 2019-06-25 | 2021-10-01 | 达闼机器人有限公司 | 生成视频的方法,装置,存储介质及电子设备 |
WO2021057091A1 (zh) * | 2019-09-23 | 2021-04-01 | 华为技术有限公司 | 视点图像处理方法及相关设备 |
CN112634339A (zh) * | 2019-09-24 | 2021-04-09 | 阿里巴巴集团控股有限公司 | 商品对象信息展示方法、装置及电子设备 |
CN112634339B (zh) * | 2019-09-24 | 2024-05-31 | 阿里巴巴集团控股有限公司 | 商品对象信息展示方法、装置及电子设备 |
CN111105347A (zh) * | 2019-11-19 | 2020-05-05 | 贝壳技术有限公司 | 一种生成带深度信息的全景图的方法、装置及存储介质 |
CN111105347B (zh) * | 2019-11-19 | 2020-11-13 | 贝壳找房(北京)科技有限公司 | 一种生成带深度信息的全景图的方法、装置及存储介质 |
US11055835B2 (en) | 2019-11-19 | 2021-07-06 | Ke.com (Beijing) Technology, Co., Ltd. | Method and device for generating virtual reality data |
US11721006B2 (en) | 2019-11-19 | 2023-08-08 | Realsee (Beijing) Technology Co., Ltd. | Method and device for generating virtual reality data |
WO2022083118A1 (zh) * | 2020-10-23 | 2022-04-28 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109584340B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584340A (zh) | 基于深度卷积神经网络的新视角合成方法 | |
Piala et al. | Terminerf: Ray termination prediction for efficient neural rendering | |
CN109064396A (zh) | 一种基于深度成分学习网络的单幅图像超分辨率重建方法 | |
CN106778928A (zh) | 图像处理方法及装置 | |
CN101394573B (zh) | 一种基于特征匹配的全景图生成方法及系统 | |
CN108053449A (zh) | 双目视觉系统的三维重建方法、装置及双目视觉系统 | |
CN111145253B (zh) | 一种高效的物体6d姿态估计算法 | |
CN110570363A (zh) | 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法 | |
CN108416428A (zh) | 一种基于卷积神经网络的机器人视觉定位方法 | |
CN108389181A (zh) | 一种基于深度学习和法向图的零件缺陷检测和定位方法 | |
CN113052254B (zh) | 多重注意力幽灵残差融合分类模型及其分类方法 | |
CN109544621A (zh) | 基于卷积神经网络的光场深度估计方法、系统及介质 | |
CN105488777A (zh) | 一种基于移动前景下全景图实时生成系统及其方法 | |
CN111383200A (zh) | 基于生成式对抗神经网络的cfa图像去马赛克方法 | |
CN107067452A (zh) | 一种基于全卷积神经网络的电影2d转3d方法 | |
CN102263957A (zh) | 一种基于搜索窗口自适应的视差估计方法 | |
CN114708297A (zh) | 一种视频目标跟踪方法及装置 | |
CN105374010A (zh) | 全景图像的生成方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN111191729B (zh) | 一种基于多模态特征融合的三维对象融合特征表示方法 | |
CN106295700B (zh) | 一种基于典型相关分析网络的二视角图像识别方法 | |
Xu | The research on applying artificial intelligence technology to virtual YouTuber | |
Zhang et al. | Spatio-temporal self-supervision enhanced transformer networks for action recognition | |
CN115482368A (zh) | 一种利用语义图进行三维场景编辑的方法 | |
CN115100237A (zh) | 一种巡检机器人视觉里程计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |