CN110443874A - 基于卷积神经网络的视点数据生成方法和装置 - Google Patents
基于卷积神经网络的视点数据生成方法和装置 Download PDFInfo
- Publication number
- CN110443874A CN110443874A CN201910646645.5A CN201910646645A CN110443874A CN 110443874 A CN110443874 A CN 110443874A CN 201910646645 A CN201910646645 A CN 201910646645A CN 110443874 A CN110443874 A CN 110443874A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- viewpoint data
- data
- convolutional neural
- color image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 abstract description 8
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/282—Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于卷积神经网络的视点数据生成方法和装置,其中,方法包括:获取多种训练场景的离散视点数据集;提取针对同一个训练场景的多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,并获取第一相机参数,和第二相机参数;将第一彩色图像信息、第二彩色图像信息、第一相机参数和第二相机参数输入至预设的卷积神经网络;通过卷积神经网络估算视点数据;计算第三视点数据与估算视点数据之间的损失值,完成对卷积神经网络的训练,以便于视点图像的生成。本发明结合深度信息进行联合优化产生的新视点能够拥有更稳定的信息,并减少视差变化较大产生的重影和黑洞,实现稀疏视点输入的情况下连续一致的密集视点生成。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于卷积神经网络的视点数据生成方法和装置。
背景技术
基于图像的新视点渲染是三维重建及计算机视觉领域的重点问题。随着虚拟现实技术以及增强现实技术的发展和普及,从稀疏视点图像生成连续的、密集的视点,以实现视觉上的连续感和沉浸感的问题越来越受到人们的关注。当某些特定的应用场景,只能获取有限的图像,如谷歌街景只能获取用户拍摄的离散场景图像,为了能重建出连续的沉浸式的街景,稀疏视点生成稠密视点图像的算法变得尤为重要。
现有技术中,利用视点插值或深度图渲染出的新视点具有重影、空洞的缺陷,因此如何解决这一现实问题成为一个具有挑战性的议题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于卷积神经网络的视点数据生成方法,结合深度信息进行联合优化而产生的新视点能够拥有更稳定的信息同时减少视差变化较大产生的重影和黑洞,实现稀疏视点输入的情况下连续一致的密集视点生成。
本发明的第二个目的在于提出一种基于卷积神经网络的视点数据生成装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于卷积神经网络的视点数据生成方法,包括:获取多种训练场景的离散视点数据集,其中,所述离散视点数据集中每个离散视点数据包含针对同一个训练场景的多个视点的多帧视点数据,其中,所述多帧视点数据中每帧视点数据,包含对应视点下所述训练场景的彩色图像信息和深度信息;提取所述针对同一个训练场景的所述多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,其中,所述多帧视点数据中包含第三视点的第三视点数据;根据所述第一视点数据和所述第二视点数据获取所述第一视点的第一相机参数,和所述第二视点的第二相机参数;将所述第一视点数据中的第一彩色图像信息、所述第二视点数据中的第二彩色图像信息、所述第一相机参数和所述第二相机参数输入至预设的卷积神经网络;通过所述卷积神经网络根据所述第一彩色图像信息、所述第二彩色图像信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算视点数据;计算所述第三视点数据与所述估算视点数据之间的损失值,当所述损失值大于预设阈值时,调整所述卷积神经网络的网络参数,直至所述损失值小于等于所述预设阈值时,完成对所述卷积神经网络的训练,以便于根据训练完成后的卷积神经网络进行视点图像的生成。
在本发明的实施例中,所述根据所述第一视点数据和所述第二视点数据获取所述第一视点的第一相机参数,包括:根据运动重构方法对所述第一视点数据估算获取所述第一相机参数;根据运动重构方法对所述第二视点数据估算获取所述第二相机参数。
在本发明的实施例中,所述通过所述卷积神经网络根据所述第一彩色图像信息、所述第二彩色图像信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算视点数据,包括:根据预设算法对所述第一彩色图像信息计算生成第一深度信息;根据预设算法对所述第二彩色图像信息计算生成第二深度信息;根据所述第一深度信息和所述第二深度信息生成所述第三视点的估算深度信息;根据所述估算深度信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算彩色像素信息。
在本发明的实施例中,所述计算所述第三视点数据与所述估算视点数据之间的损失值,包括:计算所述估算深度信息和所述第三视点数据对应的第三深度信息的深度损失值;计算所述估算彩色图像信息和所述第三视点数据对应的第三彩色图像信息的彩色图像损失值;根据预设公式对所述深度损失值和所述彩色图像损失值计算获取所述损失值。
在本发明的实施例中,所述基于卷积神经网络的视点数据生成方法,还包括:获取相机模组拍摄的当前场景的多个拍摄视点数据;根据所述多个拍摄视点数据计算所述相机模组针对每个拍摄视点的相机参数;将所述多个拍摄视点数据两两一组划分为多组拍摄视点数据;将每组拍摄视点数据和对应的相机参数输入至训练完成的所述卷积神经网络,获取与所述每组拍摄视点数据对应的新增视点数据;根据所述新增视点数据和所述多个拍摄视点数据生成针对所述当前场景的视点数据,并根据所述视点数据提供导航服务。
本发明实施例基于卷积神经网络的视点数据生成方法,结合深度信息进行联合优化而产生的新视点能够拥有更稳定的几何信息同时减少视差变化较大产生的重影和黑洞;另外,利用卷积神经网络完成密集新视点的渲染能够有效的利用训练过程来融合输入视点的RGB信息并保证全局平滑的结果;联合估计深度和深度学习的特点使本发明能够实现稀疏视点输入的情况下得到连续一致的密集视点生成。
为达上述目的,本发明第二方面实施例提出了一种基于卷积神经网络的视点数据生成装置,包括:第一获取模块,用于获取多种训练场景的离散视点数据集,其中,所述离散视点数据集中每个离散视点数据包含针对同一个训练场景的多个视点的多帧视点数据,其中,所述多帧视点数据中每帧视点数据,包含对应视点下所述训练场景的彩色图像信息和深度信息;提取模块,用于提取所述针对同一个训练场景的所述多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,其中,所述多帧视点数据中包含第三视点的第三视点数据;第二获取模块,根据所述第一视点数据和所述第二视点数据获取所述第一视点的第一相机参数,和所述第二视点的第二相机参数;输入模块,用于将所述第一视点数据中的第一彩色图像信息、所述第二视点数据中的第二彩色图像信息、所述第一相机参数和所述第二相机参数输入至预设的卷积神经网络;估算模块,用于通过所述卷积神经网络根据所述第一彩色图像信息、所述第二彩色图像信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算视点数据;计算模块,用于计算所述第三视点数据与所述估算视点数据之间的损失值,当所述损失值大于预设阈值时,调整所述卷积神经网络的网络参数,直至所述损失值小于等于所述预设阈值时,完成对所述卷积神经网络的训练,以便于根据训练完成后的卷积神经网络进行视点图像的生成。
在本发明的实施例中,所述第二获取模块,包括:第一获取单元,用于根据运动重构方法对所述第一视点数据估算获取所述第一相机参数;第二获取单元,用于根据运动重构方法对所述第二视点数据估算获取所述第二相机参数。
在本发明的实施例中,所述计算模块,包括:第一计算单元,用于计算所述估算深度信息和所述第三视点数据对应的第三深度信息的深度损失值;第二计算单元,用于计算所述估算彩色图像信息和所述第三视点数据对应的第三彩色图像信息的彩色图像损失值。
本发明实施例基于卷积神经网络的视点数据生成装置,通过第一获取模块、提取模块、第二获取模块、输入模块、估算模块和计算模块,结合深度信息进行联合优化而产生的新视点能够拥有更稳定的几何信息同时减少视差变化较大产生的重影和黑洞,联合优化深度和新视点渲染的神经网络来实现利用稀疏视点图像生成密集视点。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例第一方面所述的基于卷积神经网络的视点数据生成方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例第一方面所述的基于卷积神经网络的视点数据生成方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于卷积神经网络的视点数据生成方法的流程示意图;
图2为本发明实施例所提供的另一种基于卷积神经网络的视点数据生成方法的流程示意图;
图3为本发明实施例提供的一种基于卷积神经网络的视点数据生成装置的结构示意图;
图4为本发明实施例提供的另一种基于卷积神经网络的视点数据生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于卷积神经网络的视点数据生成方法和装置。
图1为本发明实施例所提供的一种基于卷积神经网络的视点数据生成方法的流程示意图。
针对上述实施例,本发明实施例提供了基于卷积神经网络的视点数据生成方法,如图1所示,该基于卷积神经网络的视点数据生成方法包括以下步骤:
步骤101,获取多种训练场景的离散视点数据集,其中,离散视点数据集中每个离散视点数据包含针对同一个训练场景的多个视点的多帧视点数据,其中,多帧视点数据中每帧视点数据,包含对应视点下训练场景的彩色图像信息和深度信息。
具体的,建立多种训练场景的RGBD离散视点数据集,采集并获取同时包含图像和对应深度图的不同场景的数据集,每个离散视点数据包含同一个训练场景的多个视点的多帧视点数据,多帧视点数据包含对应视点下训练场景的彩色图像信息和深度信息。
步骤102,提取针对同一个训练场景的多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,其中,多帧视点数据中包含第三视点的第三视点数据。
具体的,提取同一训练场景的多帧视点数据中的第一视点所获取的第一视点图像信息和深度信息以及第二视点所获取的第二视点图像信息和深度信息,其中,多帧视点数据中包含第三视点的第三视点图像信息和深度信息。
步骤103,根据第一视点数据和第二视点数据获取第一视点的第一相机参数,和第二视点的第二相机参数。
具体的,根据运动重构方法对第一视点数据估算获取第一相机参数;根据运动重构方法对第二视点数据估算获取第二相机参数。本实施例中,利用运动重构(StructurefromMotion)的方法估计数据集中连续视点的相机参数,以便于网络中对场景深度的计算以及渲染新视点的生成。
步骤104,将第一视点数据中的第一彩色图像信息、第二视点数据中的第二彩色图像信息、第一相机参数和第二相机参数输入至预设的卷积神经网络。
具体的,构建新视点生成及新视点深度融合的多任务学习及相互监督联合优化的卷积神经网络。网络的输入为当前场景下已知的稀疏视点的RGB图像,包括第一视点数据中的第一彩色图像信息、第二视点数据中的第二彩色图像信息,第一相机参数和第二相机参数。
步骤105,通过卷积神经网络根据第一彩色图像信息、第二彩色图像信息、第一相机参数和第二相机参数估算第三视点的估算视点数据。
具体的,根据预设算法对第一彩色图像信息计算生成第一深度信息;根据预设算法对第二彩色图像信息计算生成第二深度信息;根据第一深度信息和第二深度信息生成第三视点的估算深度信息;根据估算深度信息、第一相机参数和第二相机参数估算第三视点的估算彩色像素信息。
作为本发明可能实现的一种方式,利用运动重构的方法获得的相机参数,实现PlaneSweep算法将输入的RGB图像在不同深度平面上做单应映射得到对应的匹配RGB图像体;通过卷积操作提取信息并在网络层中完成图像的匹配查找,融合生成输入视点的深度概率估计体;利用输入视点的概率估计体融合得到新视点的深度的同时联合输入视点的RGB信息融合得到连续一致的新视点图像。
步骤106,计算第三视点数据与估算视点数据之间的损失值,当损失值大于预设阈值时,调整卷积神经网络的网络参数,直至损失值小于等于预设阈值时,完成对卷积神经网络的训练,以便于根据训练完成后的卷积神经网络进行视点图像的生成。
具体的,计算估算深度信息和第三视点数据对应的第三深度信息的深度损失值;计算估算彩色图像信息和第三视点数据对应的第三彩色图像信息的彩色图像损失值;根据预设公式对深度损失值和彩色图像损失值计算获取损失值。
作为本发明可能实现的一种方式,网络训练过程中,同时监督深度的生成以及RGB图像的生成,所以网络的总代价定义在深度监督的待机以及图像监督的代价上,如下公式(1)所示:
其中,为网络估计的新视点的深度的代价,估计新视点的深度将与训练集中已有的该视点的真实深度做范数运算;为网络估计的新视点图像的代价,该代价由建立在已有的网络如VGG网络的深层特征上的Perceptual Loss来定义,αl为平衡每个网络层尺度的平衡因子,φl(·)为该网络层l输出的特征图,在深度网络层上做代价能够提取出结果图像上更为高层的语义信息,λ为平衡两个代价的加权因子。
进一步地,将包含图像和对应深度图的不同场景的数据集划分为训练集和测试集两个部分,利用不同的视点组合传入网络,计算代价并反传更新网络中的参数。其中I1和I2为输入的视点RGB图像,和It为网络输出的待估计视点图像和训练集中真实的该视点图像,和Dt为网络估计的深度和训练集中已有的该视点的深度。利用充分的训练数据对网络进行训练,直到网络收敛并具备给出合理的视点图像和深度信息的估计的能力。训练收敛的网络能够实现从稀疏视点得到优质的密集视点及深度,并体现出深度和RGB相互监督共同优化的效果。测试阶段利用测试集中的数据对网络的输出进行定性和定量的误差分析,验证算法的可行性。
完成对卷积神经网络的训练后,根据训练完成后的卷积神经网络进行视点图像的生成,具体而言,本发明实施例提供一种基于卷积神经网络的视点数据生成方法,如图2所示,该方法包括以下步骤:
步骤201,获取相机模组拍摄的当前场景的多个拍摄视点数据。
具体的,利用深度相机采集当前场景的数据集,数据集包含多个拍摄视点数据,视点数据包含当前场景的图像信息和深度信息。
步骤202,根据多个拍摄视点数据计算相机模组针对每个拍摄视点的相机参数。
具体的,利用基于运动重构(Structurefrom Motion)的算法估计出每个拍摄视点的相机内外参数,本过程可以利用已有的算法如COLMAP算法等。
步骤203,将多个拍摄视点数据两两一组划分为多组拍摄视点数据。
具体的,将利用深度相机采集任意场景的稀疏视点,两两一组划分为多组拍摄视点数据,其中视点组合可为其中I1和I2为输入的视点RGB图像,和It为网络输出的待估计视点图像和训练集中真实的该视点图像,和Dt为网络估计的深度和训练集中已有的该视点的深度。
步骤204,将每组拍摄视点数据和对应的相机参数输入至训练完成的卷积神经网络,获取与每组拍摄视点数据对应的新增视点数据。
具体的,将采集到的包含稀疏视点的每组拍摄视点数据以及估计相应视点的相机参数,利用已训练好的卷积神经网络模型,输出每组拍摄视点数据对应的新增视点的深度和RGB图像。其中,新增视点数据可以理解为,通过每组拍摄视点数据,经过已训练好的卷积神经网络模型计算得到的数据。
步骤205,根据新增视点数据和多个拍摄视点数据生成针对当前场景的视点数据,并根据视点数据提供导航服务。
具体的,根据新增视点的深度以及RGB图像,和多个包含稀疏视点图像的拍摄视点数据,获得当前场景下的密集且连续变化的视点图像,从而根据生成针对当前场景的视点图像,提供导航服务。
实际应用中,对于VR等需要利用稀疏的视点生成连续一致的带有沉浸感的密集图像序列的应用,将输入的稀疏视点图像进行上述步骤的相机参数估计,以及图像的PlaneSweep操作,将得到的数据作为网络的输入,最终获得该场景下的密集且连续变化的视点图像。
本实施例基于卷积神经网络的视点数据生成方法,结合深度信息进行联合优化而产生的新视点能够拥有更稳定的几何信息同时减少视差变化较大产生的重影和黑洞;另外,利用卷积神经网络完成密集新视点的渲染能够有效的利用训练过程来融合输入视点的RGB信息并保证全局平滑的结果;联合估计深度和深度学习的特点使本发明能够实现稀疏视点输入的情况下得到连续一致的密集视点生成。
为了实现上述实施例,本发明还提出一种基于卷积神经网络的视点数据生成装置。图3为本发明实施例提供的一种基于卷积神经网络的视点数据生成装置的结构示意图。
如图3所示,该基于卷积神经网络的视点数据生成装置包括:第一获取模块10、提取模块20、第二获取模块30、输入模块40、估算模块50和计算模块60。其中,第一获取模块10,用于获取多种训练场景的离散视点数据集,其中,离散视点数据集中每个离散视点数据包含针对同一个训练场景的多个视点的多帧视点数据,其中,多帧视点数据中每帧视点数据,包含对应视点下训练场景的彩色图像信息和深度信息,其次提取模块20,提取针对同一个训练场景的多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,其中,多帧视点数据中包含第三视点的第三视点数据;接着第二获取模块30,根据第一视点数据和第二视点数据获取第一视点的第一相机参数,和第二视点的第二相机参数;其中,如图4所示,在图3的基础上,第二获取模块30还包括:第一获取单元31,用于根据运动重构方法对第一视点数据估算获取第一相机参数;第二获取单元32,用于根据运动重构方法对第二视点数据估算获取第二相机参数。然后输入模块40,将第一视点数据中的第一彩色图像信息、第二视点数据中的第二彩色图像信息、第一相机参数和第二相机参数输入至预设的卷积神经网络;而后估算模块50,通过卷积神经网络根据第一彩色图像信息、第二彩色图像信息、第一相机参数和第二相机参数估算第三视点的估算视点数据;最后计算模块60,计算第三视点数据与估算视点数据之间的损失值,当损失值大于预设阈值时,调整卷积神经网络的网络参数,直至损失值小于等于预设阈值时,完成对卷积神经网络的训练,以便于根据训练完成后的卷积神经网络进行视点图像的生成。其中,如图4所示,在图3的基础上,计算模块60还包括:第一计算单元61,用于计算估算深度信息和第三视点数据对应的第三深度信息的深度损失值;第二计算单元62,用于计算估算彩色图像信息和第三视点数据对应的第三彩色图像信息的彩色图像损失值。
需要说明的是,前述对基于卷积神经网络的视点数据生成方法实施例的解释说明也适用于该实施例的基于卷积神经网络的视点数据生成装置,此处不再赘述。
为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如上述实施例所描述的基于卷积神经网络的视点数据生成方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述实施例所描述的基于卷积神经网络的视点数据生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于卷积神经网络的视点数据生成方法,其特征在于,包括以下步骤:
获取多种训练场景的离散视点数据集,其中,所述离散视点数据集中每个离散视点数据包含针对同一个训练场景的多个视点的多帧视点数据,其中,所述多帧视点数据中每帧视点数据,包含对应视点下所述训练场景的彩色图像信息和深度信息;
提取所述针对同一个训练场景的所述多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,其中,所述多帧视点数据中包含第三视点的第三视点数据;
根据所述第一视点数据和所述第二视点数据获取所述第一视点的第一相机参数,和所述第二视点的第二相机参数;
将所述第一视点数据中的第一彩色图像信息、所述第二视点数据中的第二彩色图像信息、所述第一相机参数和所述第二相机参数输入至预设的卷积神经网络;
通过所述卷积神经网络根据所述第一彩色图像信息、所述第二彩色图像信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算视点数据;
计算所述第三视点数据与所述估算视点数据之间的损失值,当所述损失值大于预设阈值时,调整所述卷积神经网络的网络参数,直至所述损失值小于等于所述预设阈值时,完成对所述卷积神经网络的训练,以便于根据训练完成后的卷积神经网络进行视点图像的生成。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一视点数据和所述第二视点数据获取所述第一视点的第一相机参数,和第二视点的第二相机参数,包括:
根据运动重构方法对所述第一视点数据估算获取所述第一相机参数;
根据运动重构方法对所述第二视点数据估算获取所述第二相机参数。
3.如权利要求1所述的方法,其特征在于,所述通过所述卷积神经网络根据所述第一彩色图像信息、所述第二彩色图像信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算视点数据,包括:
根据预设算法对所述第一彩色图像信息计算生成第一深度信息;
根据预设算法对所述第二彩色图像信息计算生成第二深度信息;
根据所述第一深度信息和所述第二深度信息生成所述第三视点的估算深度信息;
根据所述估算深度信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算彩色像素信息。
4.如权利要求3所述的方法,其特征在于,所述计算所述第三视点数据与所述估算视点数据之间的损失值,包括:
计算所述估算深度信息和所述第三视点数据对应的第三深度信息的深度损失值;
计算所述估算彩色图像信息和所述第三视点数据对应的第三彩色图像信息的彩色图像损失值;
根据预设公式对所述深度损失值和所述彩色图像损失值计算获取所述损失值。
5.如权利要求1所述的方法,其特征在于,还包括:
获取相机模组拍摄的当前场景的多个拍摄视点数据;
根据所述多个拍摄视点数据计算所述相机模组针对每个拍摄视点的相机参数;
将所述多个拍摄视点数据两两一组划分为多组拍摄视点数据;
将每组拍摄视点数据和对应的相机参数输入至训练完成的所述卷积神经网络,获取与所述每组拍摄视点数据对应的新增视点数据;
根据所述新增视点数据和所述多个拍摄视点数据生成针对所述当前场景的视点数据,并根据所述视点数据提供导航服务。
6.一种基于卷积神经网络的视点数据生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取多种训练场景的离散视点数据集,其中,所述离散视点数据集中每个离散视点数据包含针对同一个训练场景的多个视点的多帧视点数据,其中,所述多帧视点数据中每帧视点数据,包含对应视点下所述训练场景的彩色图像信息和深度信息;
提取模块,用于提取所述针对同一个训练场景的所述多帧视点数据中的第一视点的第一视点数据,和第二视点的第二视点数据,其中,所述多帧视点数据中包含第三视点的第三视点数据;
第二获取模块,根据所述第一视点数据和所述第二视点数据获取所述第一视点的第一相机参数,和所述第二视点的第二相机参数;
输入模块,用于将所述第一视点数据中的第一彩色图像信息、所述第二视点数据中的第二彩色图像信息、所述第一相机参数和所述第二相机参数输入至预设的卷积神经网络;
估算模块,用于通过所述卷积神经网络根据所述第一彩色图像信息、所述第二彩色图像信息、所述第一相机参数和所述第二相机参数估算所述第三视点的估算视点数据;
计算模块,用于计算所述第三视点数据与所述估算视点数据之间的损失值,当所述损失值大于预设阈值时,调整所述卷积神经网络的网络参数,直至所述损失值小于等于所述预设阈值时,完成对所述卷积神经网络的训练,以便于根据训练完成后的卷积神经网络进行视点图像的生成。
7.如权利要求6所述的装置,其特征在于,所述第二获取模块,包括:
第一获取单元,用于根据运动重构方法对所述第一视点数据估算获取所述第一相机参数;
第二获取单元,用于根据运动重构方法对所述第二视点数据估算获取所述第二相机参数。
8.如权利要求6所述的装置,其特征在于,所述计算模块,包括:
第一计算单元,用于计算所述估算深度信息和所述第三视点数据对应的第三深度信息的深度损失值;
第二计算单元,用于计算所述估算彩色图像信息和所述第三视点数据对应的第三彩色图像信息的彩色图像损失值。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5任一所述的基于卷积神经网络的视点数据生成方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一所述的基于卷积神经网络的视点数据生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910646645.5A CN110443874B (zh) | 2019-07-17 | 2019-07-17 | 基于卷积神经网络的视点数据生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910646645.5A CN110443874B (zh) | 2019-07-17 | 2019-07-17 | 基于卷积神经网络的视点数据生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443874A true CN110443874A (zh) | 2019-11-12 |
CN110443874B CN110443874B (zh) | 2021-07-30 |
Family
ID=68430651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910646645.5A Active CN110443874B (zh) | 2019-07-17 | 2019-07-17 | 基于卷积神经网络的视点数据生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443874B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093584A1 (zh) * | 2019-11-13 | 2021-05-20 | 南京大学 | 基于深度卷积神经网络的自由视点视频生成及交互方法 |
CN113643347A (zh) * | 2020-07-20 | 2021-11-12 | 黑芝麻智能科技(上海)有限公司 | 利用弱对准的异构相机的立体视觉 |
CN113810676A (zh) * | 2020-06-16 | 2021-12-17 | 佳能株式会社 | 图像处理设备、方法、系统、介质和学习模型的制造方法 |
CN115988343A (zh) * | 2022-11-21 | 2023-04-18 | 中国联合网络通信集团有限公司 | 图像生成方法、装置及可读存储介质 |
US12045998B2 (en) | 2022-05-18 | 2024-07-23 | Toyota Research Institute, Inc. | Systems and methods for neural implicit scene representation with dense, uncertainty-aware monocular depth constraints |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107438866A (zh) * | 2015-05-13 | 2017-12-05 | 谷歌公司 | 深度立体:学习从现实世界形象预测新视图 |
CN108416751A (zh) * | 2018-03-08 | 2018-08-17 | 深圳市唯特视科技有限公司 | 一种基于深度辅助全分辨率网络的新视点图像合成方法 |
CN108510573A (zh) * | 2018-04-03 | 2018-09-07 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
CN109472828A (zh) * | 2018-10-26 | 2019-03-15 | 达闼科技(北京)有限公司 | 一种定位方法、装置、电子设备及计算机可读存储介质 |
-
2019
- 2019-07-17 CN CN201910646645.5A patent/CN110443874B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107438866A (zh) * | 2015-05-13 | 2017-12-05 | 谷歌公司 | 深度立体:学习从现实世界形象预测新视图 |
CN108416751A (zh) * | 2018-03-08 | 2018-08-17 | 深圳市唯特视科技有限公司 | 一种基于深度辅助全分辨率网络的新视点图像合成方法 |
CN108510573A (zh) * | 2018-04-03 | 2018-09-07 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
CN109472828A (zh) * | 2018-10-26 | 2019-03-15 | 达闼科技(北京)有限公司 | 一种定位方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
WU G, ZHAO M, WANG L, ET AL.: "Light Field Reconstruction Using Deep Convolutional Network on EPI", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
王珊,沈旭昆,赵沁平: "三维人脸表情获取及重建技术综述", 《系统仿真学报》 * |
索津莉,刘烨斌,季向阳,戴琼海: "计算摄像学: 核心、方法与应用", 《自动化学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093584A1 (zh) * | 2019-11-13 | 2021-05-20 | 南京大学 | 基于深度卷积神经网络的自由视点视频生成及交互方法 |
CN113810676A (zh) * | 2020-06-16 | 2021-12-17 | 佳能株式会社 | 图像处理设备、方法、系统、介质和学习模型的制造方法 |
CN113643347A (zh) * | 2020-07-20 | 2021-11-12 | 黑芝麻智能科技(上海)有限公司 | 利用弱对准的异构相机的立体视觉 |
CN113643347B (zh) * | 2020-07-20 | 2024-02-09 | 黑芝麻智能科技(上海)有限公司 | 利用弱对准的异构相机的立体视觉 |
US12045998B2 (en) | 2022-05-18 | 2024-07-23 | Toyota Research Institute, Inc. | Systems and methods for neural implicit scene representation with dense, uncertainty-aware monocular depth constraints |
CN115988343A (zh) * | 2022-11-21 | 2023-04-18 | 中国联合网络通信集团有限公司 | 图像生成方法、装置及可读存储介质 |
CN115988343B (zh) * | 2022-11-21 | 2024-07-23 | 中国联合网络通信集团有限公司 | 图像生成方法、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110443874B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443874B (zh) | 基于卷积神经网络的视点数据生成方法和装置 | |
WO2019174378A1 (zh) | 一种基于深度预测和增强子网络的高质量深度估计方法 | |
Hua et al. | Holopix50k: A large-scale in-the-wild stereo image dataset | |
Yang et al. | Bayesian denet: Monocular depth prediction and frame-wise fusion with synchronized uncertainty | |
CN108124489B (zh) | 信息处理方法、装置、云处理设备以及计算机程序产品 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN110120049B (zh) | 由单张图像联合估计场景深度与语义的方法 | |
CN113723317B (zh) | 3d人脸的重建方法、装置、电子设备和存储介质 | |
CN110335222B (zh) | 基于神经网络的自修正弱监督双目视差提取方法及装置 | |
Vu et al. | Efficient hybrid tree-based stereo matching with applications to postcapture image refocusing | |
CN113033442A (zh) | 基于StyleGAN的高自由度人脸驱动方法和装置 | |
CN117237431A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN112907737A (zh) | 基于隐函数融合的动态人体三维重建方法和装置 | |
CN115496925A (zh) | 图像处理方法、设备、存储介质及程序产品 | |
CN114332156B (zh) | 基于图卷积神经网络的实时三维运动补全方法 | |
CN109978928B (zh) | 一种基于加权投票的双目视觉立体匹配方法及其系统 | |
CN114972634A (zh) | 基于特征体素融合的多视角三维可变形人脸重建方法 | |
Lazcano et al. | Comparing different metrics on an anisotropic depth completion model | |
Chen et al. | Dynamic Hypergraph Convolutional Network for No-Reference Point Cloud Quality Assessment | |
Li et al. | Single image depth estimation using edge extraction network and dark channel prior | |
Wang et al. | Scene Prior Filtering for Depth Map Super-Resolution | |
CN116091705A (zh) | 基于神经辐射场的变拓扑动态场景重建与编辑方法和装置 | |
EP2947626A1 (en) | Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel | |
CN115619974A (zh) | 基于改进PatchMatch网络的大型场景三维重建方法、重建装置、设备及存储介质 | |
CN114782256A (zh) | 图像重建方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |