CN110335222A - 基于神经网络的自修正弱监督双目视差提取方法及装置 - Google Patents
基于神经网络的自修正弱监督双目视差提取方法及装置 Download PDFInfo
- Publication number
- CN110335222A CN110335222A CN201910525894.9A CN201910525894A CN110335222A CN 110335222 A CN110335222 A CN 110335222A CN 201910525894 A CN201910525894 A CN 201910525894A CN 110335222 A CN110335222 A CN 110335222A
- Authority
- CN
- China
- Prior art keywords
- matching
- left eyes
- parallax
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012937 correction Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 239000000284 extract Substances 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 41
- 238000009877 rendering Methods 0.000 claims description 11
- 230000000903 blocking effect Effects 0.000 claims description 7
- 230000002969 morbid Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于神经网络的自修正弱监督双目视差提取方法及装置,其中,该方法包括:构建左右眼图像匹配网络,获取2D左右眼图像数据,输入左右眼图像匹配网络得到左右眼样本匹配结果;将左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据置信度值区分2D左右眼图像数据的匹配正确部分和匹配错误部分;提取匹配正确部分的视差信息,及构建视差估计网络,通过视差估计网络对匹配错误部分进行视差估计;将匹配正确部分的视差信息和匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。该方法通过改进神经网络架构,充分利用左右眼数据之间的自约束信息,先匹配后估计来进行视差提取。
Description
技术领域
本发明涉及三维重建技术领域,特别涉及一种基于神经网络的自修正弱监督双目视差提取方法及装置。
背景技术
近年来,三维显示技术已经成为当前社会中的热点技术,尤其是人工智能的助力,虚拟现实、裸眼3D等应用已经逐步走进人们生活中的各种场景。随之而来,三维显示技术对2D图像转3D的需求进一步提高,高效、便捷的实现2D转3D是该技术的迫切要求。但是,传统的2D转3D内容制作仍然停留在手工作坊时代,经过将原始的2D图像逐帧进行Roto处理、深度信息设定、视差图提取、立体渲染、三维重建等一系列操作,最终产生3D效果。该过程流程繁琐、实现周期长、人工成本过高,且生成的深度结果受人工经验限制,主观性强,对于商业成果的展示,经常还要做多次后期检查及修正。
在3D内容制作中,现有方法可分为实拍3D内容和2D转制3D内容2大类。其中,3D内容实拍技术,通常采用双摄影机并排捆绑进行拍摄,需要对双摄影机同步调焦,很难做到双机完全同步,容易造成虚焦、双机畸变等多种问题;对于动作类以及特效动作较多的科幻影视内容,更无法采用3D实拍的方法实现。
因此,由2D内容转制3D内容,已经成为最普遍的3D内容制作方法。2D内容转制3D内容又可以分为传统的人工2D内容转制3D和基于人工智能的2D内容转3D内容两种。人工转制过程流程复杂,人员培训周期长,3D内容转制成本消耗极高,转制过程完全由人工操作,人工操作的熟练度和对2D画面中对象相对位置关系理解,直接影响着最终三维重建的质量。
由于人工智能技术的兴起,出现了多种利用深度神经网络从2D图像提取视差或者深度信息,最终实现基于人工智能的2D转3D技术手段。当前比较成功的视差提取算法大多都是基于左右眼(双目)图像,经过多层神经网络提取特征进行左右图像匹配估计视差,有时候还需要对神经网络提取的视差进行后处理操作,从而得到2D图像对的视差信息。这种方法极大地提高了2D内容转制3D内容的实现效率,自动化程度高。但这类方法最大的缺陷在于数据依赖性大,训练一个有效的视差提取模型往往需要大量的左右眼样本数据和对应的视差或者深度数据,属于有监督学习方法。如果网络输入的视差或者深度样本不足,难以包含更多的场景,那么将很难训练出一个有效的视差提取模型。一般地,视差或者深度样本常常由一些深度设备如深度摄像机、激光雷达等得到,或者由一些虚拟的渲染数据转制得到,这些方法均比较繁琐,需要一定的后处理辅助。
针对有监督方法中视差或者深度数据获取问题,当前出现了一些无监督、弱监督的神经网络视差信息提取方法。这些方法一定程度上减弱了对视差样本的依赖,可以利用更多的现有数据进行网络训练。但相比于有监督的方法,该类方法目前的视差提取精度仍显不足。现有的无监督、弱监督方法大多采用直接估计视差的方式,训练中通过引入左右一致性进行约束。但这类方法在场景较为复杂、大片纯色、遮挡、重复纹理等病态区域,视差提取精度较低,局限性较大。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于神经网络的自修正弱监督双目视差提取方法,该方法通过改进神经网络架构,充分利用左右眼数据之间的自约束信息,先匹配后估计来进行视差提取。
本发明的另一个目的在于提出一种基于神经网络的自修正弱监督双目视差提取装置。
为达到上述目的,本发明一方面实施例提出了一种基于神经网络的自修正弱监督双目视差提取方法,包括:
构建左右眼图像匹配网络,获取2D左右眼图像数据,将所述2D左右眼图像数据输入所述左右眼图像匹配网络的卷积层得到左右眼图像低维的特征图像,将所述特征图像输入所述左右眼图像匹配网络的匹配层进行匹配得到左右眼样本匹配结果;
将所述左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分;
提取所述匹配正确部分的视差信息,以及构建视差估计网络,通过所述视差估计网络对所述匹配错误部分进行视差估计;
将所述匹配正确部分的视差信息和所述匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。
本发明实施例的基于神经网络的自修正弱监督双目视差提取方法,通过改进神经网络架构,充分利用左右眼数据之间的自约束信息,提出先匹配后估计的视差提取方法。设计了一个智能自修正单元,用以将病态区域区别出来送给后续的神经网络直接估计视差。对于容易匹配的部分将不再参与后续的视差估计网络训练,最后对这两部分结果进行融合得到最终的视差提取结果。
另外,根据本发明上述实施例的基于神经网络的自修正弱监督双目视差提取方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:
根据所述视差提取结果,并结合立体渲染,进行图像数据三维重建。
进一步地,在本发明的一个实施例中,训练所述修正单元网络包括:
构建所述修正单元网络,获取多张含有纯色、遮挡或重复纹理的2D左右眼图像训练样本以及对应的视差样本来对所述修正单元网络进行训练。
进一步地,在本发明的一个实施例中,所述根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分,包括:
所述置信度值为基于像素的置信度值,其中,所述置信度值大于预设阈值表示对应的图像区域为所述匹配正确部分,为非病态区域,对所述非病态区域直接进行视差信息的提取;所述置信度值小于预设阈值表示对应的图像区域为所述匹配度错误部分,为病态区域,所述病态区域通过所述视差估计网络来估计视差。
进一步地,在本发明的一个实施例中,所述无监督自约束条件包括:左右图之间的互约束、视差平滑性约束、图像相似性约束、视差连续性约束和不同权重下的视差总约束。
为达到上述目的,本发明另一方面实施例提出了一种基于神经网络的自修正弱监督双目视差提取装置,包括:
匹配模块,用于构建左右眼图像匹配网络,获取2D左右眼图像数据,将所述2D左右眼图像数据输入所述左右眼图像匹配网络的卷积层得到左右眼图像低维的特征图像,将所述特征图像输入所述左右眼图像匹配网络的匹配层进行匹配得到左右眼样本匹配结果;
修正模块,用于将所述左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分;
提取模块,用于提取所述匹配正确部分的视差信息,以及构建视差估计网络,通过所述视差估计网络对所述匹配错误部分进行视差估计;
融合约束模块,用于将所述匹配正确部分的视差信息和所述匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。
本发明实施例的基于神经网络的自修正弱监督双目视差提取装置,通过改进神经网络架构,充分利用左右眼数据之间的自约束信息,提出先匹配后估计的视差提取方法。设计了一个智能自修正单元,用以将病态区域区别出来送给后续的神经网络直接估计视差。对于容易匹配的部分将不再参与后续的视差估计网络训练,最后对这两部分结果进行融合得到最终的视差提取结果。
另外,根据本发明上述实施例的基于神经网络的自修正弱监督双目视差提取装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:
重建模块,用于根据所述视差提取结果,并结合立体渲染,进行图像数据三维重建。
进一步地,在本发明的一个实施例中,训练所述修正单元网络包括:
构建所述修正单元网络,获取多张含有纯色、遮挡或重复纹理的2D左右眼图像训练样本以及对应的视差样本来对所述修正单元网络进行训练。
进一步地,在本发明的一个实施例中,所述根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分,包括:
所述置信度值为基于像素的置信度值,其中,所述置信度值大于预设阈值表示对应的图像区域为所述匹配正确部分,为非病态区域,对所述非病态区域直接进行视差信息的提取;所述置信度值小于预设阈值表示对应的图像区域为所述匹配度错误部分,为病态区域,所述病态区域通过所述视差估计网络来估计视差。
进一步地,在本发明的一个实施例中,所述无监督自约束条件包括:左右图之间的互约束、视差平滑性约束、图像相似性约束、视差连续性约束和不同权重下的视差总约束。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于神经网络的自修正弱监督双目视差提取方法流程图;
图2为根据本发明一个实施例的基于神经网络的自修正弱监督双目视差提取方法流程框图;
图3为根据本发明一个实施例的自修正视差提取结果对比图;
图4为根据本发明一个实施例的基于人工智能的三维重建系统流程图;
图5为根据本发明一个实施例的基于神经网络的自修正弱监督双目视差提取装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在进行描述本发明的是实施例之前,对本发明实施例涉及的技术名词进行解释说明。
弱监督学习:一种机器学习方式,旨在少量有标签数据监督下,通过对训练数据的挖掘、学习,得到数据内部的规律。
自修正:神经网络可以进行自我评判错误、自我修正错误的机制,通过这种机制实现神经网络的自我学习和自我提高。
自约束:利用自身的某些天然的条件对结果进行约束,这种约束不需要提供外在的其他条件输入。
神经网络:也简称为神经网络或称作连接模型,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
视差:指从有一定距离的两个点上观察同一个目标时所产生的方向性差异,这个差异值通常称为视差。
双目视差提取:利用左右眼图像提取视差信息,是一种比较常用的视差提取方式。
下面参照附图描述根据本发明实施例提出的基于神经网络的自修正弱监督双目视差提取方法及装置。
首先将参照附图描述根据本发明实施例提出的基于神经网络的自修正弱监督双目视差提取方法。
图1为根据本发明一个实施例的基于神经网络的自修正弱监督双目视差提取方法流程图。
如图1所示,该基于神经网络的自修正弱监督双目视差提取方法包括以下步骤:
在步骤S101中,构建左右眼图像匹配网络,获取2D左右眼图像数据,将2D左右眼图像数据输入左右眼图像匹配网络的卷积层得到左右眼图像低维的特征图像,将特征图像输入左右眼图像匹配网络的匹配层进行匹配得到左右眼样本匹配结果。
具体地,本发明实施例通过构建并训练一个无监督自约束神经网络,取得视差信息提取转换模型进行视差提取。
进一步地,在本发明的一个实施例中,在构建网络之前,先收集样本数据,样本数据包含由现有3D图像和视频提取单位对应的原始2D左右眼图像,不需要对应的视差图像。将收集到的2D左右眼数据进行随机选取,分别作为训练样本数据和测试样本数据。
对训练样本数据进行预处理,将样本数据中原始2D图像尺寸进行缩放处理,全部缩放至1472×448分辨率,并提取像素均值,对原始2D图像进行减均值操作,将全部样本数据中像素值归一化为统一分布。预处理后的训练样本数据和测试数据用以下面步骤中的网络构建及模型测试。
具体地,构建左右眼图像匹配网络,网络包含依次连接的两层2维卷积层和1个匹配层,分别对左右眼图像做特征提取并对其进行特征匹配。
(1)在第一层使用64个7×7×3的卷积核对输入的2D图像RGB通道进行卷积操作,并对卷积结果进行批规范化,使用修正线性单元Relu对卷积结果进行非线性化。在第二层使用128个5×5×64的卷积核对第一层的输出结果再次进行卷积操作。同样,并对卷积结果进行规范化,使用修正单元Relu对卷积结果进行非线性化处理。经过两层的卷积操作后,得到左右眼图像低维的特征图像,该特征图像更好地刻画了提取对象的边缘、角点、尖锐或不平滑区域,该特征图像将直接送到匹配层,得到左右眼图像匹配后特征图像。
(2)对第2层卷积输出结果的左右眼特征图进行匹配,需要预先设定左右图最大视差值。同时,对上一层卷积输出的左图或者右图特征图使用64个1×1的卷积操作,并将其与匹配结果连接到一块,为后续多层特征提取做好准备。
在步骤S102中,将左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据置信度值区分2D左右眼图像数据的匹配正确部分和匹配错误部分。
进一步地,在本发明的一个实施例中,训练修正单元网络包括:
构建修正单元网络,获取多张含有纯色、遮挡或重复纹理的2D左右眼图像训练样本以及对应的视差样本来对修正单元网络进行训练。
进一步地,根据置信度值区分2D左右眼图像数据的匹配正确部分和匹配错误部分,包括:
置信度值为基于像素的置信度值,其中,置信度值大于预设阈值表示对应的图像区域为匹配正确部分,为非病态区域,对非病态区域直接进行视差信息的提取;置信度值小于预设阈值表示对应的图像区域为匹配度错误部分,为病态区域,病态区域通过视差估计网络来估计视差。其中,预设阈值根据实际情况进行设定。
图像匹配本身会存在病态和非病态区域,病态区域是指图像上大片的纯色、遮挡、重复纹理以及左右眼图像边缘部分,这部分区域很难得到准确的匹配信息。设计了一个智能自修正单元,用以将病态区域区别出来送给后续的神经网络直接估计视差,对于容易匹配的部分将不再参与后续的视差估计网络训练。
具体地,智能修正单元主要基于左右眼样本匹配结果结合真实的视差(或深度)样本,得到基于像素的置信度值。置信度高于某一阈值的部分可以认为是匹配较好的区域,该部分将不再参与后续的视差估计提取网络,直接给出视差结果。置信度低于某一阈值的部分认为是匹配较差的区域,常常出现在一些病态区域,该部分需要进一步通过后续的视差估计网络得到较为真实的视差值。该单元网络结构卷积部分与左右眼图像匹配网络完全一致,在卷积操作后增加了2层全连接层,用以对匹配结果的正确性作出评价。该网络单元基于图像块(5×5)设计,实现训练中并不需要大量的原始图像输入,仅需要数十张带有视差(或深度)的样本即可。
修正单元网络包括2层全连接结构,使用修正线性单元Relu,对第1层全连接结果进行非线性化处理,第2层全连接不加任何非线性操作,输入经过左右眼图像匹配网络得到左右眼样本匹配结果,直接输出匹配预测分类结果。
比如,视差阈值初始值设为3,即认为匹配结果均值与真实的视差值偏差小于3的图像块认为是匹配正确的区域,相反大于3的图像块则认为是匹配错误的区域。
在步骤S103中,提取匹配正确部分的视差信息,以及构建视差估计网络,通过视差估计网络对匹配错误部分进行视差估计。
具体地,对于通过上述步骤区分出来的匹配正确的区域不再参与视差估计网络的训练来估计视差,直接进行视差信息的提取。对于匹配错误的区域,通过视差估计网络来估计视差信息。
进一步地,视差估计网络部分是一个多层的特征提取网络单元,由连续的8层2维卷积操作和6层2维转置卷积操作组成。用于对左右眼图像的多级特征提取和视差估计。
其中,8层2维卷积操作,每2层卷积可以作为一个卷积组。除第一层卷积操作使用5×5的卷积核外,其余层均采用3×3的卷积核。第1组卷积采用256个卷积核,第2、3组采用512个卷积核,第4组采用1024个卷积核。
6层2维的转置卷积操作,对特征图进行逐步放大,得到多尺度视差估计结果,该结果通过多尺度逐步估计方式大大提高了视差估计的准确性。
在步骤S104中,将匹配正确部分的视差信息和匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。
具体地,将直接提取的视差信息和通过视差估计网络估计的视差结果进行视差融合,并对融合结果进行约束。
进一步地,无监督自约束条件包括:左右图之间的互约束、视差平滑性约束、图像相似性约束、视差连续性约束和不同权重下的视差总约束。
由于不使用真实的视差或者深度数据,无法提供有监督的约束条件。为了充分利用左右图之间的自约束关系,通过多种自约束条件,用以实现对网络的训练。
具体地,由左图和左图对应的视差经过图像变换可以得到右图,同理由右图和右图的视差也可以得到左图。因此,在充分挖掘左右图与视差图三者之间关系的基础上,设计了左右图之间的互约束。为了加强这种约束,不仅在原始图像像素空间直接做L1loss,同时在图像的x、y方向梯度空间也加入了这种约束。
视差平滑性约束。考虑图像像素点的8邻域,在4个方向(x、y、xy1、xy2)上分别计算梯度,最后得到总的平均梯度值,用来刻画视差的平滑性。
图像相似性约束。直接计算原始左图(或右图)和经过视差变换后的左图(或右图)计算各自的SSIM值,对变换前后图像相似性质量进行约束。
视差连续性约束,在水平方向上对视差提取结果做连续性约束。
不同权重下的视差总约束。将以上约束以不同的权重进行加和,作为最后总的loss,用于神经网络训练。
综上,首先,利用少量的2D左右眼样本以及对应的视差(或深度)样本,预训练一个置信度评价网络,该网络可以自动将图像匹配中的病态区域和非病态区域区别开来,用以辅助无监督视差提取网络。无监督视差提取网络采用大量原始的2D左右眼图像作为训练样本,置信度评价网络作为一个自修正单元嵌入整个神经网络中,最终获取视差图像提取模型。该网络架构整体属于无监督神经网络,其中的自修正单元仅需要少量的带有视差的样本进行预训练即可,因此可以称为一个弱监督自修正的视差提取神经网络。该网络通过自修正模块大大提高了视差提取精度,相比于现有的无监督、弱监督视差提取方法精度更高。利用该模型,自动进行视差提取,结合现有的立体渲染方法实现自动三维重建。
如图2所示,为了解决现有人工智能2D转制3D技术对视差或者深度数据依赖大,无法利用更多现有的2D数据,转制效果不稳定,模型泛化能力不足等问题,提出的仅使用非常少量带有视差或深度的左右眼(双目)样本数据,构建智能修正的弱监督神经网络。该网络利用现有的左右眼原始数据通过双目立体匹配——智能自修正单元——视差融合——视差自约束,对网络参数进行训练,取得了适用于任意2D内容的视差信息提取模型。智能修正单元也是一个小型的神经网络,该神经网络仅需要少量的2D左右眼数据和对应的视差或深度数据进行预训练。最后,将自修正单元嵌入整个网络中,实现对视差信息的提取,整体网络架构见图2。视差提取网络结合三维立体渲染技术实现三维重建,最终构建出适用于任意2D内容的全自动三维重建系统。
进一步地,智能修正的弱监督视差提取神经网络,需要预先挑选少量(数十张即可)含有明显纯色、遮挡、重复纹理等病态区域的原始2D左右眼图像训练样本以及对应的视差(或深度)样本,用以训练智能修正单元网络。预训练好智能修正单元网络后,直接将该单元前向网络参数嵌入到整体视差提取网络中。在训练视差提取网络时,直接输入预处理后的训练样本,经过匹配——修正——估计——自约束四个部分,最终得到修正后融合的视差提取结果。
如图3所示,分别显示了原始2D左图(a)、原始匹配结果(b)、未修正的视差提取结果(c)以及自修正后的视差提取结果(d),图3(b)显示了自修正单元二值化结果,其中,亮度值高的部分即为匹配比较准确的部分,亮度值低的部分为匹配较差的部分。观察图3(b)可以发现,匹配比较准确的部分集中在吊坠边缘等纹理较多部分,匹配不准确的部分主要集中在纯色的天空部分。图3(c)为未加自修正单元的视差提取结果,可以发现错误主要出现在方框部分,该部分恰好是匹配较差区域。图3(d)显示了添加自修正单元后的视差提取结果,可以看到方框部分视差得到了很好的改正。
融合视差提取网络训练时的几个重要的超参数设计如下:
优化函数:采用比较通用的Adam优化函数对整个神经网络进行参数优化,beta1取0.9,beta2取0.999。
学习率:初始学习率设为0.0001,训练中逐步减小,可以根据训练样本量大小,训练迭代次数等合理设置。
Batch_size:根据数据量,硬件性能等,合理设置。
进一步地,在本发明的一个实施例中,根据视差提取结果,并结合立体渲染,进行图像数据三维重建。
流程框图如图4所示,包含以下步骤:
(1)图像或视频读取;
(2)该系统输入可分为图像和视频,图像可以直接作为待转换数据输入至系统中,而视频需要通过视频转图像序列进行连续帧图像转换。转换后输入为原始2D图像或连续帧图像;
(3)视差信息提取;
(4)读取上述训练过程中取得的自动视差提取模型,将待转换数据输入至智能修正弱监督视差提取神经网络中,经过网络计算,取得对应原始输入的视差信息图像或连续帧视差信息图像;
(5)立体渲染三维重建;
(6)将原始2D内容结合智能修正弱监督神经网络输出的视差信息结果进行立体渲染,重建三维信息。
利用现有的左右眼数据作为样本,对该神经网络参数进行训练,取得由2D内容提取视差信息图像转换模型。在实际应用中,可以将任意2D左右眼图像输入得到视差信息,再结合三维渲染技术实现自动三维重建。
根据本发明实施例提出的基于神经网络的自修正弱监督双目视差提取方法,通过改进神经网络架构,充分利用左右眼数据之间的自约束信息,提出先匹配后估计的视差提取方法。设计了一个智能自修正单元,用以将病态区域区别出来送给后续的神经网络直接估计视差。对于容易匹配的部分将不再参与后续的视差估计网络训练,最后对这两部分结果进行融合得到最终的视差提取结果。
其次参照附图描述根据本发明实施例提出的基于神经网络的自修正弱监督双目视差提取装置。
图5为根据本发明一个实施例的基于神经网络的自修正弱监督双目视差提取装置结构示意图。
如图5所示,该基于神经网络的自修正弱监督双目视差提取装置包括:匹配模块100、修正模块200、提取模块300和融合约束模块400。
其中,匹配模块100,用于构建左右眼图像匹配网络,获取2D左右眼图像数据,将2D左右眼图像数据输入左右眼图像匹配网络的卷积层得到左右眼图像低维的特征图像,将特征图像输入左右眼图像匹配网络的匹配层进行匹配得到左右眼样本匹配结果。
修正模块200,用于将左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据置信度值区分2D左右眼图像数据的匹配正确部分和匹配错误部分。
提取模块300,用于提取匹配正确部分的视差信息,以及构建视差估计网络,通过视差估计网络对匹配错误部分进行视差估计。
融合约束模块400,用于将匹配正确部分的视差信息和匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。
进一步地,在本发明的一个实施例中,还包括:重建模块;
重建模块,用于根据视差提取结果,并结合立体渲染,进行图像数据三维重建。
进一步地,在本发明的一个实施例中,训练修正单元网络包括:
构建修正单元网络,获取多张含有纯色、遮挡或重复纹理的2D左右眼图像训练样本以及对应的视差样本来对修正单元网络进行训练。
进一步地,在本发明的一个实施例中,根据置信度值区分2D左右眼图像数据的匹配正确部分和匹配错误部分,包括:
置信度值为基于像素的置信度值,其中,置信度值大于预设阈值表示对应的图像区域为匹配正确部分,为非病态区域,对非病态区域直接进行视差信息的提取;置信度值小于预设阈值表示对应的图像区域为匹配度错误部分,为病态区域,病态区域通过视差估计网络来估计视差。
进一步地,在本发明的一个实施例中,无监督自约束条件包括:左右图之间的互约束、视差平滑性约束、图像相似性约束、视差连续性约束和不同权重下的视差总约束。
需要说明的是,前述对基于神经网络的自修正弱监督双目视差提取方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于神经网络的自修正弱监督双目视差提取装置,通过改进神经网络架构,充分利用左右眼数据之间的自约束信息,提出先匹配后估计的视差提取方法。设计了一个智能自修正单元,用以将病态区域区别出来送给后续的神经网络直接估计视差。对于容易匹配的部分将不再参与后续的视差估计网络训练,最后对这两部分结果进行融合得到最终的视差提取结果。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于神经网络的自修正弱监督双目视差提取方法,其特征在于,包括以下步骤:
构建左右眼图像匹配网络,获取2D左右眼图像数据,将所述2D左右眼图像数据输入所述左右眼图像匹配网络的卷积层得到左右眼图像低维的特征图像,将所述特征图像输入所述左右眼图像匹配网络的匹配层进行匹配得到左右眼样本匹配结果;
将所述左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分;
提取所述匹配正确部分的视差信息,以及构建视差估计网络,通过所述视差估计网络对所述匹配错误部分进行视差估计;
将所述匹配正确部分的视差信息和所述匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述视差提取结果,并结合立体渲染,进行图像数据三维重建。
3.根据权利要求1所述的方法,其特征在于,训练所述修正单元网络包括:
构建所述修正单元网络,获取多张含有纯色、遮挡或重复纹理的2D左右眼图像训练样本以及对应的视差样本来对所述修正单元网络进行训练。
4.根据权利要求1所述的方法,其特征在于,所述根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分,包括:
所述置信度值为基于像素的置信度值,其中,所述置信度值大于预设阈值表示对应的图像区域为所述匹配正确部分,为非病态区域,对所述非病态区域直接进行视差信息的提取;所述置信度值小于预设阈值表示对应的图像区域为所述匹配度错误部分,为病态区域,所述病态区域通过所述视差估计网络来估计视差。
5.根据权利要求1所述的方法,其特征在于,所述无监督自约束条件包括:左右图之间的互约束、视差平滑性约束、图像相似性约束、视差连续性约束和不同权重下的视差总约束。
6.一种基于神经网络的自修正弱监督双目视差提取装置,其特征在于,包括:
匹配模块,用于构建左右眼图像匹配网络,获取2D左右眼图像数据,将所述2D左右眼图像数据输入所述左右眼图像匹配网络的卷积层得到左右眼图像低维的特征图像,将所述特征图像输入所述左右眼图像匹配网络的匹配层进行匹配得到左右眼样本匹配结果;
修正模块,用于将所述左右眼样本匹配结果输入预先训练的修正单元网络得到置信度值,根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分;
提取模块,用于提取所述匹配正确部分的视差信息,以及构建视差估计网络,通过所述视差估计网络对所述匹配错误部分进行视差估计;
融合约束模块,用于将所述匹配正确部分的视差信息和所述匹配错误部分的视差估计信息进行融合,并进行无监督自约束条件进行约束,得到视差提取结果。
7.根据权利要求6所述的装置,其特征在于,还包括:
重建模块,用于根据所述视差提取结果,并结合立体渲染,进行图像数据三维重建。
8.根据权利要求6所述的装置,其特征在于,训练所述修正单元网络包括:
构建所述修正单元网络,获取多张含有纯色、遮挡或重复纹理的2D左右眼图像训练样本以及对应的视差样本来对所述修正单元网络进行训练。
9.根据权利要求6所述的装置,其特征在于,所述根据所述置信度值区分所述2D左右眼图像数据的匹配正确部分和匹配错误部分,包括:
所述置信度值为基于像素的置信度值,其中,所述置信度值大于预设阈值表示对应的图像区域为所述匹配正确部分,为非病态区域,对所述非病态区域直接进行视差信息的提取;所述置信度值小于预设阈值表示对应的图像区域为所述匹配度错误部分,为病态区域,所述病态区域通过所述视差估计网络来估计视差。
10.根据权利要求6所述的装置,其特征在于,所述无监督自约束条件包括:左右图之间的互约束、视差平滑性约束、图像相似性约束、视差连续性约束和不同权重下的视差总约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525894.9A CN110335222B (zh) | 2019-06-18 | 2019-06-18 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525894.9A CN110335222B (zh) | 2019-06-18 | 2019-06-18 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335222A true CN110335222A (zh) | 2019-10-15 |
CN110335222B CN110335222B (zh) | 2021-09-17 |
Family
ID=68142823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910525894.9A Expired - Fee Related CN110335222B (zh) | 2019-06-18 | 2019-06-18 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335222B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837058A (zh) * | 2019-11-06 | 2020-02-25 | 江苏科技大学 | 基于大数据的电池组健康状态评估装置及评估方法 |
CN111080778A (zh) * | 2019-12-23 | 2020-04-28 | 电子科技大学 | 一种双目内窥镜软组织图像的在线三维重建方法 |
CN111310916A (zh) * | 2020-01-22 | 2020-06-19 | 浙江省北大信息技术高等研究院 | 一种区分左右眼图片的深度系统训练方法及系统 |
CN111405266A (zh) * | 2020-05-29 | 2020-07-10 | 深圳看到科技有限公司 | 双目图像快速处理方法、装置及对应的存储介质 |
CN113538243A (zh) * | 2021-07-22 | 2021-10-22 | 西安电子科技大学 | 基于多视差注意力模块组合的超分辨图像重建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355570A (zh) * | 2016-10-21 | 2017-01-25 | 昆明理工大学 | 一种结合深度特征的双目立体视觉匹配方法 |
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及系统 |
CN109584290A (zh) * | 2018-12-03 | 2019-04-05 | 北京航空航天大学 | 一种基于卷积神经网络的立体图像匹配方法 |
-
2019
- 2019-06-18 CN CN201910525894.9A patent/CN110335222B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355570A (zh) * | 2016-10-21 | 2017-01-25 | 昆明理工大学 | 一种结合深度特征的双目立体视觉匹配方法 |
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及系统 |
CN109584290A (zh) * | 2018-12-03 | 2019-04-05 | 北京航空航天大学 | 一种基于卷积神经网络的立体图像匹配方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837058A (zh) * | 2019-11-06 | 2020-02-25 | 江苏科技大学 | 基于大数据的电池组健康状态评估装置及评估方法 |
CN111080778A (zh) * | 2019-12-23 | 2020-04-28 | 电子科技大学 | 一种双目内窥镜软组织图像的在线三维重建方法 |
CN111080778B (zh) * | 2019-12-23 | 2023-03-31 | 电子科技大学 | 一种双目内窥镜软组织图像的在线三维重建方法 |
CN111310916A (zh) * | 2020-01-22 | 2020-06-19 | 浙江省北大信息技术高等研究院 | 一种区分左右眼图片的深度系统训练方法及系统 |
CN111310916B (zh) * | 2020-01-22 | 2022-10-25 | 浙江省北大信息技术高等研究院 | 一种区分左右眼图片的深度系统训练方法及系统 |
CN111405266A (zh) * | 2020-05-29 | 2020-07-10 | 深圳看到科技有限公司 | 双目图像快速处理方法、装置及对应的存储介质 |
CN111405266B (zh) * | 2020-05-29 | 2020-09-11 | 深圳看到科技有限公司 | 双目图像快速处理方法、装置及对应的存储介质 |
WO2021238499A1 (zh) * | 2020-05-29 | 2021-12-02 | 深圳看到科技有限公司 | 双目图像快速处理方法、装置及对应的存储介质 |
CN113538243A (zh) * | 2021-07-22 | 2021-10-22 | 西安电子科技大学 | 基于多视差注意力模块组合的超分辨图像重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110335222B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335222A (zh) | 基于神经网络的自修正弱监督双目视差提取方法及装置 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN107437092A (zh) | 基于三维卷积神经网络的视网膜oct图像的分类算法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN111080511A (zh) | 一种端到端的高分辨率多特征提取的人脸交换方法 | |
CN109671023A (zh) | 一种人脸图像超分辨率二次重建方法 | |
CN107977932A (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN110288537A (zh) | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 | |
CN101394573B (zh) | 一种基于特征匹配的全景图生成方法及系统 | |
CN107680158A (zh) | 一种基于卷积神经网络模型的三维人脸重建方法 | |
CN110516716A (zh) | 基于多分支相似度网络的无参考图像质量评价方法 | |
CN107886089A (zh) | 一种基于骨架图回归的三维人体姿态估计的方法 | |
CN113012172A (zh) | 一种基于AS-UNet的医学图像分割方法及系统 | |
CN109584290A (zh) | 一种基于卷积神经网络的立体图像匹配方法 | |
CN110310317A (zh) | 一种基于深度学习的单目视觉场景深度估计的方法 | |
CN110458060A (zh) | 一种基于对抗学习的车辆图像优化方法及系统 | |
CN108921942B (zh) | 对图像进行2d转制3d的方法及装置 | |
CN106910192A (zh) | 一种基于卷积神经网络的图像融合效果评估方法 | |
CN110197505A (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN108235003B (zh) | 基于3d卷积神经网络的立体视频质量评价方法 | |
Cheng et al. | DDU-Net: A dual dense U-structure network for medical image segmentation | |
CN110136060A (zh) | 基于浅层密集连接网络的图像超分辨率重建方法 | |
CN110033009A (zh) | 在连接网络中处理图像数据的方法 | |
CN117197627B (zh) | 一种基于高阶退化模型的多模态图像融合方法 | |
Wu et al. | Towards open-ended visual quality comparison |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210917 |