CN107358626B - 一种利用条件生成对抗网络计算视差的方法 - Google Patents

一种利用条件生成对抗网络计算视差的方法 Download PDF

Info

Publication number
CN107358626B
CN107358626B CN201710581875.9A CN201710581875A CN107358626B CN 107358626 B CN107358626 B CN 107358626B CN 201710581875 A CN201710581875 A CN 201710581875A CN 107358626 B CN107358626 B CN 107358626B
Authority
CN
China
Prior art keywords
network
generator
image
training
disparity map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710581875.9A
Other languages
English (en)
Other versions
CN107358626A (zh
Inventor
唐婷
卢宗庆
郑伟亮
廖庆敏
吴凌綦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201710581875.9A priority Critical patent/CN107358626B/zh
Publication of CN107358626A publication Critical patent/CN107358626A/zh
Application granted granted Critical
Publication of CN107358626B publication Critical patent/CN107358626B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用条件生成对抗网络计算视差的方法,先训练一个神经网络计算左右两张图片的视差,训练完成后,该神经网络作为条件生成对抗网络的生成器;然后训练另一个神经网络判断视差图的正确性,训练完成后,该神经网络作为条件生成对抗网络的判别器;在训练本发明的条件生成对抗网络时,生成器生成左右眼图像的视差图,判别器判别该视差图的正确率;根据判别器的判别结果,调节生成器网络的权值;训练完成后,生成器的网络权值调整到最佳,将生成器分离出来,此时的生成器就是能生成左右眼图像视差图的最佳神经网络。通过上述操作,得到的最佳神经网络结构较简单,再使用GPU加速计算,可以提高现有的匹配速度。

Description

一种利用条件生成对抗网络计算视差的方法
技术领域
本发明涉及一种利用条件生成对抗网络(CGAN(Conditional GenerativeAdversarial Nets))计算视差的方法。
背景技术
一、立体匹配技术背景:
1、概念
立体匹配算法主要是通过建立一个能量代价函数,通过此能量代价函数最小化来估计像素点视差值。立体匹配算法的实质就是一个最优化求解问题,通过建立合理的能量函数,增加一些约束,采用最优化理论的方法进行方程求解,这也是所有的病态问题求解方法。
2、立体匹配基原
目前匹配算法中所采用的匹配基元可以分成两大类:
1)在所有图象像素点上抽取量测描述子
A、像素灰度值,是最简单、直接,但必须在同一光照条件下获得。
B、局部区域灰度函数,主要是利用求得在各种大小不同窗口中灰度分布的导数信息,描述像素点周围的结构矢量。
C、卷积图象符号,利用各种大小算子与图象进行卷积,用灰度梯度局部极大值或极小值作为特征信息,描述整个图像
2)图像特征
A、过零点
B、边缘,由于边缘是图像特征位置的标志,对灰度值的变化不敏感,边缘是图像匹配的重要特征和描述子。
C、角点,虽然其没有明确的数学定义,但普遍认为的角点,即二维图像亮度变化剧烈的点或边缘曲线上曲率极值点。
3、主要立体匹配算法分类
1)根据采用图像表示的基元不同,立体匹配算法分为:
A、区域立体匹配算法,可获取稠密视差图。基本原理是给定在一幅图像上的某一点,选取该像素点邻域内的一个子窗口,在另一幅图像中的一个区域内,根据某种相似性判断依据,寻找与子窗口图像最为相似的子图,而其匹配的子图中对应的像素点就为该像素的匹配点。
一般单纯的区域匹配都遇到如下限制:
1)针对弱纹理或存在重复纹理的区域,匹配结果不好
2)该算法不适应于深度变化剧烈的场景
3)对光照、对比度和噪声比较敏感
4)子窗体的大小很难选择
缺点:受图像的仿射畸变和辐射畸变影响较大;像素点约束窗口的大小与形状选择比较困难,选择过大,在深度不连续处,视差图中会出现过度平滑现象;选择过小,对像素点的约束比较少,图像信息没有得到充分利用,容易产生误匹配。
B、基于特征的立体匹配算法,可获得稀疏的视差图,经差值估计可获得稠密视差图。可提取点、线、面等局部特征,也可提取多边形和图像结构等全局特征。
特征的匹配算法,主要是基于几何特征信息(边缘、线、轮廓、兴趣点、角点和几何基元等),针对几何特征点进行视差估计,所以先要提取图像的特征点,尽而利用这些特征点的视差值信息来重建三维空间场景。
匹配所需要的主要步骤:图像预处理、提取特征、特征点的匹配获取稀疏视差图,如果想得到稠密的视差图,需要采用插值的方法。
缺点:特征提取易受遮挡、光线、重复纹理等影响较大;差值估计计算量大
C、基于相位立体匹配算法,假定在图像对应点中,其频率范围内,其局部相位是相等的,在频率范围内进行视差估计。
2)依据采用最优化理论方法的不同,立体匹配算法可以分为:
A、局部的立体匹配算法
主要是采用局部优化方法进行视差值估计,局部立体匹配算法有SAD,SSD等算法,与全局立体匹配算法一样,也是通过能量最小化方法进行视差估计,但是,在能量函数中,只有数据项,而没有平滑项。
主要分为三类:自适应窗体立体匹配算法、自适应权值的立体匹配算法和多窗体立体匹配算法。
B、全局的立体匹配算法
全局立体匹配算法主要是采用了全局的优化理论方法估计视差,建立全局能量函数,通过最小化全局能量函数得到最优视差值。
全局匹配算法得到的结果比较准确,但是其运行时间比较长,不适合实时运行。主要的算法有图割(graph cuts)、信念传播(belief propagation)、动态规划等算法。
4、评价参数
立体匹配算法是一个病态问题,一般通过建立能量函数,利用最小化能量函数,和一些约束条件,采用最优化理论方法进行求解方程。
公认的定量评价参数有:均方根误差(Root-mean-squared)和误匹配率(percentage of bad matching pixels)
二、神经网络技术背景
一个经典的神经网络。图1是一个包含三个层次的神经网络。包括输入层、输出层、中间层(也叫隐藏层)。输入层有3个输入单元,隐藏层有4个单元,输出层有2个单元。
设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定;
神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向,跟训练时的数据流有一定的区别;
结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。
1、神经元
对于神经元的研究由来已久,1904年生物学家就已经知晓了神经元的组成结构。一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。
神经元模型是一个包含输入,输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。
图2是一个典型的神经元模型:包含有3个输入,1个输出,以及2个计算功能。
中间的箭头线,这些线称为“连接”。
连接是神经元中最重要的东西。每一个连接上都有一个权重。
一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好,权值就是整个神经网络的参数。
用a来表示输入,用w来表示权值。一个表示连接的有向箭头可以这样理解:在初端,传递的信号大小仍然是a,端中间有加权参数w,经过这个加权后的信号会变成a*w,因此在连接的末端,信号的大小就变成了a*w。
在其他绘图模型里,有向箭头可能表示的是值的不变传递。而在神经元模型里,每个有向箭头表示的是值的加权传递。
如果将神经元图中的所有变量用符号表示,并且写出输出的计算公式的话,就是图3:神经元计算示意图。
可见z是在输入和权值的线性加权和叠加了一个函数g的值。sgn函数,也就是取符号函数。这个函数当输入大于0时,输出1,否则输出0。
神经元可以看作一个计算与存储单元。计算是神经元对其的输入进行计算功能。存储是神经元会暂存计算结果,并传递到下一层。
用“神经元”组成网络以后,描述网络中的某个“神经元”时,更多地会用“单元”(unit)来指代。同时由于神经网络的表现形式是一个有向图,有时也会用“节点”(node)来表达同样的意思。
2、激活函数
激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。
1)Sigmoid(sgn)
也称为S形函数,取值范围为(0,1)。Sigmoid将一个实数映射到(0,1)的区间,可以用来做二分类。Sigmoid在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid函数定义为:
Figure BDA0001352510620000051
sigmoid函数的缺点:
激活函数计算量大(指数运算),反向传播求误差梯度时,求导涉及除法
对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失),从而无法完成深层网络的训练
2)Tanh
Tanh激活函数也称为双切正切函数,取值范围为[-1,1]。tanh在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。Tanh函数定义为:
Figure BDA0001352510620000052
3)ReLU
ReLU函数定义为:
Figure BDA0001352510620000053
ReLU函数的优点:
sigmoid等激活函数(指数运算)计算量大,并且在深层网络上容易出现梯度消失问题
ReLU计算量小(不涉及除法),一部分神经元的输出为0造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟问题的发生
对于偏置值,如果用ReLU的话,最好的办法就是把它们都初始化成小的正值,这样神经元一开始就会工作在ReLU的非零区域内。
ReLU缺点:强制的稀疏处理会减少模型的有效容量(即特征屏蔽太多,导致模型无法学习到有效特征)。
3、前向传播计算
图4为前向传播解析图。
举个例子,假设上一层结点i,j,k,…等一些结点与本层的结点w有连接,那么结点w的值怎么算呢?就是通过上一层的i,j,k等结点以及对应的连接权值进行加权和运算,最终结果再加上一个偏置项(图中为了简单省略了),最后在通过一个非线性函数(即激活函数),如ReLu,sigmoid等函数,最后得到的结果就是本层结点w的输出。最终不断的通过这种方法一层层的运算,得到输出层结果。
4、反向传播计算
反向传播算法简称即BP(Back Propagation)神经网络,是监督算法(数据给出标签)。其目标是:通过更新网络中的每一个权重,使得最终的输出接近于真值,这样就得到整个网络的误差作为一个整体进行了最小化。其中反向传播的链式法则的示意图如图5。
因为反向传播是对非线性可微分函数进行权值训练的多层网络。此算法可以使网络权值收敛到一个解,但并不能保证所求为误差超平面的,由此可能是一个局部最小解。
由于前向传播最终得到的结果总是有误差的,为减少误差,当前应用广泛的一个算法就是梯度下降算法。
设最终总误差为E,E对于输出结点yl的偏导数是yl-tl,其中tl是真实值,
Figure BDA0001352510620000061
是上文前向传播中提及的激活函数,zl是上文前向传播提及的权值加权和,那么这一层的E对zl的偏导数为
Figure BDA0001352510620000062
同理,下一层也是这么计算,一直反向传播到输入层,最后有
Figure BDA0001352510620000063
然后调整这些过程中的权值,再不断进行前向传播和反向传播的过程,最终得到一个比较好的结果。
5、损失函数(Loss Function)
损失函数,是用来计算一次前向计算或反向计算的误差,不同的损失函数有不同的效果。
1)Softamx Cross Entropy Loss Function(Softmax交叉熵损失函数)
Softmax交叉熵损失函数是我们常用的一种利用条件生成对抗网络计算视差的方法损失函数,其公式如下:
Figure BDA0001352510620000071
其中,t和y分别表示神经网络的目标标签和输出,yj表示softmax损失函数:
Figure BDA0001352510620000072
需要注意的一点就是使用本目标损失函数的时候不要在网络的最后一层使用softmax层或者激活函数,会导致结果不正确。
2)Categorical Crossentropy(交叉熵损失函数)
交叉熵损失函数是也是常用的一种利用条件生成对抗网络计算视差的方法损失函数,它表示预测值y与目标值t之间的距离。主要应用在互相排斥的分类任务中,公式为:
Figure BDA0001352510620000073
3)Binary Crossentropy(二值交叉熵损失函数)
这个损失函数主要是用来计算预测值y与目标值t之间的sigmoid交叉熵,主要用来多分类任务中,但是这个分类任务不是互斥的,和上面的损失函数不同,这个对同一个输入可以输出多个标签。公式为:
y-y*t+log(1+e-y)
为了防止溢出,进行如下变换:
max(y,0)-y*t+log(1+e-|y|)
4)Weighted Crossentropy(加权交叉熵损失函数)
主要用来计算神经元之间的权值的交叉熵损失函数,t表示目标标签,y表示输入的预测值。该损失函数和上一个损失函数很像,唯一一点不同的就是:
该损失函数允许对负误差或者正误差加权来调整精确度。
一般的交叉损失函数为:
t*-log(sigmoid(y))+(1-t)*-log(1-sigmoid(y))
当乘上权值pos_weight之后的公式就变成:
t*-log(sigmoid(y))*pos_weight+(1-t)*-log(1-sigmoid(y))
为了避免溢出,我们将公式变为:
(1-t)*y+l*(log(1+e-|y|))+max(-y,0)
其中,L表示:
l=(1+(pos_weight-1)*t)
5)Mean Square Loss
这个损失函数就很常见,t表示目标值,y表示预测值输出。公式为:
Figure BDA0001352510620000081
6)Hinge Loss
这个也是很常见的一个损失函数(loss函数),t表示目标值,y表示预测值输出。公式为:
l(y)=max(0,1-t*y)
三、CGAN网络技术背景
机器学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别称为生成式模型(generative model)和判别式模型(discriminative model)。
1、生成式模型(Generative Model)
生成式模型(generative model)会对样本x和标签y的联合概率分布p(x,y)进行建模,然后通过贝叶斯公式来求得条件概率p(y|x)的模型,即在样本为x的情况下,标签为y的概率,最后选取使得p(y|x)最大的yi,即在样本为x的情况下,预测为标签yi的概率最大。即:
Figure BDA0001352510620000082
生成式模型的优点:
1)一般来说,生成式模型都会对数据的分布做一定的假设,比如朴素贝叶斯会假设在给定y的情况下各个特征之间是条件独立的,当数据满足这些假设时,生成式模型通常需要较少的数据就能取得不错的效果。
2)生成式模型需要更少的训练样本就可以使错误率收敛
3)生成式模型更容易拟合,比如在朴素贝叶斯中只需要计下数就可以。
4)当添加新的类别时,生成式模型不需要全部重新训练,只需要计算新的类别y和x的联合分布p(y,x)即可。
5)生成式模型可以更好地利用无标签数据(比如DBN)。
2、判别式模型
判别式模型(discriminative model)是对x和y的条件概率p(y|x)进行建模。由生成式模型可以得到判别式模型,反之则不可以。
判别式模型的优点:
1)分类边界更灵活,比使用纯概率方法或产生式模型更高级;
2)能清晰的分辨出多类或某一类与其他类之间的差异特征;
3)适用于较多类别的识别;
4)判别模型的性能比产生式模型要简单,比较容易学习。
现有技术的缺点是:
1)随机初始化两张图片的视差图,导致匹配错误率高;
2)匹配速度慢。
发明内容
为解决上述技术问题,本发明提出一种利用条件生成对抗网络计算视差的方法,提升立体匹配的正确率和匹配速率。
为达到上述目的,本发明采用以下技术方案:
一种利用条件生成对抗网络计算视差的方法,先训练一个神经网络计算左右眼图像的视差,训练完成后,该神经网络作为条件生成对抗网络的生成器;然后训练另一个神经网络判断视差图的正确性,训练完成后,该神经网络作为条件生成对抗网络的判别器;在训练本发明的条件生成对抗网络时,生成器生成左右眼图像的视差图,判别器判别该视差图的正确率;判别器就相当于生成器的损失函数,根据判别器的判别结果,调节生成器网络的权值;训练完成后,生成器的网络权值调整到最佳,将生成器分离出来,此时的生成器就是能生成左右眼图像视差图的最佳神经网络。
本发明与现有技术相比的有益效果在于:通过上述操作,得到的最佳神经网络结构较简单,再使用GPU加速计算,可以提高现有的匹配速度。
附图说明
图1是现有技术中一个包含三个层次的神经网络示意图。
图2是现有技术中一个典型的神经元模型。
图3是现有技术中神经元计算示意图。
图4是现有技术中前向传播解析图。
图5是现有技术中反向传播的链式法则的示意图。
图6是本发明实施例网络结构示意图。
图7是本发明实施例生成器结构示意图。
图8、9、10分别是本发明实施例判别器三种结构示意图。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。
下述实施例中,训练数据采用的是训练数据库采用KITTI_2015 Stereo dataset。
KITTI 2015 Stereo data set数据集由800对立体图像组成,包括400对训练图像和400对测试图像(相对应的左右眼图像,称为一对图像)。在400对训练图像中,每一对图像都有对应的真值视差图。
1、条件生成对抗网络结构的设计与训练
下图6就是本发明的条件生成对抗网络结构,按照此网络结构进行训练。
训练该条件生成对抗网络计算视差图,首先通过一个提前训练好的生成器(图7所示),生成左眼和右眼图像的初始视差图,然后,将左右眼图像和生成器生成的初始视差图,通过一个提前训练好的判别器,判别器有三种结构(图8、图9、图10所示)计算该视差图的正确率,最终的正确率是这三种结构输出的正确率的加权和。
训练该条件生成对抗网络时,原生成器的损失函数,由提前训练好的判别器替代,即,根据判别器判别的正确率,调整生成器的网络权值。条件对抗网络训练完成后,单独取出调节好参数的生成器,此时的生成器参数,就是计算左右眼视差图的最佳网络参数,此时的生成器网络,就是计算左右眼视差图的最佳网络。
2、生成器网络结构的设计和训练
生成器的网络结构如下图7所示。生成器需要在训练条件生成对抗网络之前提前训练。生成器训练前后,网络结构不会改变,训练调整的是网络参数值,即,神经元之间连接的权值。
训练生成器时,输入是左右眼图像,输出是视差图,将生成的视差图与真值视差图的误差,调整生成器网络的权值。训练完成后,该生成器网络就能根据输入的左右眼图像,输出一张较好的视差图。提前训练生成器是为了在训练生成对抗网络时得到更好的初始视差图。
生成器的作用是得到左右眼图像的视差图,生成器网络采用的是四层卷积的孪生网络(Siamese network),生成器需要提前单独训练。
首先,取左右图像大小相同的图像块,训练数据中,左右图像对应的真值视差图,也去相同大小的图像块。本发明取3*3或者5*5大小,取图像块进行训练的目的这样可以大幅度的提高训练数据量,训练的效果会提高;
每个卷积层,采用32或者64种卷积核。经过四层卷积后,将两个图像块的卷积结果相乘,得到两个图像块的匹配概率。
3、判别器网络结构的设计和训练
判别器网络三种结构如下图8、图9、图10所示。判别器也需要提前训练,训练判别器时,输入的是左右眼图像和它们的视差真值,输出的是该视差真值的正确率。判别器训练前后网络结构不变,训练调整的是网络参数值,即,神经元之间连接的权值。提前训练判别器是为了让判别器学习,尽量得到与视差真值相同的视差图。
判别器训练时,是将真值视差图分别分成70*70、1*1、16*16、256*256四种大小的块,与对应的左右眼图像块进行训练,相应的得到四种正确率,加权和得到最终的正确率,权值分别是四种图像块占整个图像的比例。四种大小的图像块对应3种判别器网络结构,其中70*70的图像块对应图8的判别器网络结构,16*16和1*1大小的图像块对应图9的判别器网络结构,256*256大小的图像块对应图10的判别器网络结构。其中卷积(Convolution)用C表示,例如,C1代表第一层卷积,C1-64代表第一层卷积有64种卷积核。
本发明上述实施例的优点和效果是:
1)首次应用生成对抗网络计算左右眼图像的视差图,判别器替代了传统神经网络的人工定义的损失函数,本网络的损失函数通过训练得到,自适应程度大大提升,提高了视差图的准确率。
2)训练完成后,生成器就成为了计算视差图的最佳网络,采用GPU加速,计算速度得以提升。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (9)

1.一种利用条件生成对抗网络计算视差的方法,其特征在于包括如下步骤:
S1、先训练一个神经网络计算左右两张图片的视差,训练完成后,该神经网络作为条件生成对抗网络的生成器;
S2、然后训练另一个神经网络判断视差图的正确性,训练完成后,该神经网络作为条件生成对抗网络的判别器;
S3、在训练条件生成对抗网时,生成器生成左右眼图像的视差图,判别器判别该视差图的正确率;
S4、训练完成后,生成器的网络权值调整到最佳,将生成器分离出来,此时的生成器就是能生成左右眼图像视差图的最佳神经网络;
步骤S3中,判别器就相当于生成器的损失函数,根据判别器的判别结果,调节生成器网络的权值;
训练判别器时,输入的是左右眼图像和它们的视差真值,输出的是该视差真值的正确率,根据输出的视差真值图正确率,调整判别器的网络参数;
判别器训练时,是将左右眼图像和对应的真值视差图分别分成70*70、1*1、16*16、256*256四种大小的图像块,用图像块进行训练,其中1*1和16*16大小的图像块采用同一种网络结构进行训练,70*70和256*256大小的图像块采用另外两种不同的网络结构进行训练,四种大小的图像块相应的得到四种正确率,加权和得到最终的正确率,权值分别是四种图像块占整个图像的比例。
2.根据权利要求1所述的利用条件生成对抗网络计算视差的方法,其特征在于,步骤S3包括:训练该条件生成对抗网络计算视差图:首先通过一个提前训练好的生成器,生成左眼和右眼图像的初始视差图,然后,将左右眼图像和生成器生成的初始视差图,通过一个提前训练好的判别器,计算该视差图的正确率。
3.根据权利要求2所述的利用条件生成对抗网络计算视差的方法,其特征在于,训练该条件生成对抗网络时,原生成器的损失函数,由提前训练好的判别器替代,即,根据判别器判别的正确率,调整生成器的网络权值。
4.根据权利要求1所述的利用条件生成对抗网络计算视差的方法,其特征在于,步骤S4中,条件对抗网络训练完成后,单独取出调节好参数的生成器,此时的生成器参数,就是计算左右眼视差图的最佳网络参数,此时的生成器网络,就是计算左右眼视差图的最佳网络。
5.根据权利要求1所述的利用条件生成对抗网络计算视差的方法,其特征在于,步骤S1中,训练生成器时,输入是左右眼图像,输出是视差图,将生成的视差图与真值视差图的误差,调整生成器网络的权值;训练完成后,该生成器网络就能根据输入的左右眼图像,输出一张较好的视差图。
6.根据权利要求5所述的利用条件生成对抗网络计算视差的方法,其特征在于,生成器网络采用的是四层卷积的孪生网络,生成器提前单独训练。
7.根据权利要求6所述的利用条件生成对抗网络计算视差的方法,其特征在于,生成器提前单独训练包括:首先,取左右图像大小相同的图像块,训练数据中,左右图像对应的真值视差图,也去相同大小的图像块;
每个卷积层,采用32或者64种卷积核;经过四层卷积后,将两个图像块的卷积结果进行内积操作,得到两个图像块的匹配概率。
8.根据权利要求7所述的利用条件生成对抗网络计算视差的方法,其特征在于:图像块取3*3或者5*5大小,以提高训练数据量。
9.根据权利要求1所述的利用条件生成对抗网络计算视差的方法,其特征在于:在采用四种大小的图像块训练判别器时,采用了三种网络结构;70*70大小的图像块采用了四层卷积操作,第一层采用64种卷积核,第二层采用128种卷积核,第三层卷积采用256种卷积核,第四层采用512种卷积核;1*1和16*16大小的图像块采用了两层卷积操作,第一层采用64种卷积核,第二层采用128种卷积核;256*256大小的图像块采用了六层卷积操作,第一层采用64种卷积核,第二层采用128种卷积核,第三层卷积采用256种卷积核,第四、五、六层采用512种卷积核;每种网络结构训练得到一种正确率,综合得到最终的正确率,该正确率作为调整生成器网络参数的标准。
CN201710581875.9A 2017-07-17 2017-07-17 一种利用条件生成对抗网络计算视差的方法 Expired - Fee Related CN107358626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710581875.9A CN107358626B (zh) 2017-07-17 2017-07-17 一种利用条件生成对抗网络计算视差的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710581875.9A CN107358626B (zh) 2017-07-17 2017-07-17 一种利用条件生成对抗网络计算视差的方法

Publications (2)

Publication Number Publication Date
CN107358626A CN107358626A (zh) 2017-11-17
CN107358626B true CN107358626B (zh) 2020-05-15

Family

ID=60292193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710581875.9A Expired - Fee Related CN107358626B (zh) 2017-07-17 2017-07-17 一种利用条件生成对抗网络计算视差的方法

Country Status (1)

Country Link
CN (1) CN107358626B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992848B (zh) * 2017-12-19 2020-09-25 北京小米移动软件有限公司 获取深度图像的方法、装置及计算机可读存储介质
CN108090905B (zh) * 2018-01-05 2019-02-05 清华大学 产线异常的判断方法及系统
CN108495110B (zh) * 2018-01-19 2020-03-17 天津大学 一种基于生成式对抗网络的虚拟视点图像生成方法
CN108320274A (zh) * 2018-01-26 2018-07-24 东华大学 一种基于双通道循环生成对抗网络的红外视频彩色化方法
CN108334941B (zh) * 2018-03-06 2022-09-09 陕西师范大学 一种基于生成式对抗网络的桥梁裂缝图像生成模型
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN108596024B (zh) * 2018-03-13 2021-05-04 杭州电子科技大学 一种基于人脸结构信息的肖像生成方法
CN108459570B (zh) * 2018-03-14 2021-07-27 河海大学常州校区 基于生成对抗网络架构的灌溉配水智能控制系统及方法
CN108764298B (zh) * 2018-04-29 2022-03-08 天津大学 基于单分类器的电力图像环境影响识别方法
US11557390B2 (en) * 2018-04-30 2023-01-17 Elekta, Inc. Radiotherapy treatment plan modeling using generative adversarial networks
CN110472457A (zh) * 2018-05-10 2019-11-19 成都视观天下科技有限公司 低分辨率人脸图像识别、还原方法、设备及存储介质
CN108680807A (zh) * 2018-05-17 2018-10-19 国网山东省电力公司青岛供电公司 基于条件生成式对抗网络的变压器故障诊断方法和系统
CN108765512B (zh) * 2018-05-30 2022-04-12 清华大学深圳研究生院 一种基于多层级特征的对抗图像生成方法
CN108648135B (zh) * 2018-06-01 2022-05-27 深圳大学 隐藏模型训练及使用方法、装置和计算机可读存储介质
CN108711138B (zh) * 2018-06-06 2022-02-11 北京印刷学院 一种基于生成对抗网络的灰度图片彩色化方法
CN109300107B (zh) * 2018-07-24 2021-01-22 深圳先进技术研究院 磁共振血管壁成像的斑块处理方法、装置和计算设备
CN109377497A (zh) * 2018-08-17 2019-02-22 西安电子科技大学 一种低场强胃部mri图像的分割装置及方法
CN109376903B (zh) * 2018-09-10 2021-12-17 浙江工业大学 一种基于博弈神经网络的pm2.5浓度值预测方法
CN109151443A (zh) * 2018-10-15 2019-01-04 Oppo广东移动通信有限公司 高舒适度立体视频生成方法、系统及终端设备
CN109409508B (zh) * 2018-11-06 2022-03-15 成都信息工程大学 一种基于生成对抗网络使用感知损失解决模型崩塌的方法
CN109584290A (zh) * 2018-12-03 2019-04-05 北京航空航天大学 一种基于卷积神经网络的立体图像匹配方法
CN109903242A (zh) * 2019-02-01 2019-06-18 深兰科技(上海)有限公司 一种图像生成方法及装置
CN109816614A (zh) * 2019-02-28 2019-05-28 乐山知行智能科技有限公司 图像的合成方法、装置和存储介质
CN111723926B (zh) * 2019-03-22 2023-09-12 北京地平线机器人技术研发有限公司 用于确定图像视差的神经网络模型的训练方法和训练装置
CN110148179A (zh) * 2019-04-19 2019-08-20 北京地平线机器人技术研发有限公司 一种训练用于估计图像视差图的神经网络模型方法、装置及介质
CN110059656B (zh) * 2019-04-25 2021-05-11 山东师范大学 基于卷积对抗生成神经网络的白细胞分类方法及系统
CN110289927B (zh) * 2019-07-01 2021-06-15 上海大学 基于条件生成对抗网络的信道模拟实现方法
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN111189414B (zh) * 2020-01-09 2021-09-03 西安知象光电科技有限公司 一种实时单帧相位提取方法
US11077320B1 (en) 2020-02-07 2021-08-03 Elekta, Inc. Adversarial prediction of radiotherapy treatment plans
CN112132104B (zh) * 2020-10-09 2021-08-03 哈尔滨工业大学 一种基于环路生成对抗网络的isar舰船目标图像域增强识别方法
CN113077451B (zh) * 2021-04-13 2023-04-18 中山大学 基于无监督学习的单张图片本征图像分解方法、系统及介质
CN113256592B (zh) * 2021-06-07 2021-10-08 中国人民解放军总医院 图像特征提取模型的训练方法、系统及装置
CN113537379B (zh) * 2021-07-27 2024-04-16 沈阳工业大学 一种基于CGANs的立体匹配方法
CN114187320B (zh) * 2021-12-14 2022-11-08 北京柏惠维康科技股份有限公司 脊柱ct图像的分割方法、椎体成像的识别方法及装置
CN115188413A (zh) * 2022-06-17 2022-10-14 广州智睿医疗科技有限公司 一种染色体核型分析模块
CN117974742B (zh) * 2022-10-19 2024-10-18 摩尔线程智能科技(北京)有限责任公司 双目图像的生成方法、装置、设备、存储介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2793163A1 (en) * 2010-03-11 2014-10-22 Datalogic IP TECH S.r.l. Image capturing device
CN106127702A (zh) * 2016-06-17 2016-11-16 兰州理工大学 一种基于深度学习的图像去雾算法
CN106504190A (zh) * 2016-12-29 2017-03-15 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2793163A1 (en) * 2010-03-11 2014-10-22 Datalogic IP TECH S.r.l. Image capturing device
CN106127702A (zh) * 2016-06-17 2016-11-16 兰州理工大学 一种基于深度学习的图像去雾算法
CN106504190A (zh) * 2016-12-29 2017-03-15 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Method of Stereo Vision Matching Based on OpenCV;Ling Zou et al;《2010 International Conference on Audio, Language and Image Processing》;20120327;全文 *
Generative Adversarial Networks;Ian Goodfellow et al;《Advances in neural information processing systems》;20140603;全文 *

Also Published As

Publication number Publication date
CN107358626A (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN107358626B (zh) 一种利用条件生成对抗网络计算视差的方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110472483B (zh) 一种面向sar图像的小样本语义特征增强的方法及装置
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109410307B (zh) 一种场景点云语义分割方法
CN111931787A (zh) 一种基于特征聚合的rgbd显著性检测方法
Cherabier et al. Learning priors for semantic 3d reconstruction
CN109005398B (zh) 一种基于卷积神经网络的立体图像视差匹配方法
CN112597883A (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
KR20170038622A (ko) 영상으로부터 객체를 분할하는 방법 및 장치
CN111402311A (zh) 一种基于知识蒸馏的轻量级立体视差估计方法
CN114692732B (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
Liu et al. APSNet: Toward adaptive point sampling for efficient 3D action recognition
CN112149500A (zh) 一种部分遮挡的人脸识别小样本学习方法
CN113450313A (zh) 一种基于区域对比学习的图像显著性可视化方法
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
Cantrell et al. Practical Depth Estimation with Image Segmentation and Serial U-Nets.
WO2023086198A1 (en) Robustifying nerf model novel view synthesis to sparse data
CN114463614A (zh) 使用生成式参数的层次性显著建模的显著性目标检测方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200515

Termination date: 20210717

CF01 Termination of patent right due to non-payment of annual fee