CN106504190A - 一种基于3d卷积神经网络的立体视频生成方法 - Google Patents
一种基于3d卷积神经网络的立体视频生成方法 Download PDFInfo
- Publication number
- CN106504190A CN106504190A CN201611243656.1A CN201611243656A CN106504190A CN 106504190 A CN106504190 A CN 106504190A CN 201611243656 A CN201611243656 A CN 201611243656A CN 106504190 A CN106504190 A CN 106504190A
- Authority
- CN
- China
- Prior art keywords
- neural networks
- convolutional neural
- convolution
- frame
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008602 contraction Effects 0.000 claims description 2
- 210000003128 head Anatomy 0.000 claims description 2
- 230000007935 neutral effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 241001269238 Data Species 0.000 abstract 1
- 230000008859 change Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010017577 Gait disturbance Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于3D卷积神经网络的立体视频生成方法,能将现有的2D视频源转换成能在3D立体显示设备上播放的立体视频。包括以下步骤:准备足够数量非动画3D电影作为训练数据,将3D视频源分离成左眼图像序列和右眼图像序列,删去片头、片尾及空白帧后,用模糊C均值聚类法对左眼图像序列进行镜头分割,并以镜头为单位组织训练文件,计算所有左眼图像序列的均值并将这些图像减去该均值,以右眼图像序列作为训练的目标。用这些训练数据训练所构造的3D卷积神经网络直到收敛。将需要转换成立体视频的2D视频源进行镜头分割并减去训练图像均值后输入到训练得到的3D卷积神经网络,将得到该2D视频的右眼视频图像序列,最终将两者合并成立体视频。
Description
技术领域
本发明涉及一种立体视频生成方法,尤其涉及一种基于3D卷积神经网络的单目转双目立体视频生成方法。
背景技术
3D电影因其较强的真实感和沉浸感非常受观众们喜爱,近年来在电影市场中占了比较大的份额,在2010年至2014年间占据了北美票房总收入的14%~21%,此外,随着虚拟现实(VR)市场的出现,头戴显示设备也对3D内容产生了进一步的需求。
直接摄制成3D电影格式设备和制作成本都较高,从2D转制3D电影便成为一种更理想的选择。典型的专业转制过程通常先通过手动创建每一帧的深度图,然后用基于深度图的渲染算法来将原始的2D视频帧与深度图结合生成立体图像对。然而这样的过程依然昂贵且需要耗费高强度的人力操作。高昂的制作成本成为3D电影业大规模发展的主要绊脚石。
最近几年来,许多研究人员寻求通过已有的3D模型库、深度估计技术从单视频序列来制作生成3D视频的方法,目前深度信息的获取可通过硬件和软件两种途径。硬件获取深度信息的设备有激光测距仪和微软推出的3D体感摄像仪Kinect等。软件方法常见的主要有多视图立体法(multi-view stereo)、光度立体视觉法(photometric stereo)、色度成形法(shape from shading)、散焦推断法(depth from defocus)以及基于机器学习的方法等。适用于2D转制3D电影的主要是机器学习的方法,特别是近年来随着深度学习框架的广泛应用,该框架也被应用到深度估计中,如Eigen等首先用多尺度卷积神经网络(CNN)实现了一种端到端的单目图像深度估计,然而因为输出的结果尺寸受限,预测得到深度图比输入的原图像要小很多,长和宽都只有原图的1/16;后来,Eigen和Fergus对网络结构进行了改进,先对原来实现的CNN的输出进行上采样,再与原输入图像的卷积的结果连接后,进一步用多个卷积层处理,使得神经网络更深,而最后的输出深度图的分辨率更高。
然而上述方法得到的深度图仍存在轮廓不够清晰,分辨率低等问题,此外,因视角变化而产生的遮挡等不可见部分补全问题仍难以解决。
发明内容
本发明的目的在于针对现有技术的不足,提供一种单目转双目的立体视频生成方法,通过训练3D深度全卷积神经网络,达到将现有的2D视频源自动转换成能在3D设备上播放的立体视频。
本发明的目的是通过以下技术方案来实现的:一种基于3D卷积神经网络的立体视频生成方法,包括以下步骤:
准备训练数据,训练3D全卷积神经网络,将2D视频作为左眼视频输入训练得到的神经网络模型生成右眼视频,最后将左右眼视频合成3D视频输出。
训练数据通过网络下载,使用足够数量(至少20多部)非动画3D电影,所有视频首先分解为左眼视图和右眼视图两部分,并将片头、片尾、镜头过渡时可能出现的空白帧删去,这样可得到5000000帧左右的训练样本,丰富的训练样本将使训练得到的CNN有较强的泛化能力。
所构造的3D全卷积网络如图1所示,全网络由6个卷积层构成,前两个是3D卷积层,目的是充分利用时域相邻帧的信息,对左右眼视差引起的遮挡或局部位移造成右视图中出现部分不可见的空洞进行自动补全,这些不可见的空洞中内容很可能在邻近的帧中出现;3D卷积的示意图如图2所示,3D卷积层输出的每一个像素值由相邻3帧对应位置3×3区域内像素值与卷积滤波器卷积得到,时间窗宽度为3即对应3个3×3的卷积核,这3个卷积核的权值各不相同,但在时空窗口滑动过程中保持不变;后面4个卷积层为2D卷积层,通过若干步的非线性变换将输入的左眼视图变换成右眼视图。每一个卷积层的输出都经过ReLu函数激活后输入到下一层。3D卷积核的大小均为3×3×3,边缘未进行填零扩充(pad=0),步长为1(stride=1),由式(1)-式(3)知,经过一次3D卷积,时域和空间域的窗口宽度均将收缩2个单位;2D卷积核的大小均为3×3,每个边缘都扩充了一个单位(pad=1),步长为1(stride=1),由式(1)-式(3)知,经过每一个2D卷积层特征维度大小保持不变。
t1=(t0+2*pad-kernel_size)/stride+1 (1)
w1=(w0+2*pad-kernel_size)/stride+1 (2)
h1=(h0+2*pad-kernel_size)/stride+1 (3)
这个3D卷积神经网络的最终输出为RGB三通道的彩色图像,在附图1和附图2中,每一帧实际都包含三个通道,不同通道对应不同的滤波器组,因此在图1中每个3D卷积层有3组3×3×3的卷积核,每个2D卷积层有3组3×3的卷积核。5帧3通道的RGB图像输入3D卷积神经网络最终输出1帧3通道的RGB图像。
总体而言,一个镜头的连续5帧左眼视图输入到网络将输出1帧右眼视图,且右眼视图长宽均比左眼视图收缩了4个单位,因此在训练网络时,仅将5帧输入的中间帧的实际右眼视图的中间区域与输出进行对齐求损失并反向传播调整网络参数。
由于时域相邻帧之间的相关性仅在同一镜头内存在,因此在训练网络阶段,输入给网络的左眼视频首先要进行镜头分割,以镜头为单位组织训练文件。本发明采用的镜头分割算法是基于模糊C均值聚类算法的。具体步骤如下:
首先将视频的每一帧图像从RGB(Red–Green–Blue)空间转换到YUV(亮度色度)空间,其转换公式如下:
计算每一帧YUV通道的颜色直方图,并按如下方法计算相邻帧的帧间差:
其中,m为UV通道的直方图区间数,n为Y通道的直方图区间数,m<n,H(f,k)表示帧f中落在第k区间的像素个数。
对视频的所有帧间差用模糊C均值聚类算法聚为三类:镜头变化类SC、疑似镜头变化类SSC、镜头不变类NSC。疑似镜头变化类是指难以判别镜头是否产生变化的那些帧。
模糊C均值聚类算法如下(该算法输入为视频相邻帧间差序列,输出为相邻帧类别):
①初始化类别数c=3和指数权重w=1.5,将所有隶属度值μik(i=1,…,c,k=1,…,n,此处n为帧间差序列的总数)赋为1/c;
②用(6)式计算c个聚类中心ci,i=1,…,c;
③用(7)式计算价值函数J,如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止;
④用(8)式计算新的隶属度值μik并返回步骤②。
对于疑似镜头变化类SSC的处理如下:如果两个连续的镜头变化帧SC(i)和SC(i+1)之间存在若干SSC帧SSC(k),k=j,…,j+n-1,如果满足条件
H_SSC(k)≥0.25*[H_SC(i)+H_SC(i+1)] (9)
则认为帧SSC(k)为镜头变化产生处,其中H_SSC(k)表示SSC(k)的直方图帧间差,H_SC(i)+H_SC(i+1)表示SC(i)和SC(i+1)的直方图帧间差;当然,镜头是不会在两个相邻的帧连续产生变化的,因此,一部分满足式(9)条件的帧从中被剔除了。
计算训练样本中所有左眼视图的平均值,在训练时,输入到网络的左眼视图的每一帧需要减去该均值,同样,在用训练好的网络模型生成右眼视图时,输入的左眼视图也要减去该均值。
在图1中,用随机梯度下降法反向传播调整网络参数时,用均方差计算损失函数,即:
其中为3D卷积神经网络最后一层的输出,Y为最初参与3D卷积5个连续帧的中间帧对应的真实右眼视图,n为输出的像素点数量。训练网络通过最小化该损失函数实现,当训练过程中该损失函数收敛,则训练结束。
在图1中,在利用训练好的3D卷积神经网络模型通过输入左眼视图生成右眼视图时,需要对网络的最后一层输出在[0,255]区间内就近取整,取整的结果为3通道RGB图像,每一通道的灰阶为落在[0,255]区间内的整数值。
本发明的有益效果是:基于大数据集训练得到的深度卷积神经网络模型,由左眼视频自动生成右眼视频,最大可能减少立体视频制作过程中的人力参与,从而提高立体视频制作的效率,降低制作成本。
附图说明
图1:3D全卷积神经网络结构;
图2:3D卷积示意图,图中编号相同的卷积核共享权值。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步说明。
立体视频生成是在现有3D信号比较少的情况下出现的一种技术,它能将日常观看的2D电影或电视节目,通过运算自动产生出3D的显示效果。
如图1所示,本发明实施例所述一种基于3D卷积神经网络的立体视频生成方法,能够将现有的2D视频源作为左眼视频,通过3D卷积神经网络自动生成相应的右眼视频,然后将两者结合转换成可以在3D立体显示设备上播放的视频。
该方法包括以下步骤:
1)训练3D卷积神经网络。
为了防止在训练深度卷积神经网络时出现过拟合现象,需要准备足够数据的训练数据,本发明使用从网络上下载的20多部非动画3D电影作为训练数据,然后用FFmpeg命令将3D视频分离成左眼和右眼JPEG图像序列,在这些序列中删去片头片尾以及镜头切换中可能出现的空白帧。
所有的训练样本通过裁剪或缩放统一至同样的长宽,并计算出所有训练图像的均值。
用发明内容中所述的模糊C均值聚类方法对每一部电影分离的左眼JPEG图像序列进行镜头分割,然后将每个镜头的左眼图像减去均值作为训练时的输入数据,对应镜头右眼图像去掉头尾各两帧,切除上下左右每边各两像素作为训练目标,保存为HDF5格式文件。
用[0,0.01]区间内符合标准差为0.01的高斯分布的随机数初始化3D卷积神经网络的各层卷积核参数,各层初始学习率设置为0.01,每训练100000轮训练学习率减小为原来的1/10,动量设置为0.9。
用上述训练数据和参数设置训练如图1所示的3D卷积神经网络,当式(10)所计算的损失趋于收敛(即该损失与上一轮损失的相对变化量小于阈值,如0.01)或训练趟数超过1000000趟,则训练结束。
2)用训练获得的3D卷积神经网络模型由2D左眼视频生成右眼视频
将待转换的2D视频作为左眼视频,用与训练时相同的方法转换成图像序列、用模糊C均值聚类算法进行镜头分割、通过缩放或裁剪把图像转换成与训练图像一样大小,然后对每一帧减去训练图像的均值,以镜头为单位输入到3D卷积神经网络模型,因为最后一层卷积层的输出结果是浮点值类型,而我们需要得到的是灰阶为[0,255]的整数的三通道RGB图像,所以网络最后的输出通过[0,255]区间就近取整后才是预期的右眼视图,所谓就近取整,是指当该值v∈[0,255]时,则进行四舍五入,当v<0,则取0,当v>255时,则取255。每输入5帧左眼视图将生成中间的1帧右眼视图,生成过程在时域以步长为1滑动向前,这样,每个镜头除了前面2个初始帧和后面2个结束帧,其他帧都将得到其对应的右眼视图,每个镜头在视频编辑过程中损失4帧是可以接受的。
3)将左右眼视频合成为3D视频
用图1所示的网络从左眼视频生成右眼视频时,由于3D卷积层空间窗口的收缩,最后右眼视图的长宽都比左眼视图小4个像素,因此在合成之前先把左眼视图上下左右的边缘分别裁切去2个像素。这样就得到了2个视点生成的2路虚拟像点,合成2幅输入显示屏的视频源,最后根据显示屏的类型,从2幅视频源中按照相应的格式合成一输入视频源在显示屏上显示。
以上,仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应该以要得要求所界定的保护范围为准。
Claims (8)
1.一种基于3D卷积神经网络的立体视频生成方法,其特征在于,包括以下步骤:
1)准备训练数据
通过网络下载足够数量非动画3D电影作为训练数据,分解为左眼视图和右眼视图两部分,并将片头、片尾、镜头过渡时可能出现的空白帧删去;
2)训练3D卷积神经网络
用步骤1)准备好的训练数据左眼视图作为输入,右眼视图作为目标训练构造的3D卷积神经网络,3D卷积神经网络包括6个卷积层,其中两层3D卷积,四层2D卷积,计算损失函数时,提取右眼视图中间与输出相同大小的区域与输出进行比对来反向调整网络参数;
3)利用训练完成的全卷积神经网络生成立体视频
把2D视频作为左眼视图输入到训练好的3D卷积神经网络,将网络的输出规整到0~255之间的整数,即将所有的输出值取为[0,255]区间内最邻近的整数,该结果即为生成的右眼视图,最后根据显示器特征将左右眼视频源合成一幅视频源输出到显示器上显示。
2.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤1)中,所述的训练样本首先需要进行镜头分割,因为只有同一镜头的视频帧之间才存在相关性,具体的镜头分割步骤如下:首先将视频的每一帧图像从RGB(Red–Green–Blue)空间转换到YUV(亮度色度)空间,其转换公式如下:
Y=0.299+0.587+0.114
U=0.492(B-Y) (1)
V=0.877(R-Y)
计算每一帧YUV通道的颜色直方图,并按如下方法计算相邻帧的帧间差:
其中,m为UV通道的直方图区间数,n为Y通道的直方图区间数,m<n,H(f,k)表示帧f中落在第k区间的像素个数,基于这些直方图帧间差用模糊C均值聚类方法实现镜头分割。
3.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤1)中,所述的训练样本以镜头为单位组织成文件,计算训练样本中所有左眼视图的平均值,并将左眼视图的每一帧减去该均值。
4.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤2)中,所训练的3D卷积神经网络为全卷积神经网络,因为是没有全连接层的全卷积网络,因此对所处理的图像帧大小不敏感。
5.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤2)中,设计的网络结构中,3D卷积核的大小为3×3×3,2D卷积核大小为3×3,卷积步长均为1,3D卷积边缘不作填零扩充,2D卷积填零扩充以使卷积前后图像大小保持不变。每个卷积层的输出经过ReLu函数激活后输入到下一层。
6.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤2)中,设计的网络结构中,第一个3D卷积核的时间窗大小为t0=5,即一次卷积将处理5帧图像,由(3)式,因pad=0,stride=1,kernel_size=3,经3×3×3大小的卷积核卷积后输出的时间窗将缩小至t1=3,再经过第二个3D卷积层,时间窗进一步缩小至1,后面的2D卷积都只对单帧图像处理。同理,由式(4)和式(5)可知,前两个3D卷积因pad=0,长宽各缩小2,后面的2D卷积,因pad=(kernel_size-1)/2,卷积前后长宽保持不变。
t1=(t0+2*pad-kernel_size)/stride+1 (3)
w1=(w0+2*pad-kernel_size)/stride+1 (4)
h1=(h0+2*pad-kernel_size)/stride+1 (5)
7.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤2)中,设计的网络结构中,对每个镜头训练时在时域以步长为1滑动向前,因3D卷积存在时间域的收缩,因此计算损失时丢弃每个镜头目标视图(即右眼视图)的前面两帧和最后两帧。
8.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法,其特征在于:
在所述步骤2)中,训练网络过程中,在反向传播调整网络参数时,用均方差计算损失函数,即:
其中为3D卷积神经网络输出结果,Y为最初参与3D卷积5个连续帧的中间帧对应的真实右眼视图,n为输出的像素点数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611243656.1A CN106504190B (zh) | 2016-12-29 | 2016-12-29 | 一种基于3d卷积神经网络的立体视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611243656.1A CN106504190B (zh) | 2016-12-29 | 2016-12-29 | 一种基于3d卷积神经网络的立体视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106504190A true CN106504190A (zh) | 2017-03-15 |
CN106504190B CN106504190B (zh) | 2019-09-13 |
Family
ID=58334584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611243656.1A Active CN106504190B (zh) | 2016-12-29 | 2016-12-29 | 一种基于3d卷积神经网络的立体视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106504190B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204010A (zh) * | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
CN107358626A (zh) * | 2017-07-17 | 2017-11-17 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN107894957A (zh) * | 2017-11-14 | 2018-04-10 | 河南鼎视智能科技有限公司 | 面向卷积神经网络的存储器数据访问与插零方法及装置 |
WO2018119808A1 (zh) * | 2016-12-29 | 2018-07-05 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN108335322A (zh) * | 2018-02-01 | 2018-07-27 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN108388537A (zh) * | 2018-03-06 | 2018-08-10 | 上海熠知电子科技有限公司 | 一种卷积神经网络加速装置和方法 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN110363210A (zh) * | 2018-04-10 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种图像语义分割模型的训练方法和服务器 |
CN110769242A (zh) * | 2019-10-09 | 2020-02-07 | 南京航空航天大学 | 基于时空信息建模的全自动2d视频到3d视频的转换方法 |
CN111368941A (zh) * | 2020-04-10 | 2020-07-03 | 浙江大华技术股份有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
CN111476341A (zh) * | 2019-01-23 | 2020-07-31 | 斯特拉德视觉公司 | 转换cnn的卷积层的方法及装置 |
CN111868803A (zh) * | 2018-03-23 | 2020-10-30 | 罗伯特·博世有限公司 | 产生合成雷达信号 |
CN112991498A (zh) * | 2019-12-13 | 2021-06-18 | 上海懿百教育科技有限公司 | 一种镜头动画快速生成系统及方法 |
CN113099208A (zh) * | 2021-03-31 | 2021-07-09 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
WO2023184527A1 (en) * | 2022-04-02 | 2023-10-05 | Covidien Lp | System and method for unsupervised stereoscopic reconstruction with disparity consistency |
CN116991298A (zh) * | 2023-09-27 | 2023-11-03 | 子亥科技(成都)有限公司 | 一种基于对抗神经网络的虚拟镜头控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
US8442927B2 (en) * | 2009-07-30 | 2013-05-14 | Nec Laboratories America, Inc. | Dynamically configurable, multi-ported co-processor for convolutional neural networks |
CN104616032A (zh) * | 2015-01-30 | 2015-05-13 | 浙江工商大学 | 基于深度卷积神经网络的多摄像机系统目标匹配方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
CN105160678A (zh) * | 2015-09-02 | 2015-12-16 | 山东大学 | 基于卷积神经网络的无参考立体图像质量评估方法 |
CN105955708A (zh) * | 2016-05-09 | 2016-09-21 | 西安北升信息科技有限公司 | 一种基于深度卷积神经网络的体育视频镜头分类方法 |
CN106097391A (zh) * | 2016-06-13 | 2016-11-09 | 浙江工商大学 | 一种基于深度神经网络的识别辅助的多目标跟踪方法 |
CN106157307A (zh) * | 2016-06-27 | 2016-11-23 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
-
2016
- 2016-12-29 CN CN201611243656.1A patent/CN106504190B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442927B2 (en) * | 2009-07-30 | 2013-05-14 | Nec Laboratories America, Inc. | Dynamically configurable, multi-ported co-processor for convolutional neural networks |
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
CN104616032A (zh) * | 2015-01-30 | 2015-05-13 | 浙江工商大学 | 基于深度卷积神经网络的多摄像机系统目标匹配方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
CN105160678A (zh) * | 2015-09-02 | 2015-12-16 | 山东大学 | 基于卷积神经网络的无参考立体图像质量评估方法 |
CN105955708A (zh) * | 2016-05-09 | 2016-09-21 | 西安北升信息科技有限公司 | 一种基于深度卷积神经网络的体育视频镜头分类方法 |
CN106097391A (zh) * | 2016-06-13 | 2016-11-09 | 浙江工商大学 | 一种基于深度神经网络的识别辅助的多目标跟踪方法 |
CN106157307A (zh) * | 2016-06-27 | 2016-11-23 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
Non-Patent Citations (1)
Title |
---|
邬美银等: "基于卷积神经网络的视频图像失真检测及分类", 《计算机应用研究》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10542249B2 (en) | 2016-12-29 | 2020-01-21 | Zhejiang Gongshang University | Stereoscopic video generation method based on 3D convolution neural network |
WO2018119808A1 (zh) * | 2016-12-29 | 2018-07-05 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN107204010A (zh) * | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
CN107204010B (zh) * | 2017-04-28 | 2019-11-19 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
CN107358626A (zh) * | 2017-07-17 | 2017-11-17 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN107358626B (zh) * | 2017-07-17 | 2020-05-15 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN107894957A (zh) * | 2017-11-14 | 2018-04-10 | 河南鼎视智能科技有限公司 | 面向卷积神经网络的存储器数据访问与插零方法及装置 |
CN107894957B (zh) * | 2017-11-14 | 2020-09-01 | 河南鼎视智能科技有限公司 | 面向卷积神经网络的存储器数据访问与插零方法及装置 |
CN108335322A (zh) * | 2018-02-01 | 2018-07-27 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
US11308638B2 (en) | 2018-02-01 | 2022-04-19 | Shenzhen Sensetime Technology Co., Ltd. | Depth estimation method and apparatus, electronic device, program, and medium |
CN108335322B (zh) * | 2018-02-01 | 2021-02-12 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN108388537A (zh) * | 2018-03-06 | 2018-08-10 | 上海熠知电子科技有限公司 | 一种卷积神经网络加速装置和方法 |
US11989638B2 (en) | 2018-03-06 | 2024-05-21 | Thinkforce Electronic Technology Co., Ltd | Convolutional neural network accelerating device and method with input data conversion |
CN111868803B (zh) * | 2018-03-23 | 2022-11-08 | 罗伯特·博世有限公司 | 产生合成雷达信号 |
US11867831B2 (en) | 2018-03-23 | 2024-01-09 | Robert Bosch Gmbh | Generation of synthetic radar signals |
CN111868803A (zh) * | 2018-03-23 | 2020-10-30 | 罗伯特·博世有限公司 | 产生合成雷达信号 |
CN110363210A (zh) * | 2018-04-10 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种图像语义分割模型的训练方法和服务器 |
CN110363210B (zh) * | 2018-04-10 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 一种图像语义分割模型的训练方法和服务器 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN111476341A (zh) * | 2019-01-23 | 2020-07-31 | 斯特拉德视觉公司 | 转换cnn的卷积层的方法及装置 |
CN111476341B (zh) * | 2019-01-23 | 2024-04-12 | 斯特拉德视觉公司 | 转换cnn的卷积层的方法及装置 |
CN110769242A (zh) * | 2019-10-09 | 2020-02-07 | 南京航空航天大学 | 基于时空信息建模的全自动2d视频到3d视频的转换方法 |
CN112991498A (zh) * | 2019-12-13 | 2021-06-18 | 上海懿百教育科技有限公司 | 一种镜头动画快速生成系统及方法 |
CN112991498B (zh) * | 2019-12-13 | 2023-05-23 | 上海懿百教育科技有限公司 | 一种镜头动画快速生成系统及方法 |
CN111368941A (zh) * | 2020-04-10 | 2020-07-03 | 浙江大华技术股份有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
CN111368941B (zh) * | 2020-04-10 | 2023-09-01 | 浙江大华技术股份有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
CN113099208A (zh) * | 2021-03-31 | 2021-07-09 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
CN113099208B (zh) * | 2021-03-31 | 2022-07-29 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
WO2023184527A1 (en) * | 2022-04-02 | 2023-10-05 | Covidien Lp | System and method for unsupervised stereoscopic reconstruction with disparity consistency |
CN116991298B (zh) * | 2023-09-27 | 2023-11-28 | 子亥科技(成都)有限公司 | 一种基于对抗神经网络的虚拟镜头控制方法 |
CN116991298A (zh) * | 2023-09-27 | 2023-11-03 | 子亥科技(成都)有限公司 | 一种基于对抗神经网络的虚拟镜头控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106504190B (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504190A (zh) | 一种基于3d卷积神经网络的立体视频生成方法 | |
US10542249B2 (en) | Stereoscopic video generation method based on 3D convolution neural network | |
CN106157307B (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN103236082B (zh) | 面向捕获静止场景的二维视频的准三维重建方法 | |
Tam et al. | 3D-TV content generation: 2D-to-3D conversion | |
US9094675B2 (en) | Processing image data from multiple cameras for motion pictures | |
EP0868818B1 (en) | Image conversion and encoding techniques | |
CN101902657B (zh) | 一种基于深度图分层的虚拟多视点图像的生成方法 | |
CN101635859B (zh) | 一种实现平面视频转立体视频的方法和装置 | |
CN109462747A (zh) | 基于生成对抗网络的dibr系统空洞填充方法 | |
CN103581650B (zh) | 双目3d视频转多目3d视频的方法 | |
CN101287142A (zh) | 基于双向跟踪和特征点修正的平面视频转立体视频的方法 | |
EP3789962B1 (de) | Verfahren und vorrichtung zum erzeugen von daten für eine zwei- oder dreidimen-sionale darstellung zumindest eines teils eines objekts und zum erzeugen der zwei- oder dreidimensionalen darstellung zumindest des teils des objekts | |
CN101720047A (zh) | 基于颜色分割的多目摄像立体匹配获取深度图像的方法 | |
CN112019828B (zh) | 一种视频的2d到3d的转换方法 | |
CN102447925A (zh) | 一种虚拟视点图像合成方法及装置 | |
US20150195510A1 (en) | Method of integrating binocular stereo video scenes with maintaining time consistency | |
CN103024402B (zh) | 一种自由视点视频整帧丢失错误隐藏方法 | |
CN104506872B (zh) | 一种平面视频转立体视频的方法及装置 | |
CN104639933A (zh) | 一种立体视图的深度图实时获取方法及系统 | |
CN104301706B (zh) | 一种增强裸眼立体显示效果的合成方法 | |
WO2018162509A2 (de) | Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung | |
CN105704476B (zh) | 一种基于边缘修复的虚拟视点图像频域快速获取方法 | |
CN104661014B (zh) | 时空结合的空洞填充方法 | |
CN112634127B (zh) | 一种无监督立体图像重定向方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |