CN111414975B - 一种基于移动摄像机和神经网络的运动矢量预测方法 - Google Patents
一种基于移动摄像机和神经网络的运动矢量预测方法 Download PDFInfo
- Publication number
- CN111414975B CN111414975B CN202010261812.7A CN202010261812A CN111414975B CN 111414975 B CN111414975 B CN 111414975B CN 202010261812 A CN202010261812 A CN 202010261812A CN 111414975 B CN111414975 B CN 111414975B
- Authority
- CN
- China
- Prior art keywords
- network
- value
- motion
- parameters
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 7
- 230000003287 optical effect Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013519 translation Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 230000001720 vestibular Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于移动摄像机和神经网络的运动矢量预测方法,属于图像处理和人工智能领域,包括:光流图图像数据和相机运动参数标签准备;利用ResNet50构建网络,并在其后添加六个全连接层,分别用于六个参数预测;通过采取对参数进行分类后回归的方式求得均方误差,与交叉熵损失按照一定的权重加权求和,计算损失;利用反向传播算法不断更新网络参数完成网络训练;利用训练完毕的网络得到移动相机的运动参数并求解背景运动,剔除场景中背景运动信息,得到运动物体的真实光流。此模型训练采用数据集为真实场景中的数据制作,网络采用分类后回归的方式提高了学习速率和精度,具有很好的普适性和广阔的应用前景。
Description
技术领域
本发明属于图像处理和人工智能领域,涉及深度学习方法。
背景技术
人们看到的场景是真实立体场景在视网膜上呈现出的二维图像。运动场景在视网膜上将会产生光流,人类从光流中来感知物体的运动。发育心理学告诉我们,婴儿在发育早期首先发展出运动感知能力,能感知到运动物体,随后才发展出对物体的识别能力。由于在观察运动场景时人的头部和身体自身一般也在运动,导致物体运动引起的光流和人自身运动引起的光流混合在一起,需要从混合光流中将人自身运动和物体的运动区分开来,才能感知运动物体。人大脑中的前庭装置可以感知人自身运动,所以可以有效地从混合光流中去除人自身运动引起的全局光流,从剩下的物体运动光流中提取出运动物体,进而发展出物体识别功能。
受此启发,本专利研究如何从运动场景的光流中去除相机运动引起的全局光流,从而提取出运动物体,为进一步学习无监督特征来进行物体识别打下基础。相机运动引起的全局光流有一定的模式,比如相机拉近、旋转等运动所生成的全局光流。为了模拟前庭装置的功能,本专利设计了一个卷积神经网络,从场景的光流中根据其全局光流模式来预测相机自身的运动,然后就可以求出对应的全局光流,通过剔除全局运动背景光流从而提取出运动物体。
发明内容
启发于婴儿观察运动的方式,通过观察发现人类观察运动的呈现方式和光流相似,利用移动的相机代替人类自身运动的方式,采用光流的方法模拟人类感知运动。由于深度学习具有非常强大的拟合能力,为了能更好的模拟人脑感知运动信息的机制,使用卷积神经网络来预测场景中相机的运动参数,并利用参数信息进行场景中动态背景的运动矢量提取以及剔除背景的运动信息之后物体的运动矢量提取。
本发明的采用的技术方案为一种基于移动摄像机和神经网络的运动矢量预测方法,该方法的实现过程如下:
具体技术方案如下:
第一步,数据集制作;第二步,网络构建;第三步,损失函数设计;第四步,网络训练,将第一步中的数据集输入到第二步构建的网络中,通过第三步设计的损失函数计算网络损失,然后再进行反向传播,对神经网络进行网络参数的优化,得到优化之后的模型;第五步,运动矢量提取,使用第四步获取的网络模型进行相机运动参数预测,得到相机运动参数,然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流,通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果。
如图1所示为算法具体流程图。
所述方法包括以下步骤:
步骤1,数据集制作,包括光流图图像数据和相机运动参数标签数据;
所述光流图图像数据的制作具体为:
原图像,对应的深度信息,以及拍摄该图像的相机内参数;
对原图像进行任意的旋转平移操作,得到新的图像,其中旋转平移参数为表示空间坐标系中绕三个坐标轴进行旋转平移的参数,取值范围在[-A,A]范围内作为连续数值标签,将真实参数对应到[0,2A]共2A+1个位置作为离散数值标签,如-A对应离散数值标签0;
根据像素点在原图像和新图像上的位移变化量得到光流图像;
所述相机运动参数数据即为旋转平移参数,参数值表示包括连续数值标签和离散数值标签。
步骤2,网络构建,构建的网络是用于根据输入的光流图图像数据预测相机的运动参数。
网络结构采用ResNet50残差网络进行特征提取,并在网络最后添加六个并列的全连接层,每个全连接层对应一个旋转平移参数。其中,每个全连接层的维度数量设置为2A+1,每一个全连接层用于对提取到的特征进行预测,得到旋转平移参数在每个维度上的预测值。
步骤3,网络损失函数设计,具体内容如下:
Loss=Cls(y,y′)+α·MSE(y,y′) (1)
Loss表示网络整体的交叉熵损失函数,Cls(y,y′)表示交叉熵损失函数,MSE(y,y′)表示均方误差损失函数,α是用来调节均方误差损失的影响权重的超参数;
交叉熵损失函数的公式如下所示:
其中,Cls(y,y′)表示交叉熵损失函数,T表示样本数量也就是全连接层的维度数量2A+1,y′j表示全连接层第j个维度上的离散数值标签,Sj代表在全连接层进行softmax分类得到第j个维度的概率值,取值范围在(0,1)。
均方误差损失函数的公式如下所示:
其中,MSE(y,y′)表示均方误差,yi是全连接层第i个维度的真实值也就是连续数值标签,y′i是全连接层第i个维度的预测值。
步骤4,网络训练部分,具体内容如下:
将光流图图像训练数据和相机运动参数标签数据输入网络,对基础网络进行全连接之后,每一个全连接层一方面对预测数值和离散数值标签进行交叉熵损失计算。另一方面,对全连接层结果进行softmax,将全连接层中学习的预测数值映射成(0,1)之间的概率值,每个概率值乘以对应离散数值标签并求和得到参数的期望值,映射到[0,2A]区间范围内,然后减去A,最终映射到[-A,A]区间范围内,最终取得的预测值和连续数值标签进行MSE均方误差损失计算。均方误差与前面的交叉熵损失按照一定的权重加权求和,对最终的损失梯度进行反向传播,保存最后的网络模型。
步骤5,运动矢量提取部分,具体内容如下:
采用真实场景中的数据(包括相机的运动和物体的运动)作为测试,利用网络模型进行特征提取,获得相机运动参数;运用相机运动参数求解场景中由于相机运动导致的全局运动;根据场景中整体运动光流和提取的全局运动光流进行相减操作,并设定合适的阈值,目的是为了将运动矢量距离和角度低于阈值的部分被剔除,只留下大于阈值部分的运动光流,也就是运动物体的运动矢量信息。
如图2所示为运动物体提取方法图。
有益效果:
数据集的真实性以及各个角度和位移的自由转换让学习结果有很好的普适性,网络采用在分类的情况下进行参数精细回归的方式提高了学习速率和学习精度。
附图说明
图1本发明方法流程图
图2本发明所述运动物体提取方法图
图2(a)视频帧序列
图2(b)整体光流图
图2(c)背景光流图
图2(d)目标光流图
图3本发明所述损失函数的网络学习框架图
图4本发明所述运动物体提取结果图
图4(a)t时刻图像
图4(b)t+1时刻图像
图4(c)运动物体光流图
具体实施方式
本发明使用到的实验环境资源如下所述,采用CPU为E5-2630,GPU为Tesla K80的设备用于卷积神经网络的加速训练,使用操作系统为Ubuntu16.04、CUDA版本CUDA8.0、Python版本2.7、Pytorch版本Pytorch0.4.1等。
具体实验步骤细节如下:
步骤一,制作训练数据集;
读取KITTI自动驾驶数据集视频序列,并制作仅包含相机运动导致的背景运动场景,随机产生的参数范围中,相机平移参数T在[-20,20]dm范围,旋转参数R在[-20,20]度之间。每个图像随机转换生成成20个图像对,生成数据集的光流图片共53040张。方法如下:
步骤二,网络构建;
采用Pytorch学习框架对ResNet50骨干网络进行搭建,最后添加六个并列的全连接层,其中,每个全连接层的维度数量设置为41,也就是将全部[-20,20]共41个数值每个分为一组,全连接层的维度就是41。为了与其他实验结果做对比,使用AlexNet网络和ResNet50做对比实验,并在AlexNet的最后添加六个全连接层,和ResNet50一样每个全连接层保持41维。
一方面根据设置的41个分组参数进行分类,将分类结果映射到[0,40]范围,计算交叉熵损失。另一方面,对全连接层结果进行softmax,将全连接层中学习的数值映射成(0,1)之间的概率值,每个概率值乘以所在位置的数值求得期望,映射到[0,40]区间范围内,然后减去20,最终映射到[-20,20]区间范围内,计算MSE均方误差损失。均方误差与前面的交叉熵损失按照一定的权重加权求和,对最终的损失梯度进行反向传播,保存最后的网络模型。网络学习框架如图3所示。
步骤三,进行网络训练;
网络的训练是在单个Tesla K80 GPU上进行的,采用自适应学习法Adam训练网络,网络训练所有样本训练20次也就是epoch设定为20,批大小batch_size为16,设置初始学习率lr为0.001。利用反向传播算法不断更新网络参数,一个训练过程能够持续一天左右,并在训练结束保存最后的网络模型。
步骤四,利用训练得到的网络模型进行特征提取;
使用步骤三保存好的网络结构以及参数进行数据的特征向量提取,并且在本步骤中不再进行网络模型参数的更新,而是直接冻结所有层的参数,让所有的数据只进行前向传播来获取到它们所对应的特征向量。
步骤五,场景中运动物体提取;
利用步骤四中提取到的表示相机运动参数的特征向量可以运用在求解运动物体光流向量的任务中:利用特征向量求解场景中背景运动,使用合适的阈值处理剔除场景中背景运动信息得到运动物体的真实光流。
为了说明本发明的有效性,做了以下实验,具体为:
实验一,输入采用训练数据集
网络训练步骤一制作训练数据集中的算法进行数据输入,根据模型训练结果提取相机运动参数。采用结果采用平均误差MAE(Mean Absolute Error)来对整体损失进行评判,采用标准差的方式衡量数据的离散度能更好地反应预测运动参数的实际情况。其中公式定义如下:
上述平均误差计算公式中,h(i)表示网络训练得到的预测值,在这里我们用训练的六个参数损失值大小表示;x(i)表示样本的真实值,我们用样本真实值的损失表示,即默认为零;n表示样本数量,本文训练的六个参数即样本数量。
以平均误差准大小为评价指标的实验结果如下表1所示:
表1实验结果对比
以平均误差准大小为评价指标的实验结果如下表2所示:
表2实验结果对比
以平均误差准大小为评价指标的实验结果如下表3所示:
表3实验结果对比
在表1和表2中,评价标准均是以超参数α的取值大小作为参考,两个表格均设置了四组不同的对比试验。从两个表格中的数据,我们可以发现,在网络超参数α取值分别为0,0.1,0.01,0.001之间时,超参数取值为0.001的时候损失的平均误差最低。从表格3中对比两个网络我们又发现,ResNet50网络训练得到的损失平均误差达为3.781,远远低于使用AlexNet进行训练的平均损失误差10.309,我们可以得出这样的结论:在选取的两个骨架网络ResNet50和AlexNet之间,ResNet50网络有着更好的学习效果。
实验二,输入数据采用真实视频序列和步骤五中提取出的相机运动参数
采用真实场景中的数据(包括相机的运动和物体的运动)作为测试,利用网络模型进行特征提取,获得相机运动参数。采取仿射变换生成由于相机运动造成的全局运动图像光流信息;根据场景中整体运动光流和提取的全局运动光流进行相减操作,并设定合适的阈值,只留下大于阈值部分的运动光流,也就是真实运动物体光流信息。
运动物体提取效果如图4所示。
通过肉眼观察进行比较从而说明本发明的有效性。
Claims (1)
1.一种基于移动摄像机和神经网络的运动矢量预测方法,其特征在于包括以下步骤:
步骤1,数据集制作,包括光流图图像数据制作和相机运动参数数据制作;
步骤2,网络构建,用于根据输入的光流图图像数据预测相机的运动参数,网络结构采用ResNet50残差网络进行特征提取,并在网络最后添加六个并列的全连接层,每个全连接层单独进行参数预测,其中,每个全连接层的维度数量设置为2A+1,每一个全连接层用于对提取到的特征进行预测,得到旋转平移参数在每个维度上的预测值;
步骤3,损失函数设计;
步骤4,网络训练,将步骤1中的数据集输入到步骤2构建的网络中,通过步骤3设计的损失函数计算网络损失,然后再进行反向传播,对神经网络进行网络参数的优化,得到优化之后的模型;
步骤5,运动矢量提取,利用步骤4中的训练模型进行相机运动参数预测,得到相机运动参数,然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流,通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果;
步骤1中所述光流图图像数据的制作包括原图像,原图像对应的深度信息,以及拍摄该图像的相机内参数,制作具体为:对原图像进行任意的旋转平移操作,得到新的图像,其中旋转平移参数为表示空间坐标系中绕三个坐标轴进行旋转平移的参数,取值范围在[-A,A]范围内作为连续数值标签,将真实参数对应到[0,2A]共2A+1个位置作为离散数值标签;根据像素点在原图像和新图像上的位移变化量得到光流图像;
所述相机运动参数数据即为旋转平移参数,参数值表示包括连续数值标签和离散数值标签;
步骤3所述的网络损失函数设计,具体内容如下:
Loss=Cls(y,y′)+α·MSE(y,y′) (1)
Loss表示网络整体的损失函数,Cls(y,y′)表示交叉熵损失函数,MSE(y,y′)表示均方误差损失函数,α是用来调节均方误差损失的影响权重的超参数;
交叉熵损失函数的公式如下所示:
其中,Cls(y,y′)表示交叉熵损失函数,T表示样本数量,y′j表示全连接层第j个维度上的离散数值标签,Sj代表在全连接层进行softmax分类得到第j个维度的概率值,取值范围在(0,1);
均方误差损失函数的公式如下所示:
其中,MSE(y,y′)表示均方误差,yi是全连接层第i个维度的真实值,y′i是全连接层第i个维度的预测值;
步骤4所述的网络训练部分,具体内容如下:
将光流图图像训练数据和相机运动参数标签数据输入网络,对基础网络进行全连接之后,每一个全连接层一方面对预测数值和离散数值标签进行交叉熵损失计算;另一方面,对全连接层结果进行softmax,将全连接层中学习的预测数值映射成(0,1)之间的概率值,每个概率值乘以对应离散数值标签并求和得到参数的期望值,映射到[0,2A]区间范围内,然后减去A,最终映射到[-A,A]区间范围内,最终取得的预测值和连续数值标签进行MSE均方误差损失计算;均方误差与交叉熵损失按照权重加权求和,对最终的损失梯度进行反向传播,保存最后的网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010261812.7A CN111414975B (zh) | 2020-04-05 | 2020-04-05 | 一种基于移动摄像机和神经网络的运动矢量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010261812.7A CN111414975B (zh) | 2020-04-05 | 2020-04-05 | 一种基于移动摄像机和神经网络的运动矢量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414975A CN111414975A (zh) | 2020-07-14 |
CN111414975B true CN111414975B (zh) | 2024-03-12 |
Family
ID=71491845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010261812.7A Active CN111414975B (zh) | 2020-04-05 | 2020-04-05 | 一种基于移动摄像机和神经网络的运动矢量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414975B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397304A (zh) * | 2024-05-17 | 2024-07-26 | 欧拉深视(上海)科技有限公司 | 一种基于残差神经网络的物品纹理特征识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780543A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于卷积神经网络的双框架估计深度和运动方法 |
CN109697726A (zh) * | 2019-01-09 | 2019-04-30 | 厦门大学 | 一种基于事件相机的端对端目标运动估计方法 |
CN110176042A (zh) * | 2019-05-31 | 2019-08-27 | 北京百度网讯科技有限公司 | 相机自运动参数估计模型的训练方法、装置及存储介质 |
CN110211190A (zh) * | 2019-05-31 | 2019-09-06 | 北京百度网讯科技有限公司 | 相机自运动参数估计模型的训练方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11024041B2 (en) * | 2018-12-10 | 2021-06-01 | Intel Corporation | Depth and motion estimations in machine learning environments |
-
2020
- 2020-04-05 CN CN202010261812.7A patent/CN111414975B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780543A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于卷积神经网络的双框架估计深度和运动方法 |
CN109697726A (zh) * | 2019-01-09 | 2019-04-30 | 厦门大学 | 一种基于事件相机的端对端目标运动估计方法 |
CN110176042A (zh) * | 2019-05-31 | 2019-08-27 | 北京百度网讯科技有限公司 | 相机自运动参数估计模型的训练方法、装置及存储介质 |
CN110211190A (zh) * | 2019-05-31 | 2019-09-06 | 北京百度网讯科技有限公司 | 相机自运动参数估计模型的训练方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
Motion vector estimation using parallel processing;Suvojit Acharjee 等;International Conference on Circuits, Communication, Control and Computing;20130312;全文 * |
基于最优运动矢量预测过程的改进与优化;蔡宜 等;计算机工程与设计;20180831;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111414975A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921893B (zh) | 一种基于在线深度学习slam的图像云计算方法及系统 | |
CN113469356B (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
CN108717568B (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
CN107358626B (zh) | 一种利用条件生成对抗网络计算视差的方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN110378844A (zh) | 基于循环多尺度生成对抗网络的图像盲去运动模糊方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN107680116A (zh) | 一种监测视频图像中运动目标的方法 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN113313123B (zh) | 一种基于语义推断的扫视路径预测方法 | |
CN112419171A (zh) | 一种多残差块条件生成对抗网络的图像复原方法 | |
CN114638408B (zh) | 一种基于时空信息的行人轨迹预测方法 | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计系统实现方法 | |
CN108182694A (zh) | 一种基于插值的运动估计与自适应视频重建方法 | |
CN111402405A (zh) | 一种基于注意力机制的多视角图像三维重建方法 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 | |
CN111414975B (zh) | 一种基于移动摄像机和神经网络的运动矢量预测方法 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN118244260A (zh) | 基于生成对抗网络的模糊深度学习单目标跟踪系统 | |
CN110956684A (zh) | 基于残差网络的人群运动疏散仿真方法及系统 | |
CN113132737A (zh) | 基于泰勒解耦和记忆单元校正的视频预测方法 | |
CN111882661B (zh) | 一种视频的立体场景重建方法 | |
CN117292421B (zh) | 一种基于gru的连续性视线估计深度学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |