CN104899921B - 基于多模态自编码模型的单视角视频人体姿态恢复方法 - Google Patents

基于多模态自编码模型的单视角视频人体姿态恢复方法 Download PDF

Info

Publication number
CN104899921B
CN104899921B CN201510305802.8A CN201510305802A CN104899921B CN 104899921 B CN104899921 B CN 104899921B CN 201510305802 A CN201510305802 A CN 201510305802A CN 104899921 B CN104899921 B CN 104899921B
Authority
CN
China
Prior art keywords
image
dimensional
matrix
model
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510305802.8A
Other languages
English (en)
Other versions
CN104899921A (zh
Inventor
俞俊
洪朝群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201510305802.8A priority Critical patent/CN104899921B/zh
Publication of CN104899921A publication Critical patent/CN104899921A/zh
Application granted granted Critical
Publication of CN104899921B publication Critical patent/CN104899921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多层感知网络的单视角视频人体三维姿态恢复的方法。本发明包括以下步骤:1、采用基于超图学习的多模态低秩矩阵表示获得图像的视觉特征;2、通过训练自编码模型获得图像与三维姿态的内在特征;3、采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中;4、训练神经网络用于学习图像与三维姿态之间的映射关系;5、利用自编码模型,无监督流形对齐模型及神经网络模型,构建五层感知器网络,并微调五层网络的参数;6、以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。本发明不仅提高了三维姿态恢复的质量,而且缩短了姿态恢复的时间,可达到实时姿态恢复的要求。

Description

基于多模态自编码模型的单视角视频人体姿态恢复方法
技术领域
本发明涉及计算机视觉领域,尤其涉及单视角视频中人体三维姿态的恢复方法。
背景技术
人体姿态恢复的目的是将单视角视频中人体的三维骨架精准的提取出来。利用普通单视角视频进行人体三维运动恢复在运动捕获、三维动画、智能视频监控以及人机交互等方面有广泛的应用。通常可形式化地用表示姿态矢量空间,用表示图像特征空间,要求对任意给定x∈X计算其对应的y∈Y。但这是很困难的,因为从X到Y的映射非常复杂且不是一对一的。常见的恢复从X到Y的映射的方法可分为两类:生成式模型方法和样例学习方法。虽然从X到Y的映射很复杂,但其反向映射Y→X具有完整的定义,即给定一个姿态,总能很好的找到对应的图像。因此,生成式模型方法将姿态恢复表达为优化问题argminyl(f(y)-x)。其中l是空间X的距离函数,即寻找一个最佳姿态,该姿态下渲染出的图像和视频图像最匹配。Deutscher等采用粒子滤波框架进行快速优化,Chen等采用马尔科夫网络和梯度算法进行基于概率的姿态估计,Zhao等采用PCA对解空间进行降维,并提出分层的模拟退火遗传算法进行优化搜索。生成式模型方法难以解决数值优化的计算复杂度高,以及局部最小值问题。
样例学习方法则假定已知一些对应的图像和姿态样本,以此训练一个从X到Y的映射m。该映射可以是函数拟合,如神经网络、相关向量机、径向基函数、贝叶斯混合专家模型进行拟合,也可以是关系数据库查找表。总的来说,样例学习方法主要由三个步骤组成:1)在图像上提取视觉特征;2)利用机器学习算法建立图像特征与三维姿态之间的映射挂系;3)依据已建立的映射关系,从图像中恢复三维姿态。当前的样例学习方法主要存在以下两个问题:难以有效建立二维图像到三维姿态之间的映射关系,难以有效描述图像与三维姿态的视觉特征。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多层感知器模型的三维姿态重建方法。本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界等多种视觉特征,采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的内在特征;
步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。
步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征,具体如下:
1-1.提取训练图像的多种模态特征X(1),X(2),…,X(m),其中m表示特征的类型和数量。
1-2.给定一个矩阵特征向量X(j),在该特征下的样本近邻矩阵通过求解以下目标函数获得:
(公式1)
s.t.X(j)=X(j)Q0+E0
其中,||·||*表示核函数,||·||2,1是指L21范数,参数λ>0则用于平衡两部分的影响,X(j)表示X的第j种特征。最优化得到的Q0自然的形成一个近邻矩阵。
1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
(公式2)
s.t.X(j)=X(j)Q(j)+E(j),j=1,…,m
其中α>0是给定的参数,Q是将多特征下的矩阵Q1,Q2,…,Qm连接起来获得
(公式3)
1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示X*
步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体如下:
2-1.提取训练库中的姿态数据y1,y2,…,yn和对应的图像的统一视觉特征
2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为而解码层的参数为自编码模型以原始数据y1,y2,…,yn作为输入,通过训练使得输出的结果与原始的输入数据相同,其目标函数l3D如公式4所示:
(公式4)
其中为sigmoid函数。
2-3.利用Feedforward和Backpropagation算法对目标函数l3D进行优化,得到目标参数并计算得到为yj的内在特征。
2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参数为而解码层的参数为自编码模型是以统一表示特征数据作为输入,其目标函数l2D如公式5所示:
(公式5)
其中,表示第j个输入数据,而表示第j个输入数据对应的输出数据。
2-5.利用Feedforward和Backpropagation算法对目标函数l2D进行优化,得到目标参数并计算得到为xj的内在特征。
步骤3所述的采用无监督流形对齐技术,将图像与三维姿态的内在特征h2D与h3D投影到一个共享的低维空间中,具体如下:
3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D
3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D,则无监督流形对齐的目标函数是:
(公式6)
其中Ω(t2D,t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离,第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系,计算了图像样本的内在表示之间的距离,而则计算了三维姿态样本yi与yj的内在表示之间的距离。
3-3.采用一定的数学变换,公式(6)能表示为:Ω(t)=tLtT,其中L是拉普拉斯(laplacian)矩阵,具体计算如下:
(公式7)
其中,L2D描述了图像内在特征的laplacian矩阵,L3D描述了三维骨架姿态内在特征的laplacian矩阵,V2D,V2D 3D,V3D 2D与V3D则是对角线上元素非0的矩阵,这些矩阵的计算方式如下:
其中V(g)用于统一表示矩阵V2D,V2D 3D,V3D 2D与V3D
3-4.采用线性投影技术和特征根分解技术,对laplacian矩阵L采用特征根分解,分别得到内在表示h2D与h3D的低维空间投影矩阵α与β。
步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系,具体步骤是:
构建一个神经网络模型,设其权重矩阵WN,偏移矩阵为bN,输入为低分辨率图像块的低维特征t2D,输出为t3D,其目标函数如公式8所示:
(公式8),
其中为sigmoid函数。
步骤5所述的生成一个五层的全新感知器网络,该网络以图像的统一视觉特征作为输入,得到的输出即为对应的三维姿态恢复结果,从而实现快速的图像姿态恢复,具体如下:
5-1.构建五层的全新感知器网络,其第i层的权重矩阵为Wi,偏移矩阵为bi,参数的初始化为:W2=α,b2=0,W3=WN,b3=bN,W4=β,b4=0,
5-2.用backpropogation算法优化目标函数,并得到以上参数。
5-3.训练结束后,将数据库中的任意图像作为五层感知器网络的输入,得到的输出就是重建的三维姿态数据。
本发明具有的有益的效果如下:
通过学习提取图像和三维姿态的特征和学习图像和三维姿态之间的非线性映射关系,指导三维姿态的重建过程,不仅提高了重建结果的质量,而且使得重建的时间大大缩短,可以达到实时的要求。
附图说明
图1是本发明流程图;
图2是基于超图学习的多模态低秩矩阵表示获得图像的视觉特征示意图;
图3是本发明基于多层感知网络的三维姿态恢复的训练过程框架示意图;
图4是将图像与三维姿态的内在特征投影到一个共享的低维空间中示意图;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,基于多模态自编码模型的单视角视频人体姿态恢复方法,具体包括如下步骤:
步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界等多种视觉特征,采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的内在特征;
步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。
如图2所示,步骤1所述的基于超图学习的多模态低秩矩阵表示获得图像的视觉特征,具体如下:
1-1.提取训练图像的多种模态特征X(1),X(2),…,X(m),其中m表示特征的类型和数量。
1-2.给定一个矩阵特征向量X(j),在该特征下的样本近邻矩阵通过求解以下目标函数获得:
(公式1)
s.t.X(j)=X(j)Q0+E0
其中,||·||*表示核函数,||·||2,1是指L21范数,参数λ>0则用于平衡两部分的影响,X(j)表示X的第j种特征。最优化得到的Q0自然的形成一个近邻矩阵。
1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
(公式2)
s.t.X(j)=X(j)Q(j)+E(j),j=1,…,m
其中α>0是给定的参数,Q是将多特征下的矩阵Q1,Q2,…,Qm连接起来获得
(公式3)
1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示X*
如图3所示,步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体如下:
2-1.提取训练库中的姿态数据y1,y2,…,yn和对应的图像的统一视觉特征
2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为而解码层的参数为自编码模型以原始数据y1,y2,…,yn作为输入,通过训练使得输出的结果与原始的输入数据相同,其目标函数l3D如公式4所示:
(公式4)
其中为sigmoid函数。
2-3.利用Feedforward和Backpropagation算法对目标函数l3D进行优化,得到目标参数并计算得到为yj的内在特征。
2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参数为而解码层的参数为自编码模型是以统一表示特征数据作为输入,其目标函数l2D如公式5所示:
(公式5)
其中,表示第j个输入数据,而表示第j个输入数据对应的输出数据。
2-5.利用Feedforward和Backpropagation算法对目标函数l2D进行优化,得到目标参数并计算得到为xj的内在特征。
如图4所示,步骤3所述的采用无监督流形对齐技术,将图像与三维姿态的内在特征h2D与h3D投影到一个共享的低维空间中,具体如下:
3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D
3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D,则无监督流形对齐的目标函数是:
(公式6)
其中Ω(t2D,t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离,第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系,计算了图像样本的内在表示之间的距离,而则计算了三维姿态样本yi与yj的内在表示之间的距离。
3-3.采用一定的数学变换,公式(6)能表示为:Ω(t)=tLtT,其中L是拉普拉斯(laplacian)矩阵,具体计算如下:
(公式7)
其中,L2D描述了图像内在特征的laplacian矩阵,L3D描述了三维骨架姿态内在特征的laplacian矩阵,V2D,V2D 3D,V3D 2D与V3D则是对角线上元素非0的矩阵,这些矩阵的计算方式如下:
其中V(g)用于统一表示矩阵V2D,V2D 3D,V3D 2D与V3D
3-4.采用线性投影技术和特征根分解技术,对laplacian矩阵L采用特征根分解,分别得到内在表示h2D与h3D的低维空间投影矩阵α与β。
如图2所示,步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系,具体步骤是:
构建一个神经网络模型,设其权重矩阵WN,偏移矩阵为bN,输入为低分辨率图像块的低维特征t2D,输出为t3D,其目标函数如公式8所示:
(公式8),
其中为sigmoid函数。
步骤5所述的生成一个五层的全新感知器网络,该网络以图像的统一视觉特征作为输入,得到的输出即为对应的三维姿态恢复结果,从而实现快速的图像姿态恢复,具体如下:
5-1.构建五层的全新感知器网络,其第i层的权重矩阵为Wi,偏移矩阵为bi,参数的初始化为:W2=α,b2=0,W3=WN,b3=bN,W4=β,b4=0,
5-2.用backpropogation算法优化目标函数,并得到以上参数。
5-3.训练结束后,将数据库中的任意图像作为五层感知器网络的输入,得到的输出就是重建的三维姿态数据。

Claims (6)

1.基于多层感知器模型的三维姿态重建方法,其特征在于包括以下步骤:
步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界多种视觉特征,采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的内在特征;
步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。
2.如权利要求1所述的基于多层感知器模型的三维姿态重建方法,其特征在于步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征,具体如下:
1-1.提取训练图像的多种模态特征X(1),X(2),...,X(m),其中m表示特征的类型和数量;
1-2.给定一个矩阵特征向量X(j),在该特征下的样本近邻矩阵通过求解以下目标函数获得:
其中,||·||*表示核函数,||·||2,1是指L21范数,参数λ>0则用于平衡两部分的影响,X(j)表示X的第j种特征;最优化得到的Q0自然的形成一个近邻矩阵;
1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
其中α>0是给定的参数,Q是将多特征下的矩阵Q1,Q2,...,Qm连接起来获得
1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示x*
3.如权利要求1所述的基于多层感知器模型的三维姿态重建方法,其特征在于步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体如下:
2-1.提取训练库中的姿态数据y1,y2,...,yn和对应的图像的统一视觉特征
2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为而解码层的参数为自编码模型以原始数据y1,y2,...,yn作为输入,通过训练使得输出的结果与原始的输入数据相同,其目标函数l3D如公式4所示:
其中为sigmoid函数;
2-3.利用Feedforward和Backpropagation算法对目标函数l3D进行优化,得到目标参数并计算得到为yj的内在特征;
2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参数为而解码层的参数为自编码模型是以统一表示特征数据作为输入,其目标函数l2D如公式5所示:
其中,表示第j个输入数据,而表示第j个输入数据对应的输出数据;
2-5.利用Feedforward和Backpropagation算法对目标函数l2D进行优化,得到目标参数并计算得到为xj的内在特征。
4.如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法,其特征在于步骤3所述的采用无监督流形对齐技术,将图像与三维姿态的内在特征h2D与h3D投影到一个共享的低维空间中,具体如下:
3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D
3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D,则无监督流形对齐的目标函数是:
其中Ω(t2D,t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离,第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系,计算了图像样本的内在表示之间的距离,而则计算了三维姿态样本yi与yj的内在表示之间的距离;
3-3.采用一定的数学变换,公式(6)能表示为:Ω(t)=tLtT,其中L是拉普拉斯(laplacian)矩阵,具体计算如下:
其中,L2D描述了图像内在特征的laplacian矩阵,L3D描述了三维骨架姿态内在特征的laplacian矩阵,V2D,V2D 3D,V3D 2D与V3D则是对角线上元素非0的矩阵,这些矩阵的计算方式如下:
<mrow> <msubsup> <mi>V</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mo>&amp;CenterDot;</mo> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&amp;mu;</mi> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mi>j</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中V(·)用于统一表示矩阵V2D,V2D 3D,V3D 2D与V3D
3-4.采用线性投影技术和特征根分解技术,对laplacian矩阵L采用特征根分解,分别得到内在表示h2D与h3D的低维空间投影矩阵α与β。
5.如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法,其特征在于步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系,具体步骤是:
构建一个神经网络模型,设其权重矩阵WN,偏移矩阵为bN,输入为低分辨率图像块的低维特征t2D,输出为t3D,其目标函数如公式8所示:
其中为sigmoid函数。
6.如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法,其特征在于步骤5生成一个五层的全新感知器网络,该网络以图像的统一视觉特征作为输入,得到的输出即为对应的三维姿态恢复结果,从而实现快速的图像姿态恢复,具体如下:
5-1.构建五层的全新感知器网络,其第i层的权重矩阵为Wi,偏移矩阵为bi,参数的初始化为:W2=α,b2=0,W3=WN,b3=bN,W4=β,b4=0,
5-2.用backpropogation算法优化目标函数,并得到以上参数;
5-3.训练结束后,将数据库中的任意图像作为五层感知器网络的输入,得到的输出就是重建的三维姿态数据。
CN201510305802.8A 2015-06-04 2015-06-04 基于多模态自编码模型的单视角视频人体姿态恢复方法 Active CN104899921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510305802.8A CN104899921B (zh) 2015-06-04 2015-06-04 基于多模态自编码模型的单视角视频人体姿态恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510305802.8A CN104899921B (zh) 2015-06-04 2015-06-04 基于多模态自编码模型的单视角视频人体姿态恢复方法

Publications (2)

Publication Number Publication Date
CN104899921A CN104899921A (zh) 2015-09-09
CN104899921B true CN104899921B (zh) 2017-12-22

Family

ID=54032564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510305802.8A Active CN104899921B (zh) 2015-06-04 2015-06-04 基于多模态自编码模型的单视角视频人体姿态恢复方法

Country Status (1)

Country Link
CN (1) CN104899921B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740906B (zh) * 2016-01-29 2019-04-02 中国科学院重庆绿色智能技术研究院 一种基于深度学习的车辆多属性联合分析方法
US9971958B2 (en) * 2016-06-01 2018-05-15 Mitsubishi Electric Research Laboratories, Inc. Method and system for generating multimodal digital images
JP6857720B2 (ja) 2016-10-10 2021-04-14 シェンチェン クアンチー フージョン テクノロジー リミテッドShen Zhen Kuang−Chi Hezhong Technology Ltd. 前方後方平滑デコード方法、装置及びシステム
CN107808144A (zh) * 2017-11-10 2018-03-16 深圳市唯特视科技有限公司 一种基于视频时空关系进行自我监督嵌入姿态学习方法
CN108846343B (zh) * 2018-06-05 2022-05-13 北京邮电大学 基于三维视频的多任务协同分析方法
CN109166103B (zh) * 2018-07-27 2021-02-05 中国科学院自动化研究所 基于多层感知网络的激发荧光断层成像方法
CN109215780B (zh) * 2018-08-24 2022-05-31 齐鲁工业大学 高拉普拉斯正则化低秩表示的多模态数据分析方法及系统
CN112001437B (zh) * 2020-08-19 2022-06-14 四川大学 面向模态非完全对齐的数据聚类方法
CN112446310A (zh) * 2020-11-19 2021-03-05 杭州趣链科技有限公司 基于区块链的年龄识别系统、方法及装置
CN112668501A (zh) * 2020-12-30 2021-04-16 杭州趣链科技有限公司 基于区块链激励的自动编码器特征提取方法与装置
CN113129267A (zh) * 2021-03-22 2021-07-16 杭州电子科技大学 一种基于视网膜分层数据的oct图像检测方法及系统
CN113408703B (zh) * 2021-06-29 2022-01-28 中国科学院自动化研究所 基于神经与符号的多模态大数据机器自动学习系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227287A (ja) * 2003-01-23 2004-08-12 Zumen Soft Inc 三次元cadデータ作成システム及び三次元cadデータの作成方法
CN1567385A (zh) * 2003-06-19 2005-01-19 邓兴峰 平面图像全景重建立体图像的方法
CN1920886A (zh) * 2006-09-14 2007-02-28 浙江大学 基于视频流的三维动态人脸表情建模方法
CN101021900A (zh) * 2007-03-15 2007-08-22 上海交通大学 利用降维方法进行人脸姿态估计的方法
CN101246602A (zh) * 2008-02-04 2008-08-20 东华大学 基于几何骨架的人体姿态重建方法
CN101714262A (zh) * 2009-12-10 2010-05-26 北京大学 单幅图像的三维场景重建方法
CN102054291A (zh) * 2009-11-04 2011-05-11 厦门市美亚柏科信息股份有限公司 一种基于单幅人脸图像实现三维人脸重建的方法及其装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227287A (ja) * 2003-01-23 2004-08-12 Zumen Soft Inc 三次元cadデータ作成システム及び三次元cadデータの作成方法
CN1567385A (zh) * 2003-06-19 2005-01-19 邓兴峰 平面图像全景重建立体图像的方法
CN1920886A (zh) * 2006-09-14 2007-02-28 浙江大学 基于视频流的三维动态人脸表情建模方法
CN101021900A (zh) * 2007-03-15 2007-08-22 上海交通大学 利用降维方法进行人脸姿态估计的方法
CN101246602A (zh) * 2008-02-04 2008-08-20 东华大学 基于几何骨架的人体姿态重建方法
CN102054291A (zh) * 2009-11-04 2011-05-11 厦门市美亚柏科信息股份有限公司 一种基于单幅人脸图像实现三维人脸重建的方法及其装置
CN101714262A (zh) * 2009-12-10 2010-05-26 北京大学 单幅图像的三维场景重建方法

Also Published As

Publication number Publication date
CN104899921A (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN104899921B (zh) 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN108921893B (zh) 一种基于在线深度学习slam的图像云计算方法及系统
CN111080511B (zh) 一种端到端的高分辨率多特征提取的人脸交换方法
CN110728219B (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
WO2017163759A1 (en) System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN110503680A (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
CN108710906B (zh) 基于轻量级网络LightPointNet的实时点云模型分类方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN114581560B (zh) 基于注意力机制的多尺度神经网络红外图像彩色化方法
Jiang et al. Learning a referenceless stereopair quality engine with deep nonnegativity constrained sparse autoencoder
CN110059593B (zh) 一种基于反馈卷积神经网络的面部表情识别方法
CN110007754B (zh) 手与物体交互过程的实时重建方法及装置
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN104408697B (zh) 基于遗传算法和正则先验模型的图像超分辨重建方法
CN111125403A (zh) 一种基于人工智能的辅助设计绘图方法及系统
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
CN111027433A (zh) 一种基于卷积神经网络的多重风格人脸特征点检测方法
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
Wang et al. MDD-ShipNet: Math-Data Integrated Defogging for Fog-Occlusion Ship Detection
CN116797640A (zh) 一种面向智能伴行巡视器的深度及3d关键点估计方法
CN113592021B (zh) 一种基于可变形和深度可分离卷积的立体匹配方法
CN110766732A (zh) 一种鲁棒的单相机深度图估计方法
CN113192186B (zh) 基于单帧图像的3d人体姿态估计模型建立方法及其应用
CN116309774A (zh) 一种基于事件相机的密集三维重建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191016

Address after: 310000 23 / F, Shimao center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Yuanchuan New Technology Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 310000 floor 23, Shimao center, No. 857, Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method for Human Posture Restoration in Single View Video Based on Multimodal Self coding Model

Effective date of registration: 20230509

Granted publication date: 20171222

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155

PE01 Entry into force of the registration of the contract for pledge of patent right