CN117011357A - 基于3d运动流和法线图约束的人体深度估计方法及系统 - Google Patents
基于3d运动流和法线图约束的人体深度估计方法及系统 Download PDFInfo
- Publication number
- CN117011357A CN117011357A CN202310984861.7A CN202310984861A CN117011357A CN 117011357 A CN117011357 A CN 117011357A CN 202310984861 A CN202310984861 A CN 202310984861A CN 117011357 A CN117011357 A CN 117011357A
- Authority
- CN
- China
- Prior art keywords
- depth
- color
- image
- network
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 8
- 239000003086 colorant Substances 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 claims 1
- 238000012805 post-processing Methods 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于3D运动流和法线图约束的自监督单目人体深度估计方法,在人体深度估计的基础上设计一个3D运动流估计网络学习两帧之间人体运动参数,建立两帧图像之间的光度一致性和3D几何一致性约束,同时利用法线图和深度图之间的几何关系,建立深度法线一致性损失函数优化人体深度估计网络。其中消除纹理复制模块是在推理测试阶段,设计了一个消除纹理复制的后处理方法,消除衣服上的图案、文字给深度估计网络带来的影响。本发明不需要深度图监督,只需要视频作为监督数据,泛化性强;同时可以消除衣服上图案和文字,解决纹理复制问题。
Description
技术领域
本发明涉及深度学习模型的后门样本检测领域,具体涉及一种基于3D运动流和法线图约束的人体深度估计方法及系统。
背景技术
单张图像三维人体重构有很多的应用,特别是最近的元宇宙中数字人重建。3D人体的表示形式可以分为参数化和非参数化人体。参数化3D Mesh表示如SCAPE,SMPL通过姿态和形状编码人体。尽管参数化的人体表示技术成熟,但是它不能表示人体的细节信息,如衣服细节和头发。参数化的表示限制了它在生活中的应用,如虚拟主播,远程会议,和远程教学。一些研究员开始修改人体参数通过加入细节信息,只能提高部分细节信息,对于裙子和宽松衣服很难用参数化形式重建出来。非参数化表示如深度、网格、体素、隐士函数可以体现衣服、头发细节。相比于其他非参数化表示,深度图是一种表示简单且所占存储空间小的人体表示形式。
目前有工作采用背景深度信息引导人体深度估计,得到的人体深度过于平滑,大量的细节信息丢失。有方法直接用深度监督,但是要获取大量的、高精度的深度数据是一个具有挑战问题,导致目前有监督的方法泛化性能不强。为了解决泛化能力,有工作采用半监督的方式训练人体深度估计模型,把人体运动看作近似局部非刚性运动来建立两帧图像之间的约束关系。当训练数据为裙子或者宽松衣服时,局部刚性运动不成立,不同区域之间没有约束关系,导致最终深度图在关节处出现断裂情况。
场景流是场景中每个点的三维运动场,广泛应用于视频跟踪与监控、机器人自主导航、3D视频压缩与显示等领域。因此,最近根据不同类型的输入数据提出了许多场景流估计方法,如立体图像、3D点云或RGB-D图像序列。有研究者通过使用场景流场估计场景运动,为动态场景神经辐射场框架建模。有工作在每个视频中联合训练场景流网络和细化深度网络,为任意运动物体生成时间一致的深度。一些工作利用人体二维光流进行服装转移。这些工作是针对场景的三维运动流,还没有工作用深度学习做人体3D运动流。
基于视频的场景深度估计工作得到了大量的研究,联合训练深度估计网络和相机运动参数,建立两帧图像之间的约束关系不断迭代优化网络模型。视频中的场景属于刚性运动,人体的运动属于非刚性运动,所以不能直接采用基于视频的场景深度估计方法训练人体深度估计。
发明内容
本发明针对现有技术的不足,如网络模型的泛化性不强、图案和文字带来纹理复制等,提供了一种基于3D运动流和法线图约束的自监督人体深度估计方法,能够不需要深度数据监督,只需要视频颜色图像作为训练数据,达到提高模型泛化性的目的。同时对输入图像衣服上图案、文字提出消除方法,减少纹理复制影响。
为实现上述目的,本发明提供了一种基于3D运动流和法线图约束的人体深度估计方法,其特征在于:
S1:采集单人在镜头前自由运动的视频,构建训练集;
S2:将S1采集的视频转换为单帧图像并进行预处理,获取单帧图像人体掩膜、法线图和密集姿态图,并选取相邻的N帧图像作为匹配图构建数据集;
S3:设计深度估计网络,采用堆叠沙漏网络作为深度估计网络基础,网络采用离散的方式输出深度;
S4:设计3D运动流估计网络,基于编码和解码的网络框架结构设计3D运动流网络;
S5:利用S2中构建的数据集作为自监督训练集,对深度估计网络和3D运动流估计网络进行训练;
对服装有颜色差异的人,需先进行消除纹理复制预处理,具体如下:
检索衣服上图案和文字区域,并划分为主颜色区域和非主颜色区域,其中,主颜色区域为颜色最大的区域;将非主颜色区域进行处理,使其颜色接近主颜色区域。
一种优选方式为,所述S2中预处理具体为:去除存在模糊和伪影的图像,通过裁剪和缩放把图像调整为256*256分辨率。
一种优选方式为,所述深度估计网络中网络输出离散的通道视差概率体,视差层/>,其中/>表示最小视差,/>表示视差间隔;对于每一个视差层的归一化概率图为/>;加权求和概率图,得到最终视差图/>;设定人体最小深度a,最大深度b,把视差图转换为深度图。
一种优选方式为,所述S3中,当前帧和匹配帧的颜色图的密集姿态图和分别输入到编码网络提取多个尺度特征,在最后一个特征层用一个自注意力模块学习上下文的特征相关性;连接两个自注意力特征并通过一个卷积层来输出低分辨率3D运动流;低分辨率3D运动流是多尺度解码的第一步,对于其他三个尺度阶段分别加入相关性特征,上采样低分辨率特征,连接编码特征和相关性特征,通过卷积输出高分辨率3D运动流;
其中:上采样低分辨率特征,连接编码特征,根据3D运动流把匹配帧的特征转换到当前帧,基于匹配的分数量化特征相似度,称作相关性特征。
3D运动流估计网络设计,基于编码-解码的网络结构基础设计3D运动流网络。首先利用ResNet18提取图像特征,连接当前帧和匹配帧的颜色图和密集姿态Densepose图和/>再分别输入到ResNet18网络提取四个尺度特征,假设原图像分辨率为, 四个尺度分别为/>、/>、/>和/>。在最后一个特征层上用一个自注意力模块学习上下文的特征相关性:最后一层特征输入到自注意力网络,输出自注意力特征。连接两个自注意力特征并输入到一个2D卷积层,输出一个低分辨率3D运动流。对于其他三个尺度阶段分别加入相关性特征。相关性特征指在当前帧和匹配帧中,分别上采样低分辨率特征并连接编码特征,根据3D运动流和估计的深度把匹配帧的特征转换到当前帧,基于匹配的分数量化特征相似度。连接上采样特征、编码特征和相关性特征,通过卷积输出高分辨率3D运动流
一种优选方式为,所述S5的网络训练中,包含的损失有:
深度法线一致性损失:保证预测深度导出的法线和伪标签法线的一致性;
光度重投影损失:保证目标图像和基于其他帧重构的图像的一致性;
3D几何一致性损失:保证目标图像重构3D点转换到参考图像空间和匹配点的3D点一致性;
深度平滑损失:加强深度局部平滑性;
3D运动流损失:保证3D流投影为2D流和对应密集姿态图得到2D流一致性。
特别地,所述光度重投影损失:惩罚目标图像和重构图像/>的差异性,其公式为:
其中SSIM()表示结构相似性,重构图像是基于参考图像/>,深度/>和3D运动流/>合成的:
通过深度把图像/>投影到三维空间/>:
用估计的3D运动流把/>转换到/>对应三维空间:
重构的3D点投影到图像平面得到对应匹配点/>:
用双线性插值采样参考图像合成图像/>。
一种优选方式为,预处理中,采用人体解析算法提取衣服区域,然后设定颜色区域分类数,通过k-means聚类算法提取/>个区域以及它们的中心颜色值/>,中心颜色值归一化到(0,1)范围,三个通道/>;其中像素数量最多的区域为主颜色区域/>,对于每一个颜色区域中心颜色值和主颜色区域的中心颜色其中一个通道差距大于阈值0.1称非主颜色区域。
一种优选方式为,对于每一个非主颜色区域,设计一种线性颜色变换和图像修复算法,分别根据非主色掩模大小改变非主颜色使其接近于主颜色,设定颜色连通域阈值,当大于该阈值时,用颜色线性变化转换其区域颜色,用图像滤波消除边界痕迹,当非主颜色区域掩码连通域小于阈值,把图像区域看作空白区域,采用图像修复算法填充非主颜色区域颜色,使其接近于主颜色。
基于同一发明构思,本方案还提供了一种电子设备,其特殊之处在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现一种基于进化偏差的在线后门样本检测方法。
基于同一发明构思,本方案还提供了一种计算机可读介质,其上存储有计算机程序,其特殊之处在于:所述程序被处理器执行时实现一种基于进化偏差的在线后门样本检测方法。
上述技术方案具有如下有益效果:
本发明提出通过学习人体3D运动流建立两帧图像之间约束关系,利用视频监督人体深度估计,用法线和深度之间的几何约束关系监督深度估计模型学习,不需要深度图监督,提高模型泛化能力;能够消除衣服上图案和文字,避免纹理复制问题。
利用3D运动流来建立两帧图像之间约束关系的视频监督人体深度估计方法。不需要深度监督,训练集容易获取,可以提高模型泛化能力。
用法线和深度之间的几何约束关系监督深度估计模型学习,避免深度图训练集存在噪声,尺度不一致问题带来的影响。
深度估计网络采用离散的深度输出方式,可以获得更多的细节信息。
基于颜色成分分析和颜色变换方法来处理衣服上的衣服上图案和文字,避免纹理复制问题。
附图说明
图1是本发明的整体流程图。
图2是本发明网络训练模块的流程示意图。
图3是3D运动流模块的细节图。
图4是本发明消除纹理复制模块的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明提出了一种基于3D运动流和法线图约束的自监督的单目人体深度估计方法,如图1所示,算法包含网络训练模块与消除纹理复制模块。
如图2所示,网络训练模块包含以下步骤:
步骤1,采集单个人在镜头前自由运动的视频,构建训练集,具体如下:摄像机固定在一个位置,单个人在镜头前面朝一个方向自由活动,从网上下载他人分享的满足条件的视频;
步骤2,数据处理过程,具体如下:把步骤1采集的视频转换为单帧图像,去除存在模糊和伪影的图像,通过裁剪和缩放把图像调整为256X256分辨率,采用现有的算法获取人体掩膜mask、法线图和密集姿态图Densepose, 对于每帧图像,在前后20帧之间选取5帧相邻图像作为匹配图;
步骤3,深度估计网络设计,采用堆叠沙漏网络stacked hourglass network作为深度估计网络基础,具体如下:深度网络输出离散的通道视差概率体,视差层:
,
其中表示最小视差,/>表示视差间隔。对于每一个视差层的归一化概率图为:
,
加权求和概率图,得到最终视差图:
。
设定人体最小深度,最大深度/>,把视差图转换为深度图
。
步骤4,3D运动流估计网络设计,如图3所示,基于编码-解码的网络结构基础设计3D运动流网络,具体如下:利用ResNet18编码图像特征,当前帧和匹配帧的颜色图的Densepose图和/>分别输入到ResNet18网络提取四个尺度特征,在最后一个特征层加入一个自注意力模块学习上下文的特征相关性,称为自注意力特征;连接两个自注意力特征并通过一个卷积层来输出低分辨率3D运动流。
低分辨率3D运动流是多尺度解码的第一步,对于其他三个尺度阶段分别加入特征相关层,假设原图像分辨率为, 四个尺度分别为/>、/>、/>和/>。上采样低分辨率特征,连接编码特征和相关性特征,通过卷积输出高分辨率3D运动流。上采样低分辨率特征连接编码特征,根据3D运动流和深度把匹配帧的特征转换到当前帧,基于匹配的分数量化特征相似度,称为相关性特征。
步骤5,网络训练,采用深度法线一致性损失、光度重投影损失、3D几何一致性损失、深度平滑损失、3D运动流一致性损失不断迭代优化深度估计网络和3D运动流估计网络直到损失函数值不再减小,具体损失函数公式如下:
其中超参数为各项损失的权重,分别设定为0.3,0.5,0.1,0.1。下面分别介绍各项损失函数:
深度法线一致性损失:表面法线是垂直于对应3D点/>的切平面的曲线,其公式:
其中二维像素点所对应的三维空间点/>通过深度/>获取:/>,其中/>表示相机内参数;我们建立表面法线深度一致性损失,其公式为:
其中为标签法线,/>为由预测的深度图导出的法线。
光度重投影损失:惩罚目标图像和重构图像/>的差异性,其公式为:
其中SSIM()表示结构相似性,重构图像是基于参考图像/>,深度/>和3D运动流/>合成的:
通过深度把图像/>投影到三维空间/>:
用估计的3D运动流把/>转换到/>对应三维空间:
重构的3D点投影到图像平面得到对应匹配点/>:
用双线性插值采样参考图像合成图像/>。
3D几何一致性损失:惩罚由目标图像空间3D点转换到参考图像空间/>的3D点和匹配点的3D点/>的差异性,其公式为:
其中。
深度平滑损失:由图像梯度加权的边缘感知深度平滑约束来加强深度局部平滑性,其公式为:
其中和/>表示深度/>在/>轴和/>轴方向的梯度,/>和/>表示图像/>在/>轴和/>轴方向的梯度
3D运动流损失:通过密集姿态Densepose图计算2D流/>,投影3D流到2D流/>,建立约束:
如图4所示,对衣物上有颜色差异的图像进行预处理,以消除纹理复制,具体包括以下步骤:
检索衣服上图案和文字区域,基于k-means聚类算法提取衣服上的图案、文字区域,称非主颜色区域。具体如下:首先采用人体解析算法提取衣服区域,然后设定颜色区域分类数,通过k-means聚类算法提取/>个区域以及它们的中心颜色值/>,中心颜色值归一化到(0,1)范围,三个通道/>;其中像素数量最多的区域为主颜色区域/>。最后,对于每一个颜色区域中心颜色值和主颜色区域的中心颜色其中一个通道差距大于阈值0.1:
该颜色区域定为需要进行颜色转换的区域,称非主颜色区域,然后通过导向滤波膨胀非主颜色区域mask。
非主颜色转换,设计一种线性颜色变换和图像修复算法,分别根据非主色掩模大小改变非主颜色使其接近于主颜色。具体如下:对于每一个非主颜色区域,本实施例中联通域阈值设置为60,当连通域大于阈值60,用颜色线性变化转换其区域颜色,其公式为:
用图像滤波消除边界痕迹。当非主颜色区域掩膜连通域小于阈值60,把图像区域看作空白区域,采用图像修复算法填充非主颜色区域颜色,使其接近于主颜色。
实施例二
基于同一发明构思,本发明还提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例一中所述的方法。
由于本发明实施例三所介绍的设备为实施本发明实施例一基于3D运动流和法线图约束的人体深度估计方法所采用的电子设备,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一介绍方法所采用的电子设备都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例一中所述的方法。
由于本发明实施例四所介绍的设备为实施本发明实施例一基于3D运动流和法线图约束的人体深度估计方法所采用的计算机可读介质,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一介绍的方法所采用的电子设备都属于本发明所欲保护的范围。
本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形,但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。
Claims (10)
1.一种基于3D运动流和法线图约束的人体深度估计方法,其特征在于:
S1:采集单人在镜头前自由运动的视频,构建训练集;
S2:将S1采集的视频转换为单帧图像并进行预处理,获取单帧图像人体掩膜、法线图和密集姿态图,并选取相邻的N帧图像作为匹配图构建数据集;
S3:设计深度估计网络,采用堆叠沙漏网络作为深度估计网络基础,网络采用离散的方式输出深度;
S4:设计3D运动流估计网络,基于编码和解码的网络框架结构设计3D运动流网络;
S5:利用S2中构建的数据集作为自监督训练集,对深度估计网络和3D运动流估计网络进行训练;
对服装有颜色差异的人,需先进行消除纹理复制预处理,具体如下:
检索衣服上图案和文字区域,并划分为主颜色区域和非主颜色区域,其中,主颜色区域为颜色最大的区域;将非主颜色区域进行处理,使其颜色接近主颜色区域。
2.根据权利要求1所述的基于3D运动流和法线图约束的人体深度估计方法,其特征在于:所述S2中预处理具体为:去除存在模糊和伪影的图像,通过裁剪和缩放把图像调整为256*256分辨率。
3.根据权利要求1所述的基于3D运动流和法线图约束的人体深度估计方法,其特征在于:所述深度估计网络中网络输出离散的通道视差概率体/>,视差层,其中/>表示最小视差,/>表示视差间隔;对于每一个视差层的归一化概率图为/>;加权求和概率图,得到最终视差图/>;设定人体最小深度a,最大深度b,把视差图转换为深度图/>。
4.根据权利要求1所述的基于进化偏差的在线后门样本检测方法,其特征在于:所述S3中,当前帧和匹配帧的颜色图的密集姿态图和/>分别输入到编码网络提取多个尺度特征,在最后一个特征层用一个自注意力模块学习上下文的特征相关性;连接两个自注意力特征并通过一个卷积层来输出低分辨率3D运动流;低分辨率3D运动流是多尺度解码的第一步,对于其他三个尺度阶段分别加入相关性特征,上采样低分辨率特征,连接编码特征和相关性特征,通过卷积输出高分辨率3D运动流;
其中:上采样低分辨率特征,连接编码特征,根据3D运动流把匹配帧的特征转换到当前帧,基于匹配的分数量化特征相似度,称作相关性特征。
5.根据权利要求1所述的基于进化偏差的在线后门样本检测方法,其特征在于:所述S5的网络训练中,包含的损失有:
深度法线一致性损失:保证预测深度导出的法线和伪标签法线的一致性;
光度重投影损失:保证目标图像和基于其他帧重构的图像的一致性;
3D几何一致性损失:保证目标图像重构3D点转换到参考图像空间和匹配点的3D点一致性;
深度平滑损失:加强深度局部平滑性;
3D运动流损失:保证3D流投影为2D流和对应密集姿态图得到2D流一致性。
6.根据权利要求5所述的基于进化偏差的在线后门样本检测方法,其特征在于:光度重投影损失:惩罚目标图像和重构图像/>的差异性,其公式为:
其中SSIM()表示结构相似性,重构图像是基于参考图像/>,深度/>和3D运动流合成的:
通过深度把图像/>投影到三维空间/>:
用估计的3D运动流把/>转换到/>对应三维空间:
重构的3D点投影到图像平面得到对应匹配点/>:
用双线性插值采样参考图像合成图像/>。
7.根据权利要求1所述的基于进化偏差的在线后门样本检测方法,其特征在于:预处理中,采用人体解析算法提取衣服区域,然后设定颜色区域分类数,通过k-means聚类算法提取/>个区域以及它们的中心颜色值/>,中心颜色值归一化到(0,1)范围,三个通道/>;其中像素数量最多的区域为主颜色区域/>,对于每一个颜色区域中心颜色值和主颜色区域的中心颜色其中一个通道差距大于阈值0.1称非主颜色区域。
8.根据权利要求1所述的基于进化偏差的在线后门样本检测方法,其特征在于:对于每一个非主颜色区域,设计一种线性颜色变换和图像修复算法,分别根据非主色掩模大小改变非主颜色使其接近于主颜色,设定颜色连通域阈值,当大于该阈值时,用颜色线性变化转换其区域颜色,用图像滤波消除边界痕迹,当非主颜色区域掩码连通域小于阈值,把图像区域看作空白区域,采用图像修复算法填充非主颜色区域颜色,使其接近于主颜色。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-8中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310984861.7A CN117011357A (zh) | 2023-08-07 | 2023-08-07 | 基于3d运动流和法线图约束的人体深度估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310984861.7A CN117011357A (zh) | 2023-08-07 | 2023-08-07 | 基于3d运动流和法线图约束的人体深度估计方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011357A true CN117011357A (zh) | 2023-11-07 |
Family
ID=88565147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310984861.7A Pending CN117011357A (zh) | 2023-08-07 | 2023-08-07 | 基于3d运动流和法线图约束的人体深度估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011357A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557762A (zh) * | 2024-01-11 | 2024-02-13 | 武汉大学 | 基于单目视频的动态宽松衣物人体重建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN114359509A (zh) * | 2021-12-03 | 2022-04-15 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN116071412A (zh) * | 2022-11-09 | 2023-05-05 | 中国人民解放军海军航空大学 | 融合全尺度和相邻帧特征信息的无监督单目深度估计方法 |
-
2023
- 2023-08-07 CN CN202310984861.7A patent/CN117011357A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN114359509A (zh) * | 2021-12-03 | 2022-04-15 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN116071412A (zh) * | 2022-11-09 | 2023-05-05 | 中国人民解放军海军航空大学 | 融合全尺度和相邻帧特征信息的无监督单目深度估计方法 |
Non-Patent Citations (3)
Title |
---|
YUANZHEN LI等: "Monocular human depth estimation with 3D motion flow and surface normals", 《THE VISUAL COMPUTER》, vol. 39, 22 July 2023 (2023-07-22), pages 3701 - 3713 * |
YUANZHEN LI等: "Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module", 《COMPUTATIONAL VISUAL MEDIA》, vol. 8, no. 4, 4 December 2022 (2022-12-04), pages 631 - 647 * |
YUANZHEN LI等: "Self-supervisedmonocular depth estimation based on image texture detail enhancement", 《THE VISUAL COMPUTER》, vol. 37, 25 June 2021 (2021-06-25), pages 2567 - 2580, XP037552402, DOI: 10.1007/s00371-021-02206-2 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557762A (zh) * | 2024-01-11 | 2024-02-13 | 武汉大学 | 基于单目视频的动态宽松衣物人体重建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10593021B1 (en) | Motion deblurring using neural network architectures | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
Zhu et al. | Fast single image super-resolution via self-example learning and sparse representation | |
Xie et al. | Joint super resolution and denoising from a single depth image | |
Liu et al. | Depth reconstruction from sparse samples: Representation, algorithm, and sampling | |
CN110599395B (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN110796622B (zh) | 一种基于串联神经网络多层特征的图像比特增强方法 | |
An et al. | TR-MISR: Multiimage super-resolution based on feature fusion with transformers | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
Wang et al. | Multi-direction dictionary learning based depth map super-resolution with autoregressive modeling | |
JP2022536381A (ja) | 動作遷移方法、装置、デバイス、および記憶媒体 | |
Liu et al. | Single image super resolution techniques based on deep learning: Status, applications and future directions | |
CN117011357A (zh) | 基于3d运动流和法线图约束的人体深度估计方法及系统 | |
Luvizon et al. | Adaptive multiplane image generation from a single internet picture | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
Dhir et al. | An overview of advances in image colorization using computer vision and deep learning techniques | |
CN115830241A (zh) | 一种基于神经网络的真实感三维人脸纹理重建方法 | |
CN112184549A (zh) | 基于时空变换技术的超分辨图像重建方法 | |
Wang et al. | Towards high-quality thermal infrared image colorization via attention-based hierarchical network | |
Ye et al. | Depth super-resolution via deep controllable slicing network | |
Ren et al. | Facial geometric detail recovery via implicit representation | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
Li et al. | Effective data-driven technology for efficient vision-based outdoor industrial systems | |
CN116452715A (zh) | 动态人手渲染方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |