CN117115786A - 一种联合分割跟踪的深度估计模型训练方法及使用方法 - Google Patents

一种联合分割跟踪的深度估计模型训练方法及使用方法 Download PDF

Info

Publication number
CN117115786A
CN117115786A CN202311368361.7A CN202311368361A CN117115786A CN 117115786 A CN117115786 A CN 117115786A CN 202311368361 A CN202311368361 A CN 202311368361A CN 117115786 A CN117115786 A CN 117115786A
Authority
CN
China
Prior art keywords
target
video frame
frame image
feature
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311368361.7A
Other languages
English (en)
Other versions
CN117115786B (zh
Inventor
夏桂华
张雯
吕盛荣
陈光坤
孙喆轩
张佳敏
刘康
梅孔浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Harbin Engineering University Innovation Development Center
Harbin Engineering University
Original Assignee
Qingdao Harbin Engineering University Innovation Development Center
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Harbin Engineering University Innovation Development Center, Harbin Engineering University filed Critical Qingdao Harbin Engineering University Innovation Development Center
Priority to CN202311368361.7A priority Critical patent/CN117115786B/zh
Publication of CN117115786A publication Critical patent/CN117115786A/zh
Application granted granted Critical
Publication of CN117115786B publication Critical patent/CN117115786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,具体而言,涉及一种联合分割跟踪的深度估计模型训练方法及使用方法。一种联合分割跟踪的深度估计模型训练方法,包括:获取连续的视频帧图像;通过目标分割网络和目标跟踪网络,得到视频帧图像的目标分割跟踪结果;将相邻的视频帧图像和各自对应的目标分割跟踪结果输入初始深度估计模型,输出当前视频帧的深度图;将相邻视频帧图像输入位姿估计网络,输出前相对位姿和后相对位姿;根据深度图、前相对位姿和后相对位姿,得到重建目标图像;根据当前视频帧图像和重建目标图像,基于重建损失函数,训练初始深度估计模型,得到训练好的深度估计模型。本发明的技术方案可以有效地提高深度估计模型的深度预测的精度。

Description

一种联合分割跟踪的深度估计模型训练方法及使用方法
技术领域
本发明涉及计算机视觉技术领域,具体而言,涉及一种联合分割跟踪的深度估计模型训练方法及使用方法。
背景技术
随着计算机视觉技术的不断进步,尤其是图像处理和机器学习的发展,人工智能在各个领域中的应用越来越广泛,在智能驾驶、智能视频监控、机器人视觉等领域中的应用越来越广泛。
特别在智能驾驶领域,通过对实时获取的视频中的目标物进行深度预测,得到目标间的距离信息,从而根据距离信息进行危险预测,提高驾驶的安全性,但是,通过深度估计模型进行深度预测时,大多只能对视频中当前视频帧图像中的目标进行测距,无法根据连续的视频帧对目标进行检测和跟踪,因此导致通过深度估计模型得到的深度预测与实际的深度值存在偏差。
发明内容
本发明解决的问题如何改善深度估计模型深度预测的精度。
为解决上述问题,本发明提供一种联合分割跟踪的深度估计模型训练方法及使用方法。
第一方面,本发明提供了一种联合分割跟踪的深度估计模型训练方法,包括:
获取连续的视频帧图像;
将所述视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;
将当前所述视频帧图像和对应的所述目标分割跟踪结果以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图;
将当前所述视频帧图像和相邻的前一所述视频帧图像输入位姿估计网络,输出前相对位姿,将当前所述视频帧图像和相邻的后一所述视频帧图像输入所述位姿估计网络,输出后相对位姿;
根据所述深度图、所述前相对位姿,将相邻的前一所述视频帧图像反映射到当前所述视频帧图像,得到前映射视频帧图像,根据所述深度图、所述后相对位姿,将相邻的后一所述视频帧图像反映射到当前所述视频帧图像,得到后映射视频帧图像;
根据所述前映射视频帧图像和后映射视频帧图像进行融合,得到重建目标图像;
根据当前所述视频帧图像和所述重建目标图像,基于重建损失函数,训练所述初始深度估计模型,得到训练好的深度估计模型。
可选地,所述将所述视频帧图像输入目标分割网络,得到目标分割特征,包括:
将所述视频帧图像进行特征提取和融合,得到融合特征;
根据所述融合特征,提取语义信息和目标信息;
根据所述语义信息和所述目标信息,得到所述目标分割特征。
可选地所述将所述视频帧图像进行特征提取和融合,得到融合特征,包括:
将所述视频帧图像进行特征提取,得到视频帧图像特征;
根据所述视频帧图像特征,通过预设横向卷积核得到横向特征向量,通过预设纵向卷积核得到纵向特征向量;
将所述横向特征向量和所述纵向特征向量进行拼接,得到合并特征向量;
将所述合并特征向量转换为二维向量,得到二维特征向量;
将所述二维特征向量转置,得到转置二维特征向量;
将所述转置二维特征向量拆分为多个一维向量,并将全部所述一维向量打乱重新进行拼接,得到一维特征向量;
通过所述一维特征向量对所述视频帧图像特征进行特征增强,得到增强视频帧图像特征;
对所述增强视频帧图像特征进行多尺度特征融合,得到所述融合特征。
可选地,所述将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果,包括:
根据当前所述视频帧的所述目标分割特征提取前景目标边界、前景目标位置;
根据所述前景目标边界确定前景目标二维点云和背景二维点云;
对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量;
对所述背景二维点云进行特征提取,得到背景特征向量;
将所述加权前景目标特征向量、所述背景特征向量和所述前景目标位置进行融合,得到所述视频帧图像的目标分割跟踪特征;
将当前所述视频帧图像的所述目标分割跟踪特征与相邻的前一个所述视频帧图像的所述目标分割特征进行实例关联,得到当前所述视频帧的所述目标分割跟踪结果。
可选地,所述对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量,包括:
根据所述前景目标二维点云,选取预设数量的像素点确定为点云像素点;
根据每个所述点云像素点与预设位置坐标的差值,确定每个所述点云像素点的偏移向量;
根据所述点云像素点得到所述点云像素点的颜色信息;
将所述点云像素点对应的所述偏移向量和所述颜色信息输入跟踪增强模块,输出通道前景目标特征向量;
将所述通道前景目标特征向量输入改进前景加权模块,输出所述加权前景目标特征向量。
可选地,所述将当前所述视频帧图像和对应的所述目标分割跟踪结果,以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图,包括:
将当前所述视频帧图像确定为目标视图,并将对应的所述目标分割跟踪结果确定为目标视图分割跟踪结果,将相邻的前一个所述视频帧图像确定为前视图,并将对应的所述分割跟踪结果确定为前视图分割跟踪结果;
将所述目标视图进行特征提取得到目标视图特征,将所述前视图进行特征提取得到前视图特征;
将所述目标视图特征和所述前视图特征通过聚合,得到聚合视图特征;
根据所述前视图分割跟踪结果提取前目标分割跟踪特征;
根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重;
根据所述目标特征权重对所述聚合视图特征进行加权融合,得到加权聚合视图特征;
将所述加权聚合视图特征与所述目标视图特征进行拼接融合,得到融合特征;
将所述融合特征进行解码,得到所述深度图。
可选地,所述根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重,包括:
根据所述前目标分割跟踪特征通过光流法,得到所述前目标分割跟踪特征中每个像素点的运动速度和运动方向;
根据全部所述像素点的所述运动速度和所述运动方向,将所述前目标分割跟踪特征映射到所述目标视图中,得到映射目标视图;
根据所述目标分割跟踪结果和所述映射目标视图,确定所述前目标分割跟踪特征在所述目标视图中的位置信息;
根据所述位置信息,通过激活函数,得到所述目标特征权重。
可选地,所述将所述融合特征进行解码,得到所述深度图,包括:
对所述融合特征进行最大池化得到最大池化特征,对所述融合特征进行平均池化得平均池化特征;
根据所述最大池化特征、所述平均池化特征和空间权重关系,得到空间注意力权重;
根据所述空间注意力权重、所述融合特征、前目标分割跟踪特征和加权融合关系,得到加权融合特征;
根据所述加权融合特征进行视差图预测,得到预测视差图;
将所述预测视差图通过分辨率扩充,得到所述深度图。
可选地,所述重建损失函数满足:
其中,L为所述重建损失函数,I为所述视频帧图像,N为所述视频帧图像数量,S1为前一所述视频帧图像索引,为当前视频帧图像和相邻的前一视频帧图像的像素间的解释性掩码值,It(P)为当前所述视频帧图像的像素值,/>为所述重建目标图像的像素值,T为当前所述视频帧图像索引,λS为平滑损失系数,dx2为所述解释性掩码中当前像素点与x轴方向相两个邻的像素点差值的差,dy2为所述解释性掩码中当前所述像素点与y轴方向相两个邻的像素点差值的差,dxdy为所述解释性掩码中当前所述像素点与x轴正方向和y轴正方向的两个相邻像素点差值的差,dydx为所述解释性掩码中当前所述像素点与y轴正方向和x轴正方向的两个相邻像素点差值的差,weight为超参数权重,|dx2|m为所述解释性掩码中全部像素点的dx2的值进行取绝对值再计算平均值运算,|dxdy|m为所述解释性掩码中全部像素点的dxdy的值进行取绝对值再计算平均值运算,|dydx|m为所述解释性掩码中全部像素点的dydx的值进行取绝对值再计算平均值运算,|dy2|m为所述解释性掩码中全部像素点的dy2的值进行取绝对值再计算平均值运算,S2为重建目标图像索引,λe为交叉熵损失系数,n为所述解释性掩码的掩码像素点数量,yi为所述解释性掩码第i个像素点的二元标签值为0或者1,P(yi)为所述解释性掩码第i个像素点的二元标签值为1或者0的概率。
第二方面,一种联合分割跟踪的深度估计模型使用方法,包括:
获取现场连续视频帧图像:
将所述现场连续视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;
将所述视频帧图像和对应的所述分割跟踪结果输入第一方面所述训练方法训练好的深度估计模型,输出深度图。
本发明的联合分割跟踪的深度估计模型训练方法及使用方法的有益效果是:获取视频中的连续视频帧图像,通过分割跟踪网络得到视频帧图像中目标的分割跟踪结果,通过分割跟踪结果实现对视频帧图像中目标的检测和跟踪,通过对目标的检测和跟踪可以更准确地获取目标的时间信息和空间信息,有利于提高深度估计模型对视频帧图像中目标的深度预测的精度。将相邻的两个视频帧图像和各自对应的分割跟踪结果输入初始深度估计模型,输出视频帧图像的深度图,通过带有时间信息和空间信息的跟踪分割结果输入深度估计模型,使得到的深度图具有测距信息的同时还具有目标物的检测和跟踪信息。进一步地,将当前视频帧图像分别和相邻的前后视频帧图像输入位姿估计网络,得到前相对位姿和后相对位姿,并通过深度图和前相对位姿,将前视频帧图像反映射到当前视频帧图像得到前映射视频帧图像,同时,通过深度图和后相对位姿,将后视频帧图像反映射到当前视频帧图像得到后映射视频帧图像,进一步地,通过将前后两个映射视频帧图像融合,得到重建目标图像,通过前后视频帧图像的反映射和融合,使重建视图同时具有相邻两个视频帧的目标物的位置和姿态信息,减少图像中不连续性和跳跃感,增强图像的动态范围,从而提高目标检测和跟踪的准确性。将重建目标图像作为监督信号,根据重建目标图像和当前视频帧图像,基于重建损失函数对初始深度估计模型进行训练,从而得到训练好的深度估计模型。利用相邻帧的分割跟踪结果提供的时间特征提高深度估计模型的特征提取能力,同时利用分割跟踪结果提供的空间信息,提高前景重要特征的权重,降低非重要特征的干扰,改善因背景干扰导致的深度估计模型输出结果不准确的问题,最终通过与周围的目标检测和跟踪结果的相结合,对目标物进行深度估计,进一步提高了深度估计模型的深度估计精度。
附图说明
图1 为本发明实施例的一种联合分割跟踪的深度估计模型训练方法的流程示意图;
图2 为本发明实施例的重建目标图像算法示意图;
图3 为本发明实施例的分割跟踪网络的结构示意图;
图4 为本发明实施例的融合特征提取示意图;
图5 为本发明实施例的分割特征增强提取模块示意图;
图6 为本发明实施例的多尺度融合示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”;术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
如图1所示,为解决上述技术问题,本发明实施例提供了一种联合分割跟踪的深度估计模型训练方法,包括:
步骤S1,获取连续的视频帧图像;
具体地,根据视频数据获取到连续带有时间序列的视频帧图像,该视频数据可以是智能汽车或者智能监控设备等拍摄的视频数据,通过连续视频帧图像可以实现对视频帧图像中各个目标进行检测,跟踪和测距。
步骤S2,将所述视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;
具体地,分割跟踪网络包括目标分割网络和目标跟踪网络,通过分割网络对视频帧图像的目标物进行图像目标分割,提取目标分割特征,再将得到的目标分割特征输入到目标跟踪网络中,最终得到视频帧图像中目标的分割跟踪结果。
步骤S3,将当前所述视频帧图像和对应的所述目标分割跟踪结果以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图;
具体地,将相邻的两个视频帧图像和各自对应的分割跟踪结果输入深度估计模型,深度估计模型根据相邻的视频帧图像和各自对应的分割跟踪结果对当前视频帧图像中的目标进行测距预测,得到当前视频帧图像的深度图,通过与相邻视频帧图像信息和对应分割跟踪结果相结合,使输出的深度图的深度估计更精准。
步骤S4,将当前所述视频帧图像和相邻的前一所述视频帧图像输入位姿估计网络,输出前相对位姿,将当前所述视频帧图像和相邻的后一所述视频帧图像输入所述位姿估计网络,输出后相对位姿;
示例性地,将当前视频帧图像It和相邻的前一个视频帧图像It-1输入位姿估计网络,输出当前视频帧图像与前一视频帧图像的前相对位姿矩阵Tt→t-1,同理,将当前视频帧图像It和相邻的后一个视频帧图像It+1输入位姿估计网络,输出当前视频帧图像与后一视频帧图像的后相对位姿矩阵Tt→t+1
进一步地,位姿估计网络的结构为输入是当前视频帧图像和相邻的视频帧图像,经过7层步长为2的卷积,除最后一层,所有卷积后都加入ReLu进行非线性化,且除1、2层卷积核大小为7、5外,其余卷积核大小为3。然后,通过一个输出通道为6×(N-1)的1×1卷积输出当前视频帧图像与前后两个相邻视频帧图像之间的相对位姿的矩阵,其中N表示输入视频帧图像的总帧数,6表示对应每个相邻视频帧图像的3个欧拉角和3维平移值。最后,经过一层全局平均池化,用于汇总预测所有空间位置信息。在单目视图下,上述的视图合成默认的假设:1)视频中无运动物体,整个场景是静态的;2)当前视频帧图像和相邻的视频帧图像之间不存在目标遮挡与被遮挡关系;3)表面反射为漫反射。如果不满足其中一个假设,就可能破坏梯度,导致训练失败。为了消除上述假设的影响,提高网络学习的鲁棒性,因此加入可解释网络,学习当前视频帧图像与相邻视频帧图像之间每个像素的解释性掩码,以此来降低视图中弱纹理部分的权重。解释性网络采用编码-解码范式,编码部分与位姿估计网络共享前5层卷积,解码部分为反卷积网咯,并且具有多尺度网络,提高网络的预测能力。解释性网络的预测层输出通道大小为(N-1),最后通过sigmoid函数输出不同尺度的解释性预测图。
步骤S5,根据所述深度图、所述前相对位姿,将相邻的前一所述视频帧图像反映射到当前所述视频帧图像,得到前映射视频帧图像,根据所述深度图、所述后相对位姿,将相邻的后一所述视频帧图像反映射到当前所述视频帧图像,得到后映射视频帧图像;
步骤S6,根据所述前映射视频帧图像和后映射视频帧图像进行融合,得到重建目标图像;
示例性地,根据深度图和前相对位姿Tt→t-1,将视频帧图像It-1反映射到当前视频帧图像It上,生成前映射视频帧图像Is-1,根据对应的深度图和相对位姿Tt→t+1,将视频帧It反映射到当前视频帧图像It+1上,生成后映射视频帧图像Is+1
进一步地,通过图像融合算法、深度融合或者加权平均等方法,将前映射视频帧图像Is-1和后映射视频帧图像Is+1进行视图合成,最终得到重建目标图像。
进一步地,反向映射的过程为:对于当前视频帧图像中每个像素点Pt,首先结合预测的深度图和相对位姿矩阵通过投影位置关系计算Pt投影到相邻视频帧图像IS中PS的位置坐标。
进一步地,投影位置关系满足:
其中,Pt为当前视频帧图像中像素点的齐次坐标,PS为Pt在IS中的投影像素点的坐标,K表示相机的内参矩阵,为Pt对应的预测深度值,/>为当前视频帧图像和相邻视频帧图像的相对位姿。
进一步地,如图2所示,利用空间变换网络(Spatial Transformer Networks,STN)中提出的可微双线性采样方法,通过投影几何方式来实现像素映射,即采样相邻视频帧图像中像素点PS位置周围(左上、左下、右上、右下)四个映射像素点,使用投影像素值关系来近似计算重建目标图像中的像素值。
投影像素值关系满足:
其中,重建目标图像中与Pt像素点对应的像素点的像素值,PS i为第i个映射像素点,C为相邻视频帧图像中的映射像素点数量,这里选取PS位置周围(左上、左下、右上、右下)四个像素点,wi为投影像素点的坐标PS和第i个映射像素点PS i之间的空间近似度,且成线性比例,即/>,IS为相邻视频帧图像。
步骤S7,根据当前所述视频帧图像和所述重建目标图像,基于重建损失函数,训练所述初始深度估计模型,得到训练好的深度估计模型。
具体地,将重建目标图像作为监督信号,利用当前视频帧图像和重建目标图像通过光度重建损失函数来训练深度估计模型和位姿估计网络,通过重建损失函数训练来得到更好的深度估计模型和位姿估计网络。
进一步地,整个模型的输入是分割跟踪结果和视频帧图像,输出是预测深度图,相当于通过初始的深度网络和位姿估计网络获得的深度图和相对位姿,从而得到重建目标图像,并与模型输入的当前视频帧图像一起根据自定义的重建损失函数获得一个损失,反过来对深度估计模型和位姿估计网络进行训练优化,从而使深度估计模型可以输出精度更高的预测深度图,并最终利用训练好的深度估计模型获得精准的深度图。
本实施例中,获取视频中的连续视频帧图像,通过分割跟踪网络得到视频帧图像中目标的分割跟踪结果,通过分割跟踪结果实现对视频帧图像中目标的检测和跟踪,通过对目标的检测和跟踪可以更准确地获取目标的时间信息和空间信息,有利于提高深度估计模型对视频帧图像中目标的深度预测的精度。将相邻的两个视频帧图像和各自对应的分割跟踪结果输入初始深度估计模型,输出视频帧图像的深度图,通过带有时间信息和空间信息的跟踪分割结果输入深度估计模型,使得到的深度图具有测距信息的同时还具有目标物的检测和跟踪信息。进一步地,将当前视频帧图像分别和相邻的前后视频帧图像输入位姿估计网络,得到前个相对位姿和后相对位姿,并通过深度图和前相对位姿,将前视频帧图像反映射到当前视频帧图像得到前映射视频帧图像,同时,通过深度图和后相对位姿,将后视频帧图像反映射到当前视频帧图像得到后映射视频帧图像,进一步地,通过将前后两个映射视频帧图像融合,得到重建目标图像,通过前后视频帧图像的反映射和融合,使重建视图同时具有相邻两个视频帧的目标物的位置和姿态信息,减少图像中不连续性和跳跃感,增强图像的动态范围,从而提高目标检测和跟踪的准确性。将重建目标图像作为监督信号,根据重建目标图像和当前视频帧图像,基于重建损失函数对初始深度估计模型进行训练,从而得到训练好的深度估计模型。利用相邻帧的分割跟踪结果提供的时间特征提高深度估计模型的特征提取能力,同时利用分割跟踪结果提供的空间信息,提高前景重要特征的权重,降低非重要特征的干扰,改善因背景干扰导致的深度估计模型输出结果不准确的问题,最终通过与周围的目标检测和跟踪结果的相结合,对目标物进行深度估计,进一步提高了深度估计模型的深度估计精度。
在一个可选的实施例中,所述将所述视频帧图像输入目标分割网络,得到目标分割特征,包括:
将所述视频帧图像进行特征提取和融合,得到融合特征;
根据所述融合特征,提取语义信息和目标信息;
根据所述语义信息和所述目标信息,得到所述目标分割特征。
具体地,如图3所示,通过编码器、解码器和特征增强提取模块,对视频帧图像进行特征提取和融合,得到视频帧图像的融合特征,再通过分割特征处理模块提取语义信息提取和目标信息,将语义信息和目标信息进行融合,得到每个像素点的分割标签,然后根据分割标签生成对应的目标分割特征。
本可选的实施例中,通过将融合特征分别提取语义信息和目标信息,通过提取语义信息和目标信息,可以更全面地理解和分析视频帧图像的内容,从而为视频帧图像处理提供更多的信息和支持,提高目标分割跟踪结果的准确性。
在一个可选的实施例中,所述将所述视频帧图像进行特征提取和融合,得到融合特征,包括:
将所述视频帧图像进行特征提取,得到视频帧图像特征;
根据所述视频帧图像特征,通过预设横向卷积核得到横向特征向量,通过预设纵向卷积核得到纵向特征向量;
将所述横向特征向量和所述纵向特征向量进行拼接,得到合并特征向量;
将所述合并特征向量转换为二维向量,得到二维特征向量;
将所述二维特征向量转置,得到转置二维特征向量;
将所述转置二维特征向量拆分为多个一维向量,并将全部所述一维向量打乱重新进行拼接,得到一维特征向量;
通过所述一维特征向量对所述视频帧图像特征进行特征增强,得到增强视频帧图像特征;
对所述增强视频帧图像特征进行多尺度特征融合,得到所述融合特征。
具体地,如图4所示,多目标跟踪与分割算法(PointTrack)中的图像实例分割算法(SpatialEmbedding)在面对尺度变化大、光照不均等复杂环境时还存在漏检、误检和分割精度低等问题,为了改善由于分割网络特征提取能力较弱导致的在复杂环境中实例分割效果差的问题,一方面在分割特征提取网络的编码器中,提出了分割特征增强提取模块(SFEE-Net)代替SpatialEmbedding编码器主干网络中的残差分解模块(non-bottleneck-1D),从结构上引入了空洞卷积(dilated convolution)、通道分割(channel split)和通道混洗(channel shuffle)操作,实现了分割特征提取时的特征增强,提高图像实例分割在复杂环境下的分割精度;另一方面在编码器与解码器之间引入多尺度特征融合网络,提高分割网络对多尺度目标的分割能力。所提算法对于远小目标、拥挤遮挡、多尺度和黑夜等复杂环境都有一定的适应性,对于多目标跟踪与分割具有一定的鲁棒性。
进一步地,如图5所示,首先将视频帧图像通道平分为两个低维通道,为了不增加残差模块的计算量,本发明采用一组1D卷积来代替2D卷积,将卷积核大小为3×3的2D卷积通过预设的横向卷积核和纵行卷积核进行替换,其中,横向卷积核用卷积核大小为3×1的1D卷积核代替,纵向卷积核用卷积核大小为1×3的1D卷积核代替,此时卷积核参数将由9个变为6个,有效降低参数数量,提高计算速度。为了使两个低维通道卷积分支之间的特征能相互交融学习,对合并后得到合并特征向量,将合并特征向量进行channel shuffle,将不同分组之间的通道数相互拼接,打乱原来的通道顺序,使不同通道之间建立联系,产生信息交互。channel shuffle的具体实现为:首先通过一个矩阵转换函数(Reshape)变换维度,将合并特征向量转化为二维向量;然后对转化的二维向量通过转置函数(Transpose)进行向量转置,最终通过一维压缩函数(Flatten)将转置的二维向量分成N组,再将其拼接起来组成一维特征向量,并通过得到的一维特征向量对所述视频帧图像进行特征增强,得到增强视频帧图像特征。
进一步地,多尺度特征融合,如图6所示,获取编码器第1、5、8层的视频帧图像特征为{C1,C2,C3}分别表示编码过程中保留的视频帧图像的特征图,首先分别通过‘0.5×’采用下采样操作使特征图缩小为原来的0.5倍,然后将C1、C2、C3分别通过‘1×1’进行逐点卷积,C3进行进行逐点卷积得到P3,将P3通过‘2×’表示采用上采样操作使特征图扩大为原来的2倍,再与经过‘1×1’进行逐点卷积的C2拼接融合得到P2,将P2通过‘2×’表示采用上采样操作使特征图扩大为原来的2倍,再与经过‘1×1’进行逐点卷积的C1拼接融合,最终得到融合特征P1,为了使保留的特征取通道数和解码器中即将拼接的特征通道数保持一致,在横向拼接中采用逐点卷积,在不改变特征图大小的情况下改变特征图的通道数,使其达到一致,上采样操作采用了反卷积操作。
本可选的实施例中,通过对视频帧图像进行横向卷积和纵向卷积,并将得到的横向和纵向特征向量进行合并处理得到一维特征向量,通过一维特征向量对视频帧图像进行特征增强,通过特征增强可以为后续的视频帧图像处理和分析提供更好的输入,从而提高目标分割的准确度,最后通过对尺度融合得到融合特征,通过多尺度融合可以提供更全面和细致的视频帧图像信息,有助于提高视频帧图像后续处理的效果,并且可以提高目标检测和识别任务的准确度。通过不同尺度的特征可以捕捉到目标在不同大小和比例下的目标特征,从而得到具有全面性和稳定性的特征,从而提高目标检测和识别的准确度和稳定性。
在一个可选的实施例中,所述将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果,包括:
根据当前所述视频帧的所述目标分割特征提取前景目标边界、前景目标位置;
根据所述前景目标边界确定前景目标二维点云和背景二维点云;
对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量;
对所述背景二维点云进行特征提取,得到背景特征向量;
将所述加权前景目标特征向量、所述背景特征向量和所述前景目标位置进行融合,得到所述视频帧图像的目标分割跟踪特征;
将当前所述视频帧图像的所述目标分割跟踪特征与相邻的前一个所述视频帧图像的所述目标分割特征进行实例关联,得到当前所述视频帧的所述目标分割跟踪结果。
具体地,跟踪特征增强是指在前景跟踪特征提取网络中加入通道注意力网络,与原有的跟踪特征提取网络共同组成跟踪特征增强模块,通过通道交互和给通道分配权重尽可能的提高目标特征图的准确性,此外,对原有的前景特征加权模块进行改进,消除通道权重均分,保留跟踪特征增强模块中的通道权重。
进一步地,根据经过改进后的视频帧图像的目标分割网络得到的每个前景目标的实例掩码,计算每个前景目标的扩张边界框和前景目标的前景目标位置,将扩张边界框内的前景像素点生成无序的前景二维点云,进而根据剩下的背景像素点生成无序的背景二维点云,通过对前景二维点云进行特征提取和权重加强得到加权前景目标特征向量,将带有通道权重的特征输入到改进前景加权模块对前景目标像素进行空间加权,降低干扰像素的影响,生成带有通道权重和空间权重的特征向量;最后,拼接加权前景目标特征向量、背景特征向量和前景目标位置信息产生最终的目标分割跟踪特征,最后将相邻视频帧图像进行实例关联得到目标分割跟踪结果。
本可选的实施例中,通过对前景目标和背景目标的二维点云进行特征提取,可以从二维点云数据中提取出丰富的几何和拓扑信息,并将得到的加权前景目标特征向量、背景特征向量和前景目标位置进行融合的到目标分割跟踪特征,进而使通过该目标分割跟踪特征得到的目标分割跟踪结果更加准确,进一步提高根据该目标分割跟踪结果得到的深度图的精度。
在一个可选的实施例中,所述对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量,包括:
根据所述前景目标二维点云,选取预设数量的像素点确定为点云像素点;
根据每个所述点云像素点与预设位置坐标的差值,确定每个所述点云像素点的偏移向量;
根据所述点云像素点得到所述点云像素点的颜色信息;
将所述点云像素点对应的所述偏移向量和所述颜色信息输入跟踪增强模块,输出通道前景目标特征向量;
将所述通道前景目标特征向量输入改进前景加权模块,输出所述加权前景目标特征向量。
具体地,在前景目标的二维点云中采样1000个像素点作为点云像素点,设定该点云像素点的中心像素点坐标作为预设位置坐标,点云像素点与中心像素点坐标的差值,确定点云像素点的偏移向量,例如点云像素点的坐标为(5,2),预设位置坐标为(8,7),则该点云像素点的偏移向量为(8,7)-(5,2)=(3,5)。
进一步地,根据云像素点的像素获取该确定每个所述点云像素点的偏移向量点云像素点的颜色信息,并将偏移向量和颜色信息输入到跟踪特征增强模块,进行通道交互学习和通道权重计算,生成通道前景目标特征向量,其中,跟踪增强模块通过学习不同通道之间的相互关系来增强图像特征,在传统的图像处理中,通常是独立地处理每个通道的像素值,而通道交互学习则通过考虑不同通道之间的相关性和依赖关系,来提取更丰富和有用的特征,并且,通过自注意力机制根据不同通道上的特征之间的关系来计算权重。
进一步地,将通道前景目标特征向量输入改进前景加权模块,最终生成带有通道权重的加权前景目标特征向量,其中,该改进前景加权模块用于进行空间权重加权,通过卷积网络进行卷积运算,得到特征图像中的每个空间位置对应的权重,并根据每个空间位置对应的权重对特征图像进行空间加权。
本可选的实施例中,将带有通道权重的特征输入到改进前景加权模块对前景像素进行空间加权,降低干扰像素的影响,通过偏移向量和颜色信息可以提供丰富的图像特征,并且可以提高图像处理算法的稳定性和鲁棒性。
在一个可选的实施例中,所述将当前所述视频帧图像和对应的所述目标分割跟踪结果以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图,包括:
将当前所述视频帧图像确定为目标视图,并将对应的所述目标分割跟踪结果确定为目标视图分割跟踪结果,将相邻的前一个所述视频帧图像确定为前视图,并将对应的所述分割跟踪结果确定为前视图分割跟踪结果;
将所述目标视图进行特征提取得到目标视图特征,将所述前视图进行特征提取得到前视图特征;
将所述目标视图特征和所述前视图特征通过聚合,得到聚合视图特征;
根据所述前视图分割跟踪结果提取前目标分割跟踪特征;
根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重;
根据所述目标特征权重对所述聚合视图特征进行加权融合,得到加权聚合视图特征;
将所述加权聚合视图特征与所述目标视图特征进行拼接融合,得到融合特征;
将所述融合特征进行解码,得到所述深度图。
具体地,将目标分割跟踪结果通过时间注意力模块和空间注意力模块融入到深度估计模型中,从而提高深度估计模型的特征提取能力,达到改善深度估计精度的目的。其中,加入时间注意力模块和空间注意力模块的深度网络采用的是一种编码-解码结构,并且设有跳过连接和多尺度特征融合网络,编码器部分全部由卷积网络组成,除了前4层卷积核大小分别为7、7、5、5,之后所有层的卷积核大小都为3,并且每个卷积之后都紧跟着激活函数ReLu来实现网络的非线性,提高网络特征提取的鲁棒性。在编码器对输入图像完成编码之后。为了实现时间信息的使用,提出时间注意力模块来结合相邻视频帧图像的编码特征和对应相邻视频帧图像和当前视频帧图像的分割跟踪结果来增强网络的特征提取能力。解码器则采用上采样、空间注意力网络和卷积交替使用的网络结构,其中卷积层和编码器一样在卷积后紧跟激活函数ReLu,且卷积核大小为3。上采样层采用反卷积加激活函数ReLu的结构,采用反卷积学习网络参数,使扩展视频帧图像特征可以保留更加准确的特征,最终获得跟输入视频帧图像分辨率一样大的特征图,而激活函数ReLu可以增加网络的非线性,且提高网络的稀疏表达能力。空间注意力网络结合了当前视频帧图像特征和分割掩码来增加前景目标特征的权重,提高网络对前景目标鲜明特征的注意力,从而提高最终特征图的准确度。
具体地,时间注意力模块插入在编码器和解码器之间,其结构可以分为前后两个部分,其中,前半部分具有特征聚合分支和光流分支,首先通过将目标视图进行特征提取得到目标视图特征,将前视图进行特征提取得到前视图特征,特征聚合分支通过特征聚合关系、聚合目标视图特征和前视图特征,形成聚合视图特征,并根据前目标分割跟踪特征、目标视图和目标视图分割跟踪结果,得到目标特征权重,时间注意力模块后半部分则首先通过目标特征权重和聚合视图特征获得加权聚合视图特征,然后与目标视图特征进行融合拼接获得带有时间特征的融合特征;最后将其输入到解码器进行后续的特征学习,得到深度图。
进一步地:特征聚合关系满足:
其中,F为聚合视图特征,Ft T为目标视图特征,FS为前视图特征,softmax为预测前视图中各个像素点和目标视图中的各个像素点的相似度,·为矩阵乘法,T为矩阵转置。以此来融合两个特征图,降低相似度低的像素权重,提高相邻两帧之间的时间一致性。
本可选的实施例中,分割跟踪结果通过时间注意力模块和空间注意力模块融入到深度网络中,通过相邻视频帧图像的特征进行聚合,并对其进行加权处理,最后将加权后聚合视图特征与目标视图特征进行拼接融合得到融合特征,通过对特征的聚合、加权和拼接,提高了深度估计模型的特征提取能力,最总达到改善深度估计精度的目的。
在一个可选的实施例中,所述根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重,包括:
根据所述前目标分割跟踪特征通过光流法,得到所述前目标分割跟踪特征中每个像素点的运动速度和运动方向;
根据全部所述像素点的所述运动速度和所述运动方向,将所述前目标分割跟踪特征映射到所述目标视图中,得到映射目标视图;
根据所述目标分割跟踪结果和所述映射目标视图,确定所述前目标分割跟踪特征在所述目标视图中的位置信息;
根据所述位置信息,通过激活函数,得到所述目标特征权重。
具体地,光流分支首先利用源视图的跟踪结果和分割结果提取前景目标特征图,然后通过比较目标视图和前视图中的像素点的灰度值差异,来计算像素点的运动向量,即像素点在图像上的位移。根据位移的大小和方向,可以得到前景目标特征点的速度大小和方向。
进一步地,根据前景目标特征点的速度大小和方向将提取的前视图特征映射到目标视图中,最后利用目标视图的跟踪结果找到与源视图中对应的目标,利用分割结果提取前视图中与目标视图中对应目标的像素位置,通过sigmoid函数计算对应目标特征权重。
本可选的实施例中,通过光流法估计连续视频帧图像中的像素运动,从而可以将一个前视图中的像素位置映射到另一个目标视图中的对应位置,可以准确获取视频帧图像中目标的动态信息,从而提高深度估计模型的深度估计精度。
在一个可选的实施例中,所述将所述融合特征进行解码,得到所述深度图,包括:
对所述融合特征进行最大池化得到最大池化特征,对所述融合特征进行平均池化得平均池化特征;
根据所述最大池化特征、所述平均池化特征和空间权重关系,得到空间注意力权重;
根据所述空间注意力权重、所述融合特征、前目标分割跟踪特征和加权融合关系,得到加权融合特征;
根据所述加权融合特征进行视差图预测,得到预测视差图;
将所述预测视差图通过分辨率扩充,得到所述深度图。
具体地,将融合特征分别进行最大池化、平均池化操作获得最大池化特征和平均池化特征,最大池化用于提取特征图中特征更加鲜明的特征值,平均池化用于保留特征图的局部纹理信息,再将两个特征图进行拼接通过标准卷积和sigmoid函数来计算得到全局空间注意力权重。
进一步地,空间注意力权重满足:
其中,MS(F)为空间注意力权重,cov3×3表示卷积核大小为3×3的卷积,σ为激活函数(sigmoid),“;”为矩阵拼接。
进一步地,由于主要是提高前景目标特征的权重,所以在此处通过分割掩码将周围特征进行屏蔽,即将掩码图(Mask)、空间注意力权重和融合特征进行矩阵乘,再与前目标分割跟踪特征进行拼接来完成前景目标特征加权,得到加权融合特征,有效提高前景目标重要特征的权重,最后,将加权融合特征进行一次卷积和ReLu激活,输出最终的加权融合特征。
进一步地,加权融合特征关系满足:
其中,Mw(F)为加权融合特征,F为融合特征,MS(F)为空间注意力权重,Mask为分割掩码,‘+’为特征图拼接,‘’为矩阵乘法。
进一步地,在卷积过程之后对4个不同分辨率大小的加权融合特征进行视差图预测,为了保持预测视差图中预测深度始终保持为正的合理范围之内,对视差图的预测加入了约束条件,对视差值进行了限定。
示例性地,视差值关系满足:
其中,disp为视差值,深度值则为视差值的倒数,即1/disp,αβ为超参数,设置为10和0.01,sigmoid为激活函数,可以等幅度压缩数据到[0,1]范围之内。
进一步地,预测视差图采用双线性插值进行上采样来扩充分辨率,并拼接到下一层的上采样特征图上,重复3次后,最终输出与输入图像分辨率相同的预测深度图。
在一个可选的实施例中,所述重建损失函数满足:
其中,L为所述重建损失函数,I为所述视频帧图像,N为所述视频帧图像数量,S1为前一所述视频帧图像索引,为当前视频帧图像和相邻的前一视频帧图像的像素间的解释性掩码值,It(P)为当前所述视频帧图像的像素值,/>为所述重建目标图像的像素值,T为当前所述视频帧图像索引,λS为平滑损失系数,dx2为所述解释性掩码中当前像素点与x轴方向相两个邻的像素点差值的差,dy2为所述解释性掩码中当前所述像素点与y轴方向相两个邻的像素点差值的差,dxdy为所述解释性掩码中当前所述像素点与x轴正方向和y轴正方向的两个相邻像素点差值的差,dydx为所述解释性掩码中当前所述像素点与y轴正方向和x轴正方向的两个相邻像素点差值的差,weight为超参数权重,|dx2|m为所述解释性掩码中全部像素点的dx2的值进行取绝对值再计算平均值运算,|dxdy|m为所述解释性掩码中全部像素点的dxdy的值进行取绝对值再计算平均值运算,|dydx|m为所述解释性掩码中全部像素点的dydx的值进行取绝对值再计算平均值运算,|dy2|m为所述解释性掩码中全部像素点的dy2的值进行取绝对值再计算平均值运算,S2为重建目标图像索引,λe为交叉熵损失系数,n为所述解释性掩码的掩码像素点数量,yi为所述解释性掩码第i个像素点的二元标签值为0或者1,P(yi)为所述解释性掩码第i个像素点的二元标签值为1或者0的概率。
示例性地,解释性掩码值是通过解释性网络得到的,解释性网络采用编码-解码的结构,编码部分与位姿估计网络共享前5层卷积,解码部分为反卷积网络,最后通过sigmoid函数输出解释性预测图,解释性网络的输入与位姿估计网络的输入一致,均为当前视频帧图像和相邻的视频帧图像,每个像素指的是对原始的目标视图以及相邻目标视图进行预测的像素解释性掩码值。
本可选的实施例中,通过重建损失函数衡量深度估计模型的预测准确性,并对深度估计模型进行优化和训练,引导模型学习,并处理不平衡数据,提高深度估计模型输出结果的精度。
本发明实施例提供的一种联合分割跟踪的深度估计模型使用方法,包括:
获取现场连续视频帧图像:
将所述现场连续视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;
将所述视频帧图像和对应的所述分割跟踪结果输入上述训练方法训练好的深度估计模型,输出深度图。
具体地,如图3所示,将连续视频帧图像通过分割特征提取和分割特征处理,得到目标分割特征,其中,分割特征提取包括对视频帧图像进行特征编码和特征解码,分割特征处理包括对特征解码后的数据进行语义信息提取和目标信息提取。进一步将得到的目标分割特征输入目标跟踪网络,首先进行跟踪数据处理,通过计算得到目标位置和周围边界框,根据周围边界框进行点云提取,对点云提取的数据进行跟踪特征提取,其中包括前景特征提取、前景特征加权、背景特征提取和背景特征加权,最后将前面得到的位置信息和经过加权的前景特征和背景特征特征进行特征融合,再通过多层感知机进行处理,从而的到目标分割跟踪特征,并将该特征和视频帧图像中的具体物体进行实例关联,建立该特征和具体实物之间的关系。
本发明实施例中的一种联合分割跟踪的深度估计模型使用方法具有上述联合分割跟踪的深度估计模型训练方法法相近似的技术效果,在此不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (10)

1.一种联合分割跟踪的深度估计模型训练方法,其特征在于,包括:
获取连续的视频帧图像;
将所述视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;
将当前所述视频帧图像和对应的所述目标分割跟踪结果以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图;
将当前所述视频帧图像和相邻的前一所述视频帧图像输入位姿估计网络,输出前相对位姿,将当前所述视频帧图像和相邻的后一所述视频帧图像输入所述位姿估计网络,输出后相对位姿;
根据所述深度图、所述前相对位姿,将相邻的前一所述视频帧图像反映射到当前所述视频帧图像,得到前映射视频帧图像,根据所述深度图、所述后相对位姿,将相邻的后一所述视频帧图像反映射到当前所述视频帧图像,得到后映射视频帧图像;
根据所述前映射视频帧图像和后映射视频帧图像进行融合,得到重建目标图像;
根据当前所述视频帧图像和所述重建目标图像,基于重建损失函数,训练所述初始深度估计模型,得到训练好的深度估计模型。
2.根据权利要求1所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述将所述视频帧图像输入目标分割网络,得到目标分割特征,包括:
将所述视频帧图像进行特征提取和融合,得到融合特征;
根据所述融合特征,提取语义信息和目标信息;
根据所述语义信息和所述目标信息,得到所述目标分割特征。
3.根据权利要求2所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述将所述视频帧图像进行特征提取和融合,得到融合特征,包括:
将所述视频帧图像进行特征提取,得到视频帧图像特征;
根据所述视频帧图像特征,通过预设横向卷积核得到横向特征向量,通过预设纵向卷积核得到纵向特征向量;
将所述横向特征向量和所述纵向特征向量进行拼接,得到合并特征向量;
将所述合并特征向量转换为二维向量,得到二维特征向量;
将所述二维特征向量转置,得到转置二维特征向量;
将所述转置二维特征向量拆分为多个一维向量,并将全部所述一维向量打乱重新进行拼接,得到一维特征向量;
通过所述一维特征向量对所述视频帧图像特征进行特征增强,得到增强视频帧图像特征;
对所述增强视频帧图像特征进行多尺度特征融合,得到所述融合特征。
4.根据权利要求1所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果,包括:
根据当前所述视频帧的所述目标分割特征提取前景目标边界、前景目标位置;
根据所述前景目标边界确定前景目标二维点云和背景二维点云;
对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量;
对所述背景二维点云进行特征提取,得到背景特征向量;
将所述加权前景目标特征向量、所述背景特征向量和所述前景目标位置进行融合,得到所述视频帧图像的目标分割跟踪特征;
将当前所述视频帧图像的所述目标分割跟踪特征与相邻的前一个所述视频帧图像的所述目标分割特征进行实例关联,得到当前所述视频帧的所述目标分割跟踪结果。
5.根据权利要求4所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量,包括:
根据所述前景目标二维点云,选取预设数量的像素点确定为点云像素点;
根据每个所述点云像素点与预设位置坐标的差值,确定每个所述点云像素点的偏移向量;
根据所述点云像素点得到所述点云像素点的颜色信息;
将所述点云像素点对应的所述偏移向量和所述颜色信息输入跟踪增强模块,输出通道前景目标特征向量;
将所述通道前景目标特征向量输入改进前景加权模块,输出所述加权前景目标特征向量。
6.根据权利要求1所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述将当前所述视频帧图像和对应的所述目标分割跟踪结果以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图,包括:
将当前所述视频帧图像确定为目标视图,并将对应的所述目标分割跟踪结果确定为目标视图分割跟踪结果,将相邻的前一个所述视频帧图像确定为前视图,并将对应的所述分割跟踪结果确定为前视图分割跟踪结果;
将所述目标视图进行特征提取得到目标视图特征,将所述前视图进行特征提取得到前视图特征;
将所述目标视图特征和所述前视图特征通过聚合,得到聚合视图特征;
根据所述前视图分割跟踪结果提取前目标分割跟踪特征;
根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重;
根据所述目标特征权重对所述聚合视图特征进行加权融合,得到加权聚合视图特征;
将所述加权聚合视图特征与所述目标视图特征进行拼接融合,得到融合特征;
将所述融合特征进行解码,得到所述深度图。
7.根据权利要求6所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重,包括:
根据所述前目标分割跟踪特征通过光流法,得到所述前目标分割跟踪特征中每个像素点的运动速度和运动方向;
根据全部所述像素点的所述运动速度和所述运动方向,将所述前目标分割跟踪特征映射到所述目标视图中,得到映射目标视图;
根据所述目标分割跟踪结果和所述映射目标视图,确定所述前目标分割跟踪特征在所述目标视图中的位置信息;
根据所述位置信息,通过激活函数,得到所述目标特征权重。
8.根据权利要求6所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述将所述融合特征进行解码,得到所述深度图,包括:
对所述融合特征进行最大池化得到最大池化特征,对所述融合特征进行平均池化得平均池化特征;
根据所述最大池化特征、所述平均池化特征和空间权重关系,得到空间注意力权重;
根据所述空间注意力权重、所述融合特征、前目标分割跟踪特征和加权融合关系,得到加权融合特征;
根据所述加权融合特征进行视差图预测,得到预测视差图;
将所述预测视差图通过分辨率扩充,得到所述深度图。
9.根据权利要求1所述的联合分割跟踪的深度估计模型训练方法,其特征在于,所述重建损失函数满足:
其中,L为所述重建损失函数,I为所述视频帧图像,N为所述视频帧图像数量,S1为前一所述视频帧图像索引,为当前视频帧图像和相邻的前一视频帧图像的像素间的解释性掩码值,It(P)为当前所述视频帧图像的像素值,/>为所述重建目标图像的像素值,T为当前所述视频帧图像索引,λS为平滑损失系数,dx2为所述解释性掩码中当前像素点与x轴方向相两个邻的像素点差值的差,dy2为所述解释性掩码中当前所述像素点与y轴方向相两个邻的像素点差值的差,dxdy为所述解释性掩码中当前所述像素点与x轴正方向和y轴正方向的两个相邻像素点差值的差,dydx为所述解释性掩码中当前所述像素点与y轴正方向和x轴正方向的两个相邻像素点差值的差,weight为超参数权重,|dx2|m为所述解释性掩码中全部像素点的dx2的值进行取绝对值再计算平均值运算,|dxdy|m为所述解释性掩码中全部像素点的dxdy的值进行取绝对值再计算平均值运算,|dydx|m为所述解释性掩码中全部像素点的dydx的值进行取绝对值再计算平均值运算,|dy2|m为所述解释性掩码中全部像素点的dy2的值进行取绝对值再计算平均值运算,S2为重建目标图像索引,λe为交叉熵损失系数,n为所述解释性掩码的掩码像素点数量,yi为所述解释性掩码第i个像素点的二元标签值为0或者1,P(yi)为所述解释性掩码第i个像素点的二元标签值为1或者0的概率。
10.一种联合分割跟踪的深度估计模型使用方法,其特征在于,包括:
获取现场连续视频帧图像:
将所述现场连续视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;
将所述视频帧图像和对应的所述分割跟踪结果输入权利要求1-9任一项所述的模型训练方法训练好的深度估计模型,输出深度图。
CN202311368361.7A 2023-10-23 2023-10-23 一种联合分割跟踪的深度估计模型训练方法及使用方法 Active CN117115786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311368361.7A CN117115786B (zh) 2023-10-23 2023-10-23 一种联合分割跟踪的深度估计模型训练方法及使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311368361.7A CN117115786B (zh) 2023-10-23 2023-10-23 一种联合分割跟踪的深度估计模型训练方法及使用方法

Publications (2)

Publication Number Publication Date
CN117115786A true CN117115786A (zh) 2023-11-24
CN117115786B CN117115786B (zh) 2024-01-26

Family

ID=88795056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311368361.7A Active CN117115786B (zh) 2023-10-23 2023-10-23 一种联合分割跟踪的深度估计模型训练方法及使用方法

Country Status (1)

Country Link
CN (1) CN117115786B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392180A (zh) * 2023-12-12 2024-01-12 山东建筑大学 基于自监督光流学习的交互式视频人物跟踪方法及系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472830A (zh) * 2018-09-28 2019-03-15 中山大学 一种基于无监督学习的单目视觉定位方法
US20190356905A1 (en) * 2018-05-17 2019-11-21 Niantic, Inc. Self-supervised training of a depth estimation system
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置
CN112801074A (zh) * 2021-04-15 2021-05-14 速度时空信息科技股份有限公司 一种基于交通摄像头的深度图估计方法
US20210312650A1 (en) * 2020-12-18 2021-10-07 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
US20210398302A1 (en) * 2020-06-22 2021-12-23 Toyota Research Institute, Inc. Pixel-wise residual pose estimation for monocular depth estimation
CN114022527A (zh) * 2021-10-20 2022-02-08 华中科技大学 基于无监督学习的单目内窥镜深度及位姿估计方法及装置
CN114359361A (zh) * 2021-12-28 2022-04-15 Oppo广东移动通信有限公司 深度估计方法、装置、电子设备和计算机可读存储介质
WO2022100843A1 (en) * 2020-11-13 2022-05-19 Huawei Technologies Co., Ltd. Device and method for improving the determining of a depth map, a relative pose, or a semantic segmentation
CN114549612A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 模型训练和图像处理方法、装置、设备及存储介质
US20220215567A1 (en) * 2019-05-10 2022-07-07 Nippon Telegraph And Telephone Corporation Depth estimation device, depth estimation model learning device, depth estimation method, depth estimation model learning method, and depth estimation program
CN115131404A (zh) * 2022-07-01 2022-09-30 上海人工智能创新中心 基于运动估计深度的单目3d检测方法
CN115511970A (zh) * 2022-11-23 2022-12-23 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) 一种面向自主泊车的视觉定位方法
CN115578704A (zh) * 2022-10-08 2023-01-06 中国电信股份有限公司 深度估计模型训练、深度估计方法、装置、设备及介质
WO2023045724A1 (zh) * 2021-09-27 2023-03-30 荣耀终端有限公司 图像处理方法、电子设备、存储介质及程序产品

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190356905A1 (en) * 2018-05-17 2019-11-21 Niantic, Inc. Self-supervised training of a depth estimation system
CN109472830A (zh) * 2018-09-28 2019-03-15 中山大学 一种基于无监督学习的单目视觉定位方法
US20220215567A1 (en) * 2019-05-10 2022-07-07 Nippon Telegraph And Telephone Corporation Depth estimation device, depth estimation model learning device, depth estimation method, depth estimation model learning method, and depth estimation program
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
US20210398302A1 (en) * 2020-06-22 2021-12-23 Toyota Research Institute, Inc. Pixel-wise residual pose estimation for monocular depth estimation
WO2022100843A1 (en) * 2020-11-13 2022-05-19 Huawei Technologies Co., Ltd. Device and method for improving the determining of a depth map, a relative pose, or a semantic segmentation
US20210312650A1 (en) * 2020-12-18 2021-10-07 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN112801074A (zh) * 2021-04-15 2021-05-14 速度时空信息科技股份有限公司 一种基于交通摄像头的深度图估计方法
WO2023045724A1 (zh) * 2021-09-27 2023-03-30 荣耀终端有限公司 图像处理方法、电子设备、存储介质及程序产品
CN114022527A (zh) * 2021-10-20 2022-02-08 华中科技大学 基于无监督学习的单目内窥镜深度及位姿估计方法及装置
CN114359361A (zh) * 2021-12-28 2022-04-15 Oppo广东移动通信有限公司 深度估计方法、装置、电子设备和计算机可读存储介质
CN114549612A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 模型训练和图像处理方法、装置、设备及存储介质
CN115131404A (zh) * 2022-07-01 2022-09-30 上海人工智能创新中心 基于运动估计深度的单目3d检测方法
CN115578704A (zh) * 2022-10-08 2023-01-06 中国电信股份有限公司 深度估计模型训练、深度估计方法、装置、设备及介质
CN115511970A (zh) * 2022-11-23 2022-12-23 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) 一种面向自主泊车的视觉定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUAN XIAOGANG等: "Monocular depth estimation based on deep learning:A survey", 2020 CHINESE AUTOMATION CONGRESS(CAC) *
丁萌;姜欣言;: "先进驾驶辅助系统中基于单目视觉的场景深度估计方法", 光学学报, no. 17 *
蔡嘉诚 等: "无监督单目深度估计研究综述", 计算机科学 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392180A (zh) * 2023-12-12 2024-01-12 山东建筑大学 基于自监督光流学习的交互式视频人物跟踪方法及系统
CN117392180B (zh) * 2023-12-12 2024-03-26 山东建筑大学 基于自监督光流学习的交互式视频人物跟踪方法及系统

Also Published As

Publication number Publication date
CN117115786B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110443842B (zh) 基于视角融合的深度图预测方法
de Queiroz Mendes et al. On deep learning techniques to boost monocular depth estimation for autonomous navigation
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN111626308B (zh) 一种基于轻量卷积神经网络的实时光流估计方法
CN117115786B (zh) 一种联合分割跟踪的深度估计模型训练方法及使用方法
CN110751649A (zh) 视频质量评估方法、装置、电子设备及存储介质
US20240119697A1 (en) Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes
CN113689539A (zh) 基于隐式光流场的动态场景实时三维重建方法与装置
Grant et al. Deep disentangled representations for volumetric reconstruction
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
Wang et al. Depth estimation of video sequences with perceptual losses
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN113962858A (zh) 一种多视角深度获取方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
KR20230150867A (ko) 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
CN112802202A (zh) 图像处理方法、装置、电子设备及计算机存储介质
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
KR20220085694A (ko) 시퀀스의 압축을 위한 스켈레톤 기반의 동적 포인트 클라우드 추정 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant