CN112509115A - 序列图像动态场景三维时变无约束重建方法及系统 - Google Patents
序列图像动态场景三维时变无约束重建方法及系统 Download PDFInfo
- Publication number
- CN112509115A CN112509115A CN202011344267.4A CN202011344267A CN112509115A CN 112509115 A CN112509115 A CN 112509115A CN 202011344267 A CN202011344267 A CN 202011344267A CN 112509115 A CN112509115 A CN 112509115A
- Authority
- CN
- China
- Prior art keywords
- reconstruction
- dimensional
- dynamic
- varying
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/25—Design optimisation, verification or simulation using particle-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/38—Registration of image sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
- G06T7/45—Analysis of texture based on statistical description of texture using co-occurrence matrix computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
Abstract
本发明属于三维重建技术领域,特别涉及一种序列图像动态场景三维时变无约束重建方法及系统,对序列影像数据进行空间姿态恢复处理,获得带地理空间信息的图像数据;针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。本发明能够仅需要外部输入序列影像数据,无需其他先验信息,即可实现对动态场景三维信息的感知,生成时变重建成果,便于三维时变重建的实际应用,具有较好的应用前景。
Description
技术领域
本发明属于三维重建技术领域,特别涉及一种序列图像动态场景三维时变无约束重建方法及系统。
背景技术
三维重建技术研究不断向更深入的方向发展,三维重建的发展要不断的摆脱光照、场景、物体、摄像机等约束条件的束缚。动态场景三维时变重建是三维重建未来发展的一个重要的方向,但动态场景三维时变重建的理论以及技术方法还很不成熟。现实中完全静态的场景几乎是不存在的,因此研究利用普通的动态视频数据(手机、监控、无人机以及卫星等获取得的任意的动态场景视频数据)构建一种通用型的动态场景三维时变无约束重建方法,具有非常重要的现实意义和很强的科学意义。
发明内容
为此,本发明提供一种序列图像动态场景三维时变无约束重建方法及系统,能够仅需要外部输入序列影像数据,无需其他先验信息,即可实现对动态场景三维信息的感知,生成时变重建成果,便于三维时变重建的实际应用。
按照本发明所提供的设计方案,一种序列图像动态场景三维时变无约束重建方法,包含如下内容:
对序列影像数据进行空间姿态恢复处理,获得带地理空间信息的图像数据;
针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;
采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步的,针对序列影像数据,采用不同的位移矢量组合通过灰度共生矩阵描述影像纹理特征;对灰度共生矩阵依次通过特征提取、自适应误差剔除及稳健平差进行图像数据空间姿态恢复处理。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,特征提取中,依据点特征、线特征及面特征顺序依次进行特征提取匹配;并对所有特征提取匹配结果进行交叉验证,输出融合特征。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,通过设定最小化虚警值,并利用随机抽样一致算法对特征匹配结果进行误差剔除;采用最小二乘法并利用稳健代价函数对数据进行稳健平差处理。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,利用深度学习网络对图像数据进行语义分割,并生成掩码和边界框,得到物体类别和语义信息;寻找影像中动态特征点,将动态特征点与语义信息相融合来查找动态物体,将影像数据场景划分为静态背景和动态目标。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,多视立体匹配的三维重建中,采用颜色与梯度混合匹配,将语义识别中的图像分割信息添加至能量函数中,并利用场景动态目标识别中特征提取匹配的同名像素点作为控制点来强制使动态规划路径经过该像素点,以纠正错误匹配路径;将多条一维路径拟合二维路径来解算能量函数;利用几何一致性将各帧关联,并通过颜色一致性和几何一致性约束对视差估计进行优化。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,动态目标重建中,依据参考图像和源图像共同可见特征选择关键帧进行视差估计;并依据视差一致性检验项、同名像点符合度及根据视差值惩罚像素的惩罚项来设置非动态目标区每个像素的置信度。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,动态目标重建中,设定时间间隔上点的连续三维轨迹,连续三维轨迹的起点和终点,及用于描述三维轨迹每个时空点的速度;依据点的连续三维轨迹及每个时空点的速度来获取两者之间的微分方程,通过该微分方程获取用于描述起点在任意时刻速度矢量场的前向流,对前向流进行逆变换获取其跨时空对应关系的反向流;利用占用函数向每个三维点赋予占用率值,并通过神经网络对占用函数和速度进行参数化,将动态目标的时变重建转换为对占用网络参数和速度网络参数的求解。
作为本发明序列图像动态场景三维时变无约束重建方法,进一步地,粒子学习中,依据反向流及三维点在时间上的预测占用度,利用四维空间提取的样本数据并通过最小化在时间上的预测占有率和三维点的观测占用率之间的二进制交叉熵误差对占用网络和速度网络进行训练学习;将训练学习后的占用网络和速度网络用于时变重建。
进一步地,基于上述的方法,本发明还提供一种序列图像动态场景三维时变无约束重建系统,包含:数据恢复模块、图像识别模块和图像重建模块,其中,
数据恢复模块,用于对序列影像数据进行空间姿态恢复处理,获得带地理信息的图像数据;
图像识别模块,用于针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;
图像重建模块,用于采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。
本发明的有益效果:
本发明动态场景三维时变重建,通过多约束控制下的静态背景实现快速高质量重建,避免时空重建过程中静态场景的反复重建,减少整体重建的计算量;通过采用多视立体匹配来重建静态背景,能够为动态目标的重建提供深度相容性约束,基于粒子动力学能够实现动态场景时变的快速完整重建,具有较好的应用前景。
附图说明:
图1为实施例中三维时变无约束重建方法流程示意;
图2为实施例中重建算法实现流程示意;
图3为实施例中灰度共生矩阵示意;
图4为实施例中动态场景内容驱动下的影像特征解析示意;
图5为实施例中多约束控制下的静态背景快速高质量重建示意;
图6为实施例中速度网络后向流示意;
图7为实施例中速度网络前向流示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,参见图1所示,提供一种序列图像动态场景三维时变无约束重建方法,参见图1所示,包含如下内容:
S101、对序列影像数据进行空间姿态恢复处理,获取带地理信息的图像数据;
S102、针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;
S103、采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。
通过多约束控制下的静态背景实现快速高质量重建,避免时空重建过程中静态场景的反复重建,减少整体重建的计算量;通过采用多视立体匹配来重建静态背景,能够为动态目标的重建提供深度相容性约束,基于粒子动力学能够实现动态场景时变的快速完整重建,具有较好的应用前景。
参见图2所示,针对复杂动态场景时空相容相机位姿稳健恢复,对输入的序列影像数据通过影像特征解析、自适应误差剔除以及稳健平差等处理步骤,实现影像精确外方位元素的获取。预处理过程中,采用Mask-RCNN的对图像语义进行识别,得到物体类别、置信度、包围框的位置及大小以及物体的掩膜位置向量,然后再采用光流分析的方法对场景中的动态目标进行识别。多约束控制下的静态背景快速高质量重建时,采用多视立体匹配的方法静态背景先进行三维重建,这样有两个显著的好处:其一,避免时空重建过程中静态场景的反复重建,减少了整体重建的计算量。其二,采用多视立体匹配的方法重建的静态背景可为动态目标的重建提供深度相容性约束。基于粒子动力学的动态场景时变重建,可通过引进连续“占用流”(Occupancy Flow)对动态目标进行4D表示,通过关键帧选择、置信度计算、基于向量场大的4D空间隐式表达以及粒子参数训练等实现动态场景的最终完整时变重建。
进一步地,本发明实施例中,利用统计学中的灰度共生矩阵方法对影像的纹理进行比较客观的描述。灰度共生矩阵是常用的影像纹理描述方法,由影像灰度级之间的联合概率密度[P(i,j,d,θ)]L×L所构成,表示方向为θ,间隔为d的灰度共生矩阵,其第i行第j列元素的值为P(i,j,d,θ),角度θ默认选取0°、45°、90°和135°四个方向。如图3所示,在计算灰度共生矩阵时,采用不同的位移矢量进行组合来有效描述影像的纹理特征,该组合避免了遗漏和极端角度的产生,并考虑到了灰度共生矩阵的对称性,结合影像金字塔等手段减少了计算量,在实际应用中具有明显优势。灰度共生矩阵熵的大小与纹理丰富程度呈正相关,即亮度越高代表影像上的纹理信息越丰富。
进一步地,本发明实施例中,依据点特征、线特征及面特征顺序依次进行特征提取匹配;并对所有特征提取匹配结果进行交叉验证,输出融合特征。
在提取完灰度共生矩阵后,利用参数知识库提供点特征提取参数、线特征提取参数和面特征提取参数,依据点特征、线特征和面特征的顺序依次进行特征的提取与匹配,但是在每种类型特征提取匹配结束后都对提取的质量进行分析,若提取质量(数量和分布等)不满足要求,则进行下一种类型的特征提取与匹配,最后对所有特征提取与匹配的结果进行交叉验证,保证输出的融合特征的正确性。
进一步地,本发明实施例中,通过设定最小化虚警值,并利用随机抽样一致算法对特征匹配结果进行误差剔除;采用最小二乘法并利用稳健代价函数对数据进行稳健平差处理。
利用虚警值最小化的RANSAC阈值自适应方法对特征匹配结果进行误差剔除,该方法的公式可表示如下:
其中:M表示待求解的模型参数;k表示假设正确样本的数量;n表示样本总数;Nsample为RANSAC随机采样的数量;Nout为利用Nsample个采样点计算出来的模型的个数;ek(M)为根据参数M计算出的误差中第k小值;α0为随机误差是1个像素的概率,d为误差的维度,在单应变换中取值2。ek(M)dα0表示随机抽样点误差最大为ek(M)的概率,表示k-Nsample个匹配点对的最大误差为ek(M),表示抽样的总次数。
采用最小二乘法(LM)对数据进行平差,考虑到在影像匹配时,多度同名点具有更高的可靠性,因为特征点重叠度越高,说明其稳定性较好,平差时可以给予更高的“信任”。所以需要一种能够顾及特征点重叠度的代价函数,以提高平差的稳健性。实施例中,可采用的是一种结合Cauchy理论和连接点重叠度信息的稳健代价函数,具体表达式如下:
式中,sj表示第j个物方点的像方反投影误差,rj表示其重叠度,μ和σ表示测区中连接点重叠度的均值和方差。对于每一个独立的残差,通过除以均值和方差的和进行归一化,得到的结果作为稳健代价函数的权重。
进一步地,本发明实施例中,利用深度学习网络对图像数据进行语义分割,并生成掩码和边界框,得到物体类别和语义信息;寻找影像中动态特征点,将动态特征点与语义信息相融合来查找动态物体,将影像数据场景划分为静态背景和动态目标。
采用Mask-RCNN深度学习网络对序列图像进行语义分割,并生成掩码和边界框,得到物体的类别和语义信息。采用只跟踪特征点光流场的方式寻找影像中动态特征点,再将特征点与语义信息互相融合实现影像动态物体的查找,将场景分为静态背景和动态目标。
进一步地,本发明实施例中,多视立体匹配的三维重建中,采用颜色与梯度混合匹配,将语义识别中的图像分割信息添加至能量函数中,并利用场景动态目标识别中特征提取匹配的同名像素点作为控制点来强制使动态规划路径经过该像素点,以纠正错误匹配路径;将多条一维路径拟合二维路径来解算能量函数;利用几何一致性将各帧关联,并通过颜色一致性和几何一致性约束对视差估计进行优化。
如图5所示,采用颜色与梯度的混合型匹配测度技术提高匹配的区分度,将过度分割信息以柔性的方式添加进能量函数中来改善无特征区域的深度估计并减少分割带来的问题;利用特征匹配阶段的同名像点作为控制点强制使动态规划路径经过该像素,从而对后续错误匹配路径进行纠正;在能量函数的解算模型中多条一维路径近似拟合二维路径的方法实现快速解算的目的。在多帧深度融合阶段,引入几何一致性将各帧关联起来,通过同时施加颜色一致性和几何一致性约束,迭代地对视差估计进行优化,实现深度信息的高质量恢复。精确的视差将通过概率分布函数确定。另外,所有计算过程均可在GPU并行计算的环境下加速完成。
进一步地,本发明实施例中,动态目标重建中,依据参考图像和源图像共同可见特征选择关键帧进行视差估计;并依据视差一致性检验项、同名像点符合度及根据视差值惩罚像素的惩罚项来设置非动态目标区每个像素的置信度。
关键帧选择,如果两帧之间的基线过短(例如在纯相机旋转的情况下),则估计的视差就没有意义。为了避免这种情况,可在选择参考图像Ir和源图像Is时,我们希望两个视图具有明显的重叠,而且应该具有足够大的基线。对于任意一个参考图像帧Ir,采用下面公式从源图像Is中寻找第s帧
s=argjmaxdrjorj
式中drj是参考图像Ir和源图像Ij相机中心位置的L2范数,orj是一个分数值代表两者共同可见的特征,其定义如下:
Vr是在图像Ir中可见的特征,Vj是在图像Ij中可见的特征,舍去orj<σ1或drj<σ2的图像Ij。
置信度计算中,因考虑到所用的数据为随意拍摄的视频数据,也包括具有挑战性的互联网视频片段,这些数据通常具有相机运动模糊、阴影、光线不足和反射等问题,因此输入到动态场景匹配网络中的Dpp可能包括很多噪声,对于非动态目标区的每一个像素p,其置信度定义如下:
C(p)=Clr(p)Cep(p)Cpa(p)
Clr是视差一致性检验项,Cep代表同名像点的极线(核线)符合度,Cpa是惩罚项,用于惩罚对应很小视差值的像素。
采用连续“占用流”(Occupancy Flow)进行4D表示,在时间上学习空间连续向量场,将运动向量分配给时空的每个点。因为空间中的每个点都是赋予了一个占用值(可以理解为概率值)以及一段时间内的连续轨迹,模型产生的对应关系随着时间的流逝,可以快速推断和提供合理的时空动态描述。
4D空间表达方法面向的是非刚性目标的时空估算,动态目标的时空连续形状采用是一种基于占用网络的隐式表达方法,具体如下:
令s:[0,T]→R3是时间间隔[0,T]上一个点的连续3D轨迹,使得s(0)∈R3和s(T)∈R3表示3D轨迹的起点和终点,更进一步让v:R3×[0,T]→R3表示连续速度向量场,其用于描述3D轨迹每一个时空点的速度。
s和v之间的关系见下面的微分方程:
其中t∈[0,T],求解这个微分方程的初始条件是s(0)=p且p∈R3,这样就得到了一个前向流Φ:R3×[0,T]→R3,且下面的公式:
前向流Φ直观地描述了初始点p在任意时刻t的速度矢量场,为了更方便的进行空间信息的传播,将上式转换成如下的形式:
其中τ∈[0,T]表示任意时间点,p是R3中的空间位置,这个方程可以用龙格库塔法进行求解。换个视角,也可以将Φ(p,t)看作是坐标变换,将时间t=0处的坐标系转换为在时间t=τ时的坐标系。在连续力学领域,这些坐标系经常被提及作为“物质坐标系”和“空间坐标系”。
可通过定义反向流Ψ:R3×[0,T]→R3为Φ的逆变换,此逆变换可以通过求解逆微分方程来计算:
对于每个(p,τ)∈R3×[0,T]并设Ψ(p,τ)=r(0),由于隐式捕获了跨时间的对应关系,因此足以代表坐标系中的3D形状在时间t=0时,其他时间点的3D形状可以通过上式传播获得。
为了表示时间t=0时的3D形状,可采用占用函数f:R3→{0,1}进行表达,其向每个3D点赋予占用率值(可理解为概率值),使用神经网络对占用函数f(·)和速度场v(·,·)进行参数化:
fθ:R3→[0,1]
进一步地,本发明实施例中,粒子学习中,依据反向流及三维点在时间上的预测占用度,利用四维空间提取的样本数据并通过最小化在时间上的预测占有率和三维点的观测占用率之间的二进制交叉熵误差对占用网络和速度网络进行训练学习;将训练学习后的占用网络和速度网络用于三维时变重建。
粒子参数学习的目标是学习得到占用网络和速度网络的参数θ和所用的数据是4D占用空间中提取的样本数据,即每个样本代表时空中特定点的占用率。选择t=0作为表示形状的参考坐标系,为了训练用网络和速度网络,必须映射t>0时的每个样本返回到t=0的位置。为了实现这一目标,使用如上所述的反向流Ψ:R3×[0,T]→R3,如图6所示,3D点p在在时间t的预测占用度可由下式给出:
此处β表示从多个序列在多个时间实例τ获取的小批量样本。需要注意模型的训练不需要跨时间的任何对应关系,但是如果可用的其他对应信息,可以使用前向流Φ(p,t)从t=0到时间t=τ来合并,如图7所示,则对应的损失函数是将预测位置与目标位置s(τ)之间的l2距离最小化:
这里s表示3D点轨迹的真实视差值。上面两式的梯度可以使用伴随敏感性方法通过求解微分方程获得。
进一步地,基于上述的方法,本发明实施例还提供一种序列图像动态场景三维时变无约束重建系统,其特征在于,包含:数据恢复模块、图像识别模块和图像重建模块,其中,
数据恢复模块,用于对序列影像数据进行空间姿态恢复处理,获得带地理信息的图像数据;
图像识别模块,用于针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;
图像重建模块,用于采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法或系统,本发明实施例还提供一种网络设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统或执行上述的方法。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种序列图像动态场景三维时变无约束重建方法,其特征在于,包含如下内容:
对序列影像数据进行空间姿态恢复处理,获得带地理空间信息的图像数据;
针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;
采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。
2.根据权利要求1所述的序列图像动态场景三维时变无约束重建方法,其特征在于,针对序列影像数据,采用不同的位移矢量组合通过灰度共生矩阵描述影像纹理特征;对灰度共生矩阵依次通过特征提取、自适应误差剔除及稳健平差进行图像数据空间姿态恢复处理。
3.根据权利要求2所述的序列图像动态场景三维时变无约束重建方法,其特征在于,特征提取中,依据点特征、线特征及面特征顺序依次进行特征提取匹配;并对所有特征提取匹配结果进行交叉验证,输出融合特征。
4.根据权利要求3所述的序列图像动态场景三维时变无约束重建方法,其特征在于,通过设定最小化虚警值,并利用随机抽样一致算法对特征匹配结果进行误差剔除;采用最小二乘法并利用稳健代价函数对数据进行稳健平差处理。
5.根据权利要求1所述的序列图像动态场景三维时变无约束重建方法,其特征在于,利用深度学习网络对图像数据进行语义分割,并生成掩码和边界框,得到物体类别和语义信息;寻找影像中动态特征点,将动态特征点与语义信息相融合来查找动态物体,将影像数据场景划分为静态背景和动态目标。
6.根据权利要求1所述的序列图像动态场景三维时变无约束重建方法,其特征在于,多视立体匹配的三维重建中,采用颜色与梯度混合匹配,将语义识别中的图像分割信息添加至能量函数中,并利用场景动态目标识别中特征提取匹配的同名像素点作为控制点来强制使动态规划路径经过该像素点,以纠正错误匹配路径;将多条一维路径拟合二维路径来解算能量函数;利用几何一致性将各帧关联,并通过颜色一致性和几何一致性约束对视差估计进行优化。
7.根据权利要求1所述的序列图像动态场景三维时变无约束重建方法,其特征在于,动态目标重建中,依据参考图像和源图像共同可见特征选择关键帧进行视差估计;并依据视差一致性检验项、同名像点符合度及根据视差值惩罚像素的惩罚项来设置非动态目标区每个像素的置信度。
8.根据权利要求1或7所述的序列图像动态场景三维时变无约束重建方法,其特征在于,动态目标重建中,设定时间间隔上点的连续三维轨迹,连续三维轨迹的起点和终点,及用于描述三维轨迹每个时空点的速度;依据点的连续三维轨迹及每个时空点的速度来获取两者之间的微分方程,通过该微分方程获取用于描述起点在任意时刻速度矢量场的前向流,对前向流进行逆变换获取其跨时空对应关系的反向流;利用占用函数向每个三维点赋予占用率值,并通过神经网络对占用函数和速度进行参数化,将动态目标的时变重建转换为对占用网络参数和速度网络参数的求解。
9.根据权利要求8所述的序列图像动态场景三维时变无约束重建方法,其特征在于,粒子学习中,依据反向流及三维点在时间上的预测占用度,利用四维空间提取的样本数据并通过最小化在时间上的预测占有率和三维点的观测占用率之间的二进制交叉熵误差对占用网络和速度网络进行训练学习;将训练学习后的占用网络和速度网络用于时变重建。
10.一种序列图像动态场景三维时变无约束重建系统,其特征在于,包含:数据恢复模块、图像识别模块和图像重建模块,其中,
数据恢复模块,用于对序列影像数据进行空间姿态恢复处理,获得带地理信息的图像数据;
图像识别模块,用于针对图像数据,通过语义识别和场景动态目标识别,将影像数据场景划分为静态背景和动态目标;
图像重建模块,用于采用多视立体匹配方法进行静态背景三维重建,为动态目标重建提供相容性约束;并通过粒子学习对动态目标完成时变重建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344267.4A CN112509115B (zh) | 2020-11-26 | 2020-11-26 | 序列图像动态场景三维时变无约束重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344267.4A CN112509115B (zh) | 2020-11-26 | 2020-11-26 | 序列图像动态场景三维时变无约束重建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509115A true CN112509115A (zh) | 2021-03-16 |
CN112509115B CN112509115B (zh) | 2021-09-07 |
Family
ID=74966711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011344267.4A Active CN112509115B (zh) | 2020-11-26 | 2020-11-26 | 序列图像动态场景三维时变无约束重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509115B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256574A (zh) * | 2021-05-13 | 2021-08-13 | 中国科学院长春光学精密机械与物理研究所 | 一种三维目标检测方法 |
CN113689540A (zh) * | 2021-07-22 | 2021-11-23 | 清华大学 | 基于rgb视频的物体重建方法和装置 |
CN113781650A (zh) * | 2021-09-10 | 2021-12-10 | 南京邮电大学 | 一种基于数据融合的动态物体可视化三维重建方法及系统 |
CN113808253A (zh) * | 2021-08-31 | 2021-12-17 | 武汉理工大学 | 场景三维重建的动态对象处理方法、系统、设备及介质 |
CN116358547A (zh) * | 2022-12-09 | 2023-06-30 | 珠海创智科技有限公司 | 一种基于光流估计获取agv位置的方法 |
CN116433856A (zh) * | 2023-02-14 | 2023-07-14 | 腾晖科技建筑智能(深圳)有限公司 | 一种基于单目相机的塔吊下方场景三维重建方法及系统 |
CN116704472A (zh) * | 2023-05-15 | 2023-09-05 | 小米汽车科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
CN117274506A (zh) * | 2023-11-20 | 2023-12-22 | 华中科技大学同济医学院附属协和医院 | 一种导管下介入目标场景的三维重建方法及系统 |
CN117316396A (zh) * | 2023-09-13 | 2023-12-29 | 四川大学华西医院 | 基于dicom标准的医学影像多序列对比标注方法及系统 |
CN118351249A (zh) * | 2024-06-18 | 2024-07-16 | 厦门指纹科技有限公司 | 基于神经网络的3d效果图智能生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310362A (zh) * | 2019-06-24 | 2019-10-08 | 中国科学院自动化研究所 | 基于深度图及imu的高动态场景三维重建方法、系统 |
CN110555908A (zh) * | 2019-08-28 | 2019-12-10 | 西安电子科技大学 | 基于室内移动目标背景修复的三维重建方法 |
CN111968129A (zh) * | 2020-07-15 | 2020-11-20 | 上海交通大学 | 具有语义感知的即时定位与地图构建系统及方法 |
-
2020
- 2020-11-26 CN CN202011344267.4A patent/CN112509115B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310362A (zh) * | 2019-06-24 | 2019-10-08 | 中国科学院自动化研究所 | 基于深度图及imu的高动态场景三维重建方法、系统 |
CN110555908A (zh) * | 2019-08-28 | 2019-12-10 | 西安电子科技大学 | 基于室内移动目标背景修复的三维重建方法 |
CN111968129A (zh) * | 2020-07-15 | 2020-11-20 | 上海交通大学 | 具有语义感知的即时定位与地图构建系统及方法 |
Non-Patent Citations (7)
Title |
---|
IOAN ANDREI BARSAN: "Robust Dense Mapping for Large-Scale Dynamic Environments", 《2018 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 * |
MICHAEL NIEMEYER等: "Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
吴军等: "融合SIFT 与SGM 的倾斜航空影像密集匹配", 《遥感学报》 * |
宁晓斐: "双目立体视觉中半全局立体匹配算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
房立金等: "基于深度学习的动态场景语义SLAM", 《华中科技大学学报》 * |
章国锋: "视频场景的重建与增强处理", 《中国博士学位论文全文数据库 信息科技辑》 * |
薛武: "无人机影像定位优化技术研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256574B (zh) * | 2021-05-13 | 2022-10-25 | 中国科学院长春光学精密机械与物理研究所 | 一种三维目标检测方法 |
CN113256574A (zh) * | 2021-05-13 | 2021-08-13 | 中国科学院长春光学精密机械与物理研究所 | 一种三维目标检测方法 |
CN113689540A (zh) * | 2021-07-22 | 2021-11-23 | 清华大学 | 基于rgb视频的物体重建方法和装置 |
CN113689540B (zh) * | 2021-07-22 | 2024-04-23 | 清华大学 | 基于rgb视频的物体重建方法和装置 |
CN113808253B (zh) * | 2021-08-31 | 2023-08-15 | 武汉理工大学 | 场景三维重建的动态对象处理方法、系统、设备及介质 |
CN113808253A (zh) * | 2021-08-31 | 2021-12-17 | 武汉理工大学 | 场景三维重建的动态对象处理方法、系统、设备及介质 |
CN113781650B (zh) * | 2021-09-10 | 2023-06-20 | 南京邮电大学 | 一种基于数据融合的动态物体可视化三维重建方法及系统 |
CN113781650A (zh) * | 2021-09-10 | 2021-12-10 | 南京邮电大学 | 一种基于数据融合的动态物体可视化三维重建方法及系统 |
CN116358547A (zh) * | 2022-12-09 | 2023-06-30 | 珠海创智科技有限公司 | 一种基于光流估计获取agv位置的方法 |
CN116358547B (zh) * | 2022-12-09 | 2024-01-30 | 珠海创智科技有限公司 | 一种基于光流估计获取agv位置的方法 |
CN116433856A (zh) * | 2023-02-14 | 2023-07-14 | 腾晖科技建筑智能(深圳)有限公司 | 一种基于单目相机的塔吊下方场景三维重建方法及系统 |
CN116433856B (zh) * | 2023-02-14 | 2023-12-05 | 腾晖科技建筑智能(深圳)有限公司 | 一种基于单目相机的塔吊下方场景三维重建方法及系统 |
CN116704472B (zh) * | 2023-05-15 | 2024-04-02 | 小米汽车科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
CN116704472A (zh) * | 2023-05-15 | 2023-09-05 | 小米汽车科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
CN117316396A (zh) * | 2023-09-13 | 2023-12-29 | 四川大学华西医院 | 基于dicom标准的医学影像多序列对比标注方法及系统 |
CN117274506A (zh) * | 2023-11-20 | 2023-12-22 | 华中科技大学同济医学院附属协和医院 | 一种导管下介入目标场景的三维重建方法及系统 |
CN117274506B (zh) * | 2023-11-20 | 2024-02-02 | 华中科技大学同济医学院附属协和医院 | 一种导管下介入目标场景的三维重建方法及系统 |
CN118351249A (zh) * | 2024-06-18 | 2024-07-16 | 厦门指纹科技有限公司 | 基于神经网络的3d效果图智能生成方法及系统 |
CN118351249B (zh) * | 2024-06-18 | 2024-08-16 | 厦门指纹科技有限公司 | 基于神经网络的3d效果图智能生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112509115B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112509115B (zh) | 序列图像动态场景三维时变无约束重建方法及系统 | |
Behl et al. | Pointflownet: Learning representations for rigid motion estimation from point clouds | |
Huang et al. | Indoor depth completion with boundary consistency and self-attention | |
Karsch et al. | Depth transfer: Depth extraction from video using non-parametric sampling | |
CN107481279B (zh) | 一种单目视频深度图计算方法 | |
CN109716393A (zh) | 用于创建虚拟3d模型的方法和系统 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN113850900B (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
dos Santos Rosa et al. | Sparse-to-continuous: Enhancing monocular depth estimation using occupancy maps | |
WO2021167586A1 (en) | Systems and methods for object detection including pose and size estimation | |
Ramon et al. | Multi-view 3D face reconstruction in the wild using siamese networks | |
Cho et al. | Event-image fusion stereo using cross-modality feature propagation | |
CN115375836A (zh) | 基于多元置信度滤波的点云融合三维重建方法和系统 | |
Yue et al. | Self-supervised monocular depth estimation in dynamic scenes with moving instance loss | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
Zhang et al. | Depth map prediction from a single image with generative adversarial nets | |
CN116934970B (zh) | 一种基于先验知识引导的医学单视图三维重建装置 | |
Shih et al. | Video interpolation and prediction with unsupervised landmarks | |
Liu et al. | AGDF-Net: learning domain generalizable depth features with adaptive guidance fusion | |
Lee et al. | Instance-wise depth and motion learning from monocular videos | |
CN115497029A (zh) | 视频处理方法、装置及计算机可读存储介质 | |
Meng et al. | Un-VDNet: unsupervised network for visual odometry and depth estimation | |
CN114078155A (zh) | 用未标记成对图像训练神经网络以得出对象视角的方法及系统 | |
Premalatha et al. | Adaptive fish school search optimized resnet for multi-view 3D objects reconstruction | |
CN117315152B (zh) | 双目立体成像方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |