CN110490235B - 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 - Google Patents

一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 Download PDF

Info

Publication number
CN110490235B
CN110490235B CN201910666609.5A CN201910666609A CN110490235B CN 110490235 B CN110490235 B CN 110490235B CN 201910666609 A CN201910666609 A CN 201910666609A CN 110490235 B CN110490235 B CN 110490235B
Authority
CN
China
Prior art keywords
mask
viewpoint
data set
image
mask template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910666609.5A
Other languages
English (en)
Other versions
CN110490235A (zh
Inventor
胡瑞敏
李庆楠
王晓晨
滕达
王海滨
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910666609.5A priority Critical patent/CN110490235B/zh
Publication of CN110490235A publication Critical patent/CN110490235A/zh
Application granted granted Critical
Publication of CN110490235B publication Critical patent/CN110490235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,首先生成离线掩膜模板数据集,包括离线完整掩膜模板数据集与离线删节掩膜模板数据集;然后在数据集上训练以视点、掩膜、对象类别、图像删节、二维选框为分支的深度卷积神经网络;根据待预测图像中车辆对象,通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合;最后利用车辆对象视点、三维模型、掩膜存在的透视投影变换规律,设计基于视点与掩膜的置信度加权融合方法,得到最终视点预测结果,恢复车辆三维模型。

Description

一种面向2D图像的车辆对象视点预测与三维模型恢复方法及 装置
技术领域
本发明涉及计算机视觉领域,具体涉及一种面向2D图像的车辆对象视点预测与三维模型恢复方法及装置。
背景技术
车辆对象视点预测与三维模型恢复广泛应用于3D场景理解、自动驾驶等领域,是交通智能化发展的重要途径之一,具有广泛的应用价值。车辆视点、三维模型、掩膜存在的透视投影变换规律等科学问题的研究对实现车辆视点与三维模型的精准预测将起到关键作用,具有一定的科学研究价值。
现有技术中,利用深度学习技术对车辆视点进行估计的方法可以分为两类。第一类方法基于关键点预测,首先预测车辆部件关键点或二维平面上的三维选框角点投影,然后通过PnP等算法预测视点。这一类方法基于车辆图像的局部特征,利用车辆视点与关键点特征存在的空间几何变换规律,预测的视点符合车辆关键点的几何分布特征,具有一定的鲁棒性。第二类基于全局特征预测视点,通过理解全局环境,有助于克服车辆视点预测存在的轴镜像问题,降低车辆对象视点预测的中位误差。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
基于车辆图像局部特征的视点预测方法由于难以区分具有类似特征的关键点,利用PnP等相关算法容易导致预测视点出现轴镜像。基于车辆图像全局特征的视点预测方法,易受到目标车辆受遮挡、图像删节等复杂因素的影响。
由此可知,现有技术中的方法存在视点预测中位误差MedErr高或准确度
Figure BDA0002140330920000011
低的技术问题。
发明内容
有鉴于此,本发明提供了一种面向2D图像的车辆对象视点预测与三维模型恢复方法及装置,用以解决或者至少部分解决现有技术中的方法存在中位误差较高、准确度较低的技术问题。
本发明第一方面提供了一种2D图像的车辆对象视点预测与三维模型恢复方法,包括:
步骤S1:离线掩膜模板数据集生成,包括离线完整掩膜模板数据集与离线删节掩膜模板数据集;
步骤S2:利用深度卷积神经网络预测目标车辆对象的视点、掩膜与是否被图像删节,生成掩膜预测结果、图像删节预测结果、车辆对象视点预测结果和对应的置信度;
步骤S3:通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度卷积神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;
步骤S4:根据目标车辆预测视点的置信度,计算对应的权重值,对基于深度卷积神经网络的视点预测结果与基于掩膜模板匹配的视点进行线性加权,生成最终的视点预测结果,恢复对应三维模型。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:渲染随机视点下ShapeNet公开数据集中的所有M个车辆模型,对于单个车辆模型
Figure BDA0002140330920000021
Figure BDA0002140330920000022
表示与此模型相关的二维掩膜模板集合,其中n表示此三维模型渲染随机视点数量;对于M个车辆模型,
Figure BDA0002140330920000023
表示离线完整掩膜模板数据集;
步骤S1.2:对离线完整掩膜模板数据集
Figure BDA0002140330920000024
中每个车辆对象的图像边界框进行扰动裁剪处理,生成离线删节掩膜模板数据集
Figure BDA0002140330920000025
步骤S1.3:通过合并离线完整掩膜模板数据集
Figure BDA0002140330920000026
与离线删节掩膜模板数据集
Figure BDA0002140330920000027
生成最终的离线掩膜模板数据集
Figure BDA0002140330920000028
在一种实施方式中,步骤S2具体包括,
步骤S2.1:预处理PASCAL 3D+数据集、COCO数据集、IMAGENET数据集,其中,PASCAL3D+数据集包含类别、选框、视点标注;COCO数据集包含类别、选框、掩膜标注;IMAGENET数据集包含类别、选框、视点标注;
步骤S2.2:构建以Mask-RCNN为主干网络,增加图像删节分支网络、视点分支网络的深度卷积神经网络,所述视点分支网络是基于特征金字塔的计算图视点分类网络,由RoIAlign、两层全连接层与输出层组成;所述图像删节分支网络是基于金字塔特征与掩膜特征的计算图网络,由RoIAlign、特征联合层、两层全连接层与输出层组成;针对深度卷积神经网络每一个感兴趣区域,loss为
Figure BDA0002140330920000031
其中,
Figure BDA0002140330920000032
为类别loss,
Figure BDA0002140330920000033
为选框loss,
Figure BDA0002140330920000034
为掩膜loss,
Figure BDA0002140330920000035
为图像删节loss,图像删节分支
Figure BDA0002140330920000036
仅在IoU大于0.8时,计算loss参与反向传播,具有如下形式,
Figure BDA0002140330920000037
其中,λtruncated是图像删节损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure BDA0002140330920000038
为1,否则为0,P表示交叉熵损失函数,Ti *是一维向量,表示图像删节的真值,0表示车辆对象未被图像删节,1表示车辆对象被图像删节,Ti表示图像删节的预测结果;
Figure BDA0002140330920000039
为视点loss,视点分支
Figure BDA00021403309200000310
视点loss具有如下形式,
Figure BDA00021403309200000311
其中,λvp是视点损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure BDA00021403309200000312
为1,否则为0,P表示交叉熵损失函数,Vi *是三维向量,表示视点的真值,其每一维的长度分别表示视点水平角、仰角、旋转角的分割数量,Vi表示视点的预测结果;
步骤S2.3:在PASCAL 3D+数据集、COCO数据集、IMAGENET数据集上轮流训练,训练过程中,无标注的分支不参与反向传播;测试过程中,视点预测结果、置信度分别记为
Figure BDA00021403309200000313
掩膜预测结果记为
Figure BDA00021403309200000314
在一种实施方式中,步骤S3具体包括,
步骤S3.1:对网络掩膜预测结果
Figure BDA00021403309200000315
进行自适应矩形裁剪,在保持掩膜完整的条件下,最小化背景区域面积,得到处理后的掩膜,记为
Figure BDA00021403309200000316
步骤S3.2:依据网络图像删节预测结果Ti,选择离线完整掩膜模板数据集
Figure BDA0002140330920000041
或离线删节掩膜模板数据集
Figure BDA0002140330920000042
作为待匹配离线掩膜模板数据集
Figure BDA0002140330920000043
步骤S3.3:通过计算目标掩膜
Figure BDA0002140330920000044
与待匹配离线掩膜模板数据集
Figure BDA0002140330920000045
中掩膜元素的欧氏距离
Figure BDA0002140330920000046
取前k个最小距离,作为掩膜模板集合{tk}。
在一种实施方式中,步骤3.1的具体实现方式如下,
对网络掩膜预测结果
Figure BDA0002140330920000047
进行非零元素索引,生成掩膜非零元素索引二维矩阵,转置该二维矩阵,矩阵第一列表示掩膜非零元素在
Figure BDA0002140330920000048
中的纵坐标值,矩阵第二列表示掩膜非零元素在
Figure BDA0002140330920000049
中的横坐标值;因此,矩阵第一列最小值与矩阵第二列最小值,构成了裁剪区域左上角角点坐标,矩阵第一列最大值与矩阵第二列最大值,构成了裁剪区域右下角角点坐标;依据裁剪区域左上角角点坐标、右下角角点坐标,对
Figure BDA00021403309200000410
进行裁剪,得到处理后的掩膜,记为
Figure BDA00021403309200000411
在一种实施方式中,步骤S4具体包括,
步骤S4.1:利用目标车辆视点、三维模型、掩膜存在的透视投影变换规律,建立掩膜模板集合{tk}相对应的渲染视点集合{vk}与三维模型集合{sk};
步骤S4.2:通过计算视点几何感知距离,获得基于掩膜模板的最优预测视点vopt
Figure BDA00021403309200000412
Figure BDA00021403309200000413
表示基于深度神经网络预测的旋转矩阵,通过步骤S2.3中利用深度卷积神经网络预测得到的视点
Figure BDA00021403309200000414
水平角、仰角、旋转角变换得到;
Figure BDA00021403309200000415
表示基于离线掩膜模板的旋转矩阵,通过与掩膜模板ti相对应的视点vi水平角、仰角、旋转角变换得到;
步骤S4.3:最终的视点预测结果使用基于深度卷积神经网络的视点预测结果
Figure BDA00021403309200000417
与基于掩膜模板匹配的视点vopt进行线性加权得到,
Figure BDA00021403309200000416
其中,权重计算公式为,
Figure BDA0002140330920000051
Figure BDA0002140330920000052
步骤S4.4:根据最终视点预测结果,利用渲染视点集合{vk}与三维模型集合{sk}的对应关系,获得车辆对象的三维模型。
基于同样的发明构思,本发明第二方面提供了一种面向2D图像的车辆对象视点预测与三维模型恢复装置,包括:
离线掩膜模板数据集生成模块,用于ShapeNet中的所有车辆三维模型,生成离线掩膜模板数据集,包括离线完整掩膜模板数据集与离线删节掩膜模板数据集;
车辆对象视点、图像删节、掩膜预测模块,用于利用深度卷积神经网络预测目标车辆对象的视点、掩膜与是否被图像删节,生成掩膜预测结果、图像删节预测结果、视点预测结果和对应的置信度;掩膜模板匹配模块,用于通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度卷积神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;基于视点、掩膜融合的视点预测与三维模型恢复模块,用于根据目标车辆预测视点的置信度,计算对应的权重值,对基于深度卷积神经网络的视点预测结果与基于掩膜模板匹配的视点进行线性加权,生成最终的视点预测结果,恢复对应三维模型。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,首先利用ShapeNet三维模型数据集渲染生成离线掩膜模板数据集,包括离线完整掩膜模板数据集与离线删节掩膜模板数据集;然后在PASCAL3D+数据集、COCO数据集、IMAGENET数据集上训练以视点、掩膜、对象类别、图像删节、二维选框为分支的深度卷积神经网络;根据待预测图像中车辆对象,通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度卷积神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;最后利用车辆对象视点、三维模型、掩膜存在的透视投影变换规律,设计基于视点与掩膜的置信度加权融合方法,得到最终视点预测结果,恢复车辆三维模型。
相较于仅利用全局特征预测视点或局部特征预测关键点恢复三维模型,本发明引入掩膜信息,利用车辆对象视点、三维模型、掩膜存在的透视投影变换规律,约束视点与三维模型,不仅突破了视点预测中存在的车辆轴镜像瓶颈,而且在车辆对象受遮挡、图像删节等复杂条件下鲁棒,显著降低了面向2D图像车辆视点预测的中位误差,提升了三维模型恢复的准确度,可广泛应用于智能交通、3D场景理解等领域中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中面向2D图像的车辆对象视点预测与三维模型恢复方法的流程图;
图2为本发明实施例中深度卷积神经网络的结构图。
图3为本发明实施例中面向2D图像的车辆对象视点预测与三维模型恢复合成装置的结构框图;
图4为本发明实施例中一种计算机可读存储介质的结构框图;
图5为本发明实施例中计算机设备的结构图。
具体实施方式
本发明的目的在于:利用车辆对象视点、三维模型、掩膜存在的透视投影变换规律,设计基于视点与掩膜的置信度加权融合方法,降低面向2D图像的车辆对象视点预测中位误差,提升三维模型恢复的准确度。
为了达到上述效果,本发明的主要构思如下:
提供一种面向2D图像的车辆对象视点预测与三维模型恢复方法,包括离线掩膜数据集生成,车辆对象视点、掩膜与图像删节预测、掩膜模板匹配以及基于视点、掩膜融合的视点预测与三维模型恢复。
其中,离线掩膜模板数据集包含了ShapeNet车辆三维模型的掩膜信息,包括离线完整掩膜模板数据集和离线删节掩膜模板数据集,离线完整掩膜模板数据集通过渲染任意视点下的三维模型生成,离线删节掩膜模板数据集通过扰动完整掩膜图像边界框裁剪生成;车辆对象视点、掩膜与图像删节预测结果通过深度卷积神经网络预测得到;通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;视点与掩膜的融合,利用车辆视点、三维模型、掩膜存在的透视投影变换规律,设计基于视点与掩膜的置信度加权融合方法,得到最终视点预测结果,恢复车辆三维模型。
相较于仅利用全局特征预测视点或局部特征预测关键点恢复三维模型,本发明引入掩膜信息,利用车辆对象视点、三维模型、掩膜存在的透视投影变换规律,约束视点与三维模型,不仅突破了视点预测中存在的车辆轴镜像瓶颈,而且在车辆对象受遮挡、图像删节等复杂条件下鲁棒,显著降低了面向2D图像车辆视点预测的中位误差,提升了三维模型恢复的准确度,可广泛应用于智能交通、3D场景理解等领域中。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种面向2D图像的车辆对象视点预测与三维模型恢复方法,请参见图1,该方法包括:
首先执行步骤S1:离线掩膜模板数据集生成。
具体来说,现有技术通常采用深度学习技术预测车辆对象的视点,其中,基于PnP算法的局部特征视点预测方法,难以对具有类似特征的车辆部件关键点分类,而基于全局特征的视点预测方法,易受到车辆对象受遮挡、图像删节等复杂因素的影响。因此,仅利用车辆对象全局特征或车辆部件关键点局部特征难以达到理想的预测效果。因此,本发明引入车辆对象掩膜信息,利用车辆视点、三维模型、掩膜存在的透视投影变换规律,对视点与三维模型进行约束,提升算法因目标车辆对象受遮挡、图像删节等复杂因素的鲁棒性,降低视点预测中位误差,提高三维模型恢复的准确度。
车辆对象的掩膜信息通过渲染随机视点下的三维模型获得,即车辆的三维模型作为先验知识,通过透视投影变换得到,进一步地,构建离线车辆掩膜模板数据集,包括离线完整掩膜模板数据集和离线删节掩膜模板数据集。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:渲染随机视点下ShapeNet公开数据集中的所有M个车辆模型,对于单个车辆模型
Figure BDA0002140330920000081
Figure BDA0002140330920000082
表示与此模型相关的二维掩膜模板集合,其中n表示此三维模型渲染随机视点数量;对于M个车辆模型,
Figure BDA0002140330920000083
表示离线完整掩膜模板数据集;
步骤S1.2:对离线完整掩膜模板数据集
Figure BDA0002140330920000084
中每个车辆对象的图像边界框进行扰动裁剪处理,生成离线删节掩膜模板数据集
Figure BDA0002140330920000085
步骤S1.3:通过合并离线完整掩膜模板数据集
Figure BDA0002140330920000086
与离线删节掩膜模板数据集
Figure BDA0002140330920000087
生成最终的离线掩膜模板数据集
Figure BDA0002140330920000088
具体来说,步骤S1.1中,离线掩膜模板数据集可采用现有技术中的方法获得,例如,可采用blender渲染任意视点下的ShapeNet车辆三维模型。
步骤S1.2中,可采用现有技术中的方法对离线掩膜模板数据集中的掩膜对象边界框进行扰动裁剪,例如,RenderForCNN中的render pipeline方法。裁剪掩膜的目的是增加离线掩膜模板数据集的数据泛化性,提高算法在受遮挡、图像删节等复杂场景下的鲁棒性。
特别的,S1.2步骤对离线掩膜模板集合元素边界框进行了扰动剪裁处理,虽然改变了渲染视点位移矩阵,但不影响视点旋转矩阵、三维模型、掩膜存在的透视投影变换规律,即渲染视点水平角、仰角、旋转角与三维模型、掩膜仍存在空间几何上透视投影变换关系。
然后执行步骤S2:利用深度卷积神经网络对目标车辆对象的视点、掩膜与图像删节进行预测,生成掩膜预测结果、图像删节预测结果、视点预测结果和对应的置信度。
需要说明的是,本发明中步骤S1和步骤S2的执行顺序不分先后,可以先执行步骤S1也可以先执行步骤S2。
具体来说,在具有车辆视点、掩膜的数据集上训练深度卷积神经网络,对目标车辆的视点、掩膜与图像删节进行预测。数据集可采用现有的公开数据集,例如,PASCAL 3D+数据集,COCO数据集等。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:预处理PASCAL 3D+数据集、COCO数据集、IMAGENET数据集,其中,PASCAL3D+数据集包含类别、选框、视点标注;COCO数据集包含类别、选框、掩膜标注;IMAGENET数据集包含类别、选框、视点标注;
步骤S2.2:如图2所示,构建以Mask-RCNN为主干网络,增加图像删节分支网络、视点分支网络的深度卷积神经网络,所述视点分支网络是基于特征金字塔的计算图视点分类网络,由RoIAlign、两层全连接层与输出层组成;所述图像删节分支网络是基于金字塔特征与掩膜特征的计算图网络,由RoIAlign、特征联合层、两层全连接层与输出层组成;针对深度卷积神经网络每一个感兴趣区域,其loss为
Figure BDA0002140330920000091
其中,
Figure BDA0002140330920000092
为类别loss,
Figure BDA0002140330920000093
为选框loss,
Figure BDA0002140330920000094
为掩膜loss,
Figure BDA0002140330920000095
为视点loss,
Figure BDA0002140330920000096
为图像删节loss,图像删节分支
Figure BDA0002140330920000097
仅在IoU大于0.8时,计算loss参与反向传播;
步骤S2.3:在PASCAL 3D+数据集、COCO数据集、IMAGENET数据集上轮流训练,训练过程中,无标注的分支不参与反向传播;具体来说,在COCO数据集上,视点分支不参与反向传播;在PASCAL 3D+数据集与IMAGENET数据集上,掩膜分支不参与反向传播;测试过程中,视点预测结果、置信度分别记为
Figure BDA0002140330920000101
掩膜预测结果记为
Figure BDA0002140330920000102
具体来说,步骤2.1中,由于本发明面向车辆对象,所以对PASCAL 3D+数据集、COCO数据集、IMAGENET数据集进行预处理,其中,类别标注0代表背景,1代表车辆对象;视点标注由水平角、仰角、旋转角组成,分别分为360bins、90bins、360bins;掩膜标注中,前景标注为1,背景标注为0。
在一种实施方式中,步骤S2.2中,图像删节损失函数
Figure BDA0002140330920000103
具有如下形式,
Figure BDA0002140330920000104
其中,λtruncated是图像删节损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure BDA0002140330920000105
为1,否则为0,P表示交叉熵损失函数,Ti *是一维向量,表示图像删节的真值,0表示车辆对象未被图像删节,1表示车辆对象被图像删节,Ti表示图像删节的预测结果;
在一种实施方式中,步骤S2.2中,损失函数
Figure BDA0002140330920000106
具有如下形式,
Figure BDA0002140330920000107
其中,λvp是视点损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure BDA0002140330920000108
为1,否则为0,P表示交叉熵损失函数,Vi *是三维向量,表示视点的真值,其每一维的长度分别表示视点水平角、仰角、旋转角的分割数量(360bins,90bins,360bins),Vi表示视点的预测结果。损失函数
Figure BDA0002140330920000109
Figure BDA00021403309200001010
依据Mask-RCNN等现有技术定义,本领域所属人员能够了解该卷积神经网络结构,故而在此不再赘述。
再执行步骤S3:通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度卷积神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集。
具体来说,步骤S3主要是度量S2步骤目标车辆网络掩膜预测结果与S1步骤生成的离线掩膜模板集合元素之间的欧式距离,得到掩膜模板匹配集合。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:对深度卷积神经网络掩膜预测结果
Figure BDA0002140330920000111
进行自适应矩形裁剪,在保持掩膜完整的条件下,最小化背景区域面积,得到处理后的掩膜,记为
Figure BDA0002140330920000112
步骤S3.2:依据深度卷积神经网络图像删节预测结果Ti,选择离线完整掩膜模板数据集
Figure BDA0002140330920000113
或离线删节掩膜模板数据集
Figure BDA0002140330920000114
作为待匹配离线掩膜模板数据集
Figure BDA0002140330920000115
步骤S3.3:通过计算目标掩膜
Figure BDA0002140330920000116
与待匹配离线掩膜模板数据集
Figure BDA0002140330920000117
中掩膜元素的欧氏距离
Figure BDA0002140330920000118
取前k个最小距离,作为掩膜模板集合{tk}。
具体地,步骤S3.1对网络掩膜预测结果
Figure BDA0002140330920000119
进行非零元素索引,生成掩膜非零元素索引二维矩阵,转置该二维矩阵,矩阵第一列表示掩膜非零元素在
Figure BDA00021403309200001110
中的纵坐标值,矩阵第二列表示掩膜非零元素在
Figure BDA00021403309200001111
中的横坐标值。因此,矩阵第一列最小值与矩阵第二列最小值,构成了裁剪区域左上角角点坐标,矩阵第一列最大值与矩阵第二列最大值,构成了裁剪区域右下角角点坐标。依据裁剪区域左上角角点坐标、右下角角点坐标,对
Figure BDA00021403309200001112
进行裁剪,得到处理后的掩膜,记为
Figure BDA00021403309200001113
步骤S3.3中,k的取值影响掩膜模板集合数据的泛化性,k取值过小,表明视点、三维模型候选项较少,易导致视点预测中位误差增加,三维模型恢复准确度下降。这里k=20。
在一种实施方式中,步骤S4具体包括:
步骤S4.1:利用离线掩膜模板数据集包含的车辆视点、三维模型、掩膜存在的透视投影变换规律,建立掩膜模板集合{tk}相对应的渲染视点集合{vk}与三维模型集合{sk};
步骤S4.2:通过计算视点几何感知距离
Figure BDA00021403309200001114
获得基于掩膜模板的最优预测视点vopt
步骤S4.3:最终的视点预测结果使用网络预测结果
Figure BDA00021403309200001212
与基于掩膜模板的最优预测视点vopt进行线性加权得到,
Figure BDA0002140330920000121
其中,权重计算公式为,
Figure BDA0002140330920000122
Figure BDA0002140330920000123
步骤S4.4:根据最终视点预测结果,利用渲染视点集合{vk}与三维模型集合{sk}的对应关系,获得车辆对象的三维模型。
具体来说,利用目标对象渲染视点、三维模型、掩膜存在的透视投影变换规律,设计基于置信度
Figure BDA0002140330920000124
的加权融合方法,融合S3.2步骤渲染视点集合{vk}与S2.3步骤网络视点预测
Figure BDA0002140330920000125
生成最终的预测视点,恢复车辆三维模型。
具体来说,步骤S4.1中,由于掩膜模板数据集合{tk}是S1.1步骤离线掩膜模板数据集合
Figure BDA0002140330920000126
的子集,因此,利用步骤1.2中渲染视点旋转矩阵、三维模型、掩膜存在的透视投影规律,得到与掩膜模板集合{tk}相对应的视点{vk}与三维模型{sk}。
步骤4.2中,
Figure BDA0002140330920000127
表示基于深度卷积神经网络预测的旋转矩阵,通过步骤S2.3中利用卷积神经网络预测得到的视点
Figure BDA0002140330920000128
水平角、仰角、旋转角变换得到(具体实现可参见文献Render for CNN:Viewpoint Estimation in Images Using CNNs Trained withRendered 3D Model Views,本发明不予撰述)。
Figure BDA0002140330920000129
表示基于离线掩膜模板的旋转矩阵,通过与掩膜模板ti相对应的视点vi水平角、仰角、旋转角变换得到。基于掩膜模板的最优预测视点vopt,其中,opt∈{1,2,3,...,k},表示vopt是利用车辆视点、三维模型、掩膜存在的透视投影变换规律,基于最优掩膜信息匹配结果推导生成的。
步骤4.3中,权重系数p1与p2由步骤S2.3中的预测视点置信度
Figure BDA00021403309200001210
决定。置信度
Figure BDA00021403309200001211
决定了本发明采用基于图像全局特征的视点预测结果或基于掩膜推导的视点预测结果。置信度
Figure BDA0002140330920000131
较大,表示卷积神经网络视点预测结果较准确,本发明采用基于图像全局特征的视点预测结果;置信度
Figure BDA0002140330920000132
越小,则表示卷积神经网络视点预测结果熵越高,本发明则采用基于掩膜推导的视点预测结果。
为了便于本领域普通技术人员理解和实施本发明,下面通过一个具体示例对本发明提供的参考帧合成方法进行详细说明。
具体实施时,可采用软件方式实现以上流程的自动运行。通过采用以上流程进行实验可知,基于PnP算法的局部特征视点预测方法,难以对具有类似特征的车辆部件关键点分类,而基于全局特征的视点预测方法,易受到车辆对象受遮挡等复杂因素的影响。因此,仅利用车辆对象全局特征或车辆部件关键点局部特征难以达到理想的预测效果。因此,本发明引入车辆对象掩膜信息,利用车辆视点、三维模型、掩膜存在的透视投影变换规律,对视点与三维模型进行约束,提升算法因目标车辆受遮挡、图像删节等复杂因素的鲁棒性,降低视点预测中位误差,提高三维模型恢复的准确度。
基于本发明执行步骤S1~S4所得的结果,本发明在不需要真值三维模型的情况下,相较于Pavlakos等人在ICRA2017提出的方法,视点预测的中位误差下降了0.2。本发明在不需要真值2D选框的情况下,相较于Su等人在ICCV2015提出的方法,视点准确度
Figure BDA0002140330920000133
提升3%,中位误差MedErr降低0.7;相较于Tulsiani等人在CVPR2015提出的方法,视点准确度
Figure BDA0002140330920000134
提升2%,中位误差MedErr降低3.8;相较于Mousavian等人在CVPR2017提出的方法,视点准确度
Figure BDA0002140330920000135
提升了1%,中位误差MedErr降低0.5。相较于Grabner在CVPR2018提出的方法,本发明在不需要真值2D选框的情况下,视点准确度
Figure BDA0002140330920000136
中位误差MedErr达到了近似效果。
相较于仅利用全局特征预测视点或局部特征预测关键点恢复三维模型,本发明引入掩膜信息,利用车辆对象视点、三维模型、掩膜存在的透视投影变换规律,约束视点与三维模型,不仅突破了视点预测中存在的车辆轴镜像瓶颈,而且在车辆对象受遮挡、图像删节等复杂条件下鲁棒,显著降低了面向2D图像车辆视点预测的中位误差,提升了三维模型恢复的准确度,可广泛应用于智能交通、3D场景理解等领域中。
基于同一发明构思,本申请还提供了与实施例一中面向2D图像的车辆对象视点预测与三维模型恢复方法对应的装置,详见实施例二。
实施例二
本实施例提供了一种面向2D图像的车辆对象视点预测于三维模型恢复合成装置,请参见图3,该装置包括:
离线掩膜模板数据集生成模块,用于ShapeNet中的所有车辆三维模型,生成离线掩膜模板数据集,包括离线完整掩膜模板数据集和离线删节掩膜模板数据集;
车辆对象视点与掩膜预测模块,用于利用深度卷积神经网络预测目标车辆对象的视点与掩膜,生成掩膜预测结果、图像删节预测结果、视点预测结果和对应的置信度;掩膜模板匹配模块,用于通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,待匹配离线掩膜模板数据集是基于深度神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;基于视点、掩膜融合的视点预测与三维模型恢复模块,用于根据目标车辆预测视点的置信度,计算对应的权重值,对基于深度卷积神经网络的视点预测结果与基于掩膜模板匹配的视点进行线性加权,生成最终的视点预测结果,恢复对应三维模型。
在一种实施方式中,离线掩膜模板数据集生成模块具体用于执行下述步骤:
步骤S1.1:渲染随机视点下ShapeNet公开数据集中的所有M个车辆模型,对于单个车辆模型
Figure BDA0002140330920000141
Figure BDA0002140330920000142
表示与此模型相关的二维掩膜模板集合,其中n表示此三维模型渲染随机视点数量;对于M个车辆模型,
Figure BDA0002140330920000143
表示离线掩膜模板数据集;
步骤S1.2:对离线完整掩膜模板数据集
Figure BDA0002140330920000144
中每个车辆对象的图像边界框进行扰动裁剪处理,生成离线删节掩膜模板数据集
Figure BDA0002140330920000145
步骤S1.3:通过合并离线完整掩膜模板数据集
Figure BDA0002140330920000146
与离线删节掩膜模板数据集
Figure BDA0002140330920000147
生成最终的离线掩膜模板数据集
Figure BDA0002140330920000148
在一种实施方式中,车辆对象视点与掩膜预测模块具体用于执行下述步骤:
步骤S2.1:预处理PASCAL 3D+数据集、COCO数据集、IMAGENET数据集,其中,PASCAL3D+数据集包含类别、选框、视点标注;COCO数据集包含类别、选框、掩膜标注;IMAGENET数据集包含类别、选框、视点标注;
步骤S2.2:构建以Mask-RCNN为主干网络,增加图像删节分支网络、视点分支网络的深度卷积神经网络,所述视点分支网络是基于特征金字塔的计算图视点分类网络,由RoIAlign、两层全连接层与输出层组成;所述图像删节分支网络是基于特征金字塔与掩膜分支特征的计算图视点分类网络,由RoIAlign、特征联合层、两层全连接层与输出层组成;针对深度卷积神经网络每一个感兴趣区域,其loss为
Figure BDA0002140330920000151
其中,
Figure BDA0002140330920000152
为类别loss,
Figure BDA0002140330920000153
为选框loss,
Figure BDA0002140330920000154
为掩膜loss,
Figure BDA0002140330920000155
为视点loss,
Figure BDA0002140330920000156
为图像删节loss,图像删节分支
Figure BDA0002140330920000157
仅在IoU大于0.8时,计算loss参与反向传播;
步骤S2.3:在PASCAL 3D+数据集、COCO数据集、IMAGENET数据集上轮流训练,训练过程中,无标注的分支不参与反向传播;具体来说,在COCO数据集上,视点分支不参与反向传播;在PASCAL 3D+数据集与IMAGENET数据集上,掩膜分支不参与反向传播;测试过程中,视点预测结果、置信度分别记为
Figure BDA0002140330920000158
掩膜预测结果记为
Figure BDA0002140330920000159
在一种实施方式中,步骤S2.2中,图像删节损失函数
Figure BDA00021403309200001510
具有如下形式,
Figure BDA00021403309200001511
其中,λtruncated是图像删节损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure BDA00021403309200001512
为1,否则为0,P表示交叉熵损失函数,Ti *是一维向量,表示图像删节的真值,0表示车辆对象未被图像删节,1表示车辆对象被图像删节,Ti表示图像删节的预测结果;
在一种实施方式中,步骤S2.2中,损失函数
Figure BDA00021403309200001513
具有如下形式,
Figure BDA0002140330920000161
其中,λvp是视点损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure BDA0002140330920000162
为1,否则为0,P表示交叉熵损失函数,Vi *是三维向量,表示视点的真值,其每一维的长度分别表示视点水平角、仰角、旋转角的分割数量(360bins,90bins,360bins),Vi表示视点的预测结果。损失函数
Figure BDA0002140330920000163
Figure BDA0002140330920000164
依据Mask-RCNN等现有技术定义,本领域所属人员能够了解该卷积神经网络结构,故而在此不再赘述。
在一种实施方式中,掩膜模板匹配模块具体用于执行下述步骤:
步骤S3.1:对网络掩膜预测结果
Figure BDA0002140330920000165
进行自适应矩形裁剪,在保持掩膜完整的条件下,最小化背景区域面积,得到处理后的掩膜,记为
Figure BDA0002140330920000166
步骤S3.2:依据网络图像删节预测结果Ti,选择离线完整掩膜模板数据集
Figure BDA0002140330920000167
或离线删节掩膜模板数据集
Figure BDA0002140330920000168
作为待匹配离线掩膜模板数据集
Figure BDA0002140330920000169
步骤S3.3:通过计算目标掩膜
Figure BDA00021403309200001610
与待匹配离线掩膜模板数据集
Figure BDA00021403309200001611
中掩膜元素的欧氏距离
Figure BDA00021403309200001612
取前k个最小距离,作为掩膜模板集合{tk}。
在一种实施方式中,基于视点、掩膜融合的视点预测与三维模型恢复模块具体用于执行下述步骤:
步骤S4.1:利用离线掩膜模板数据集包含的车辆视点、三维模型、掩膜存在的透视投影变换规律,建立掩膜模板集合{tk}相对应的渲染视点集合{vk}与三维模型集合{sk};
步骤S4.2:通过计算视点几何感知距离
Figure BDA00021403309200001613
获得基于掩膜模板的最优预测视点vopt
步骤S4.3:最终的视点预测结果使用网络预测结果
Figure BDA0002140330920000174
与基于掩膜模板的最优预测视点vopt进行线性加权得到,
Figure BDA0002140330920000171
其中,权重计算公式为,
Figure BDA0002140330920000172
Figure BDA0002140330920000173
步骤S4.4:根据最终视点预测结果,利用渲染视点集合{vk}与三维模型集合{sk}的对应关系,获得车辆对象的三维模型。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中面向2D图像的车辆对象视点预测与三维模型恢复方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
请参见图4,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中面向2D图像的车辆对象视点预测与三维模型恢复方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图5,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中面向2D图像的车辆对象视点预测与三维模型恢复方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种面向2D图像的车辆对象视点预测与三维模型恢复方法,其特征在于,包括如下步骤:
步骤S1:离线掩膜模板数据集生成,包括离线完整掩膜模板数据集与离线删节掩膜模板数据集;
步骤S2:利用深度卷积神经网络预测目标车辆对象的视点、掩膜与是否被图像删节,生成掩膜预测结果、图像删节预测结果、车辆对象视点预测结果和对应的置信度;
步骤S3:通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度卷积神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;
步骤S4:根据目标车辆预测视点的置信度,计算对应的权重值,对基于深度卷积神经网络的视点预测结果与基于掩膜模板匹配的视点进行线性加权,生成最终的视点预测结果,恢复对应三维模型。
2.如权利要求1所述的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,其特征在于:步骤S1具体包括,
步骤S1.1:渲染随机视点下ShapeNet公开数据集中的所有M个车辆模型,对于单个车辆模型
Figure FDA0003233215240000011
Figure FDA0003233215240000012
表示与此模型相关的二维掩膜模板集合,其中n表示此三维模型渲染随机视点数量;对于M个车辆模型,
Figure FDA0003233215240000013
表示离线完整掩膜模板数据集;
步骤S1.2:对离线完整掩膜模板数据集
Figure FDA0003233215240000014
中每个车辆对象的图像边界框进行扰动裁剪处理,生成离线删节掩膜模板数据集
Figure FDA0003233215240000015
步骤S1.3:通过合并离线完整掩膜模板数据集
Figure FDA0003233215240000016
与离线删节掩膜模板数据集
Figure FDA0003233215240000017
生成最终的离线掩膜模板数据集
Figure FDA0003233215240000018
3.如权利要求2所述的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,其特征在于:步骤S2具体包括,
步骤S2.1:预处理PASCAL 3D+数据集、COCO数据集、IMAGENET数据集,其中,PASCAL 3D+数据集包含类别、选框、视点标注;COCO数据集包含类别、选框、掩膜标注;IMAGENET数据集包含类别、选框、视点标注;
步骤S2.2:构建以Mask-RCNN为主干网络,增加图像删节分支网络、视点分支网络的深度卷积神经网络,所述视点分支网络是基于特征金字塔的计算图视点分类网络,由RoIAlign、两层全连接层与输出层组成;所述图像删节分支网络是基于金字塔特征与掩膜特征的计算图网络,由RoIAlign、特征联合层、两层全连接层与输出层组成;针对深度卷积神经网络每一个感兴趣区域,loss为
Figure FDA0003233215240000021
其中,
Figure FDA0003233215240000022
为类别loss,
Figure FDA0003233215240000023
为选框loss,
Figure FDA0003233215240000024
为掩膜loss,
Figure FDA0003233215240000025
为图像删节loss,图像删节分支
Figure FDA0003233215240000026
仅在IoU大于某一阈值时,计算loss参与反向传播,具有如下形式,
Figure FDA0003233215240000027
其中,λtruncated是图像删节损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure FDA0003233215240000028
为1,否则为0,P表示交叉熵损失函数,
Figure FDA0003233215240000029
是一维向量,表示图像删节的真值,0表示车辆对象未被图像删节,1表示车辆对象被图像删节,Ti表示图像删节的预测结果;
Figure FDA00032332152400000210
为视点loss,视点分支
Figure FDA00032332152400000211
视点loss具有如下形式,
Figure FDA00032332152400000212
其中,λvp是视点损失函数的正则参数,Nc表示类别数量,如果网络候选项是车辆,则
Figure FDA00032332152400000213
为1,否则为0,P表示交叉熵损失函数,
Figure FDA00032332152400000214
是三维向量,表示视点的真值,其每一维的长度分别表示视点水平角、仰角、旋转角的分割数量,Vi表示视点的预测结果;
步骤S2.3:在PASCAL 3D+数据集、COCO数据集、IMAGENET数据集上轮流训练,训练过程中,无标注的分支不参与反向传播;测试过程中,视点预测结果、置信度分别记为
Figure FDA00032332152400000215
掩膜预测结果记为
Figure FDA00032332152400000216
4.如权利要求3所述的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,其特征在于:步骤S3具体包括,
步骤S3.1:对网络掩膜预测结果
Figure FDA0003233215240000031
进行自适应矩形裁剪,在保持掩膜完整的条件下,最小化背景区域面积,得到处理后的掩膜,记为
Figure FDA0003233215240000032
步骤S3.2:依据网络图像删节预测结果Ti,选择离线完整掩膜模板数据集
Figure FDA0003233215240000033
或离线删节掩膜模板数据集
Figure FDA0003233215240000034
作为待匹配离线掩膜模板数据集
Figure FDA0003233215240000035
步骤S3.3:通过计算目标掩膜
Figure FDA0003233215240000036
与待匹配离线掩膜模板数据集
Figure FDA0003233215240000037
中掩膜元素的欧氏距离
Figure FDA0003233215240000038
取前k个最小距离,作为掩膜模板匹配集合{tk}。
5.如权利要求4所述的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,其特征在于:步骤3.1的具体实现方式如下,
对网络掩膜预测结果
Figure FDA0003233215240000039
进行非零元素索引,生成掩膜非零元素索引二维矩阵,转置该二维矩阵,矩阵第一列表示掩膜非零元素在
Figure FDA00032332152400000310
中的纵坐标值,矩阵第二列表示掩膜非零元素在
Figure FDA00032332152400000311
中的横坐标值;因此,矩阵第一列最小值与矩阵第二列最小值,构成了裁剪区域左上角角点坐标,矩阵第一列最大值与矩阵第二列最大值,构成了裁剪区域右下角角点坐标;依据裁剪区域左上角角点坐标、右下角角点坐标,对
Figure FDA00032332152400000312
进行裁剪,得到处理后的掩膜,记为
Figure FDA00032332152400000313
6.如权利要求5所述的一种面向2D图像的车辆对象视点预测与三维模型恢复方法,其特征在于:步骤S4具体包括,
步骤S4.1:利用目标车辆视点、三维模型、掩膜存在的透视投影变换规律,建立掩膜模板匹配集合{tk}相对应的渲染视点集合{vk}与三维模型集合{sk};
步骤S4.2:通过计算视点几何感知距离,获得基于掩膜模板匹配集合的最优预测视点vopt
Figure FDA00032332152400000314
Figure FDA0003233215240000041
表示基于深度神经网络预测的旋转矩阵,通过步骤S2.3中利用深度卷积神经网络预测得到的视点
Figure FDA0003233215240000042
水平角、仰角、旋转角变换得到;
Figure FDA0003233215240000043
表示基于离线掩膜模板的旋转矩阵,通过与掩膜模板ti相对应的视点vi水平角、仰角、旋转角变换得到;
步骤S4.3:最终的视点预测结果使用基于深度卷积神经网络的视点预测结果
Figure FDA0003233215240000044
与基于掩膜模板匹配的视点vopt进行线性加权得到,
Figure FDA0003233215240000045
其中,权重计算公式为,
Figure FDA0003233215240000046
Figure FDA0003233215240000047
步骤S4.4:根据最终视点预测结果,利用渲染视点集合{vk}与三维模型集合{sk}的对应关系,获得车辆对象的三维模型。
7.一种面向2D图像的车辆对象视点预测和三维模型恢复装置,其特征在于,包括:
离线掩膜模板数据集生成模块,用于ShapeNet中的所有车辆三维模型,生成离线掩膜模板数据集,包括离线完整掩膜模板数据集与离线删节掩膜模板数据集;
车辆对象视点、图像删节、掩膜预测模块,用于利用深度卷积神经网络预测目标车辆对象的视点、掩膜与是否被图像删节,生成掩膜预测结果、图像删节预测结果、车辆对象视点预测结果和对应的置信度;
掩膜模板匹配模块,用于通过比对基于深度卷积神经网络的掩膜预测结果与待匹配离线掩膜模板数据集合中的掩膜对象,得到掩膜模板匹配集合,其中,待匹配离线掩膜模板数据集是基于深度卷积神经网络图像删节预测结果的离线完整掩膜模板数据集或离线删节掩膜模板数据集;
基于视点、掩膜融合的视点预测与三维模型恢复模块,用于根据目标车辆预测视点的置信度,计算对应的权重值,对基于深度卷积神经网络的视点预测结果与基于掩膜模板匹配的视点进行线性加权,生成最终的视点预测结果,恢复对应三维模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被执行时实现如权利要求1至6中任一项权利要求所述的方法。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如权利要求1至6中任一项权利要求所述的方法。
CN201910666609.5A 2019-07-23 2019-07-23 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 Active CN110490235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910666609.5A CN110490235B (zh) 2019-07-23 2019-07-23 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910666609.5A CN110490235B (zh) 2019-07-23 2019-07-23 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置

Publications (2)

Publication Number Publication Date
CN110490235A CN110490235A (zh) 2019-11-22
CN110490235B true CN110490235B (zh) 2021-10-22

Family

ID=68547978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910666609.5A Active CN110490235B (zh) 2019-07-23 2019-07-23 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置

Country Status (1)

Country Link
CN (1) CN110490235B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583422B (zh) * 2020-04-17 2023-03-28 清华大学 三维人体模型的启发式编辑方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289679A (zh) * 2011-08-30 2011-12-21 西安交通大学 一种基于相关特征和非线性映射的固定视角人脸超分辨率识别方法
WO2014058207A1 (ko) * 2012-10-08 2014-04-17 엘지전자 주식회사 다시점 비디오 신호의 인코딩 방법, 디코딩 방법 및 이에 대한 장치
CN105224065A (zh) * 2014-05-29 2016-01-06 北京三星通信技术研究有限公司 一种视线估计设备和方法
CN106056092A (zh) * 2016-06-08 2016-10-26 华南理工大学 基于虹膜与瞳孔的用于头戴式设备的视线估计方法
CN109145864A (zh) * 2018-09-07 2019-01-04 百度在线网络技术(北京)有限公司 确定视线区域的方法、装置、存储介质和终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289679A (zh) * 2011-08-30 2011-12-21 西安交通大学 一种基于相关特征和非线性映射的固定视角人脸超分辨率识别方法
WO2014058207A1 (ko) * 2012-10-08 2014-04-17 엘지전자 주식회사 다시점 비디오 신호의 인코딩 방법, 디코딩 방법 및 이에 대한 장치
CN105224065A (zh) * 2014-05-29 2016-01-06 北京三星通信技术研究有限公司 一种视线估计设备和方法
CN106056092A (zh) * 2016-06-08 2016-10-26 华南理工大学 基于虹膜与瞳孔的用于头戴式设备的视线估计方法
CN109145864A (zh) * 2018-09-07 2019-01-04 百度在线网络技术(北京)有限公司 确定视线区域的方法、装置、存储介质和终端设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A fine-grained filtered viewpoint informed keypoint prediction from 2D images;qingnan li et al.;《pacific rim conference on multimedia》;20180510;第172-181页 *
Fast joint object detection with viewpoint estimation for traffic scene understanding;carlos guindel et al.;《IEEE intelligent transportation systems magazine》;20180924;第4卷(第10期);第74-86页 *
Monocular car viewpoint estimation with circular regression forests;christian herdtweck et al.;《2013 IEEE intelligent vehicles symposium(IV)》;20131015;第857-864页 *
Vehicle pose estimation using mask matching;qingnan li et al.;《ISASSP 2019-2019 IEEE international conference on acoustics,speech and signal processing(ICASSP)》;20190417;第1972-1976页 *
基于预测和加权匹配的目标快速定位方法;董宇青等;《激光与红外》;20120727;第42卷(第6期);第718-722页 *

Also Published As

Publication number Publication date
CN110490235A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
Murez et al. Atlas: End-to-end 3d scene reconstruction from posed images
CN111050219B (zh) 用于利用空间-时间记忆网络处理视频内容的方法和系统
EP3822910A1 (en) Depth image generation method and device
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN107507126B (zh) 一种利用rgb图像还原3d场景的方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
Zhou et al. Self-distilled feature aggregation for self-supervised monocular depth estimation
CN112699806A (zh) 一种基于三维热图的三维点云目标检测方法和装置
Rich et al. 3dvnet: Multi-view depth prediction and volumetric refinement
Hwang et al. Lidar depth completion using color-embedded information via knowledge distillation
Zeng et al. Deep confidence propagation stereo network
CN114241388A (zh) 基于时空记忆信息的视频实例分割方法和分割装置
Song et al. Prior depth-based multi-view stereo network for online 3D model reconstruction
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
CN114565953A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Emlek et al. P3SNet: Parallel pyramid pooling stereo network
Chang et al. StereoVAE: A lightweight stereo-matching system using embedded GPUs
Zhang et al. An Improved Detection Algorithm For Pre-processing Problem Based On PointPillars
CN112652059B (zh) 基于Mesh R-CNN模型改进的目标检测与三维重构方法
CN117058472B (zh) 基于自注意力机制的3d目标检测方法、装置、设备
US20220383573A1 (en) Frame interpolation for rendered content
CN117333627B (zh) 一种自动驾驶场景的重建与补全方法、系统及存储介质
CN114266863B (zh) 一种基于点云的3d场景图生成方法、系统、设备及可读存储介质
Fu Application and Analysis of RGB-D Salient Object Detection in Photographic Camera Vision Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant