CN108269278A

CN108269278A - 一种场景建模的方法及装置

Info

Publication number: CN108269278A
Application number: CN201611258236.0A
Authority: CN
Inventors: 王舸
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108269278B

Abstract

本发明实施例提供了一种场景建模的方法及装置，该方法包括：获得单目图像采集设备在多个视点采集的场景图像以及单目图像采集设备在多个视点对应的姿态信息，该单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；从所获得的多个场景图像中的每一场景图像中提取特征点；并确定出至少一组特征点对，每一特征点对中两个特征点对应的场景对象相同；根据所确定的至少一组特征点对所包含的每个特征点，以及该每个特征点所在场景图像对应的视点的姿态信息，确定目标场景的深度信息；根据深度信息，对目标场景进行建模。应用本发明实施例能够得到更准确的深度信息，并建立更准确的场景模型。

Description

一种场景建模的方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种场景建模的方法及装置。

背景技术

随着当前社会的飞速发展，人文娱乐欣赏需求也日益增多，对于视频例如：电视电影等观看的要求，不仅仅是高清彩色，观看者需要更加真实的三维效果，立体视频相关研究和应用成为当前热点问题。

现有技术中，可以通过单目图像采集设备完成对场景的建模，获得三维效果。例如：数据服务器对移动传感器(单目图像采集设备)所获得的室内序列影像进行光束法平差处理，并获得每一影像的定姿定位数据，数据服务器将所获得每一影像的定姿定位数据发送至移动传感器，移动传感器根据每一影像的定姿定位数据在对应的室内序列影像进行立体测量。

光束法平差处理是通过单目图像采集设备对场景建模的一个关键步骤，其能得到场景建模时所依赖的场景的深度信息。光束法平差处理是一种全局最优算法，其是以共线方程式作为数学模型，像点的像平面坐标观测值是未知数的非线性函数。经过线性化后按照最小二乘法原理进行计算。光束法平差处理是在提供一个近似解的基础上，逐次迭代来达到趋近于最佳值的，因此，其需要较好的迭代初值，否则，光束法平差处理的迭代计算次数会增多，并且，所得到的深度信息不够准确。

现有技术中仅依靠所获得室内序列影像作为光束法平差处理的迭代初值，该迭代初值不够准确，使得光束法平差处理的迭代计算次数增加，导致场景建模的整体计算速度较慢，并且利用该迭代初值所得到的深度信息不够准确，进一步的建模不够准确。

那么，如何利用单目图像采集设备获得准确的迭代深度初值成为亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种场景建模的方法及装置，以实现利用单目图像采集设备获得更准确的影像的深度信息，进一步的根据该深度信息建立更准确的场景模型。具体技术方案如下：

一方面，本发明实施例提供了一种场景建模的方法，所述方法包括：

获得单目图像采集设备在多个视点采集的场景图像，并获得所述单目图像采集设备在所述多个视点对应的姿态信息，其中，所述单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；

从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对，其中，每一特征点对中两个特征点对应的场景对象相同，所述每一特征点对是由第一场景图像的第一特征点与第二场景图像的第二特征点组成的；

根据所确定的至少一组特征点对所包含的每个特征点，以及所述每个特征点所在场景图像对应的视点的姿态信息，确定所述目标场景的深度信息；

根据所述深度信息，对所述目标场景进行建模。

可选的，所述每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对的步骤，包括：

从所获得的多个场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，所述第一预定条件包括：未被作为第一场景图像；

从所获得的除所述当前的第一场景图像外的其他多个场景图像中，确定与所述当前的第一场景图像存在重叠区域的至少一张第二场景图像；

在所述重叠区域内，提取所述当前的第一场景图像中的至少一个第一特征点，并提取每一第二场景图像中的至少一个第二特征点；

将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配；

将相互匹配的第一特征点与第二特征点确定为一组特征点对。

可选的，所述将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配的步骤，包括：

分别计算所述至少一个第一特征点的第一欧氏距离；

分别计算每一第二场景图像中的至少一个第二特征点的第二欧氏距离；

将第一欧氏距离分别与每一第二欧氏距离进行比对，其中，当第一欧氏距离与第二欧氏距离的差值的绝对值低于预定阈值时，表明该第一欧氏距离对应的第一特征点与该第二欧氏距离对应的第二特征点相互匹配。

可选的，所述从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对的步骤，包括：

从所述当前的第一场景图像中，提取至少一个第一特征点；

从除所述当前的第一场景图像外的每一其他场景图像中，提取至少一个第二特征点；

将所述当前的第一场景图像的至少一个第一特征点，分别与所述每一其他场景图像中提取的至少一个第二特征点进行匹配；

将存在与所述当前的第一场景图像的至少一个第一特征点匹配的其他场景图像，确定为第二场景图像；

将相互匹配的所述当前的第一场景图像的第一特征点与所述第二场景图像的第二特征点，确定为一组特征点对。

可选的，所述将所述当前的第一场景图像的至少一个第一特征点，分别与所述每一其他场景图像中提取的至少一个第二特征点进行匹配的步骤，包括：

分别计算所述当前的第一场景图像的至少一个第一特征点的第三欧氏距离；

分别计算所述每一其他场景图像中提取的至少一个第二特征点的第四欧氏距离；

将第三欧氏距离分别与每一第四欧氏距离进行比对，其中，当第三欧氏距离与第四欧氏距离的差值的绝对值低于所述预定阈值时，表明该第三欧氏距离对应的第一特征点与该第四欧氏距离对应的第二特征点相互匹配。

可选的，所述获得单目图像采集设备在多个视点采集的场景图像步骤，包括：

获得所述单目图像采集设备在每一视点采集的包含预定数量的图像的第一场景图像序列；

针对每一第一场景图像序列，获得该第一场景图像序列的不同图像中的相同位置像素点的像素值；

针对每一第一场景图像序列，确定所获得的相同位置像素点的像素值的中值；

将所确定的中值确定为每一第一场景图像序列对应的场景图像中的相同位置像素点的像素值，得到每一第一场景图像序列对应的场景图像。

获得所述单目图像采集设备在每一视点采集的包含预定数量的图像的第二场景图像序列；

确定每一第二场景图像序列中的运动对象；

分别从每一第二场景图像序列中，滤除对应的运动对象，获得对应的包含静止对象的第三场景图像序列；

分别确定每一第三场景图像序列对应的场景图像。

可选的，所述分别确定每一第三场景图像序列对应的场景图像的步骤，包括：

分别融合每一第三场景图像序列中的图像，将融合所得的图像确定所对应第三场景图像序列的场景图像；

或者，

分别从每一第三场景图像序列中随机选取一张图像，将所选取的图像确定为所对应第三场景图像序列的场景图像。

可选的，所述根据所确定的至少一组特征点对所包含的每个特征点，以及所述每个特征点所在场景图像对应的视点的姿态信息，确定所述目标场景的深度信息的步骤，包括：

利用所确定的至少一组特征点对所包含的每个特征点，与所述每个特征点所在场景图像对应的视点的共线性，构建数学模型；

基于世界坐标系，确定所述至少一组特征点对所包含的每个特征点的第一坐标，以及所述每个特征点所在场景图像对应的视点的姿态信息所对应的第二坐标；

根据所确定的每个特征点的第一坐标、所述每个特征点所在场景图像对应的视点的姿态信息所对应的第二坐标以及所述数学模型，确定所述至少一组特征点对分别对应的场景对象的第三坐标；

根据所确定的第三坐标，确定所述目标场景的深度信息。

另一方面，本发明实施例提供了一种场景建模的装置，所述装置包括：

第一获得模块，用于获得单目图像采集设备在多个视点采集的场景图像，

第二获得模块，用于获得所述单目图像采集设备在所述多个视点对应的姿态信息，其中，所述单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；

提取确定模块，用于从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对，其中，每一特征点对中两个特征点对应的场景对象相同，所述每一特征点对是由第一场景图像的第一特征点与第二场景图像的第二特征点组成的；

信息确定模块，用于根据所确定的至少一组特征点对所包含的每个特征点，以及所述每个特征点所在场景图像对应的视点的姿态信息，确定所述目标场景的深度信息；

建模模块，用于根据所述深度信息，对所述目标场景进行建模。

可选的，所述提取确定模块包括第一选择单元、第一确定单元、第一提取单元、第一匹配单元和第二确定单元；

所述第一选择单元，用于从所获得的多个场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，所述第一预定条件包括：未被作为第一场景图像；

所述第一确定单元，用于从所获得的除所述当前的第一场景图像外的其他多个场景图像中，确定与所述当前的第一场景图像存在重叠区域的至少一张第二场景图像；

所述第一提取单元，用于在所述重叠区域内，提取所述当前的第一场景图像中的至少一个第一特征点，并提取每一第二场景图像中的至少一个第二特征点；

所述第一匹配单元，用于将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配；

所述第二确定单元，用于将相互匹配的第一特征点与第二特征点确定为一组特征点对。

可选的，所述第一匹配单元，具体用于

分别计算所述至少一个第一特征点的第一欧氏距离；

可选的，所述提取确定模块包括第二选择单元、第二提取单元、第三提取单元、第二匹配单元、第三确定单元和第四确定单元；

所述第二选择单元，用于从所获得的多个场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，所述第一预定条件包括：未被作为第一场景图像；

所述第二提取单元，用于从所述当前的第一场景图像中，提取至少一个第一特征点；

所述第三提取单元，用于从除所述当前的第一场景图像外的每一其他场景图像中，提取至少一个第二特征点；

所述第二匹配单元，用于将所述当前的第一场景图像的至少一个第一特征点，分别与所述每一其他场景图像中提取的至少一个第二特征点进行匹配；

所述第三确定单元，用于将存在与所述当前的第一场景图像的至少一个第一特征点匹配的其他场景图像，确定为第二场景图像；

所述第四确定单元，用于将相互匹配的所述当前的第一场景图像的第一特征点与所述第二场景图像的第二特征点，确定为一组特征点对。

可选的，所述第二匹配单元，具体用于

可选的，所述第一获得模块包括第一获得单元、第二获得单元、第五确定单元和第六确定单元；

所述第一获得单元，用于获得所述单目图像采集设备在每一视点采集的包含预定数量的图像的第一场景图像序列；

所述第二获得单元，用于针对每一第一场景图像序列，获得该第一场景图像序列的不同图像中的相同位置像素点的像素值；

所述第五确定单元，用于针对每一第一场景图像序列，确定所获得的相同位置像素点的像素值的中值；

所述第六确定单元，用于将所确定的中值确定为每一第一场景图像序列对应的场景图像中的相同位置像素点的像素值，得到每一第一场景图像序列对应的场景图像。

可选的，所述第一获得模块包括第三获得单元、第七确定单元、滤除获得单元和第八确定单元；

所述第三获得单元，用于获得所述单目图像采集设备在每一视点采集的包含预定数量的图像的第二场景图像序列；

所述第七确定单元，用于确定每一第二场景图像序列中的运动对象；

所述滤除获得单元，用于分别从每一第二场景图像序列中，滤除对应的运动对象，获得对应的包含静止对象的第三场景图像序列；

所述第八确定单元，用于分别确定每一第三场景图像序列对应的场景图像。

可选的，所述第八确定单元，具体用于

或者，

可选的，所述信息确定模块包括构建单元、第九确定单元、第十确定单元和第十一确定单元；

所述构建单元，用于利用所确定的至少一组特征点对所包含的每个特征点，与所述每个特征点所在场景图像对应的视点的共线性，构建数学模型；

所述第九确定单元，用于基于世界坐标系，确定所述至少一组特征点对所包含的每个特征点的第一坐标，以及所述每个特征点所在场景图像对应的视点的姿态信息所对应的第二坐标；

所述第十确定单元，用于根据所确定的每个特征点的第一坐标、所述每个特征点所在场景图像对应的视点的姿态信息所对应的第二坐标以及所述数学模型，确定所述至少一组特征点对分别对应的场景对象的第三坐标；

所述第十一确定单元，用于根据所确定的第三坐标，确定所述目标场景的深度信息。

本发明实施例提供的场景建模的方法及装置，首先获得单目图像采集设备在多个视点采集的场景图像以及单目图像采集设备在多个视点对应的姿态信息，其中，单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；从所获得的多个场景图像中的每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对，其中，每一特征点对中两个特征点对应的场景对象相同；根据所确定的至少一组特征点对所包含的每个特征点，以及该每个特征点所在场景图像对应的视点的姿态信息，确定目标场景的深度信息；根据深度信息，对所述目标场景进行建模。本发明实施例中，根据场景图像和该场景图像对应的单目图像采集设备的姿态信息，可以确定出更优的建模过程中的运算初值，减少建模过程中运算次数，并且，能够得到更准确的深度信息，进一步的，根据该深度信息可以建立更准确的场景模型。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种场景建模的方法的流程示意图；

图2A为场景图像对应区域的一种分布示意图；

图2B为场景图像对应区域的另一种分布示意图；

图2C为确定特征点对的一种流程示意图；

图3A为本发明实施例提供的确定场景图像的一种流程示意图；

图3B为图像中的像素点的一种分布示意图；

图4为本发明实施例提供的一种场景建模的装置的结构示意图；

图5为本发明实施例提供的提取确定模块的一种结构示意图；

图6为本发明实施例提供的第一获得模块的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种场景建模的方法及装置，以实现获得更准确的影像的深度信息，进一步的根据该深度信息建立更准确的场景模型。

下面对本发明实施例提供的一种场景建模的方法进行介绍。

需要说明的是，本发明实施例提供的一种场景建模的方法，可以应用于任一具有图像采集功能的设备，例如：照相机、摄像机、单目图像采集设备以及具有照相、摄像功能的手机等等。下文中将具有图像采集功能且可通过单个镜头采集图像的设备统称为单目图像采集设备。

如图1所示，本发明实施例提供的一种场景建模的方法，可以包括如下步骤：

S101：获得单目图像采集设备在多个视点采集的场景图像，并获得单目图像采集设备在多个视点对应的姿态信息，其中，单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；

可以理解的是，单目图像采集设备可直接获得在不同视点对应的姿态信息。不同视点是指单目图像采集设备处于不同位置和/或不同角度，其中，单目图像采集设备的位置和/或角度，可以通过单目图像采集设备的机芯的位置和/或角度确定。本发明实施例中，该单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备，其中，该单目图像采集设备可以为PTZ(Pan-Tilt-Zoom)监控球机，该PTZ监控球机可以自动调整视点且可确定对应的姿态信息，PTZ监控球机根据所获得的姿态信息可以更准确的确定出所获得的场景图像对应的目标场景的深度信息。其中，该姿态信息为描述单目图像采集设备的处于对应视点时的位置和/或角度的参数信息。

在一种实现方式中，PTZ监控球机可以获取到自身处于某一视点时的角度，即PTZ监控球机机芯相对于旋转中心的经纬度信息，再结合PTZ监控球机自身的结构信息，可确定PTZ监控球机的机芯所处的位置。其中，该结构信息包括机芯相距旋转中心的距离信息，即机芯的旋转半径。PTZ监控球机根据PTZ监控球机机芯相对于旋转中心的经纬度信息以及PTZ监控球机自身的结构信息，可以自动确定出PTZ监控球机自身处于某一视点时的姿态信息，即可以确定出后续所提到的机芯在世界坐标系的坐标。

S102：从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对，其中，每一特征点对中两个特征点对应的场景对象相同，每一特征点对是由第一场景图像的第一特征点与第二场景图像的第二特征点组成的；

其中，该场景对象为：场景图像对应的目标场景中的场景对象；该第一场景图像为场景图像中的任一场景图像，该第二场景图像为场景图像中除第一场景图像外的场景图像；

从场景图像中提取特征点的方式存在多种，在一种实现方式中，可以利用SIFT(Scale-invariant feature transform，尺度不变特征变换)特征点提取算法在场景图像中提取特征点，可以理解的是，利用SIFT特征点提取算法所提取的特征点很多优点，例如：所提取的特征点具有放射变换不变性，即特征点旋转、平移、缩放不变形；另外，利用SIFT特征点提取算法所提取的特征点对光线、噪声和视点的变化的容忍度较高。利用所提取的特征点的上述优点，对后续的特征点的匹配提供了便利，即为从前后相邻的两视点所对应的场景图像中所确定出的对应相同的场景对象的特征点对提供了便利。

单目图像采集设备可自动调整视点，以采集不同视点处的场景图像。单目图像采集设备对视点的调整方式包括水平方向上的调整和/或垂直方向上的调整。为了能够获得更好的深度信息，提高场景建模的精确性，单目图像采集设备在不同视点采集场景图像时，要保证前后相邻的两个视点所采集的场景图像存在重合区域，这样，在前后相邻的两个视点的场景图像中才存在相互匹配的特征点对，如图2A所示，为前后相邻的两个视点的场景图像的区域分布，分别为区域1对应场景图像1，区域2对应场景图像2，区域3对应场景图像3，其中，区域4为场景图像1和场景图像2的重合区域，区域4中存在场景图像1和场景图像2的特征点对；区域5为场景图像2和场景图像3的重合区域，区域5中存在场景图像2和场景图像3的特征点对。此时，可以确定区域4和区域5该类的重合区域为场景图像1、场景图像2和场景图像3的目标场景。

或者，可以保证前后相邻的三个视点所采集的场景图像存在重合区域，这样，可以在前后相邻的三个视点所对应的场景图像中存在相互匹配的特征点对，如图2B所示，为前后相邻的三个视点所对应的场景图像的区域分布，分别为区域1对应场景图像1，区域2对应场景图像2，区域3对应场景图像3，其中，区域4和区域6为场景图像1和场景图像2的重合区域，区域4和区域6中存在场景图像1和场景图像2的特征点对；区域5和区域6为场景图像2和场景图像3的重合区域，区域5和区域6中存在场景图像2和场景图像3的特征点对；区域6为场景图像1、场景图像2和场景图像3的重合区域，区域6中存在场景图像1、场景图像2和场景图像3的特征点对。此时，可以确定区域4、区域5和区域6该类的重合区域为场景图像1、场景图像2和场景图像3的目标场景，或者，可以确定区域6该类的重合区域为场景图像1、场景图像2和场景图像3的目标场景。

此时，该目标场景可以为确定出特征点对的相应区域，换言之，该目标场景可以为各重合区域所组成的区域场景。

其中，单目图像采集设备可以通过设置转动角度，可以对上述重合区域进行调整。较优的，该后一个视点采集的场景图像，与相邻的前一个视点采集的场景图像之间的重合区域为相邻的前一个视点采集的场景图像的1/3，换言之，该后一个视点采集的场景图像，与相邻的前一个视点采集的场景图像之间的重合区域为该后一个视点采集的场景图像的1/3。

在一种实现方式中，单目图像采集设备可以先确定出各场景图像之间所存在的重合区域，然后根据该重合区域提取特征点，进一步的根据所提取的特征点确定各场景图像之间存在的特征点对。如图2C所示，所述从所获得的多个场景图像中的每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对(S102)的步骤，可以包括：

S201：从所获得的多个场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，第一预定条件包括：未被作为第一场景图像；

S202：从所获得的除当前的第一场景图像外的其他多个场景图像中，确定与当前的第一场景图像存在重叠区域的至少一张第二场景图像；

S203：在重叠区域内，提取当前的第一场景图像中的至少一个第一特征点，并提取每一第二场景图像中的至少一个第二特征点；

S204：将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配；

S205：将相互匹配的第一特征点与第二特征点确定为一组特征点对。

可以理解的是，存在重合区域的场景图像之间，可以确定出对应相同场景对象的特征点对。其中，单目图像采集设备确定场景图像之间存在重合区域的方式存在多种，其中一种实现方式可以为：单目图像采集设备通过自身的转速以及自身的视场角，可以确定出存在重合区域的场景图像。先确定出存在重合区域的场景图像，并根据该重合区域提取场景图像中的特征点，进一步确定特征点对，可以减少单目图像采集设备提取特征点的负载以及匹配特征点对的负载。

其中，可以通过计算各特征点之间的欧氏距离，来确定对应相同的场景对象的特征点对，当特征点之间的欧氏距离之差小于某一阈值时，可以确定该对特征点为一组特征点对。所述将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配的步骤，可以包括：

分别计算至少一个第一特征点的第一欧氏距离；

其中，该预定阈值可以为单目图像采集设备默认设定的，也可以是用户根据自身需求设定的。除了可以通过特征点之间的欧氏距离之差的绝对值，确定特征点对外，还可以通过特征点之间的欧氏距离之比，确定特征点对。当特征点之间的欧氏距离之比小于某一阈值时，确定该特征点之间为一组特征点对，这也是可以的。

在另一种实现方式中，所述从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对(S102)的步骤，可以包括：

从所获得的多个场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，第一预定条件包括：未被作为第一场景图像；

从当前的第一场景图像中，提取至少一个第一特征点；

从除当前的第一场景图像外的每一其他场景图像中，提取至少一个第二特征点；

将当前的第一场景图像的至少一个第一特征点，分别与每一其他场景图像中提取的至少一个第二特征点进行匹配；

将存在与当前的第一场景图像的至少一个第一特征点匹配的其他场景图像，确定为第二场景图像；

将相互匹配的当前的第一场景图像的第一特征点与第二场景图像的第二特征点，确定为一组特征点对。

可以理解的是，可以先不确定场景图像之间存在的重合区域，通过特征点的匹配，来确定场景图像之间的重合区域，这也是可以的。可以理解的是，当存在匹配的特征点对，即场景图像之间存在对应相同场景对象的特征点，可以确定该场景图像之间存在重合区域。

此时，也可以通过特征点之间的欧氏距离确定特征点之间是否匹配，是否可以确定为一组特征点对，所述将所述当前的第一场景图像的至少一个第一特征点，分别与每一其他场景图像中提取的至少一个第二特征点进行匹配的步骤，可以包括：

分别计算当前的第一场景图像的至少一个第一特征点的第三欧氏距离；

分别计算每一其他场景图像中提取的至少一个第二特征点的第四欧氏距离；

将第三欧氏距离分别与每一第四欧氏距离进行比对，其中，当第三欧氏距离与第四欧氏距离的差值的绝对值低于预定阈值时，表明该第三欧氏距离对应的第一特征点与该第四欧氏距离对应的第二特征点相互匹配。

另外，为了更好的保证所确定的特征点对的准确性，可以利用RANSAC(RANdomSample Consensus，随机抽样一致)算法对特征点对进行误匹配消除，对特征点对进行误匹配消除后，得到无误匹配的特征点对，利用所得到的无误匹配的特征点对进行场景建模，使得场景建模更加准确，并且，利用所得到的无误匹配的特征点对进行运算，可以减少建模过程中的运算次数，使得建模过程更快速。其中，该RANSAC算法对特征点对进行误匹配消除为现有技术，在此不做赘述。

S103：根据所确定的至少一组特征点对所包含的每个特征点，以及每个特征点所在场景图像对应的视点的姿态信息，确定目标场景的深度信息；

需要说明的是，不同的场景图像对应单目图像采集设备的不同的姿态信息，每一特征点对中所包含的特征点取自于不同的场景图像中，每一特征点对中所包含的每一特征点对应的单目图像采集设备的姿态信息不同。根据至少一组特征点对所包含的每个特征点，以及每个特征点所在场景图像对应的视点的姿态信息，确定所获得的场景图像对应的目标场景的深度信息。

在一种实现方式中，所述根据所确定的至少一组特征点对所包含的每个特征点，以及所述每个特征点所在场景图像对应的视点的姿态信息，确定所述目标场景的深度信息(S103)的步骤，可以包括：

利用所确定的至少一组特征点对所包含的每个特征点，与每个特征点所在场景图像对应的视点的共线性，构建数学模型；

基于世界坐标系，确定至少一组特征点对所包含的每个特征点的第一坐标，以及每个特征点所在场景图像对应的视点的姿态信息所对应的第二坐标；

根据所确定的每个特征点的第一坐标、每个特征点所在场景图像对应的视点的姿态信息所对应的第二坐标以及数学模型，确定至少一组特征点对分别对应的场景对象的第三坐标；

根据所确定的第三坐标，确定目标场景的深度信息。

单目图像采集设备在某一视点采集图像时，单目图像采集设备所在视点、所采集图像、以及所采集图像对应的场景对象之间，存在共线性。可以理解的是，基于世界坐标系，根据每一特征点对中所包含的特征点的第一坐标以及每一特征点所在场景图像对应的视点的姿态信息对应的第二坐标，可以确定两条直线，另每一特征点对中所包含的特征点对应相同的场景图像，该确定的两条直线必有交点，该交点即为场景对象所在空间位置(第三坐标)。进一步的，根据目标场景中所包含的各场景对象所在空间位置，可以确定该目标场景的深度信息。

其中，在一种实现方式中，可以利用光束法平差算法对目标场景进行建模。其中，根据该光束法平差算法，利用所确定的至少一组特征点对所包含的每个特征点，与每个特征点所在场景图像对应的视点的共线性，构建数学模型。进一步，确定多个场景图像对应的目标场景的深度信息，具体过程可以为：

构建共线方程式：

设S为单目图像采集设备的中心，该中心为单目图像采集设备的机芯，根据对应的姿态信息，确定S在世界坐标系下的坐标为(X_S，Y_S，Z_S)；M为空间一点，即待求点，在世界坐标系下的坐标为(X，Y，Z)，m是M在场景图像上的构象，即所确定的至少一组特征点对中的特征点，m对应的像平面和像空间辅助坐标分别为(x，y，-f)，(X_m，Y_m，Z_m)，其中，S、m、M三点共线，可得式1；

根据像平面坐标和像空间辅助坐标的关系，可得式2；

其中，x₀、y₀、f是影像内方位元素；表示像平面中心和单目图像采集设备的机芯的主距，其中，x₀、y₀是光轴与像平面的交点基于世界坐标系的坐标。

由式1和式2可解得共线方程式为(式3)

共线方程式的线性化：

式3一次项展开式为(式4)

式4中为共线方程函数近似值，d_ω、d_κ为外方位元素改正数，d_X、d_Y、d_Z为待定点的坐标改正数。

在保证共线条件下有(式5)：

此时，根据式3以及旋转矩阵(式6-1)可得到(式6-2)：其中，旋转矩阵为：

误差方程式的建立：

根据式6以及所确定出的至少一组特征点对中所包含的特征点，逐点建立误差方程式为(式7)：

其中存在，

将误差方程式(式7)改写成矩阵形式可为(式7-1)；

式7可以简写为(式8)

式8中：

为误差方程的系数；

为第一场景图像的外方位元素改正数；

X＝[d_X d_Y d_Z]^T为待求点三维坐标改正数；

L＝[l_x l_y]^T为误差方程的常数项；

对于加密点，只需列出误差方程式，赋权值为1；

对于控制点，列出误差方程式，还要列出虚拟误差方程式，赋权值为P；

虚拟误差方程式为(式9)：

法方程式的建立：

列出各类点的误差方程式后，按照最小二乘法原理建立法方程式，根据所确定出的至少一组特征点对中所包含的特征点，建立法方程式(式10)：其中，式10-1为加密点的法方程式，式10-2为控制点的法方程式；

式9-1可以简写为(式11)

(式11)进行展开消元可得改化法方程式为(式12)或(式13)：

根据式12可以求解出待求点对应的外方位元素改正数；式13可以求解出待求点对应的三维坐标改正数；将求解出的外方位元素改正数、三维坐标改正数分别和对应的预先设定的限差进行比较，直至求解出的外方位元素改正数、三维坐标改正数均小于对应的预先设定的限差则迭代完成，输出结果，根据输出结果确定深度信息。

其中，控制点为人为设置的点，控制点在世界坐标系中的坐标以及对应的单目图像采集设备的坐标是已知的；加密点为人为的从待求点中指定的点，加密点的三维坐标不能包含误差，需要重点建模。在实际应用中，可以设置控制点和/或加密点，也可以不设置控制点和/或加密点。当所需建模的场景中设置有加密点时，进行光束法平差算法的运算后，求解出的加密点对应的外方位元素改正数以及三维坐标改正数必须均小于对应的预先设定的限差，甚至需要加密点所对应的外方位元素改正数以及三维坐标改正数为“0”。

控制点在世界坐标系中的三维坐标是已知的，相当于提供了额外的迭代初值，设置控制点可以加快光束法平差算法的收敛速度，进一步的，提高场景建模的速度；将目标场景中的重要的目标对象设置为加密点，可以保证目标对象的建模的准确性。依据现有技术可知，针对控制点建立虚拟误差方程是为了使用控制点所提供的额外的迭代初值，加快光束法平差算法的收敛速度。

S104：根据深度信息，对该目标场景进行建模。

可以依据现有技术，根据深度信息，对该目标场景进行建模。

应用本发明实施例，获得单目图像采集设备在多个视点采集的场景图像以及单目图像采集设备在多个视点对应的姿态信息，其中，单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；从所获得的多个场景图像中的每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对，其中，每一特征点对中两个特征点对应的场景对象相同；根据所确定的至少一组特征点对所包含的每个特征点，以及该每个特征点所在场景图像对应的视点的姿态信息，确定目标场景的深度信息；根据深度信息，对所述目标场景进行建模。本发明实施例中，根据场景图像和该场景图像对应的姿态信息，可以确定出更优的迭代初值，减少运算过程中的迭代次数，并且，能够得到更准确的深度信息，进一步的，根据该深度信息可以建立更准确的场景模型。

所获得的场景图像对应的目标场景中可能存在运动对象，由于本发明实施例中利用的是单目图像采集设备在不同视点采集的场景图像进行建模。不同视点采集场景图像需要时间，运动对象的位置在不断进行变化，并且视点也进行了变化，即针对运动物体来说，单目图像采集设备在不同视点采集的场景图像中所包含的运动物体的位置也进行了变化，此时，运动对象的深度信息很难确定，因此，本发明实施例一般仅适用于静态场景或场景中的静止部分。当该场景图像对应的目标场景中存在运动物体时，单目图像采集设备需要在不同视点采集多张场景图像，以保证场景图像的数量，用于消除场景图像中的运动对象。

作为一种实现方式，可以采用时域中值滤波法，滤除场景图像中的运动对象，如图3A所示，所述获得单目图像采集设备在多个视点采集的场景图像步骤，可以包括：

S301：获得单目图像采集设备在每一视点采集的包含预定数量的图像的第一场景图像序列；

S302：针对每一第一场景图像序列，获得该第一场景图像序列的不同图像中的相同位置像素点的像素值；

S303：针对每一第一场景图像序列，确定所获得的相同位置像素点的像素值的中值；

S304：将所确定的中值确定为每一第一场景图像序列对应的场景图像中的相同位置像素点的像素值，得到每一第一场景图像序列对应的场景图像。

其中，利用时域中值滤波法滤除场景图像中的运动对象时，所利用的图像的数量最好为奇数，以便于更好的确定不同图像中相同位置像素点的像素值的中值。

如图3B所示，前三张为某一第一场景图像序列中的图像，最后一张为通过第一场景图像序列中的图像所确定的场景图像。其中，“1”、“5”、“9”和“A”为相同位置，1”、“5”和“9”处的像素点为第一场景图像序列中的不同图像中相同位置像素点，分别获得“1”、“5”和“9”处的像素点的像素值，确定“1”、“5”和“9”处的像素点的像素值的中值，将所确定的中值确定为场景图像中“A”处的像素点的像素值，进一步的，分别以上述方式，确定场景图像中“B”、“C”和“D”处的像素点的像素值，最终得到场景图像。其中，“2”、“6”、“10”和“B”为相同位置；“3”、“7”、“11”和“C”为相同位置；“4”、“8”、“12”和“D”为相同位置。

作为另一种实现方式，所述获得单目图像采集设备在多个视点采集的场景图像步骤，可以包括：

获得单目图像采集设备在每一视点采集的包含预定数量的图像的第二场景图像序列；

确定每一第二场景图像序列中的运动对象；

分别确定每一第三场景图像序列对应的场景图像。

可以理解的是，单目图像采集设备在某一视点采集第二场景图像序列时，该第二场景图像序列中的运动物体所在位置会发生变化，即运动物体在该第二场景图像序列所包含的每一张图像中的位置都不同，由此可以确定第二场景图像序列中的运动图像，然后再根据该第二场景图像序列所包含的每一张图像中的像素点的像素值，将运动对象滤除。

作为一种实现方式，所述分别确定每一第三场景图像序列对应的场景图像的步骤，可以包括：

或者，

需要强调的是，为了保证所获得的场景图像的清晰度，可以分别融合每一第三场景图像序列中的图像，得到对应的目标图像，并将所得到的目标图像分别确定为每一第三场景图像序列对应的场景图像。或者，分别从第三场景图像序列中随机选取一张图像，作为每一第三场景图像序列对应的场景图像，这都是可以的。

举例而言，获得单目图像采集设备分别在视点1处的采集的第二场景图像序列A，对应姿态信息a；视点2处采集的第二场景图像序列B，对应姿态信息b；视点3处采集的第二场景图像序列C，对应姿态信息c；第二场景图像序列A中包括50张图像；第二场景图像序列B中包括50张图像；第二场景图像序列C中包括50张图像；

分别滤除第二场景图像序列A、第二场景图像序列B和第二场景图像序列C中的运动对象，得到仅包括静止对象的第三场景图像序列A、第三场景图像序列B和第三场景图像序列C，其中，每个第三场景图像序列中分别包括50张图像；

针对第三场景图像序列A，将50张图像进行融合，获得第三场景图像序列A对应的场景图像，或者，从50张图像随机选取一张图像，将所选取的图像确定为第三场景图像序列A的场景图像；

针对第三场景图像序列B，将50张图像进行融合，获得第三场景图像序列B对应的场景图像，或者，从50张图像随机选取一张图像，将所选取的图像确定为第三场景图像序列B的场景图像；

针对第三场景图像序列C，将50张图像进行融合，获得第三场景图像序列C对应的场景图像，或者，从50图像张图像随机选取一张图像，将所选取的图像确定为第三场景图像序列C的场景图像。

作为一种实现方式，所得到的场景图像中可能会存在噪声，为了避免噪声对后续的特征点的提取与匹配，在获得场景图像后，还可以对场景图像进行去噪处理。其中，在对场景图像去噪时，可以采用现有技术中的双边滤波法。该双边滤波法在保留场景图像的边缘信息的同时，对场景图像进行去噪，可防止利用光束法平差算法进行运算时产生的误匹配，提高输出结果的精确度，进一步提高所得到的深度信息的精确度。

双边滤波(Bilateral filter)是一种非线性的滤波方法，是结合图像的空间邻近度和像素值相似度的一种折中处理，考虑了空域信息和灰度相似性等方面，达到保边去噪的目的。具有简单、非迭代、局部的特点。

采用双边滤波法进行滤波的双边滤波器的好处是：可以做边缘保存(edgepreserving)。利用维纳滤波法或者高斯滤波法降噪，都会较明显地模糊图像的边缘，对于图像的高频细节的保护效果并不明显。双边滤波法比高斯滤波法多了一个高斯方差sigma－d，双边滤波法是基于空间分布的高斯滤波函数，所以距离的边缘像素点较远的像素点，不会对边缘像素点产生太多影响，这样就保证了边缘附近像素点对应的像素值的完整性。然而，由于采用双边滤波法进行滤波时，保存了过多的高频信息，不能够彻底的滤掉彩色图像里的高频噪声。因此，双边滤波器只能够对于图像中的低频信息进行较好的滤波。

在采用双边滤波法进行滤波的双边滤波器中，输出像素点的像素值依赖于邻域中的像素点的像素值：

其中，所述g(i,j)表示滤波后的当前像素点的像素值，所述f(k,l)表示预设邻域中的像素点的像素值，所述w(i,j,k,l)表示双边滤波权重函数；其中，所述w(i,j,k,l)由定义域核和值域核相乘得到：

定义域核为：

其中，所述d(i,j,k,l)表示定义域核，所述i和j分别表示当前像素点的坐标，所述k和l分别表示预设邻域中的像素点的坐标，所述σ_d表示定义域方差；

值域核为：

其中，所述r(i,j,k,l)表示值域核所述f(i,j)表示当前像素点，所述f(k,l)表示预设邻域中的像素点，所述σ_r表示值域方差；

所述双边滤波权重函数：

相应于上述方法实施例，本发明实施例提供了一种场景建模的装置，如图4所示，所述装置可以包括：

第一获得模块410，用于获得单目图像采集设备在多个视点采集的场景图像，

第二获得模块420，用于获得所述单目图像采集设备在所述多个视点对应的姿态信息，其中，所述单目图像采集设备为可自动调整视点且可确定对应姿态信息的设备；

提取确定模块430，用于从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对，其中，每一特征点对中两个特征点对应的场景对象相同，所述每一特征点对是由第一场景图像的第一特征点与第二场景图像的第二特征点组成的；

信息确定模块440，用于根据所确定的至少一组特征点对所包含的每个特征点，以及所述每个特征点所在场景图像对应的视点的姿态信息，确定所述目标场景的深度信息；

建模模块450，用于根据所述深度信息，对所述目标场景进行建模。

作为一种实现方式，如图5所示，所述提取确定模块430包括第一选择单元431、第一确定单元432、第一提取单元433、第一匹配单元434和第二确定单元435；

所述第一选择单元431，用于从所获得的多个场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，所述第一预定条件包括：未被作为第一场景图像；

所述第一确定单元432，用于从所获得的除所述当前的第一场景图像外的其他多个场景图像中，确定与所述当前的第一场景图像存在重叠区域的至少一张第二场景图像；

所述第一提取单元433，用于在所述重叠区域内，提取所述当前的第一场景图像中的至少一个第一特征点，并提取每一第二场景图像中的至少一个第二特征点；

所述第一匹配单元434，用于将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配；

所述第二确定单元435，用于将相互匹配的第一特征点与第二特征点确定为一组特征点对。

作为一种实现方式，所述第一匹配单元，具体用于

分别计算所述至少一个第一特征点的第一欧氏距离；

作为一种实现方式，所述提取确定模块430包括第二选择单元、第二提取单元、第三提取单元、第二匹配单元、第三确定单元和第四确定单元；

作为一种实现方式，所述第二匹配单元，具体用于

作为一种实现方式，如图6所示，为第一获得模块410的一种结构示意图，所述第一获得模块410包括第一获得单元411、第二获得单元412、第五确定单元413和第六确定单元414；

所述第一获得单元411，用于获得所述单目图像采集设备在每一视点采集的包含预定数量的图像的第一场景图像序列；

所述第二获得单元412，用于针对每一第一场景图像序列，获得该第一场景图像序列的不同图像中的相同位置像素点的像素值；

所述第五确定单元413，用于针对每一第一场景图像序列，确定所获得的相同位置像素点的像素值的中值；

所述第六确定单元414，用于将所确定的中值确定为每一第一场景图像序列对应的场景图像中的相同位置像素点的像素值，得到每一第一场景图像序列对应的场景图像。

作为一种实现方式，所述第一获得模块410包括第三获得单元、第七确定单元、滤除获得单元和第八确定单元；

作为一种实现方式，所述第八确定单元，具体用于

或者，

作为一种实现方式，所述信息确定模块440包括构建单元、第九确定单元、第十确定单元和第十一确定单元；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种场景建模的方法，其特征在于，所述方法包括：

根据所述深度信息，对所述目标场景进行建模。

2.根据权利要求1所述的方法，其特征在于，所述从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对的步骤，包括：

从所述场景图像中，选择符合第一预定条件的一张图像作为当前的第一场景图像，其中，所述第一预定条件包括：未被作为第一场景图像；

从除所述当前的第一场景图像外的其他所述场景图像中，确定与所述当前的第一场景图像存在重叠区域的至少一张第二场景图像；

3.根据权利要求2所述的方法，其特征在于，所述将所提取的至少一个第一特征点分别与每一第二场景图像中的至少一个第二特征点进行匹配的步骤，包括：

分别计算所述至少一个第一特征点的第一欧氏距离；

4.根据权利要求1所述的方法，其特征在于，所述从每一场景图像中提取特征点；并根据所提取的特征点，确定出至少一组特征点对的步骤，包括：

从所述当前的第一场景图像中，提取至少一个第一特征点；

5.根据权利要求4所述的方法，其特征在于，所述将所述当前的第一场景图像的至少一个第一特征点，分别与所述每一其他场景图像中提取的至少一个第二特征点进行匹配的步骤，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获得单目图像采集设备在多个视点采集的场景图像步骤，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述获得单目图像采集设备在多个视点采集的场景图像步骤，包括：

确定每一第二场景图像序列中的运动对象；

分别确定每一第三场景图像序列对应的场景图像。

8.根据权利要求7所述的方法，其特征在于，所述分别确定每一第三场景图像序列对应的场景图像的步骤，包括：

或者，

9.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所确定的至少一组特征点对所包含的每个特征点，以及所述每个特征点所在场景图像对应的视点的姿态信息，确定所述目标场景的深度信息的步骤，包括：

根据所确定的第三坐标，确定所述目标场景的深度信息。

10.一种场景建模的装置，其特征在于，所述装置还包括：

11.根据权利要求10的装置，其特征在于，所述提取确定模块包括第一选择单元、第一确定单元、第一提取单元、第一匹配单元和第二确定单元；

12.根据权利要求11所述的装置，其特征在于，所述第一匹配单元，具体用于

分别计算所述至少一个第一特征点的第一欧氏距离；

13.根据权利要求10所述的装置，其特征在于，所述提取确定模块包括第二选择单元、第二提取单元、第三提取单元、第二匹配单元、第三确定单元和第四确定单元；

14.根据权利要求13所述的装置，其特征在于，所述第二匹配单元，具体用于

15.根据权利要求10-14任一项所述的装置，其特征在于，所述第一获得模块包括第一获得单元、第二获得单元、第五确定单元和第六确定单元；

16.根据权利要求10-14任一项所述的装置，其特征在于，所述第一获得模块包括第三获得单元、第七确定单元、滤除获得单元和第八确定单元；

17.根据权利要求16所述的装置，其特征在于，所述第八确定单元，具体用于

或者，

18.根据权利要求10-14任一项所述的装置，其特征在于，所述信息确定模块包括构建单元、第九确定单元、第十确定单元和第十一确定单元；