CN112767421B

CN112767421B - 结合语义信息的立体影像密集匹配方法及系统

Info

Publication number: CN112767421B
Application number: CN202110057385.5A
Authority: CN
Inventors: 洪竞科; 肖长林; 黄旭
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-09-15
Anticipated expiration: 2041-01-15
Also published as: CN112767421A

Abstract

本申请提供一种立体影像密集匹配方法及系统，方法包括：确定基准影像和参考影像，并将所述基准影像及参考影像重采样化为核线立体影像；基于基准影像及参考影像重采样化后的核线立体影像，构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation；根据所述密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation确定全局能量函数，并求取其最优解，得到语义三维重建结果，本方案，在密集匹配中加入语义分割约束，在语义分割中加入密集匹配的高程信息，有效提高密集匹配和语义分割的精度，从而保证了三维重建的精度。

Description

结合语义信息的立体影像密集匹配方法及系统

技术领域

本申请涉及立体影像密集匹配技术领域，尤其涉及一种结合语义信息的立体影像密集匹配方法及系统。

背景技术

立体影像密集匹配是一种在立体影像之间，逐像素地寻找同名点的过程。立体影像密集匹配是计算机视觉和摄影测量领域的热点研发课题，在高精度三维重建行业，如测绘制图、国防军事、无人自动驾驶、无人机自动巡航、3D打印、虚拟现实、导航定位等有着广泛的应用。

立体影像密集匹配一般是通过影像的灰度特征相似性，来寻找同名像素。但是，在影像灰度特征不明显的区域(比如：阴影区域、河流区域、湖泊区域、雪地区域等等)，立体影像密集匹配的精度会大幅度下降，从而影响三维重建的精度！

综上所述，现有技术方案中的立体影像密集匹配方案的匹配精度较低。

发明内容

本申请提供一种结合语义信息的立体影像密集匹配方法及系统，以解决现有技术方案中的立体影像密集匹配方案的匹配精度较低的技术问题。

第一方面，根据本申请实施例提供一种结合语义信息的立体影像密集匹配方法,包括：

步骤S1、确定基准影像和参考影像，并将所述基准影像及参考影像重采样化为核线立体影像；

步骤S2、基于基准影像及参考影像重采样化后的核线立体影像，构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation；

步骤S3、根据所述密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation确定全局能量函数，并求取其最优解，得到语义三维重建结果。

在一个实施例中，所述构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation，包括：

根据基准影像的像素p与参考影像上像素p的同名像素p-d_p的匹配代价确定参考影像与基准影像的密集匹配数据项E_{match_data}，采用的第一数学模型为：

其中，I_L表示基准影像，I_R表示参考影像，d_p表示基准影像上像素p所对应的视差，D表示基准影像上所有像素视差的集合，C(p,d_p)表示基准影像上像素p与参考影像上的同名像素p-d_p之间的匹配代价。

在一个实施例中，在根据基准影像的像素p与参考影像上像素p的同名像素p-d_p的匹配代价确定参考影像与基准影像的密集匹配数据项E_{match_data}之前，所述方法，还包括：

采用Census算子方法求取基准影像上像素p与相关像素q_i之间的灰度差；采用的第二数学模型为：

其中，所述相关像素q_i为与以像素p为九宫格中心像素的边缘像素；

根据所述灰度差，求取基准影像的像素p与参考影像上像素p的同名像素p-d_p之间的汉明距离，采用的第三数学模型为：

C(p,d_p)＝||Census(p)-Census(p-d_p)||_H

其中，|| ||_H表示汉明距离，q₁,...,q_N表示以像素p为九宫格中心像素的边缘像素；表示像素p与相关像素q_i之间的Census描述符。

求取所述密集匹配平滑项E_{match_smooth}；采用的第四数学模型为：

其中，D表示基准影像上所有像素视差的集合；W_m表示密集匹配平滑项中的惩罚因子，p表示基准影像上的像素，N_p表示以像素p为九宫格中心像素的边缘像素的集合，q_i表示像素p的邻域像素，d_p表示基准影像上像素p所对应的视差，d_qi表示基准影像上像素q_i所对应的视差。

构建结合语义信息的立体影像密集匹配全局能量函数中的语义分割数据项E_{semantic_data}，采用的第五数学模型为：

其中，L表示基准影像上所有像素类别的集合；S(p,l_p)表示基准影像上像素p对应类别l_p语义分割代价，采用U-Net网络方法计算得到。

构建结合语义信息的立体影像密集匹配全局能量函数中的语义分割平滑项E_{semantic_smooth}，采用的第六数学模型为：

其中，L表示基准影像上所有像素语义分割类别的集合；P'表示语义分割平滑项中的惩罚因子，N_p表示像素p的邻域像素集合，q_i表示像素p的邻域像素，i＝1,2，…，N，一般情况下，N＝8；l_p表示基准影像上像素p所对应的语义分割类别，l_qi表示基准影像上像素q_i所对应的语义分割类别。

构建结合语义信息的立体影像密集匹配全局能量函数中的密集匹配和语义分割的互相关项E_correlation(D，L)，采用的数学模型为：

其中，I_L表示基准影像；D表示基准影像上所有像素视差的集合；L表示基准影像上所有像素语义分割类别的集合；p表示基准影像上的像素，N_p表示像素p的邻域像素集合，q_i表示像素p的邻域像素，l_p表示基准影像上像素p所对应的语义分割类别，l_qi表示基准影像上像素q所对应的语义分割类别；i＝1,2,…N；d_p表示基准影像上像素p所对应的视差，d_q表示基准影像上像素q所对应的视差；δ(l₁,l₂)是二值化算子，l₁,l₂是该算子的两个参数；P₁,P₂表示密集匹配和语义分割的互相关项中的两个惩罚因子。

在一个实施例中，所述全局能量函数，为：

E(D,L)＝E_{match_data}(D)+E_{match_smooth}(D)+E_{semantic_data}(L)+E_{semantic_smooth}(L)+E_correlation(D,L)；

所述求取全局能量函数的最优解，包括：

针对基准影像的像素p，确定使全局能量函数值最小所对应的视差值，针对像素p及所述视差值，确定像素p对应的标准影像上的同名像素。

在一个实施例中，所述确定基准影像和参考影像，包括：

确定左视图图像为基准影像，右视图为参考影像。

第二方面，根据本申请实施例提供一种结合语义信息的立体影像密集匹配系统，包括：

影像获取单元，确定基准影像和参考影像，并将所述基准影像及参考影像重采样化为核线立体影像；

相关项构建单元，用于基于基准影像及参考影像重采样化后的核线立体影像，构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation；

最优解求解单元，根据所述密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation确定全局能量函数，并求取其最优解，得到语义三维重建结果。

本申请实施例提供的结合语义信息的立体影像密集匹配方法及系统，在语义分割中加入高程约束，而密集匹配可以提供高程约束，因此，本方案，在密集匹配中加入语义分割约束，在语义分割中加入密集匹配的高程信息，有效提高密集匹配和语义分割的精度，从而保证了三维重建的精度。

附图说明

本申请所提供的说明书附图用于解释本申请，应该理解的是，如下所描述的具体实施例为构成本申请的一部分实施例，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种结合语义信息的立体影响密集匹配方法的流程图；

图2为本申请实施例提供的再一种结合语义信息的立体影响密集匹配系统的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请实施例提供的技术方案。

本申请实施例提供一种结合语义信息的立体影像密集匹配方法，参见图1所示，包括：

在本申请实施例中，基准影像及参考影像可以采用卫星影像、航拍影像、无人机影像等。首先在两张影像中选择基准影像和参考影像。一般选择左视影像为基准影像，选择右视影像为参考影像。然后将立体影像重采样成核线立体影像，采样的方法可以采用开源的代码库OpenCV中的initUndistortRectifyMap()函数。基准影像及参考影像可以是同一个摄像机不同角度针对同一目标物的摄像，也可以是设置在不同位置的两个摄像机针对同一目标物的摄像，通过重采样化之后，基准影像中像素p及参考影像中像素p的同名像素位于同一水平方向的行内。

在本申请实施例中，在对基准影像及参考影像进行重采样化成核线立体影像之后，构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation，进而结合语义分割及密集匹配的方法根据参考影像对基准影像中的像素进行匹配。

在本申请实施例中，先根据构建的密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation确定全局能量函数。然后求解使全局能量函数最小所对应的视差，基于步骤S1中已经将参考影像上的像素p与基准影像上像素p的同名像素整合到同一行中，则可根据求取的视差很容易确定基准影像中像素p的同名像素，从而实现三维重建。

在本申请一个实施例中，所述构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation，包括：

密集匹配数据项用来描述基准影像的每个像素，与参考影像上的同名像素之间的灰度特征非相似性测度。如果密集匹配数据项越大，说明该像素与参考影像上同名像素之间越不相似；反之，说明同名像素之间越相似。

在本申请一个实施例中，在根据基准影像的像素p与参考影像上像素p的同名像素p-d_p的匹配代价确定参考影像与基准影像的密集匹配数据项E_{match_data}之前，所述方法，还包括：

采用Census算子方法求取基准影像上像素p与相关像素之间的灰度差；采用的第二数学模型为：

其中，所述相关像素为与以像素p为九宫格中心像素的边缘像素，q_i表示以像素p为九宫格中心像素的边缘像素；表示像素p与周围点q_i之间的Census描述符；

C(p,d_p)＝||Census(p)-Census(p-d_p)||_H

其中，|| ||_H表示汉明距离。

在此指出，在本申请中，为了与语义分割代价统一，需要对Census匹配代价进行归一化，即将Census匹配代价除以Census匹配窗口的大小，具体如下所示：

C_normalize(p,d_p)＝||Census(p)-Census(p-d_p)||_H/w²

其式中，C_normalize表示归一化后的Census匹配代价；w表示窗口大小，如可采用7×7大小的窗口。

其中，D表示基准影像上所有像素视差的集合；W_m表示密集匹配平滑项中的惩罚因子，p表示基准影像上的像素，N_p表示像素p的邻域像素集合，q_i表示像素p的邻域像素，就是九宫格像素中的非中心点像素的集合；d_p表示基准影像上像素p所对应的视差，d_qi表示基准影像上像素q_i所对应的视差。在整个方案中，惩罚因子W_m是统一的，可以根据实际需求设定惩罚因子的值，如可设置为0.2等。

在本申请实施例中，平滑项E_{match_smooth}用于保证基准影像上相邻像素之间的视差连续平滑。

在本申请中，语义分割数据项E_{semantic_data}用于描述基准影像的每个像素对应于语义分割类别的代价。如果语义分割数据项越大，说明该像素对应该类别的可能性越小；反之，说明该像素对应该类别的可能性越大。

其中，L表示基准影像上所有像素语义分割类别的集合；W_s表示语义分割平滑项中的惩罚因子，N_p表示像素p的邻域像素集合，q_i表示像素p的邻域像素，l_p表示基准影像上像素p所对应的语义分割类别，l_qi表示基准影像上像素q_i所对应的语义分割类别。W_s表示语义分割平滑项中的惩罚因子，可依据实际需求进行设定，如可设置为0.2。

在本申请中，语义分割平滑项E_{semantic_smooth}用于保证基准影像上相邻像素之间的语义分割结果连续平滑。

其中，I_L表示基准影像；D表示基准影像上所有像素视差的集合；L表示基准影像上所有像素语义分割类别的集合；p表示基准影像上的像素，N_p表示该像素p的邻域像素集合，q_i表示该像素p的邻域像素，l_p表示基准影像上像素p所对应的语义分割类别，l_qi表示基准影像上像素q所对应的语义分割类别；d_p表示基准影像上像素p所对应的视差，d_qi表示基准影像上像素q_i所对应的视差；δ(l₁,l₂)是二值化算子，l₁,l₂是该算子的两个参数；P₁,P₂表示密集匹配和语义分割的互相关项中的两个惩罚因子，本申请中P₁,P₂可以统一定义为0.2。

密集匹配和语义分割的互相关项E_correlation用于将密集匹配结果和语义分割结果互相关联，从而实现两者的互相约束，从而同时提高密集匹配和语义分割的精度。

在本申请一个实施例中，所述全局能量函数，为：

所述求取全局能量函数的最优解，包括：

在本申请中，采用图割算法，求解全局能量函数的最优解。

在本申请一个实施例中，所述确定基准影像和参考影像，包括：

确定左视图图像为基准影像，右视图为参考影像。

本申请实施例提供的结合语义信息的立体影像密集匹配方法，在语义分割中加入高程约束，而密集匹配可以提供高程约束，因此，本方案，在密集匹配中加入语义分割约束，在语义分割中加入密集匹配的高程信息，有效提高密集匹配和语义分割的精度，从而保证了三维重建的精度。

第二方面，根据本申请实施例提供一种结合语义信息的立体影像密集匹配系统，参见图2所示，包括：

影像获取单元21，确定基准影像和参考影像，并将所述基准影像及参考影像重采样化为核线立体影像；

相关项构建单元22，用于基于基准影像及参考影像重采样化后的核线立体影像，构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation；

最优解求解单元23，根据所述密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation确定全局能量函数，并求取其最优解，得到语义三维重建结果。

在此指出，本申请实施例为上一方法实施例所对应的系统实施例，在上一方法实施例中公开的内容在本系统实施例中同样适用，为了避免重复，在此不予赘述。

本申请实施例提供的结合语义信息的立体影像密集匹配系统，在语义分割中加入高程约束，而密集匹配可以提供高程约束，因此，本方案，在密集匹配中加入语义分割约束，在语义分割中加入密集匹配的高程信息，有效提高密集匹配和语义分割的精度，从而保证了三维重建的精度。

需要说明的是，以上是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，凡是依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化与修饰，均属于申请技术方案的范围内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅以一较佳实施例对本申请的技术方案进行介绍，但是对于本领域的一般技术人员，依据本申请实施例的思想，应能在具体实施方式上及应用范围上进行改变，故而，综上所述，本说明书内容部不应该理解为本申请的限制，凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.结合语义信息的立体影像密集匹配方法,其特征在于，包括：

步骤S3、根据所述密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation确定全局能量函数，并求取其最优解，得到语义三维重建结果；

所述构建密集匹配数据项E_{match_data}、密集匹配平滑项E_{match_smooth}、语义分割数据项E_{semantic_data}、语义分割平滑项E_{semantic_smooth}及密集匹配和语义分割的互相关项E_correlation，包括：

其中，I_L表示基准影像，d_p表示基准影像上像素p所对应的视差，D表示基准影像上所有像素视差的集合，C(p,d_p)表示基准影像上像素p与参考影像上的同名像素p-d_p之间的匹配代价；

其中，D表示基准影像上所有像素视差的集合；W_m表示密集匹配平滑项中的惩罚因子，p表示基准影像上的像素，N_p表示以该像素p为九宫格中心像素的边缘像素的集合，q_i表示该像素p的邻域像素，d_p表示基准影像上像素p所对应的视差，d_qi表示基准影像上像素q_i所对应的视差；

其中，L表示基准影像上所有像素类别的集合；S(p,l_p)表示基准影像上像素p对应类别l_p语义分割代价，采用U-Net网络方法计算得到；

其中，L表示基准影像上所有像素语义分割类别的集合；P'表示语义分割平滑项中的惩罚因子，N_p表示像素p的邻域像素集合，q_i表示像素p的邻域像素，l_p表示基准影像上像素p所对应的语义分割类别，l_qi表示基准影像上像素q所对应的语义分割类别；

其中，I_L表示基准影像；D表示基准影像上所有像素视差的集合；L表示基准影像上所有像素语义分割类别的集合；p表示基准影像上的像素，N_p表示该像素p的邻域像素集合，N_P表示该像素p的邻域像素集合，l_p表示基准影像上像素p所对应的语义分割类别，l_qi表示基准影像上像素q所对应的语义分割类别；d_p表示基准影像上像素p所对应的视差，d_qi表示基准影像上像素q_i所对应的视差；δ(l₁,l₂)是二值化算子，l₁,l₂是该算子的两个参数；P₁,P₂表示密集匹配和语义分割的互相关项中的两个惩罚因子。

2.根据权利要求1所述的方法，其特征在于，在根据基准影像的像素p与参考影像上像素p的同名像素p-d_p的匹配代价确定参考影像与基准影像的密集匹配数据项E_{match_data}之前，所述方法，还包括：

其中，所述相关像素为与以像素p为九宫格中心像素的边缘像素；

C(p,d_p)＝||Census(p)-Census(p-d_p)||_H

其中，||||_H表示汉明距离，q₁,...,q_N表示以像素p为九宫格中心像素的边缘像素；表示像素p与周围点q_i之间的Census描述符。

3.根据权利要求1所述的方法，其特征在于，所述全局能量函数，为：

所述求取全局能量函数的最优解，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定基准影像和参考影像，包括：

确定左视图图像为基准影像，右视图为参考影像。

5.结合语义信息的立体影像密集匹配系统，基于权利要求1-4任一项所述的结合语义信息的立体影像密集匹配方法，其特征在于，包括：