CN113362462B

CN113362462B - 一种基于自监督学习的双目立体视觉视差滤波方法和装置

Info

Publication number: CN113362462B
Application number: CN202110137271.1A
Authority: CN
Inventors: 杨力; 张月斓; 罗哉
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2024-04-05
Anticipated expiration: 2041-02-01
Also published as: CN113362462A

Abstract

本申请涉及一种基于自监督学习的双目立体视觉视差滤波方法和装置，包括：步骤1：在待处理图像上取一个像素点P，以所述像素点P为中心取一块矩形区域，将所述像素点P的坐标加上偏移量d，得到像素点M，以所述像素点M为中心在同一幅图像上取同样大小的一块矩形区域；步骤2：重复步骤1，得到两个矩形区域作为一对训练样本，取d₁作为该样本对的标签；步骤3：重复步骤1和步骤2，得到一定数量的训练样本对和对应标签；步骤4：将步骤3所述训练样本对和对应标签输入卷积神经网络模型，计算损失函数，得到所述卷积神经网络模型；步骤5：判断两个样本对是否为匹配，如果不匹配，将所述像素认定为噪点进行滤除。

Description

一种基于自监督学习的双目立体视觉视差滤波方法和装置

技术领域

本申请涉及计算机视觉领域，特别是涉及一种基于自监督学习的双目立体视觉视差滤波方法和装置。

背景技术

计算机视觉是一项关于如何运用照相机和计算机来获取生产经营所需的数据与信息的技术。随着计算机视觉技术的发展，计算机视觉在各种场景中都得到了广泛应用。双目立体视觉模拟人类的视觉系统，是计算机视觉领域重要分支。双目立体视觉技术是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息。目前双目立体视觉中的匹配过程容易产生误匹配，造成三维点云中出现噪点，这对三维几何信息的获取十分不利。其中有两种典型的情况容易发生误匹配：(1)当相机拍摄到近处的区域时，正确匹配点超过设定的最大视差，产生难以消除的误匹配。(2)极线校正不准，使得对应点不在一条水平线上，也极易造成误匹配。对于这种情况，现有技术通过设定更大的最大视差等方法进行解决，但是会对计算效率产生影响，使计算速度变慢，并且对计算机的内存需求较大。同时，一般传统的视差滤波方法对这些误匹配的处理存在一定的局限性。因此需要对图像进行滤波来滤除噪点。

目前针对相关技术中双目立体视觉中的匹配过程容易产生误匹配而造成三维点云中出现噪点的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于自监督学习的双目立体视觉视差滤波方法、装置、电子装置和存储介质，以至少解决相关技术中双目立体视觉中的匹配过程容易产生误匹配而造成三维点云中出现噪点的问题。

第一方面，本申请实施例提供了一种基于自监督学习的双目立体视觉视差滤波方法，包括：

步骤1：在待处理图像上取一个像素点P，以所述像素点P为中心取一块矩形区域，将所述像素点P的坐标加上偏移量d，得到像素点M，以所述像素点M为中心在同一幅图像上取同样大小的一块矩形区域，其中，所述待处理图像为通过双目相机采集到的左图和右图，所述坐标偏移差值d为二维向量，包含水平偏移量d1和垂直偏移量d2；

步骤2：重复步骤1，得到两个矩形区域作为一对训练样本，取d₁作为该样本对的标签；

步骤3：重复步骤1和步骤2，得到一定数量的训练样本对和对应标签；

步骤4：将步骤3所述训练样本对和对应标签输入卷积神经网络模型，计算损失函数，得到所述卷积神经网络模型，所述损失函数：

其中，d₀为水平偏移量阈值，λ为权重，L_match为交叉熵损失函数，L_d为欧几里得损失函数；

步骤5：通过立体匹配算法得到所述待处理图像左图每个像素点在右图中的匹配点，以两个所述匹配点为中心，分别在左图和右图各取一矩形区域形成样本对，将所述样本对输入卷积神经网络模型，得到该样本对是否匹配，如果不匹配，将所述像素认定为噪点进行滤除。

在其中一个实施例中，所述交叉熵损失函数的计算方法为：

L_match＝-(y_dlog(p)+(1-y_d)(1-log(p)))，

其中，p为所述卷积神经网络模型计算出的匹配概率，y_d为匹配标志：

在其中一个实施例中，所述欧几里得损失函数的计算方法为：

其中，为所述卷积神经网络模型输出的水平方向偏移量。

在其中一个实施例中，所述损失函数包含匹配结果的损失函数和偏移量结果的损失函数，其中，匹配结果为所述卷积神经网络模型输出的样本对与立体匹配算法得到的样本对匹配的结果。

在其中一个实施例中，所述步骤5中立体匹配算法包括代价计算、代价聚合、视差计算、视差优化。

第二方面，本申请实施例提供了一种基于自监督学习的双目立体视觉视差滤波装置，包括：

采样模块，用于在待处理图像上取一个像素点P，以所述像素点P为中心取一块矩形区域，将所述像素点P的坐标加上偏移量d，得到像素点M，以所述像素点M为中心在同一幅图像上取同样大小的一块矩形区域；

训练模块，用于将训练样本对和对应标签输入卷积神经网络模型，计算损失函数，得到卷积神经网络模型；

匹配模块，用于通过立体匹配算法得到待处理图像左图每个像素在右图中的匹配点，以两个匹配点为中心，分别在左图和右图各取一矩形区域形成样本对，将样本对输入卷积神经网络模型，得到样本对是否为匹配；判断模块，用于判断立体匹配算法获得的样本对与卷积神经网络模型得到样本对是否为匹配，如果不匹配，将像素认定为噪点进行滤除。

相比于相关技术，本申请能够对输入的双目视觉图像进行噪点滤波，解决了相关技术中双目立体视觉中的匹配过程容易产生误匹配而造成三维点云中出现噪点的问题，实现了对计算机双目视觉图像的优化。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于自监督学习的双目立体视觉视差滤波流程图；

图2是根据本申请实施例的基于自监督学习的双目立体视觉视差滤波装置结构图；

图3为根据本申请实施例的基于自监督学习的双目立体视觉视差滤波神经网络输入输出示意图；

图4为根据本申请实施例的基于自监督学习的双目立体视觉视差滤波卷积神经网络模型示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种基于自监督学习的双目立体视觉视差滤波方法。图1是根据本申请实施例的一种基于自监督学习的双目立体视觉视差滤波方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101：在待处理图像上取一个像素点P，以所述像素点P为中心取一块矩形区域，将所述像素点P的坐标加上偏移量d，得到像素点M，以所述像素点M为中心在同一幅图像上取同样大小的一块矩形区域，其中，所述待处理图像为通过双目相机采集到的左图和右图。

在本实施例中，所述坐标偏移差值d为二维向量，包含水平偏移量d₁和垂直偏移量d₂。

步骤S102：重复步骤1，得到两个矩形区域作为一对训练样本，取d₁作为该样本对的标签。

步骤S103：重复步骤1和步骤2，得到一定数量的训练样本对和对应标签。

步骤S104：将步骤3所述训练样本对和对应标签输入卷积神经网络模型，计算损失函数，得到所述卷积神经网络模型，所述损失函数：

其中，d₀为水平偏移量阈值，λ为权重，L_match为交叉熵损失函数，L_d为欧几里得损失函数。

步骤S105：通过立体匹配算法得到所述待处理图像左图每个像素点在右图中的匹配点，以两个所述匹配点为中心，分别在左图和右图各取一矩形区域形成样本对，将所述样本对输入卷积神经网络模型，得到该样本对是否匹配，如果不匹配，将所述像素认定为噪点进行滤除。

步骤S106：判断两个样本对是否为匹配，如果不匹配，将所述像素认定为噪点进行滤除。

在本实施例中，所述总损失函数的计算中，单个样本对的总损失函数L为匹配结果的交叉熵损失函数L_match和偏移量结果的欧几里得损失函数L_d的加权和。这样可以综合考虑到模型所得到的匹配结果和偏移量结果的准确率，及两者对最后结果不同程度的影响。

在本实施例中，所述的总损失函数的计算中，其特征在于，偏移量结果的欧几里得损失函数L_d仅在d₁<d₀时，即该对样品为匹配图像时才起作用；当d₁≥d₀时，匹配结果的交叉熵损失函数L_match即为总损失函数。因为仅当该对样品为匹配图像时，偏移量才可以经过模型得到较好的计算；否则，计算偏移量将没有意义。

在本实施例中，所述的总损失函数的计算中，匹配结果的损失函数运用了提供无偏估计的代理损失，即交叉熵损失函数。

在本实施例中，所述的总损失函数的计算中，偏移量结果的损失函数运用了欧几里得损失函数。因为该损失函数通过平方计算放大了估计值和真实值的距离，对偏离观测值的输出给予很大的惩罚。此外，欧几里得损失函数作为平滑函数，在求解其优化问题时有利于误差梯度的计算。

在本实施例中，在步骤S103选取训练样本时，会随机选取一较小值的垂直偏移量，是为了在极线校正不准的情况下也能较为准确地预测视差。

在其中一个实施例中，所述交叉熵损失函数的计算方法为：

L_match＝-(y_dlog(p)+(1-y_d)(1-log(p)))，

其中，为所述卷积神经网络模型输出的水平方向偏移量。

在其中一个实施例中，所述损失函数包含匹配结果的损失函数和偏移量结果的损失函数，其中，匹配结果为立体匹配算法得到的样本对是否匹配。

通过本实施例，上述的技术方案主要是先利用大量图像样本信息训练神经网络，之后利用训练完成的神经网络对待处理的图像进行处理，解决了相关技术中双目立体视觉中的匹配过程容易产生误匹配而造成三维点云中出现噪点的问题，实现了对计算机双目视觉图像的优化。

本实施例还提供了一种基于自监督学习的双目立体视觉视差滤波装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本申请实施例的基于自监督学习的双目立体视觉视差滤波装置的结构框图，如图2所示，该装置包括：采样模块21，用于在待处理图像上取一个像素点P，以所述像素点P为中心取一块矩形区域，将所述像素点P的坐标加上偏移量d，得到像素点M，以所述像素点M为中心在同一幅图像上取同样大小的一块矩形区域；训练模块22，用于将训练样本对和对应标签输入卷积神经网络模型，计算损失函数，得到卷积神经网络模型；匹配模块23，用于通过立体匹配算法得到待处理图像左图每个像素在右图中的匹配点，以两个匹配点为中心，分别在左图和右图各取一矩形区域形成样本对，将样本对输入卷积神经网络模型，得到样本对是否为匹配；判断模块24，用于判断立体匹配算法获得的样本对与卷积神经网络模型得到样本对是否为匹配，如果不匹配，将像素认定为噪点进行滤除。

图3为根据本申请实施例的基于自监督学习的双目立体视觉视差滤波神经网络输入输出示意图。如图3所示，以一对偏差为d的矩形区域为图像样本输入CNN卷积神经网络，得到两个输出结果：输出一为立体匹配算法和卷积神经网络算法得到的匹配结果，判断匹配结果则可以得到样本的噪点信息；输出二为图像的水平偏差值，能够通过水平偏差值计算损失函数，得到各项构建卷积神经网络模型的参数。

图4为根据本申请实施例的基于自监督学习的双目立体视觉视差滤波卷积神经网络模型示意图。如图4所示，首先，将所取的两个三通道图像块串联成6通道图像，作为神经网络模型的输入，经过卷积、ReLU和池化层，形成一组更深深度的特征映射图序列。再经过卷积和池化操作，最后进行全连接，输出训练样本对是否为匹配块，以及两个样本的相对水平偏移量。将得到的大量的训练样本对和标签输入模型进行训练，比较所得的损失函数，得到最优的模型参数。其中，卷积网络模型中的激活函数选用了ReLU函数，因为ReLU函数不会饱和，较其他函数收敛更快，可以提高计算效率。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

相比于现有技术，本申请具有以下优点：

1.本申请训练卷积神经网络完成对图像的处理，卷积神经网络模型的可靠性将会随着训练样本的增加而增加。

2.本申请通过封装系统的方式面向用户，用户只需要输入训练样本集和待处理图像即可实现功能，具有简单易操作的特点，学习成本较低。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于自监督学习的双目立体视觉视差滤波方法，其特征在于，包括：

步骤1：在待处理图像上取一个像素点P，以所述像素点P为中心取一块矩形区域，将所述像素点P的坐标加上偏移量d，得到像素点M，以所述像素点M为中心在同一幅图像上取同样大小的一块矩形区域，其中，所述待处理图像为通过双目相机采集到的左图和右图，所述的坐标偏移量d为二维向量，包含水平偏移量d₁和垂直偏移量d₂；

步骤2：重复步骤1，得到两个矩形区域作为训练样本对，取步骤1所述的水平偏移量d₁作为该样本对的标签；

步骤3：将步骤1和步骤2重复多次，得到一定数量的训练样本对和对应的标签；

步骤4：利用步骤3所述训练样本对和对应的标签训练卷积神经网络模型，计算损失函数，得到所述卷积神经网络模型，所述损失函数为

2.根据权利要求1所述的一种基于自监督学习的双目立体视觉视差滤波方法，其特征在于，所述交叉熵损失函数的计算方法为：

L_match＝-(y_dlog(p)+(1-y_d)(1-log(p)))，

其中，p为所述卷积神经网络模型计算出的匹配概率，0＜p＜1，y_d为匹配标志：

3.根据权利要求1所述的一种基于自监督学习的双目立体视觉视差滤波方法，其特征在于，所述欧几里得损失函数的计算方法为：

其中，为所述卷积神经网络模型输出的水平方向偏移量。

4.根据权利要求1所述的一种基于自监督学习的双目立体视觉视差滤波方法，其特征在于，所述步骤4～5分为两个阶段，第一阶段为卷积神经网络修正阶段，通过所述步骤4～5的操作优化卷积神经网络模型，第二阶段为待处理图像处理阶段，对所述待处理图像所有像素点通过卷积神经网络进行处理。

5.根据权利要求1所述的一种基于自监督学习的双目立体视觉视差滤波方法，其特征在于，所述步骤5中立体匹配算法包括代价计算、代价聚合、视差计算、视差优化。

6.一种采用权利要求1-5之一的基于自监督学习的双目立体视觉视差滤波方法的双目立体视觉视差滤波装置，其特征在于，包括：

匹配模块，用于通过立体匹配算法得到待处理图像左图每个像素在右图中的匹配点，以两个匹配点为中心，分别在左图和右图各取一矩形区域形成样本对，将样本对输入卷积神经网络模型，得到样本对是否为匹配；

判断模块，用于判断立体匹配算法获得的样本对与卷积神经网络模型得到样本对是否为匹配，如果不匹配，将像素认定为噪点进行滤除。