CN113435573B

CN113435573B - 内窥镜图像的视差预测模型建立方法及深度估计方法

Info

Publication number: CN113435573B
Application number: CN202110630910.8A
Authority: CN
Inventors: 石洪宽; 李强
Original assignee: Huazhong University of Science and Technology; Wuhan United Imaging Zhirong Medical Technology Co Ltd
Current assignee: Huazhong University of Science and Technology; Wuhan United Imaging Zhirong Medical Technology Co Ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-04-29
Anticipated expiration: 2041-06-07
Also published as: CN113435573A

Abstract

本发明公开了一种内窥镜图像的视差预测模型建立方法及深度估计方法，属于图像处理领域，包括：建立视差预测网络DEnet，其以双目图像为输入，用于预测对应的左目图像视差图；利用已标注的第一训练数据集对DEnet进行预训练；以预训练后的DEnet为生成器建立生成对抗网络，其中的判别器输入为左目图像及其视差图，视差图由标注得到或生成器预测得到，判别器用于判断输入视差图的来源；利用部分标注的第二训练数据集对生成对抗网络进行训练后，将生成器记为Teacher模型；以预训练后的DEnet为Student模型，利用Teacher模型为第二训练数据集中未标注的样本标注伪标签后对Student模型进行训练，将训练后的Student模型或者Teacher模型作为视差预测模型。本发明能够有效提高内窥镜图像深度估计的精度。

Description

内窥镜图像的视差预测模型建立方法及深度估计方法

技术领域

本发明属于图像处理领域，更具体地，涉及一种内窥镜图像的视差预测模型建立方法及深度估计方法。

背景技术

随着外科手术向微创化的方向发展，内窥镜被大量应用在临床手术中。医生只需在患者体表切开几个创口，将内窥镜伸入患者体内，并在其拍摄图像的引导下操作器械完成手术。相比于传统的开放式手术，微创外科手术具有创口小、痛苦少、恢复快以及感染率低的优点。微创手术中传统内窥镜拍摄的是二维图像。此类图像往往存在畸变大，缺少深度感的缺点。因此无法为医生提供直观的场景深度信息，容易导致医生在手术过程中误判关键部位与器械的相对位置，进而操作失误造成内部器官出血。

正因上述原因，近年来双目内窥镜在微创手术中得到了大量应用。这种内窥镜使用两个图像采集单元拍摄目标，并将采集的图像传送到特殊的显示设备中，为医生提供三维影像。与此同时，如果能提供手术场景的深度信息，则可以帮助医生更好判断器械与组织的相对位置，大大降低手术风险，缩短手术时间。同时重建的手术场景还可以用于与术前模型配准，手术训练以及增强现实应用等。

目前使用双目相机进行深度估计的原理是：在双目相机拍摄的两张图像中，找出匹配的对应点，通过计算两张图中对应点像素位置差值得出视差，再根据相机固有参数计算出该点的深度值。传统方法基于以上原理，在自然图像中取得了良好的效果。但这类方法高度依赖于目标纹理，并假设目标表面平滑，而内窥镜图像存在大量反光，并且会出现手术器械、组织器官等距离镜头非常近的物体视差较大，导致重建难度较大。因此使用传统方法对内窥镜拍摄的图像进行重建时，往往会由于反光、器械遮挡以及纹理特征少等因素，导致估计值存在大量误差。

近年来，卷积神经网络(Convolutional Neural Network，CNN)在包括双目深度估计在内的诸多复杂问题上都取得了良好效果。对于双目深度估计而言，有监督的CNN将上下文信息进行多尺度融合，进而获得较传统方法更好的性能。但训练深度估计网络需要大量深度数据作为标签，这些标签数据在实际中很难获得。尤其是在体内环境中，一般只有少量内窥镜图像具有对应的深度标签。因此，如何利用仅存在稀疏标签的数据集上训练得到能够精确估计内窥镜图像深度的网络模型，是一个亟待解决的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种内窥镜图像的视差估计模型建立方法及深度估计方法，其目的在于，有效解决由于训练样本过少而导致网络对于内窥镜图像的深度估计精度差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于稀疏标签的内窥镜图像视差预测模型建立方法，包括：

建立视差预测网络DEnet，并利用第一训练数据集对视差预测网络DEnet进行预训练；视差预测网络以双目图像为输入，用于预测输入的双目图像中每个像素对应的视差值，得到视差图；第一训练数据集中的样本为已经过畸变矫正和极线矫正，且已标注左目图像视差图的双目图像；

以预训练后的视差预测网络DEnet为生成器，建立生成对抗网络，并利用第二训练数据集对生成对抗网络进行训练，将训练后的生成对抗网络中的生成器记为Teacher模型；生成对抗网络中，判别器的输入为左目图像及其视差图构成的图像对，其中的图像视差图为标注的视差图，或者由生成器预测得到的视差图，判别器用于判断输入的视差图的来源；第二训练数据集中的样本为已经过畸变矫正和极线校正的双目图像，其中部分样本已标注了左目图像视差图，已标注样本的比例不超过预设的第一阈值，且样本随深度呈长尾分布；

将Teacher模型作为内窥镜图像视差预测模型，或者，利用Teacher模型预测第二训练数据集中未标注的样本对应的左目图像视差图作为伪标签，得到第三训练数据集；以预训练后的视差预测网络DEnet为Student模型，并利用第三训练数据集对其进行训练，将训练后的Student模型作为内窥镜图像视差预测模型。

本发明所提供的基于稀疏标签的内窥镜图像视差预测模型建立方法，会首先建立用于预测双目图像视差图的视差预测网络DEnet并对其进行预训练；考虑到内窥镜数据集存在大量无标签图像，利用这些无标签图像对预训练后的视差预测网络DEnet进行进一步训练对于保证视差估计精度十分有必要，因此，在本发明的其中一个方案中，会将预训练后的视差预测网络DEnet作为生成器，建立生成对抗网络，并利用第二训练数据集对其进行训练，由于第二训练数据集中，仅少部分样本标注了视差图，大部分样本未标注视差图，且样本随深度呈长尾分布，该训练数据集与实际的内窥镜数据集特性一致，利用该训练数据集对预训练后的视差预测网络DEnet进行进一步的半监督训练，将训练后的生成器作为内窥镜图像视差预测模型，能够使模型预测的视差图更接近真实标签的分布，从而有效提高对内窥镜图像视差估计的精度。

为了进一步提高对内窥镜图像视差估计的精度，在本发明的另一个方案中，利用第二训练数据集对预训练后的视差预测网络DEnet做进一步训练后，将训练得到的模型作为Teacher模型，为第二训练数据集中未标注的样本标注伪标签，由于Teacher模型已经具有了较高的视差估计精度，其所标注的伪标签质量较高，因此，经过伪标签标注，能够将该训练数据集转换为与内窥镜图像分布相同、且都标注了标签信息的第三数据集；之后以预训练后的视差预测网络DEnet作为Student模型，利用第三训练数据集对该Student模型进行进一步训练，将训练后的Student模型作为内窥镜图像视差预测模型，视差预测精度得到了进一步提升。

进一步地，本发明提供的基于稀疏标签的内窥镜图像视差预测模型建立方法，内窥镜图像视差预测模型为训练后的Student模型时，以预训练后的视差预测网络DEnet为生成器，建立生成对抗网络，并利用第二训练数据集对生成对抗网络进行训练时，还包括：建立置信度网络，并随生成对抗网络一起训练置信度网络；置信度网络用于预测生成器输出的视差图中各像素视差的置信度；置信度的取值范围为[0,1]，且置信度越高，相应的像素视差的预测结果越准确；

并且，第三训练数据集对Student模型进行训练时，若输入的样本为标注了伪标签的双目图像，则利用训练后的置信度网络获得该伪标签中各像素视差的置信度，并在计算相应的损失值时作为像素视差的预测误差的权重。

虽然Teacher模型在生成对抗网络中判别器的帮助下，可以更好地预测无标签双目图像的视差，但所预测的视差图中仍然存在一定的噪声，本发明在训练Teacher模型的同时，会建立并训练置信度网络，用于预测Teacher模型预测的视差图中各像素视差的置信度，在借助Teacher模型标注的伪标签对Student模型进行训练时，会将练置信度网络预测的置信度信息作为伪标签的权重，由此能够有效抑制由于伪标签中的噪声而引入的误差，进一步提高Student模型的训练效果，提高其对于内窥镜图像视差的预测精度。

进一步地，内窥镜图像视差预测模型为训练后的Student模型时，利用第三训练数据集对Student模型进行训练时，若输入的样本为原始的已标注的样本，则相应的损失值为：

若输入的样本为标注了伪标签的样本，则相应的损失值为：

L_stu＝C·L_sup(d_s,DEnet_T(I_l,I_r))；

其中，d_s表示Student模型预测的视差值，

表示标注的真实视差，DEnet_T(I_l,I_r)表示由Teacher模型标注的伪标签，C表示由置信度网络输出的伪标签中各像素视差的置信度；L_sup表示视差预测结果与标注结果之间的误差。

本发明在对Student模型进行训练时，根据输入样本不同的标注情况，会采用不同的方式计算损失值，对于原始的已标注的样本，即标注了真实视差图的样本，则直接以预测视差与标注视差之间的误差作为损失值；对于标注了伪标签的样本，则在预测视差与伪标签之间的误差的基础上，会乘以置信度，以抑制伪标签中的噪声；通过这样的损失计算方式，能够在Student模型的训练过程中有效抑制由于伪标签中的噪声而引入的误差，进一步提高Student模型的训练效果，提高其对于内窥镜图像视差的预测精度。

进一步地，

其中，N表示有标记的像素总数，d表示预测的视差值，

表示标注的视差值，

为像素的权重，且位于较远区域的像素具有较大的权重；

表示平滑L1损失。

考虑到由于医生经常操作内窥镜观察近处的组织或器官，导致体内环境的深度存在长尾效应，即小深度范围往往存在大量的像素点，常规的损失函数计算方式中，往往对于所有的像素点赋予同样的权重，这会导致模型更倾向于预测小深度值，使得模型的整体预测精度不高；本发明在计算预测视差与标注的视差值之间的误差时，引入像素权重，并且对于较远区域的像素赋予更大的权重，能够使得在模型训练过程中，更加关注大深度区域的像素点，从而训练结束后，对于较远的大深度区域中的像素点的视差也能准确预测，因此，本发明能够进一步提高模型对于内窥镜图像的视差预测精度。

进一步地，α_d为归一化后的像素视差值。

本发明以归一化后的像素视差值作为像素权重

中的α_d，能够准确、简单地赋予像素权重，保证位于较远区域的像素具有较大的权重。

进一步地，利用第二训练数据集对生成对抗网络进行训练时，若输入生成器的样本为已标注的样本，则相应的损失值为：

若输入生成器的样本为未标注的样本，则相应的损失值为：

L_uns＝minD_w；

其中，N表示有标记的像素总数，d表示预测的视差值，

表示标注的视差值；

为像素的权重，且位于较远区域的像素具有较大的权重；

表示平滑L1损失；D_w表示Wasserstein距离。

进一步地，本发明的基于稀疏标签的内窥镜图像视差预测模型建立方法，还包括：

将第二数据集中的双目图像转换到HIS色域后，将其中饱和度值小于预设的第二阈值且强度值大于预设的第三阈值的像素识别为反光点；

利用第二数据集训练Teacher模型，或者利用第三数据集训练Student模型时，被识别为反光点的像素不参与损失计算。

在腹腔镜手术中，照明一般使用的是点光源，点光源会在组织表面反射，反光的部分会干扰网络的训练，本发明预先识别图像中由反光点组成的高光区域，并在计算损失函数时将高光区域去除，能够避免高光区域对训练过程的干扰，进一步提高模型的预测精度。

进一步地，视差预测网络DEnet包括：左目特征提取模块，右目特征提取模块，特征拼接模块，级联的M个3D Atten CNN模块，以及输出模块；

左目特征提取模块和右目特征提取模块为权值共享的模块，且均包含残差网络；左目特征提取模块用于提取左目图像中不同尺度的特征，并对其上下文间信息进行融合，得到左目图像的特征图；右目特征提取模块用于提取右目图像中不同尺度的特征，并对其上下文间信息进行融合，得到右目图像的特征图；

特征拼接模块，用于按照预设的视差范围D将左目图像的特征图和右目图像的特征图进行逐像素拼接，得到特征立方体；

3D Atten CNN模块，用于利用通道注意力机制增强输入的特征立方体中通道之间的相关性；

输出模块以最后一个3D Atten CNN模块输出的特征立方体为输入，用于计算每个像素在视差范围D内的视差值以及像素在每个视差值的概率，并计算视差范围D内的视差期望作为对应像素的视差预测结果。

进一步地，3D Atten CNN模块包括：多个三维卷积层和多个三维反卷积层构成的编码-解码结构，以及位于编码-解码结构中间的通道注意力机制模块；3D Atten CNN模块中还包括用于防止梯度消失的跳跃连接。

按照本发明的另一个方面，提供了一种内窥镜图像深度估计方法，包括：

将内窥镜拍摄得到的双目图像进行畸变矫正和极线矫正后，输入至本发明提供的基于稀疏标签的内窥镜图像视差预测模型建立方法建立得到的内窥镜图像视差预测模型，以获得视差图；

将视差图转换为各像素的深度值，得到内窥镜图像的深度估计结果。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的基于稀疏标签的内窥镜图像视差预测模型建立方法，会首先建立用于预测双目图像视差图的视差预测网络DEnet并对其进行预训练，在此基础上，建立生成对抗网络，并利用与实际的内窥镜数据集特性一致的第二训练数据集对生成对抗网络中预训练后的视差预测网络DEnet进行半监督训练，将训练后的生成器作为内窥镜图像视差预测模型，能够使模型预测的视差图更接近真实标签的分布，从而有效提高对内窥镜图像视差估计的精度。

(2)本发明所提供的基于稀疏标签的内窥镜图像视差预测模型建立方法，在利用仅含稀疏标签的训练数据集对预训练后的视差预测网络DEnet进行半监督训练后，以训练得到的模型为Teacher模型，利用该Teacher模型为稀疏标签的数据集上标注伪标签，并以预训练后的视差预测网络DEnet为Student模型，利用标注了伪标签的数据集对其进行训练，能够进一步提高模型对于内窥镜视差的预测精度。

(3)本发明中，通过半监督训练得到的Teacher模型，充分利用了无标签图像进行训练，使网络可以更好预测无标签图像的深度，并将其作为伪标签；同时提出置信度网络Confnet对伪标签进行置信度评估，并将置信度作为预测值的权重，从而抑制了伪标签中的噪声，进一步提高了模型的预测精度。

(4)本发明在模型的训练过程中，提出了基于深度感知的标签损失，具体地，通过在计算预测视差与标注的视差值之间的误差时，引入像素权重，并且对于较远区域的像素赋予更大的权重，能够使得在模型训练过程中，更加关注大深度区域的像素点，从而训练结束后，对于较远的大深度区域中的像素点的视差也能准确预测，因此，本发明能够进一步提高模型对于内窥镜图像的视差预测精度。

(5)本发明会预先检测训练数据中的高光区域，并在模型训练过程中，会在计算损失值时去除高光区域，由此能够避免高光区域对训练过程的干扰，进一步提高模型的预测精度。

附图说明

图1为本发明实施例1提供的基于稀疏标签的内窥镜图像视差预测模型建立方法流程图；

图2为本发明实施例1提供的视差预测网络DEnet的结构示意图；其中，(a)为视差预测网络DEnet的整体结构示意图，(b)为3D Atten CNN模块示意图，(c)为通道注意力机制模块示意图；

图3为本发明实施例1提供的Teacher模型、置信度网络、Student模型的框架及训练示意图；

图4为本发明现有的双目内窥镜拍摄的原图像(左相机)、对应的深度图和高光区域图；其中，(a)为双目内窥镜拍摄的原图像，(b)为深度图，(c)为高光区域图；

图5为本发明实施例2提供的基于稀疏标签的内窥镜图像视差预测模型建立方法流程图；

图6为本发明实施例与其他深度估计方法的误差对比图；其中，(a)为两幅由双目内窥镜拍摄得到的左目图像，(b)为利用GAnet网络进行深度估计的误差图，(c)为利用PSMnet网络进行深度估计的误差图，(d)利用为本发明实施例1建立的视差预测模型进行深度估计的误差图；

图7为本发明中，不同模型的深度估计误差对比图；其中，(a)为两幅由双目内窥镜拍摄得到的左目图像，(b)为利用训练后的DEnet网络进行深度估计的误差图，(c)为利用Teacher模型进行深度估计的误差图，(d)为利用训练后的Student模型进行深度估计的误差图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了有效解决由于训练样本过少，导致现有的模型在对内窥镜图像的深度估计差的技术问题，本发明提供了一种内窥镜图像的视差估计模型建立方法及深度估计方法，其整体思路在于：建立用于预测双目图像视差图的视差预测网络DEnet并对其进行预训练，基于此建立生成对抗网络，并利用同时包含有标签训练数据和无标签训练数据的第二训练数据集对生成对抗网络中预训练后的视差预测网络DEnet进行半监督训练，充分利用无标签图像进行训练。在此基础上，进一步建立Teacher-Student模型，使用无标签图像的伪标签和对应的置信度训练Student模型，通过这种方式使Student模型对Teacher模型进行知识蒸馏，从而使Student模型取得更高的预测精度。

以下为实施例：

实施例1：

一种基于稀疏标签的内窥镜图像视差预测模型建立方法，如图1所示，包括以下步骤：

(S1)预训练视差预测网络DEnet，具体包括：

建立视差预测网络DEnet，并利用第一训练数据集对视差预测网络DEnet进行预训练；

其中，视差预测网络以双目图像为输入，用于预测输入的双目图像中每个像素对应的视差值，得到视差图；

本实施例中，所建立的视差预测网络DEnet如图2所示；如图2中的(a)所示，视差预测网络DEnet包括：左目特征提取模块，右目特征提取模块，特征拼接模块，级联的3个3DAtten CNN模块，以及输出模块；

左目特征提取模块和右目特征提取模块为权值共享的模块，且均包含残差网络；其中的残差网络可以提取图像不同尺寸的特征，并对其上下文间信息进行融合；具体地，左目特征提取模块用于提取左目图像中不同尺度的特征，并对其上下文间信息进行融合，得到左目图像的特征图；右目特征提取模块用于提取右目图像中不同尺度的特征，并对其上下文间信息进行融合，得到右目图像的特征图；

特征拼接模块，用于按照预设的视差范围D将左目图像的特征图和右目图像的特征图进行逐像素拼接，得到特征立方体(即cost volume)；特征拼接模块输出的特征立方体是C×H×W×D的四维特征立方体，C、H、W、D分别表示通道数、高度、宽度和视差范围；视差范围D可根据实际的应用场景相应设定，可选地，本实施例中，预设的视差范围D为200px；

输出模块以最后一个3D Atten CNN模块输出的特征立方体为输入，用于计算每个像素在视差范围D内的视差值以及像素在每个视差值的概率，并计算视差范围D内的视差期望作为对应像素的视差预测结果；

在实际应用中，视差预测网络DEnet中的3D Atten CNN模块的数量可根据具体的模型训练效果调整为其他取值；

如图2中的(b)所示，本实施例中的3D Atten CNN模块包括：多个三维卷积层和多个三维反卷积层构成的编码-解码结构，以及位于编码-解码结构中间的通道注意力机制模块；3D Atten CNN模块中还包括用于防止梯度消失的跳跃连接；

3D Atten CNN模块中的通道注意力机制模块用来增强双目特征图像特征通道之间的相关性，其结构如图2中的(c)所示，该模块对最底层的四维特征立方体进行变形和转置操作，并将其与转置前的特征立方体相乘，经过softmax即可得到每个通道与其他通道间的注意力值；将注意力值与输入的特征立方体先后进行相乘和相加，最终可以得到特征间增强后的特征立方体；

输出模块包含卷积层和softmax层，经过卷积层后，会输出每个像素在视差范围D内的损失值C_d，之后经softmax函数计算像素在每个视差值的概率，结合视差范围内像素的视差值和概率计算期望，即可得到相应像素的最终视差值，具体计算公式如下：

其中，D_max为视差范围的最大值，d为预测的视差值；

为了对视差预测网络DEnet进行预训练，第一训练数据集中的样本为已经过畸变矫正和极线矫正，且已标注左目图像视差图的双目图像；由于视差预测网络DEnet参数较多，因此在预训练时使用公开的SceneFlow合成双目数据集进行预训练，降低后续步骤中迁移到内窥镜数据集上的难度；

应当说明的是，SceneFlow仅为可选的训练数据集，不应理解为对本发明的唯一限定，在本发明其他的一些实施例中，也可以使用其他满足上述基本要求的双目图像数据集作为预训练中采用的训练数据集；

在对视差预测网络DEnet进行训练时，使用平滑L1损失进行监督，相应的损失函数计算式如下：

其中，

表示标签视差值。

(S2)训练Teacher模型和置信度网络Confnet，如图3所示，具体包括：

以预训练后的视差预测网络DEnet为生成器，记为DEnet_T，建立生成对抗网络，并利用第二训练数据集对其进行训练；

所建立的生成对抗网络中，判别器(Discriminator)的输入为左目图像及其视差图构成的图像对，其中的视差图为标注的视差图，或者由生成器预测得到的视差图，判别器用于判断输入的视差图的来源，即判断输入的图像对中的视差图是标注的视差图还是由生成器预测得到的视差图；

第二训练数据集中的样本为已经过畸变矫正和极线校正的双目图像，其中部分样本已标注了视差图，剩余样本未标注视差图，已标注样本的比例不超过预设的第一阈值，且样本随深度呈长尾分布；该训练数据集与实际的内窥镜数据集特性一致，其中已标注视差图的样本构成有标签样本集合M，未标注视差图的样本构成无标签样本集合N；为了尽量使第二训练数据集的特性接近与实际的内窥镜数据集，可选地，本实施例中，第一阈值具体设定为2％；

输入判别器的视差图为真实标签，即标注的视差图时，该图像对被视为“真”；反之，视差图为生成器预测得到的视差图时，输入判别器的视差图为预测值时，该图像对被视为“假”；可选地，本实施例中，判别器Discriminator使用了4个卷积层将输入的图像对转为与其对应的得分图，每个得分表明其对应的图像对感受野是否为“真”；这样使用真/假图像对训练，Discriminator可以估计预测值到真实标签的分布距离；通过引入的判别器网络Discriminator，DEnet_T可以使用有标签和无标签图像一起训练；而通过减小真/假图像对的距离，DEnet_T预测无标签图像的视差图会更接近标签的分布，精度更高；

真/假图像对的距离采用Wasserstein距离来衡量，具体计算如下式所示：

其中I_l，I_r分别表示输入的左、右图像，Ε_M表示从有标签样本集合M中采样“真”图像对，Ε_N表示从无标签样本集合N中采样“假”图像对。D(.)表示判别器网络输出得分图的平均值，R_D用于保持对判别器的Lipschitz约束；

训练生成对抗网络的过程中，判别器需要尽可能地区分开来自不同集合的图像对，而DEnet_T则需要拉近“真/假”图像对之间的距离，即预测的视差图能够“欺骗”判别器，使判别器将其误判为真实标签；因此使用无标签图像训练DEnet_T的损失值计算公式如下：

L_uns＝minD_w

考虑到由于医生经常操作内窥镜观察近处的组织或器官，导致体内环境的深度存在长尾效应，即小深度范围往往存在大量的像素点，常规的损失函数计算方式中，往往对于所有的像素点赋予同样的权重，这会导致模型更倾向于预测小深度值，使得模型的整体预测精度不高；为了使模型在训练过程中更加关注大深度区域的像素点，从而提高模型的视差预测精度，本实施例在利用第二训练数据集对生成对抗网络进行训练时，使用有标签样本训练时，相应的损失值为：

其中，N表示有标记的像素总数，d表示预测的视差值，

表示标注的视差值，

为像素的权重，且位于较远区域的像素具有较大的权重；

表示平滑L1损失；能够准确、简单地赋予像素权重，保证位于较远区域的像素具有较大的权重，可选地，本实施例中，直接设置α_d为归一化后的像素视差值；基于上述计算式所计算的损失

是一种深度感知的标签损失。

本实施例利用有标签图像和无标签图像构成的第二训练数据集对生成对抗网络进行训练，能够对预训练好的视差预测网络DEnet进一步进行半监督训练，充分利用了无标签图像进行训练，使网络可以更好地预测无标签图像的视差，并将其作为伪标签。

虽然DEnet_T在判别器的帮助下可以更好地预测无标签图像视差，但视差图仍然存在噪声，为了进一步提高视差预测精度，本实施例在还建立了置信度网络，置信度网络用于预测生成器输出的视差图中各像素视差的置信度；置信度的取值范围为[0,1]，且置信度越高，相应的像素视差的预测结果越准确；

如图3所示，置信度网络具体为编码器-解码器结构，编码器部分为三个卷积层，然后连接三个反卷积层作为解码器以恢复原始尺寸。前五个卷积层后连接LeakyReLU激活函数，最后一层输出的特征图会通过sigmoid激活函数，将输出的置信度限制在0到1之间。

在利用第二训练数据集对生成对抗网络进行训练的同时，会训练置信度网络，训练置信度网络时，将DEnet_T预测的深度与真实标签相比较：当差值在3px以内，则认为DEnet_T预测准确，该像素被标记为“1”，否则为“0”，此标记结果作为置信度网络训练的标签信息。接着通过SGD优化器来降低标记与置信度网络输出之间的交叉熵作为置信度网络训练的损失函数，具体计算式如下：

其中，N表示有标记点的总数，

为置信度网络的标签，C为置信度网络输出的置信度值，即C＝Confnet(I_l,d)，Confnet表示置信度网络。

可选地，本实施在利用第二数据集训练生成对抗网络和置信度网络之前，会先对第二数据集中的图像进行翻转、颜色变换等操作，以进行数据扩充；训练完成后，DEnet_T可用于预测无标签的双目图像的视差图，置信度网络可用于生成该视差图的置信度图；

在生成对抗网络训练结束后，将其中的生成器记为Teacher模型。

(S3)训练Student模型，具体包括：

利用Teacher模型预测第二训练数据集中未标注的样本对应的视差图，作为伪标签，得到第三训练数据集；以预训练后的视差预测网络DEnet为Student模型，记为DEnet_S，利用第三训练数据集对Student模型进行训练，将训练后的Student模型作为内窥镜图像视差预测模型；

由于Teacher模型已经具有了较高的视差估计精度，其所标注的伪标签质量较高，因此，经过伪标签标注，能够将该训练数据集转换为与内窥镜图像分布相同、且都标注了标签信息的第三数据集；

第三训练数据集对Student模型进行训练时，若输入的样本为标注了伪标签的双目图像，则利用训练后的置信度网络获得该伪标签中各像素视差的置信度，并在计算相应的损失值时作为像素视差的预测误差的权重，具体地，利用第三训练数据集对Student模型进行训练时，若输入的样本为原始的已标注的样本，则相应的损失值为：

若输入的样本为标注了伪标签的样本，则相应的损失值为：

L_stu＝C·L_sup(d_s,DEnet_T(I_l,I_r))；

其中，d_s表示Student模型预测的视差值，即d_s＝DEnet_s(I_l,I_r)，

图4中的(a)和(b)所示分别是双目内窥镜中左相机拍摄的原始图像以及对应的深度图，根据这两幅图可以看出，深度度中存在空洞，这给模型的训练带来了困难，在将双目图像输入到模型中之前，需要将左右图像的匹配像素校正到同一水平线上；在实际应用中，若获取到的原始数据集中，双目图像存在畸变和行不对齐，则在进行模型训练之前，可以先对双目图像进行畸变矫正和极线矫正，具体方式如下：

首先使用标定得到的相机参数，对左右原始图像进行畸变矫正和极线矫正；其中标定得到的相机参数包括内参矩阵M_L和畸变参数矩阵D_L，以左侧相机为例，其相机参数为：

其中f_x,f_y表示透镜的焦距，c_x,c_y表示投影中心相对于光心的偏移；k₁,k₂,k₃用于计算镜头的径向畸变，p₁,p₂用于计算镜头的切向畸变。左右相机之间的旋转矩阵为R，平移矩阵为T：

其中r₁₁-r₃₃为右相机相对于左相机的旋转矩阵分量，t_x,t_y,t_z为右相机相对于左相机的平移矩阵分量。通过上述参数，使用畸变参数矩阵对拍摄的图像进行畸变矫正，再根据内参矩阵和左右相机之间的旋转及平移矩阵对图像进行极线矫正。

在腹腔镜手术中，照明一般使用的是点光源，点光源会在组织表面反射，形成高光区域，如图4中的(c)所示，反光的部分形成的高光区域会干扰网络的训练，为了进一步提高模型的训练效果，本实施例还包括：将第二数据集中的双目图像转换到HIS色域后，将其中饱和度值小于预设的第二阈值且强度值大于预设的第三阈值的像素识别为反光点；可选地，本实施中，第二阈值设置为0.1，第三阈值设置为0.9；

利用第二数据集训练Teacher模型，或者利用第三数据集训练Student模型时，被识别为反光点的像素不参与损失计算；

通过在训练开始之前检测高光区域，并在计算训练损失函数时去除高光区域，能够避免高光区域对训练过程的干扰，进一步提高模型的预测精度。

总体而言，本实施例与现有的方法相比，能够取得以下有益效果：

(1)本实施例提出了基于teacher-student模型的深度估计网络，在稀疏标签的数据集上能够精确估计深度，相比其他网络精度更高；

(2)本实施例提出的半监督Teacher模型，充分利用了无标签图像进行训练，使网络可以更好预测无标签图像的深度，并将其作为伪标签。同时提出置信度网络Confnet对伪标签进行置信度评估，并将置信度作为预测值的权重，从而抑制了伪标签中的噪声；

(3)本实施例提出使用无标签图像的伪标签和对应的置信度训练Student模型，通过这种方式使Student模型对Teacher模型进行知识蒸馏，从而使Student模型取得更高的预测精度；

(4)本实施例提出了光照区域检测和深度感知的标签损失，进一步提升模型性能。

实施例2：

一种基于稀疏标签的内窥镜图像视差预测模型建立方法，如图5所示，本实施例与上述实施例1类似，所不同之处在于，本实施例在对视差预测网络DEnet进行预训练后，仅训练Teacher模型，即以预训练后的视差预测网络DEnet为生成器，建立生成对抗网络，并利用第二训练数据集对生成对抗网络进行训练；将训练后的生成对抗网络中的生成器作为内窥镜图像视差预测模型。

实施例3：

一种内窥镜图像深度估计方法，包括：

将内窥镜拍摄得到的双目图像进行畸变矫正和极线矫正后，输入至上述实施例1或2提供的基于稀疏标签的内窥镜图像视差预测模型建立方法建立得到的内窥镜图像视差预测模型，以获得视差图；

实施例4：

一种计算机可读存储介质，包括存储的计算机程序；

计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1～2任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，和/或上述实施例3提供的内窥镜图像深度估计方法。

以下结合具体的测试结果，对本发明所能取得的有益效果做了进一步的解释说明。

在稀疏标签的腹腔镜数据集上对上述实施例1进行了测试，并与常见的方法GANet、PSMnet进行了对比，将预测值与金标准对比，当误差<3px时认为方法预测正确，该点像素被赋值为“0”；误差>3px时认为预测错误，并将该点像素赋值为“1”。因此误差图为二值图像，白色点越多代表预测效果越差。具体如图6所示，其中，(a)中的两幅图像，分别为输入到模型中的两幅左目图像，(b)、(c)、(d)分别为GAnet、PSMnet以及上述实施例1预测的对应的误差图像。由图6可见，上述实施例1提出的内窥镜图像视差预测模型与其他两种方法(即GAnet、PSMnet)相比，预测错误点更少。尤其在器官的边缘部位，上述实施例1的估计更加准确。

进一步在稀疏标签的腹腔镜数据集上对预训练后的视差估计网络DEnet，以及上述实施例1和上述实施例2所的模型进行测试对比，将上述实施例1所建立的模型即Student模型，上述实施例2所建立的模型即Teacher模型，误差图的生成方式与图6相同。测试结果如图7所示，其中，(a)中的两幅图像，分别为输入到模型中的两幅左目图像，(b)、(c)、(d)分别为DEnet网络、Teacher模型和Student模型的误差图。由图6可见，随着加入判别器训练DEnet得到Teacher模型和使用置信度网络做置信度估计训练Student模型，模型的预测精度得到了进一步提升，尤其在光照区域和边缘部位等。经过实验测试，最终Student模型在视差平均误差上，相比GAnet降低0.23px、比PSMnet降低0.13px，百分比提升分别为22.77％和14.29％。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，包括：

建立视差预测网络DEnet，并利用第一训练数据集对所述视差预测网络DEnet进行预训练；所述视差预测网络以双目图像为输入，用于预测输入的双目图像中每个像素对应的视差值，得到视差图；所述第一训练数据集中的样本为已经过畸变矫正和极线矫正，且已标注左目图像视差图的双目图像；

以预训练后的视差预测网络DEnet为生成器，建立生成对抗网络，并利用第二训练数据集对所述生成对抗网络进行训练，将训练后的生成对抗网络中的生成器记为Teacher模型；所述生成对抗网络中，判别器的输入为左目图像及其视差图构成的图像对，其中的图像视差图为标注的视差图，或者由生成器预测得到的视差图，所述判别器用于判断输入的视差图的来源；所述第二训练数据集中的样本为已经过畸变矫正和极线校正的双目图像，其中部分样本已标注了左目图像视差图，已标注样本的比例不超过预设的第一阈值，且样本随深度呈长尾分布；

将所述Teacher模型作为所述内窥镜图像视差预测模型，或者，利用所述Teacher模型预测所述第二训练数据集中未标注的样本对应的左目图像视差图作为伪标签，得到第三训练数据集；以预训练后的视差预测网络DEnet为Student模型，并利用所述第三训练数据集对其进行训练，将训练后的Student模型作为所述内窥镜图像视差预测模型。

2.如权利要求1所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，所述内窥镜图像视差预测模型为训练后的Student模型时，以预训练后的视差预测网络DEnet为生成器，建立生成对抗网络，并利用第二训练数据集对所述生成对抗网络进行训练时，还包括：建立置信度网络，并随所述生成对抗网络一起训练所述置信度网络；所述置信度网络用于预测所述生成器输出的视差图中各像素视差的置信度；所述置信度的取值范围为[0,1]，且置信度越高，相应的像素视差的预测结果越准确；

并且，所述第三训练数据集对所述Student模型进行训练时，若输入的样本为标注了伪标签的双目图像，则利用训练后的所述置信度网络获得该伪标签中各像素视差的置信度，并在计算相应的损失值时作为像素视差的预测误差的权重。

3.如权利要求2所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，所述内窥镜图像视差预测模型为训练后的Student模型时，利用所述第三训练数据集对所述Student模型进行训练时，若输入的样本为原始的已标注的样本，则相应的损失值为：

若输入的样本为标注了伪标签的样本，则相应的损失值为：

L_stu＝C·L_sup(d_s,DEnet_T(I_l,I_r))；

其中，d_s表示所述Student模型预测的视差值，

表示标注的视差值，DEnet_T(I_l,I_r)表示由所述Teacher模型标注的伪标签，C表示由所述置信度网络输出的伪标签中各像素视差的置信度；L_sup表示视差预测结果与标注结果之间的误差。

4.如权利要求3所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，

其中，N表示有标记的像素总数，d表示预测的视差值，

表示标注的视差值，

为像素的权重，且位于较远区域的像素具有较大的权重；

表示平滑L1损失。

5.如权利要求4所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，α_d为归一化后的像素视差值。

6.如权利要求3～5任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，利用所述第二训练数据集对所述生成对抗网络进行训练时，若输入所述生成器的样本为已标注的样本，则相应的损失值为：

若输入所述生成器的样本为未标注的样本，则相应的损失值为：

L_uns＝minD_w；

其中，N表示有标记的像素总数，d表示预测的视差值，

表示标注的视差值；

为像素的权重，且位于较远区域的像素具有较大的权重；

表示平滑L1损失；D_w表示Wasserstein距离。

7.如权利要求1～5任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，还包括：

将所述第二训练数据集中的双目图像转换到HIS色域后，将其中饱和度值小于预设的第二阈值且强度值大于预设的第三阈值的像素识别为反光点；

利用所述第二训练数据集训练所述Teacher模型，或者利用所述第三训练数据集训练所述Student模型时，被识别为反光点的像素不参与损失计算。

8.如权利要求1或2所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，所述视差预测网络DEnet包括：左目特征提取模块，右目特征提取模块，特征拼接模块，级联的M个3D Atten CNN模块，以及输出模块；

所述左目特征提取模块和所述右目特征提取模块为权值共享的模块，且均包含残差网络；所述左目特征提取模块用于提取左目图像中不同尺度的特征，并对其上下文间信息进行融合，得到所述左目图像的特征图；所述右目特征提取模块用于提取右目图像中不同尺度的特征，并对其上下文间信息进行融合，得到所述右目图像的特征图；

所述特征拼接模块，用于按照预设的视差范围D将所述左目图像的特征图和所述右目图像的特征图进行逐像素拼接，得到特征立方体；

所述3D Atten CNN模块，用于利用通道注意力机制增强输入的特征立方体中通道之间的相关性；

所述输出模块以最后一个3D Atten CNN模块输出的特征立方体为输入，用于计算每个像素在所述视差范围D内的视差值以及像素在每个视差值的概率，并计算所述视差范围D内的视差期望作为对应像素的视差预测结果。

9.如权利要求8 所述的基于稀疏标签的内窥镜图像视差预测模型建立方法，其特征在于，所述3D Atten CNN模块包括：多个三维卷积层和多个三维反卷积层构成的编码-解码结构，以及位于所述编码-解码结构中间的通道注意力机制模块；所述3D Atten CNN模块中还包括用于防止梯度消失的跳跃连接。

10.一种内窥镜图像深度估计方法，其特征在于，包括：

将内窥镜拍摄得到的双目图像进行畸变矫正和极线矫正后，输入至权利要求1-9任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法建立得到的内窥镜图像视差预测模型，以获得视差图；

将所述视差图转换为各像素的深度值，得到内窥镜图像的深度估计结果。