CN115965641A

CN115965641A - 一种基于deeplabv3+网络的咽部图像分割及定位方法

Info

Publication number: CN115965641A
Application number: CN202310055912.8A
Authority: CN
Inventors: 赵伯栋; 李博文; 李宏
Original assignee: Hangzhou Baiqiao Medical Technology Co ltd; Hangzhou Dianzi University
Current assignee: Hangzhou Baiqiao Medical Technology Co ltd; Hangzhou Dianzi University
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-04-14

Abstract

本发明公开了一种基于deeplabv3+网络的咽部图像分割及定位方法，包括：利用深度相机获取咽部的彩色图和深度图；基于彩色图，利用基于deeplabv3+网络构建的分割模型进行处理，得到图像分割结果；使用边界检测算子得到咽部在图像分割结果中的像素坐标；基于深度图，根据咽部的像素坐标得到咽部的深度值；根据深度相机的标定参数，基于咽部的像素坐标和深度值得到咽部在世界坐标系下的位置信息，完成定位。本发明可提高图像分割及定位精度。

Description

一种基于deeplabv3+网络的咽部图像分割及定位方法

技术领域

本发明属于深度学习医学影像分割技术领域，具体涉及一种基于deeplabv3+网络的咽部图像分割及定位方法。

背景技术

目前对冠状病毒最准确有效的检测手段是核酸检测，核酸检测包括鼻咽拭子，咽拭子相较于鼻拭子更为普遍，而目前核酸采集手段多数是人工采集，大规模高强度的工作量会存在风险。第一，医护人员存在交叉感染的风险；第二，高强度的工作量会影响医护人员的身心健康。面对上述问题促进核酸采样自动化是必不可少的，使用机械臂或机器人部分代替医护人员进行采样，并且建立一种咽部图像的分割模型辅以检测采样部位并实施采样。

针对咽部图像分割技术研究，从数据集方面来看，当前咽部图像公开数据集较少，且咽部图像分割场景常常存在光线、棉签遮挡等干扰，所以需要建立一套标准数据集；从图像分割领域来看，当前主要存在使用Mask RCNN与unet两种分割模型进行实例分割的研究，然而上述实例分割方法存在着一些问题，例如：使用Mask RCNN进行分割时，虽然检测速度快但对于噪声大的图像分割效果不佳，使用Mask RCNN的相关研究中分割目标为扁桃体(体积小)，忽略了扁桃体疾病对于分割效果的干扰；使用unet的相关研究中未考虑检测速度这一指标，且unet对于多尺度信息提取效果也不佳。因此目前亟需一种有效的分割模型来应对咽部图像的分割定位，这不仅能够快速促进核酸采样自动化的发展，而且在常规医学领域(例如鼻咽癌图像分割、喉咽内镜检测等领域)也将具有较大的应用前景。

发明内容

本发明的目的在于提供一种基于deeplabv3+网络的咽部图像分割及定位方法，提高图像分割及定位精度。

为实现上述目的，本发明所采取的技术方案为：

一种基于deeplabv3+网络的咽部图像分割及定位方法，所述基于deeplabv3+网络的咽部图像分割及定位方法，包括：

步骤1、利用深度相机获取咽部的彩色图和深度图；

步骤2、基于彩色图，利用基于deeplabv3+网络构建的分割模型进行处理，得到图像分割结果；

步骤3、使用边界检测算子得到咽部在图像分割结果中的像素坐标；

步骤4、基于深度图，根据咽部的像素坐标得到咽部的深度值；

步骤5、根据深度相机的标定参数，基于咽部的像素坐标和深度值得到咽部在世界坐标系下的位置信息，完成定位。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述基于彩色图，利用基于deeplabv3+网络构建的分割模型进行处理，得到图像分割结果，包括：

对deeplabv3+网络进行训练得到分割模型，所述deeplabv3+网络主体为编码器解码器结构；

在编码器部分采用深度可分离卷积，主干网络提取特征得到初步图像特征，再通过加强特征提取ASPP模块中的并行空洞卷积层提取初步图像特征不同的空间信息并进行特征融合，得到多尺度特征；

在解码器部分首先通过对加强特征提取ASPP模块提取到的多尺度特征进行双线性插值4倍上采样，再与主干网络中提取到的初步图像特征进行拼接、特征融合，最后采用双线性插值4倍上采样恢复至高层特征图，得到最终的图像分割结果。

作为优选，所述主干网络为改进MobilenetV2网络，该改进MobilenetV2网络采用原MobilenetV2网络的Bottleneck结构，且在stride＝1的倒残差结构中添加注意力机制，在stride＝2的线性瓶颈结构中加入不同膨胀率的并行分支以获得多尺度特征。

作为优选，所述在stride＝1的倒残差结构中添加注意力机制，包括：

在stride＝1的倒残差结构的输出端以并联的方式添加通道注意力机制和空间注意力机制两个分支，对stride＝1的倒残差结构输出的特征图分别生成两个注意力特征图，将两个分支的注意力特征图进行融合，然后通过sigmod激活函数得到最终输出的注意力特征图。

作为优选，所述在stride＝2的线性瓶颈结构中加入不同膨胀率的并行分支以获得多尺度特征，包括：

在stride＝2的线性瓶颈结构中，首先将第三层卷积替换为平均池化，然后在线性瓶颈结构的输出端添加三条膨胀系数分别为2、4、6的3×3卷积并行分支进行多尺度特征提取，将得到的多尺度特征图进行融合，得到最终的多尺度特征图。

作为优选，所述对deeplabv3+网络进行训练得到分割模型，包括：

采集咽部图像生成训练数据集，所述咽部图像包括咽部正常图像和咽部感染图像；

使用Adam优化器进行deeplabv3+网络训练，在训练过程中，当求得的损失值在连续多个迭代次数内收敛时，停止模型的训练，输出作为分割模型；

其中，所述损失值计算时采用的损失函数Loss如下：

Loss＝λLoss_FL+(1-λ)Loss_DSC

其中，Loss_FL表示Focal Loss损失函数，Loss_DSC表示DSC损失函数，λ为权重因子。

作为优选，所述采集咽部图像生成训练数据集，包括：

对咽部图像进行去反光处理；

对去反光处理后的咽部图像进行裁剪，保留分割区域；

对分割区域进行标注，在标注后进行数据增强处理，得到训练数据集。

作为优选，所述对咽部图像进行去反光处理，包括：

对咽部图像进行反光检测，得到咽部图像中的高光区域；

对检测出的高光区域用其周围一圈半径为2和4像素的圆形形成的圆环区域的像素平均值进行填充，得到填充图像；

对填充图像做中值滤波，得到平滑非反光区域颜色图像，将原始的咽部图像中每个像素与平滑非反光区域颜色图像中对应像素进行比较，得到反光区域；

用反光区域周围一圈半径为2和4像素的圆形形成的圆环区域的像素平均值对反光区域进行填充，然后对填充图片进行高斯模糊处理得到非反光强平滑图像，完成咽部图像的去反光处理。

本发明提供的一种基于deeplabv3+网络的咽部图像分割及定位方法，与现有技术相比，具有以下有益效果：

1)数据集的采集考虑到咽部感染等因素，增强了算法的抗干扰能力。

2)在损失函数的设计中，融合了Focal Loss和DSC Loss的特点，通过调整权重因子可解决不平衡的问题，将注意力集中在预测不准的样本上。

3)使用轻量级的MobilenetV2网络代替计算量复杂的Xception网络，降低了硬件要求，大量减少了参数计算量，提高了检测速度以及实时性。

4)对MobilenetV2进行改进，加入了分支膨胀卷积来更好地提取多尺度信息，加入了并联注意力机制，提高了模型的分割准确度。

附图说明

图1为本发明的基于deeplabv3+网络的咽部图像分割及定位方法的流程图；

图2为现有deeplabv3+网络的结构示意图；

图3为现有MobilenetV2网络中Bottlenecks结构示意图；

图4为本发明stride＝2的线性瓶颈结构改进后的结构示意图；

图5为本发明stride＝1的倒残差结构改进后的结构示意图；

图6为本发明采用的Grab Cut算法的处理流程图；

图7为本发明深度相机标定示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

为了克服现有技术中咽部图像分割存在的缺陷，本实施例提供一种基于deeplabv3+网络的咽部图像分割及定位方法，采用了对于多尺度信息提取效果较好的deeplabv3+模型，且建立了一套存在多种噪声的数据集加强模型的抗干扰性。从本发明使用的模型来看，加强多尺度信息提取的同时也要提高检测速度，所以本发明将语义分割模型deeplabv3+的主干网络替换为更轻量的主干网络，并加入了分支卷积与注意力机制提高精度。

如图1所示，本实施例的基于deeplabv3+网络的咽部图像分割及定位方法，包括以下步骤：

步骤1、利用深度相机获取咽部的彩色图和深度图。

本实施例由深度相机分别采集彩色图和深度图。一方面将彩色图作为分割模型的输入得到图像分割结果，并使用边界检测算子得到采集部位的像素坐标；另一方面，对深度相机进行标定，根据深度图以及采集部位的像素坐标计算出该点在世界坐标系下的位置，从而完成定位。

步骤2、基于彩色图，利用基于deeplabv3+网络构建的分割模型进行处理，得到图像分割结果。

本实施例的分割模型基于deeplabv3+网络基本框架改进得到，具体如下：

2-1、构建deeplabv3+网络基本框架

如图2所示，常规的deeplabv3+网络主体为编码器解码器结构，通过该结构进行多尺度信息融合。在编码器部分采用深度可分离卷积，主干网络(常规deeplabv3+网络中主干网络为Xception网络)提取特征得到初步图像特征，再通过加强特征提取ASPP模块中的并行空洞卷积层提取初步图像特征不同的空间信息并通过1*1卷积进行特征融合，得到多尺度特征。解码器部分首先通过对加强特征提取ASPP模块提取到的多尺度特征进行双线性插值4倍上采样，再与经过1*1卷积处理后的由主干网络提取的初步图像特征进行拼接(通过1*1卷积进行拼接)、特征融合(通过3*3卷积进行融合)，最后采用双线性插值4倍上采样恢复至高层特征图，得到最终的图像分割结果。

其中，本实施例的加强特征提取ASPP模块分为编码器和解码器两部分：

在加强特征提取ASPP模块的编码器中，将主干网络压缩四次的初步有效特征层作为主干网络末端的空洞卷积空间金字塔模块的输入，利用并行的空洞卷积，分别采用不同膨胀率的空洞卷积进行特征提取，再进行特征融合，最后使用1x1卷积压缩特征，获得最终的有效特征层。

在加强特征提取ASPP模块的解码器中，将主干网络压缩两次的初步有效特征层利用1x1卷积调整通道数，再和空洞卷积后的有效特征层上采样的结果进行堆叠，最后进行两次深度可分离卷积获得最终的有效特征层。

从图中可以看到加强特征提取ASPP模块中有五个分支，分别为1×1普通卷积层、膨胀率系数为6、12、18的3×3膨胀卷积以及一个全局池化层，得到五个分支的输出特征图，通过concat进行拼接，再通过1×1卷积进一步融合。并且五个分支都使用了标准化BN层和RELU激活函数进行正则化和激活，其中全局池化层首先将输入特征平均池化为1×1的大小，再通过1×1卷积调整通道数，最后通过双线性插值的方法还原为输入特征层的高和宽，恢复成图片原来的尺寸。

2-2、改进deeplabv3+网络结构

本实施例使用参数量更少的、更为轻量的MobilenetV2网络代替Xception网络作为deeplabv3+网络编码器的主干网络，MobilenetV2用于减少模型计算量，可提高检测速度，降低硬件要求。

本实施例所使用的模型中编码器主干网络为MobilenetV2，该网络结构由标准卷积层、深度可分离卷积层、批量归一化层、平均池化层以及全连接层组成，因为只需要利用MobilenetV2作为主干网络来提取深层特征与浅层特征，所以本实施例只采用了现有MobilenetV2网络中的倒残差结构。本实施例的MobilenetV2网络结构如表1所示。

表1本实施例的MobilenetV2结构

Input	Operator	t	c	n	s
						<![CDATA[512<sup>2</sup>×3]]>	Conv2d	-	32	1	2
<![CDATA[256<sup>2</sup>×32]]>	Bottleneck	1	16	1	1
						<![CDATA[256<sup>2</sup>×16]]>	Bottleneck	6	24	2	2
<![CDATA[128<sup>2</sup>×24]]>	Bottleneck	6	32	3	2
						<![CDATA[64<sup>2</sup>×32]]>	Bottleneck	6	64	4	2
<![CDATA[32<sup>2</sup>×64]]>	Bottleneck	6	96	3	1
						<![CDATA[32<sup>2</sup>×96]]>	Bottleneck	6	160	3	2
<![CDATA[16<sup>2</sup>×160]]>	Bottleneck	6	320	1	1

其中，t表示扩展因子，c表示输出特征矩阵深度channel，n表示Bottleneck的重复次数，s表示每一个block中第一层的步长。

如图3所示，在MobilenetV2中Bottleneck操作中包括步长为1(stride＝1)的第一Bottleneck操作和步长为2(stride＝2)的第二Bottleneck操作。

第一Bottleneck操作和第二Bottleneck操作中均包含两个普通卷积层(Conv)和一个深度可分离卷积层(Dwise)，首先使用1×1的卷积将输入的数据进行升维，再利用深度可分离卷积层提取特征，且这两步的卷积操作后接Relu6激活函数，最后进行1×1降维，后接Linear激活函数保留线性特征。其中，Relu6激活函数定义为：

y＝RELU6(x)＝min(max(x,0),6)

即当输入值x小于0时，输出结果y置为0；当输入值x大于0且小于6时，不进行处理；当输入值x大于6时，输出结果y置为6。

MobilenetV2网络的Bottleneck操作中，当stride＝1且输入特征矩阵与输出特征矩阵shape相同时，采取第一Bottleneck操作，即倒残差模块。在每个倒残差模块中，通过shortcut连接可以融合多尺度信息。大小为h×w×k的输入特征，经过1×1卷积升维后输出为h×w×(tk)，其中h，w分别为feature map的长和宽，t为扩展因子，k为通道数；将输出结果进一步作为输入下一层的输入，经过3×3深度可分离卷积后输出为其中s表示步长；最后通过最后一层1×1卷积进行降维输出为

本实施例为了使MobilenetV2网络更适用于本发明中的分割任务，对原有地MobilenetV2结构做出修改：

如图4所示，在采用原MobilenetV2网络的Bottleneck结构的基础上，在stride＝2的线性瓶颈结构中，将下采样过程中的1×1卷积(即图3的stride＝2中，Conv1*1,Linear中的卷积)替换为平均池化AvgPool(2x2,s＝2)以减少下采样过程中信息的丢失。然后在替换后的线性瓶颈结构的输出端添加三条膨胀系数分别为2、4、6的3×3卷积并行分支进行多尺度特征提取，将得到的特征图采用1*1卷积进行融合，得到最终的多尺度特征图。

如图5所示，在采用原MobilenetV2网络的Bottleneck结构的基础上，在stride＝1的倒残差结构中添加注意力机制，以并联的方式从空间注意力和通道注意力两个方面生成注意力特征图。即本实施例在stride＝1的倒残差结构的输出端以并联的方式添加通道注意力机制和空间注意力机制两个分支，对stride＝1的倒残差结构输出的特征图分别生成两个注意力特征图，将两个分支的注意力特征图进行融合，然后通过sigmod激活函数得到最终输出的注意力特征图。

其中，通道注意力机制将输入的特征图先进行全局平均池化得到新的特征图，再将得到的特征图输入中间的共享网络隐藏层进行处理，最后通过BN层进行批量归一化得到通道注意力特征图。

通道注意力机制的计算公式如下：

M_c(F)＝BN(MLP(AvgPool(F)))＝BN(W₁(W₀AvgPool(F)+b₀)+b₁)

式中，M_c(F)为通道注意力特征图，F为输入的特征图，W₀∈R^C/r×C，b₀∈R^C/r，W₁∈R^C ^×C/r，b₁∈R^C，BN()为BN层，MLP()为共享网络隐藏层，AvgPool()。为全局平均池化层。

其中，空间注意力机制将输入的特征图先通过1x1卷积进行一次通道缩减，再连续经过两层3x3的空洞卷积用于聚合具有较大感受野的上下文信息，然后又进行一次1x1卷积降低通道数，最后通过BN层进行批量归一化得到空间注意力特征图。

空间注意力机制的计算公式如下：

式中，M_s(F)为空间注意力特征图，和为1x1卷积层，和为3x3的空洞卷积层。

最后将两个分支的注意力特征图进行融合，通过sigmod激活函数得到最终的注意力特征图M(F)＝σ(M_c(F)+M_s(F))。

在完成MobilenetV2的特征提取后，可以获得两个有效特征层，一个有效特征层是输入图片高和宽压缩两次的结果，即主干网络压缩两次的初步有效特征层；另一个是输入图片高和宽压缩四次的结果，即主干网络压缩四次的初步有效特征层。

本实施例基于构建的改进型deeplabv3+网络进行训练，训练后输出分割模型进行使用，其具体训练过程如下：

1)采集咽部图像，咽部图像包括咽部正常图像和咽部感染图像。本实施例获取用于训练的咽部图像包含了部分扁桃体感染和压舌片等干扰因素，以便减轻在实际检测中存在被采样者个体差异和其他环境因素干扰。

2)对采集的咽部图像进行预处理，生成训练数据集。

2-1)对咽部图像进行去反光处理。

在拍摄图像过程中，由于光源的镜面反射，口腔上颚、悬雍垂、扁桃体等在图片中显示高光，这些图像特征会对感知图像质量产生影响，所以在数据集增强前先对图像进行去反光处理。本实施例的去反光处理具体步骤如下：

2-1-1)对图片进行反光检测，得到咽部图像中的高光区域。

使用灰度强度作为参考，将图像的绿色和蓝色通道cG和cB进行归一化，然后计算灰度强度cE，具体计算公式为：

cE＝0.2989·cR+0.5870·cG+0.1140·cB

其中，cR为红色通道。

接着计算颜色平衡比，计算公式如下：

式中，r_GE为绿色通道和灰度强度的颜色平衡比，r_BE为蓝色通道和灰度强度的颜色平衡比，P₉₅()表示第95百分位数，即颜色强度值超过其95％的数值。

图像中高光像素x₀满足的条件如下：

cG(x₀)>r_GE·T∪cB(x₀)>r_BE·T∪cB(x₀)>T

其中，T＝240表示灰度阈值。根据确定的高光像素确认图中的高光区域。

2-1-2)对检测出的高光区域用其周围一圈半径为2和4像素的圆形形成的圆环区域像素平均值进行填充，得到填充图像。其中高光区域周围一圈半径为2和4的像素的圆形的形成时，可以取高光区域的中心(或者接近中心的位置)作为圆心，以高光区域距离中心最远的距离的基础上外扩2或4个像素作为半径形成圆形区域。

2-1-3)检测反光区域：对填充后的图像做中值滤波，得到平滑非反光区域颜色像素，中值滤波后的图像为平滑非反光区域颜色图像，将拍摄原图图像中每个像素与平滑非反光区域颜色图像中的对应像素进行比较，比较两者的像素值，如果原图图像中的像素值大于平滑非反光区域颜色图像中的像素值，则对应的像素点为反光像素，由此得到反光区域。

2-1-4)反光修复：用检测反光区域中的填充方法将反光区域进行填充，然后对填充图片进行高斯模糊(高斯核为8)得到非反光强平滑图像，完成咽部图像的去反光处理。

2-2)对去反光处理后的咽部图像进行裁剪，保留有价值信息的分割区域。

2-3)对分割区域进行标注，在标注后进行数据增强处理，得到训练数据集。

本实施例对分割区域进行类别标注(即标注为咽部的像素区域)，分割区域为咽部不含悬雍垂的M形状区域。然后对数据集进行数据扩增，即中心裁剪、随机旋转、高斯模糊、RGB平移等扩增方法。另外本实施例在数据增强中，通过Grab Cut算法对分割区域进行预提取，将预提取得到的粗分割结果与去反光处理后的图像进行叠加，以增强分割位置的信号强度，提高模型训练效果。

如图6所示，Grab Cut算法具体如下：将标注边界作为初始信息，将边界外像素视为已知背景像素，标注区域内像素标记为未知像素；使用K-means算法对前景与背景进行聚类，根据聚类后的颜色分布得到每个像素的新标签；将新标签与对应像素作为输入进入下一次迭代；经过多次迭代至模型收敛，得到最终的分割结果。

为了验证本实施例提出的数据预处理方法(去反光+Grab Cut)的有效性，本实施例使用公开数据集进行验证，设置对比实验组为不进行预处理的图像和仅进行去反光处理的图像，利用本实施例的分割模型进行分割处理，实验验证结果如下表2所示：

表2数据预处理方法的验证结果

	Precision	Recall	DSC
				未处理	0.869	0.851	0.843
去反光	0.914	0.893	0.879
				去反光+Grab Cut	0.936	0.924	0.919

其中，Precision为准确度，Recall为召回率，DSC为Dice Coefficient。根据表2结果可以看出，本实施例去反光结合Grab Cut算法处理后的图像能够使分割模型得到最优的图像分割结果。

3)设计损失函数。

本实施例网络训练所使用的损失函数为一种混合损失函数：

Loss＝λLoss_FL+(1-λ)Loss_DSC

其中，Loss_FL表示Focal Loss损失函数，Loss_DSC表示DSC损失函数，λ为权重因子，用于调节两种损失函数的权重。其中Focal Loss损失函数和DSC损失函数为常规损失函数，本实施例中不展开描述。

本发明对权重因子λ数值的选择进行了实验比较，将λ分别设置为0、0.2、0.4、0.6、0.8、1，基于不同的权重因子对本实施例改进的deeplabv3+网络进行训练，取训练后的模型通过对比实验得到效果最优的权重，结果如下表3所示：

表3权重因子对比实验结果

λ	Precision	Recall	DSC
				0	0.838	0.841	0.835
0.2	0.859	0.867	0.851
				0.4	0.884	0.892	0.879
0.6	0.913	0.926	0.911

由上表可知，当λ取值为0.6时，网络性能最佳，因此本实施例网络训练中权重因子λ取值为0.6。

4)使用Adam优化器采用随机梯度下降(SGD)法进行网络训练，在训练过程中，当求得的损失收敛并在连续120个迭代次数内不再显著变化后，停止模型的训练。

步骤3、使用边界检测算子得到咽部在图像分割结果中的像素坐标。

实际采样中需要采集部位处于分割结果中的边界处，本实施例使用conv2d算子，即宽度方向卷积核为[-1,0,1]，当像素点处于背景或前景时，卷积计算结果为0；当像素点处于边界时，卷积结果不为0，以此获取边界的像素坐标值。

步骤4、基于深度图，根据咽部的像素坐标得到咽部的深度值。

步骤5、根据深度相机的标定参数，基于咽部的像素坐标和深度值得到咽部在世界坐标系下的位置，完成定位。

本发明采用张正友标定法实现深度相机自身标定，计算相机内参。在咽部图像采集中对深度相机进行标定时，手眼标定坐标系转换如图7所示。在此步骤中，需要获取两个方面坐标转换关系，第一个是机械臂末端到相机的坐标系转换，第二个是棉签头相对于机械臂末端的位置关系。

其中，T₁为机械臂世界坐标系到机械臂末端坐标系的变换矩阵；T₂为代求的固定矩阵，表示机械臂末端坐标系到相机坐标系的变换矩阵；T₃为相机坐标系到标定板坐标系的变换矩阵；T₄为机械臂末端坐标系到标定板坐标的变换矩阵；T₅为机械臂世界坐标系到标定板坐标系的变换矩阵。

因此，拍摄标定图像的转换公式为：T₅＝T₁T₂T₃。通过改变标定板位置并多次采集标定图像，获取方程组，从而解出待求矩阵T₂。将棉签头多次触碰标定板棋盘格角点，拍摄图片获取角点坐标，则得到棉签头相对于机械臂末端的位置关系，公式如下：T₄＝T₂T₃。

基于上述变换矩阵，通过如下步骤得到世界坐标系下的位置信息：

首先，将相机坐标系下采集部位的像素坐标由二维转换为三维，图像中像素坐标投影公式如下：

其中[u,v]为图像中像素点的像素坐标，Z_d表示深度值，[c_x,c_y]表示图像中心坐标，f_x为相机焦距，[X_camera,Y_camera,Z_camera]为采集部位的三维像素坐标。

世界坐标系下图像像素坐标转换公式如下：

其中，[X_base,Y_base,Z_base]为采集部位在世界坐标系下的位置信息。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述基于deeplabv3+网络的咽部图像分割及定位方法，包括：

步骤1、利用深度相机获取咽部的彩色图和深度图；

2.如权利要求1所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述基于彩色图，利用基于deeplabv3+网络构建的分割模型进行处理，得到图像分割结果，包括：

3.如权利要求2所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述主干网络为改进MobilenetV2网络，该改进MobilenetV2网络采用原MobilenetV2网络的Bottleneck结构，且在stride＝1的倒残差结构中添加注意力机制，在stride＝2的线性瓶颈结构中加入不同膨胀率的并行分支以获得多尺度特征。

4.如权利要求3所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述在stride＝1的倒残差结构中添加注意力机制，包括：

5.如权利要求3所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述在stride＝2的线性瓶颈结构中加入不同膨胀率的并行分支以获得多尺度特征，包括：

6.如权利要求2所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述对deeplabv3+网络进行训练得到分割模型，包括：

其中，所述损失值计算时采用的损失函数Loss如下：

Loss＝λLoss_FL+(1-λ)Loss_DSC

7.如权利要求6所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述采集咽部图像生成训练数据集，包括：

对咽部图像进行去反光处理；

对去反光处理后的咽部图像进行裁剪，保留分割区域；

8.如权利要求7所述的基于deeplabv3+网络的咽部图像分割及定位方法，其特征在于，所述对咽部图像进行去反光处理，包括：

对咽部图像进行反光检测，得到咽部图像中的高光区域；