CN117115448B

CN117115448B - 基于深度神经网络的图像语义分割方法、装置及设备

Info

Publication number: CN117115448B
Application number: CN202311368793.8A
Authority: CN
Inventors: 宋华建; 王越; 倪建华; 张广丽; 邱建龙; 张安彩
Original assignee: Linyi University
Current assignee: Linyi University
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-30
Anticipated expiration: 2043-10-23
Also published as: CN117115448A

Abstract

本发明公开了一种基于深度神经网络的图像语义分割方法、装置及设备，属于计算机视觉与图像处理技术领域。方法包括步骤：采集手术过程中的现场图像数据，构建训练数据集；对训练数据集进行预处理，并划分为训练集和测试集；建立语义分割模型，基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用优化器进行模型训练并更新模型的权重；将测试集中的样本数据按所需分割模式输入训练后的相应语义分割模型，获取各模式下语义分割模型的识别准确度；采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像。本发明提高了手术机器人器械语义分割的准确性，更好地应用于RMIS场景。

Description

基于深度神经网络的图像语义分割方法、装置及设备

技术领域

本发明涉及一种基于深度神经网络的图像语义分割方法、装置及设备，属于计算机视觉与图像处理技术领域。

背景技术

微创手术由于其对人体创口小、术后恢复时间快等优点,被广泛应用到外科手术中。随着机器人技术的快速发展,将机器人技术与微创手术结合的机器人辅助微创手术(RMIS)应运而生。RMIS是指利用腹腔镜、内窥镜等显示设备以及机器人、计算机等执行与计算设备所进行的一种手术。RMIS利用腔镜下手术视野放大清晰、机器人可精细操作等技术特点，具有创伤小、疼痛轻、恢复快的优越性。

在此类手术中，为了使手术机器人准确响应外科医生的操作、提高手术效率、确保患者安全，一个重要的环节是提升手术机器人对手术器械的自动化认知。为了实现这一目的，需处理由腔镜系统拍摄到的图像，以提取图像中手术器械的像素区域。随着计算机视觉技术的不断发展，语义分割技术已经被广泛应用于图像和视频处理领域，故可以使用图像语义分割技术来执行上述过程。

语义分割是一种图像处理技术，其目标是将图像中的每个像素分类到不同的语义类别，如手术器械、生理组织等。其与传统的图像分割技术相比，优势在于可以更好地使计算机识别和理解图像中的内容。

目前，手术机器人器械图像的语义分割算法主要集中在仅以深度卷积神经网络或视觉Transformer网络作为主体结构，准确率尚可，但是，在某些特定分割子任务下，其并没有达到符合手术器械语义分割实际应用的情况；同时，以视觉Transformer网络作为主体结构的手术机器人器械图像语义分割算法消耗的时间比较长，模型训练时收敛速度较慢。

发明内容

为了克服现有语义分割算法存在的局限性，本发明提出了一种基于深度神经网络的图像语义分割方法、装置及设备，能够提高手术机器人器械语义分割的准确性，以便更好地应用于机器人辅助微创手术（RMIS）场景。

本发明解决其技术问题采取的技术方案是：

第一方面，本发明实施例提供的一种基于深度神经网络的图像语义分割方法，包括以下步骤：

采集手术过程中的现场图像数据，构建训练数据集；所述训练数据至少包含每个图像像素的所属类别标注；

对训练数据集中数据进行预处理，并将预处理后的训练数据集划分为训练集和测试集；

建立语义分割模型，基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用AdamW优化器进行模型训练并更新模型的权重；

将测试集中的样本数据按所需分割模式输入训练后的相应语义分割模型，获取各模式下语义分割模型的识别准确度；

采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像。

作为本实施例一种可能的实现方式，所述语义分割模型包括编码器、特征融合器、解码器和预测模块；所述编码器用于提取所输入手术过程中的现场图像数据的各级特征图，所述各级特征图包含图像的不同抽象级别信息；所述特征融合器用于不同级的特征图融合，可将低层次或短程的细节特征与高层次或长程的语义信息结合起来；所述解码器用于学习从特征图中恢复图像细节，对特征进行上采样，逐步恢复分辨率，同时保持语义信息；所述预测模块用于进行预测操作，生成每个像素对应的语义类别概率分布，产生最终的手术器械图像的语义分割图像；所述特征融合器包括同尺寸特征融合模块和视觉Transformer空间金字塔池化模块，所述同尺寸特征融合模块用于对尺寸相同、通道数不同的特征图进行同尺寸特征融合；所述视觉Transformer空间金字塔池化模块用于首先对输入应用不同尺度感受野下的自注意力机制获取不同尺度的语义信息并进行通道维度的串联，然后结合同尺寸特征融合模块对串联的语义信息进行特征融合，最终输出融合后的语义特征图。

作为本实施例一种可能的实现方式，所述对训练数据集中数据进行预处理包括：对训练数据集中数据进行调整图像尺寸、图像归一化和数据增强处理；所述数据增强处理至少包括随机裁剪、图像翻转、颜色抖动和图像旋转处理。

作为本实施例一种可能的实现方式，所述基于训练集采用二值分割、部件分割或器械类别分割模式根据训练损失采用AdamW优化器进行模型训练更新模型的权重，包括：

基于训练集中标注了像素所属类别的图像数据，对于不同的所属类别标注类型，选择对应的二值分割、部件分割或器械类别分割训练模式；所述所属类别标注类型包括手术器械与生物组织、不同的器械部件和不同的器械种类；

通过有监督学习的方式对模型进行训练来更新模型的权重，使其逐渐优化分割性能；

待到训练收敛后，对于每种训练模式分别保存相应的模型权重。

作为本实施例一种可能的实现方式，所述采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像，包括：

在手术过程中持续地采集图像数据；

分别采用二值分割、部件分割和器械类别分割模式并装载相应模式下经过训练的模型权重；

将采集到的图像数据输入优化后的语义分割模型进行语义分割，生成各个分割模式的语义分割图像。

作为本实施例一种可能的实现方式，所述建立语义分割模型，基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用AdamW优化器进行模型训练并更新模型的权重，包括：

获取待微调训练编码器的初始模型参数，去除待微调训练编码器中的全连接分类层，构成一个全卷积神经网络；所述待微调训练编码器的初始模型参数为在大规模数据集中预训练好的各层初始权重矩阵，

基于卷积神经网络、同尺寸特征融合模块和视觉Transformer空间金字塔池化模块构建语义分割模型；

按手术现场需求选择二值分割、部件分割和器械类别分割模式中的其一；

将训练集中对应分割模式下的所有图像输入语义分割模型进行模型训练来更新模型参数，代入更新后模型参数得到优化后的语义分割模型。

作为本实施例一种可能的实现方式，所述将训练集中对应分割模式下的所有图像输入语义分割模型进行模型训练进行模型参数更新，代入更新后模型参数得到优化后的语义分割模型，包括：

在编码阶段，在编码器的各层上，装载所述初始权重矩阵，并依照各层的输出尺寸与通道数将所有卷积层划分为若干层级；对每个训练图像分别进行编码操作，得到每个训练图像在各层级的第一特征图；对于部分尺寸相同，通道数不同的第一特征图，将它们按照尺寸成组的输入至同尺寸特征融合模块进行特征融合，得到更新的第一特征图；

对每个训练图像的所有不同尺寸的第一特征图进行上采样或最大池化操作调整至原始训练图像尺寸的1/8，并进行通道维度的串联，然后输入至视觉Transformer空间金字塔池化模块得到第二特征图；

根据使用的编码器划分出的卷积层层级数，设置数量相同的、输出尺寸依次成倍增加的级联轻量化子解码器，最后一级子解码器块的输出尺寸与原始训练图像尺寸相同；将尺寸最小、通道数最高的第一特征图像称为最高级第一特征图，而子解码器的命名反之；解码器由所有子解码器构成；

在解码阶段，最低级子解码器接收最高级第一特征图与第二特征图作为其输入，次低级解码器接收最低级子解码器的输出与第二特征图作为输入，以此类推；每一级子解码器还额外接收来自全部相对比它高级的第一特征图；

得到最高级子解码器的输出，预测模块据此对其进行分析，根据图像中每个像素所属的类别进行语义变换，得到语义分割结果；

使用加权的类别交叉熵损失和对数交并比损失的组合作为总损失函数，代入语义分割结果与相应的标注图像计算损失值，据此进行模型参数更新，直至收敛。

作为本实施例一种可能的实现方式，所述的图像语义分割方法还包括以下步骤：

使用评价指标评估模型在测试集上的性能，并根据评估结果对语义分割模型进行优化。

所述评价指标包括但不限于MIOU（平均交并比）和Dice系数。

第二方面，本发明实施例提供的一种基于深度神经网络的图像语义分割装置，包括：

图像数据采集模块，用于采集手术过程中的现场图像数据，构建训练数据集；所述训练数据至少包含每个图像像素的所属类别标注；

图像数据预处理模块，用于对训练数据集中数据进行预处理，并将预处理后的训练数据集划分为训练集和测试集；

语义分割模型建立模块，用于建立语义分割模型，基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用AdamW优化器进行模型训练并更新模型的权重；所述语义分割模型包括编码器、特征融合器、解码器和预测模块；

模型优化模块，用于将测试集中的样本数据按所需分割模式输入训练后的相应语义分割模型，获取各模式下语义分割模型的识别准确度；

语义分割模块，用于采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像。

第三方面，本发明实施例提供的一种计算机设备，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任意基于深度神经网络的图像语义分割方法的步骤。

第四方面，本发明实施例提供的一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述任意基于深度神经网络的图像语义分割方法的步骤。

本发明实施例的技术方案可以具有的有益效果如下：

本发明将二值分割、部件分割、器械类别分割三种手术器械语义分割任务进行整合，充分利用任务之间的相关性，使系统的流程统一，减少了手动干预与分别设计的需求，提高了自动化水平，降低了操作复杂性，同时保持了高分割精度。在实际的机器人辅助微创手术场景中，特别是在医疗外科手术领域发挥重要作用，为医生提供有力支持。

本发明提出了一种新的基于卷积神经网络（CNNs）和视觉Transformer空间金字塔池化模块（TSPP）的手术机器人器械图像的语义分割模型，结合深度学习和神经网络技术，提高了手术机器人器械语义分割的准确性，更好地应用于机器人辅助微创手术（RMIS）场景。

附图说明

图1是根据一示例性实施例示出的一种基于深度神经网络的图像语义分割方法的流程图；

图2是根据一示例性实施例示出的一种基于深度神经网络的图像语义分割装置的方框图；

图3是一种采用本发明所述基于深度神经网络的图像语义分割装置进行图像语义分割的具体流程图；

图4是根据一示例性实施例示出的一种语义分割模型的总体结构图；

图5是根据一示例性实施例示出的一种同尺寸特征融合模块（FSSF）结构示意图；

图6是根据一示例性实施例示出的一种视觉Transformer空间金字塔池化模块（TSPP）的结构示意图；

图7是根据一示例性实施例示出的一种解码器中子解码器的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明实施例提供了一种基于深度神经网络的图像语义分割方法，包括以下步骤：

作为本实施例一种可能的实现方式，所述采集手术过程中的现场图像数据的具体过程为：手术机器人在手术过程中会通过其所装配的内窥镜系统采集手术过程中的现场图像数据。

作为本实施例一种可能的实现方式，所述对训练数据集中数据进行预处理包括：对训练数据集中数据进行调整图像尺寸、图像归一化和数据增强处理；所述数据增强处理至少包括随机裁剪、图像翻转、颜色抖动和图像旋转处理，以增加模型的鲁棒性和泛化能力并确保模型的输出的质量和一致性。

基于训练集中标注了像素所属类别的图像数据，对于不同的所属类别标注类型，选择对应的二值分割、部件分割或器械类别分割训练模式；所述所属类别标注类型包括手术器械与生物组织、不同的器械部件和不同的器械种类；当所属类别标注类型为手术器械与生物组织时采用二值分割模式，当所属类别标注类型为不同的器械部件时采用部件分割模式，当所属类别标注类型为不同的器械种类时采用器械类别分割模式；

在手术过程中持续地采集图像数据；

获取待微调训练编码器的初始模型参数，去除待微调训练编码器中的全连接分类层，构成一个全卷积神经网络；所述待微调训练编码器的初始模型参数为在大规模数据集中（如ImageNet）预训练好的各层初始权重矩阵，

使用评价指标评估模型在测试集上的性能，并根据评估结果对语义分割模型进行优化。所述评价指标包括但不限于MIOU（平均交并比）和Dice系数。

如图2所示，本发明实施例提供的一种基于深度神经网络的图像语义分割装置，包括：

如图3所示，在机器人辅助微创手术场景中，采用本发明所述基于深度神经网络的图像语义分割装置进行图像语义分割的具体过程如下。

1.数据采集：

手术机器人在手术过程中会通过其所装配的内窥镜系统采集手术过程中的现场图像数据。训练数据通常需要包含每个像素的所属类别标注，如手术器械与生物组织、不同的器械部件、不同的器械种类等三种类别。

2.数据预处理：

模型的输入数据需要进行预处理，主要为调整图像尺寸，图像归一化和数据增强（例如随机裁剪、图像翻转、颜色抖动和图像旋转等），以增加模型的鲁棒性和泛化能力并确保模型的输出的质量和一致性。

3.模型的训练：

基于标注后的手术图像数据，对于不同的标注类型，选择二值分割、部件分割和器械类别分割三种训练模式之一，通过有监督学习的方式对模型进行训练，来更新模型的权重，使其逐渐优化分割性能。待到训练收敛，对于每种训练模式分别保存相应的模型权重。

4.模型的评估：

使用评价指标如MIOU（平均交并比）、Dice系数等来评估模型在测试集上的性能。

5.模型的测试与使用：

在手术过程中，机器人会持续地采集患者体内的图像数据。选择二值分割、部件分割和器械类别分割三种测试/使用模式之一，为模型装载相应模式下经过训练的模型权重，将采集到的图像数据输入其中，模型会按照所选模式自动分割图像，产生所需输出。

与现有技术相比，本发明具有以下主要特点：

（1）提供了一个多任务分割系统，可以根据使用者的需求，选择执行器械二值分割、器械部件分割与器械部件分割三个子任务中的任一个。此系统不仅能够精确地识别手术场景中的器械，还能将器械按不同部件或不同种类进行准确的分割，为医生和外科手术操作提供可靠辅助。

（2）基于编码器——解码器架构的模块化结构设计使得语义分割模型具备高度的可维护性与可升级性；具体表现在于，将分割模型划分为编码器——特征融合器——解码器——预测模块，此种模型划分下，各部分的分离和独立性使得修改特定功能时不会影响其他模块的功能。例如，如果需要调整特征提取策略，只需修改或替换编码器，而不会影响解码器或其他部分，反之亦然。

（3）构建了同尺寸特征融合模块（FSSF）与视觉Transformer空间金字塔池化模块（TSPP）。

（4）在解码阶段设置了分布式与逐级式特征连接方式，并构建了级联型轻量化解码器。

（5）模型的微调训练设置对超参数不敏感，不依赖于大量的人工参数优化，模型鲁棒性强、分割精度高。

基于上述特点，本发明所述语义分割模型的建立过程包括以下步骤:

步骤S1：获取待微调训练编码器（特征提取网络）的初始模型参数，所述待微调训练编码器初始模型参数为在大规模数据集中（如ImageNet）预训练好的各层初始权重矩阵，并去除待微调训练编码器中的全连接分类层，使之成为一个全卷积网络；

步骤S2：构建基于卷积神经网络（CNNs）和本发明所提出的同尺寸特征融合模块（FSSF）以及视觉Transformer空间金字塔池化模块（TSPP）的手术机器人器械图像的语义分割模型，此模型包括：编码器（特征提取网络）、同尺寸特征融合模块（FSSF）、视觉Transformer空间金字塔池化模块（TSPP）、解码器（细节恢复网络）和预测模块；

步骤S3：按使用需求选择二值分割、部件分割、器械类别分割模式中的其一；

步骤S4：向语义分割模型输入选定数据集的训练集中的若干个图像；

步骤S5：在编码阶段，在编码器的各层上，装载所述初始权重矩阵，并依照各层的输出尺寸与通道数将所有卷积层划分为若干层级；对每个训练图像分别进行编码操作，得到每个训练图像在各层级的第一特征图；对于部分尺寸相同，通道数不同的第一特征图，将它们按照尺寸成组的输入至同尺寸特征融合模块（FSSF）进行特征融合，得到更新的第一特征图；

步骤S6：对每个训练图像的所有不同尺寸的第一特征图进行上采样或最大池化操作调整至原始训练图像尺寸的1/8，并进行通道维度的串联，然后输入至视觉Transformer空间金字塔池化模块（TSPP）得到第二特征图；

步骤S7：根据使用的编码器划分出的卷积层层级数，设置数量相同的、输出尺寸依次成倍增加的级联轻量化子解码器，最后一级子解码器块的输出尺寸与原始训练图像尺寸相同；为方便起见，将尺寸最小，通道数最高的第一特征图像称为最高级第一特征图，而子解码器的命名反之；解码器由所有子解码器以及预测模块构成；

步骤S8：在解码阶段，最低级子解码器接收最高级第一特征图与第二特征图作为其输入，次低级解码器接收最低级子解码器的输出与第二特征图作为输入，以此类推。每一级子解码器还额外接收来自全部相对比它高级的第一特征图；

步骤S8：得到最高级子解码器的输出，预测模块据此对其进行分析，根据图像中每个像素所属的类别进行语义变换，得到语义分割结果；

步骤S10：使用加权的类别交叉熵损失和对数交并比损失的组合作为总损失函数，代入语义分割结果与相应的标注图像计算损失值，据此进行模型参数更新，直至收敛。这一更新阶段即称为微调训练。

具体地，关于步骤S2至S8中所述分割模型及其各模块组件信息、逻辑关系，以及数据传递关系如下：

分割模型按照如下结构设计：编码器——特征融合器——解码器——预测模块。如图4所示，编码器用于提取所输入手术图像的各级特征图，这些特征图包含了图像的不同抽象级别信息；特征融合器用于不同级的特征图融合，可将低层次（或短程）的细节特征与高层次（或长程）的语义信息结合起来，有助于更好地保留与恢复细节信息；解码器用于学习从特征图中恢复图像细节，对特征进行上采样，逐步恢复分辨率，同时保持语义信息，可以使用转置卷积或插值上采样等方法；预测模块用于进行预测操作，生成每个像素对应的语义类别概率分布，产生最终的手术器械分割输出。

采用EfficientNetV2-M作为编码器，用来提取图像输入I的第一特征图集合，根据EfficientNetV2-M的网络特点，将/>；

所述特征融合器包括同尺寸特征融合模块（FSSF）与视觉Transformer空间金字塔池化模块（TSPP）。

如图5所示，同尺寸特征融合模块（FSSF）包括一个1*1卷积层、一个批量归一化层与一个SiLU非线性激活层，用来融合同尺寸但不同通道数的第一特征图子集以更新第一特征图集合得到第二特征图集合S：/>：

如图6所示，所述视觉Transformer空间金字塔池化模块（TSPP）使用Swin-Transformer-V2 Blocks的滑动窗口自注意力机制，获取特征图中像素的相对关系，进一步计算位置信息来区分手术器械不同部位的语义区域和对象边界。此模块共包含六个分支：第一个分支使用1x1卷积层，随后是批量归一化层和非线性层，以增强输入特征映射中的显著特征。第二、三和四个分支以不同的倍率（如2、4、8）执行补丁嵌入操作，并使用线性层进行位置编码，然后将这些分支连接起来，连接到两个堆叠的SwinTransformerV2块，并且不共享权重。第五个分支包括一个全局平均池化层，作为空间级别的注意机制，从模块的输入中提取全局信息。第五个分支的输出被上采样到相同的大小。此外，引入了第六个集成分支作为Skip-Connection，将上采样结果与模块的输入融合在一起。最后，使用最后，利用同尺寸特征融合模块（FSSF）来促进不同分支之间的特征融合和互补。此外，编码器的所有五个阶段的特征图也输入到此模块中。通过这种方法，可以确保该模块保留了捕获不同尺度感受野的思想，同时避免了因仅接受最高级特征图作为输入或使用池化层和高倍率膨胀卷积而导致丢失短程特征细节。此模块以第二特征图集合S作为输入，输出特征融合结果T：

如图7所示，所述级联型轻量化解码器D由数个（对于EfficientNetV2-M编码器，数量为5）子解码器di，i={1,2,3,4,5}组成，每一个子解码器构成如下：一个上采样层、一个3*3卷积层、一个Batch Norm层、一个SiLU非线性激活层、一个1*1卷积层、一个Batch Norm层以及一个SiLU非线性激活层，用来逐级恢复图像细节，得到第三图像特征图集合。在图像细节恢复阶段，采用分布式与逐级式特征连接方式来形成各子解码器的输入，此种方式下具体特征图传递关系为：

其中，⊕运算符表示特征连接，用于特征图的通道维度串联，包括尺寸不一致时进行上采样或最大池化的操作。

所述预测模块P包括一个1*1卷积层与Softmax层，用来得到特征图c ₅中每个像素的类别概率，形成并输出语义分割结果图O：

在实际的机器人辅助微创手术场景中，本发明的一项显著优势在于，将二值分割、部件分割、器械类别分割三种手术器械语义分割任务整合在了一个框架中，充分利用任务之间的相关性，使系统的流程统一，减少了手动干预与分别设计的需求，提高了自动化水平，降低了操作复杂性，同时保持了高分割精度。有望在医疗外科手术领域发挥重要作用，为医生提供有力支持。

本发明在实施过程中，主要包含了以下几个部分。

一、手术器械语义分割模型的构建。

将编码器、同尺寸特征融合模块（FSSF）、视觉Transformer空间金字塔池化模块（TSPP）、解码器以及预测模块等按照编码器——特征融合器——解码器——预测模块的结构组合，网络整体以及各模块构成的可视化结构图如图4至图7所示。

二、数据集的选择和处理。

本发明选用了两个公开可获得的数据集，具体为：

数据集1选用MICCAI EndoVis 2017 Dataset，是由达芬奇手术机器人系统记录的10个腹部手术序列，序列中包含有明显的器械运动。数据集来源：https://endovissub2017-roboticinstrumentsegmentation.grand-challenge.org/。它包含了3000张分辨率为1920*1080的图像，其中包括1800张用于训练的图像和1200张用于测试的图像。将对于每个原始图像帧进行裁剪以删除有效像素区域周围的黑色画布。之后，将图像分辨率调整为1280*1024。这通常是在使用此数据集之前的默认处理。

数据集2选用Kvasir-Instrument。此数据是由Olympus(Olympus Europe，Germany)和Pentax(Pentax Medical Europe，Germany)使用标准内窥镜设备收集的。数据集来源：https://datasets.simula.no/kvasir-instrument/。其包含由590帧的原始图像组成，并提供了包含472张图像的训练集和包含以8：2的比例随机分割的118张图像的测试集的图像名称文件。该数据集中所有图像的分辨率都被调整为512*512。

三、模型的训练。

模型的训练包括损失函数、训练所用软件信息、优化方法等，具体如下：

总损失函数L设置为如下加权的类别交叉熵损失和对数交并比损失的组合：

其中，n为输入的训练图像数量，C为类别交叉熵损失，p和p’表示输入/输出图像对中每个像素的预测值和对应的标注值，α是一个权重标量。

使用PyTorch 1.10.0、CUDA11.3和CUDNN 8.0实现了本发明所提出的模型。

为了防止模型训练的过拟合，使用了开源Albuminations库（https://albumentations.ai/docs/）来进行图像增强以在线扩充训练数据集。图像增强方式具体包括：随机裁剪、概率为0.5的水平及垂直翻转、概率为0.5的颜色抖动（亮度、对比度、饱和度以及色相的综合调整）、概率为0.5的随机旋转（极限为90°）的组合。特别地，结合手术环境中手术机器人器械图像可能存在运动模糊的特点，额外使用概率为0.5的图像运动模糊进行在线图像增强。

采用GradualWarmup和CosineAnnealing结合的学习率更新策略和AdamW优化器来提高模型训练的稳定性，学习率在GradualWarmup阶段的初始为1e-5，在3个epochs后线性升至1e-4，接着在CosineAnnealing阶段开始以余弦曲线下降，经过51个epochs后最终降至1e-7，共训练54个epochs。

四、模型的测试与分割结果的评估。

待训练收敛后，直接将待测试图像输入模型，即可得到分割结果。分割结果的评估遵循了在图像分割领域中一致使用的两个最重要的指标，分别为平均交并比（MIOU）和Dice系数（Dice），两个指标的计算如下：

其中，集合A为输入图像，集合B为分割结果。

本发明实施例提供了一种计算机设备，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述装置运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任意基于深度神经网络的图像语义分割方法的步骤。

具体地，上述存储器和处理器能够为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述基于深度神经网络的图像语义分割方法。

本领域技术人员可以理解，所述计算机设备的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

在一些实施例中，该计算机设备还可以包括触摸屏可用于显示图形用户界面（例如，应用程序的启动界面）和接收用户针对图形用户界面的操作（例如，针对应用程序的启动操作）。具体的触摸屏可包括显示面板和触控面板。其中显示面板可以采用LCD(LiquidCrystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置。触控面板可收集用户在其上或附近的接触或者非接触操作，并生成预先设定的操作指令，例如，用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作。另外，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位、姿势，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成处理器能够处理的信息，再送给处理器，并能接收处理器发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板，也可以采用未来发展的任何技术实现触控面板。进一步的，触控面板可覆盖显示面板，用户可以根据显示面板显示的图形用户界面，在显示面板上覆盖的触控面板上或者附近进行操作，触控面板检测到在其上或附近的操作后，传送给处理器以确定用户输入，随后处理器响应于用户输入在显示面板上提供相应的视觉输出。另外，触控面板与显示面板可以作为两个独立的部件来实现也可以集成而来实现。

对应于上述应用程序的启动方法，本发明实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述任意基于深度神经网络的图像语义分割方法的步骤。

本申请实施例所提供的应用程序的启动装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度神经网络的图像语义分割方法，其特征在于，包括以下步骤：

采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像；

所述语义分割模型包括编码器、特征融合器、解码器和预测模块；所述编码器用于提取所输入手术过程中的现场图像数据的各级特征图，所述各级特征图包含图像的不同抽象级别信息；所述特征融合器用于不同级的特征图融合，可将低层次或短程的细节特征与高层次或长程的语义信息结合起来；所述解码器用于学习从特征图中恢复图像细节，对特征进行上采样，逐步恢复分辨率，同时保持语义信息；所述预测模块用于进行预测操作，生成每个像素对应的语义类别概率分布，产生最终的手术器械图像的语义分割图像；所述特征融合器包括同尺寸特征融合模块和视觉Transformer空间金字塔池化模块，所述同尺寸特征融合模块用于对尺寸相同、通道数不同的特征图进行同尺寸特征融合；所述视觉Transformer空间金字塔池化模块用于首先对输入应用不同尺度感受野下的自注意力机制获取不同尺度的语义信息并进行通道维度的串联，然后结合同尺寸特征融合模块对串联的语义信息进行特征融合，最终输出融合后的语义特征图；

所述建立语义分割模型，基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用AdamW优化器进行模型训练并更新模型的权重，包括：

获取待微调训练编码器的初始模型参数，去除待微调训练编码器中的全连接分类层，构成一个全卷积神经网络；所述待微调训练编码器的初始模型参数为在大规模数据集中预训练好的各层初始权重矩阵；

将训练集中对应分割模式下的所有图像输入语义分割模型进行模型训练来更新模型参数，代入更新后模型参数得到优化后的语义分割模型；

所述将训练集中对应分割模式下的所有图像输入语义分割模型进行模型训练进行模型参数更新，代入更新后模型参数得到优化后的语义分割模型，包括：

使用加权的类别交叉熵损失和对数交并比损失的组合作为总损失函数，代入语义分割结果与相应的标注图像计算损失值，据此进行模型参数更新，直至收敛；

所述总损失函数L为：

2.根据权利要求1所述的基于深度神经网络的图像语义分割方法，其特征在于，所述对训练数据集中数据进行预处理包括：对训练数据集中数据进行调整图像尺寸、图像归一化和数据增强处理；所述数据增强处理至少包括随机裁剪、图像翻转、颜色抖动和图像旋转处理。

3.根据权利要求1所述的基于深度神经网络的图像语义分割方法，其特征在于，所述基于训练集采用二值分割、部件分割或器械类别分割模式分别根据训练损失采用AdamW优化器进行模型训练更新模型的权重，包括：

4.根据权利要求1所述的基于深度神经网络的图像语义分割方法，其特征在于，所述采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像，包括：

在手术过程中持续地采集图像数据；

5.一种基于深度神经网络的图像语义分割装置，其特征在于，包括：

语义分割模块，用于采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割，并输出语义分割图像；

所述总损失函数L为：

6.一种计算机设备，其特征在于，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-4任一所述的基于深度神经网络的图像语义分割方法的步骤。

7.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-4任一所述的基于深度神经网络的图像语义分割方法的步骤。