CN113705320A

CN113705320A - 手术动作识别模型的训练方法、介质和设备

Info

Publication number: CN113705320A
Application number: CN202110565266.0A
Authority: CN
Inventors: 贾富仓; 徐文廷
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-11-26
Also published as: WO2022246720A1

Abstract

本发明公开一种手术动作识别模型的训练方法、存储介质和设备。手术动作识别模型包括主干网络、金字塔特征聚合网络和预测网络，金字塔特征聚合网络包括特征图汇集模块和特征图发散模块，训练方法包括：将获取到的原始手术动作图像输入到主干网络，得到若干不同尺度的层次化特征图；将层次化特征图输入到金字塔特征聚合网络，依次经过特征图汇集模块和特征图发散模块的融合处理，得到若干不同尺度的融合特征图；将若干不同尺度的融合特征图输入到预测网络，得到预测目标值；根据预测目标值和获取到的真实目标值更新损失函数，并调整手术动作识别模型的模型参数。该方法充分利用空间信息，融合更多尺度特征，训练得到高精度的预测模型。

Description

手术动作识别模型的训练方法、介质和设备

技术领域

本发明属于图像处理技术领域，具体地讲，涉及一种手术动作识别模型的训练方法、计算机可读存储介质、计算机设备。

背景技术

外科手术机器人系统是一种可以辅助外科医生完成手术的智能计算机辅助系统。在微创外科手术中，根据图像算法做出的处理结果使辅助手术机器人做出相应的手术操作动作，协助主治外科医生共同完成手术操作。手术机器人系统不仅具有微创手术创伤小、恢复快、患者痛苦程度轻的特点，并且因为引入智能辅助机器人系统将病人的影像数据与实际手术中患者的解剖部位相结合，手术中通过实时跟踪手术器械与手术动作的实时识别，使外科医生更加清晰的了解解剖部位的实时变化，使得微创手术更加安全、稳定、可靠。同时，通过辅助机械臂的介入对手术动作的实时检测，可以在很大程度上代替辅助外科医生的任务，减小手术过程中外科医生的需求量和多名医生相互配合不当产生的误操作。其中，针对手术动作的目标识别任务，是手术辅助机器人系统中最基本也至关重要的技术。基于深度学习的手术动作实时检测，实现手术机器人系统中核心的低层算法，为将来半自主或全自助化手术机器人的研发提供关键技术支撑。

现有的基于深度学习的检测方法，分为两大类型，基于静态的行为检测和基于动态的行为检测。静态方法仅具有空间信息(图像数据)，而没有当前帧的任何时间上下文。动态活动检测方法使用视频数据，该视频数据为视频中的运动提供了时间上下文信息。但上述方法都是应用于自然场景与模拟的手术场景，和在真实场景下的手术动作检测有很大不同。首先，人体的组织器官存在非刚体的形变，两个不同器官之间的边界、形状和颜色差异很小，基于空间信息的方法难以提取到图像中有效的特征信息，造成分类器的精度较差。其次，使用内窥镜相机拍摄的场景非常接近，无法显示完整的器官及其周围环境，因此几乎没有上下文信息。这样基于动态的行文检测方法难以有效利用手术视频上下帧之间的时间与空间信息，这些方法就难以满足手术动作检测的任务需求。最后，内窥镜在近距离内的运动和方向使器官从不同角度呈现出很大的不同，这些变化性剧烈的情况也会造成传统的目标检测算法失效。

发明内容

(一)本发明所要解决的技术问题

在手术动作检测场景中时间上下文信息较少的情况下，如何充分利用空间信息，融合更多尺度特征，训练得到高精度的预测模型。

(二)本发明所采用的技术方案

一种手术动作识别模型的训练方法，手术动作识别模型包括主干网络、金字塔特征聚合网络和预测网络，其中，所述金字塔特征聚合网络包括特征图汇集模块和特征图发散模块，所述特征图汇集模块的输入单元和所述特征图发散模块的输出单元之间具有跳连融合路径，所述训练方法包括：

将获取到的原始手术动作图像输入到所述主干网络，得到若干不同尺度的层次化特征图；

将所述层次化特征图输入到所述金字塔特征聚合网络，依次经过所述特征图汇集模块和所述特征图发散模块的融合处理，得到若干不同尺度的融合特征图；

将若干不同尺度的融合特征图输入到所述预测网络，得到预测目标值；

根据预测目标值和获取到的真实目标值更新损失函数，并根据更新后的损失函数调整手术动作识别模型的模型参数。

优选地，所述特征图汇集模块包括融合单元数量递减的第一列金字塔层、第二列金字塔层和第三列金字塔层，所述特征图发散模块包括融合单元数量递增的所述第三列金字塔层、第四列金字塔层和第五列金字塔层，其中，所述第一列金字塔层为所述特征图汇集模块的输入单元，所述第五列金字塔层为所述所述特征图发散模块的输出单元，且所述第一列金字塔层与所述第五列金字塔层的融合单元数量相同，所述第二列金字塔层与所述第四列金字塔层的融合单元数量相同，各个融合单元通过预定融合路径网进行信息传递。

优选地，所述第一列金字塔层与所述第五列金字塔层均包括五个不同特征尺度的融合单元，所述第二列金字塔层与所述第四列金字塔层均包括三个不同特征尺度的融合单元，所述第三列金字塔层具有一个融合单元。

优选地，所述预定融合路径网包括：

第一融合路径，在金字塔层中自下而上由小尺度的融合单元指向大尺度的融合单元；

第二融合路径，用于对角连接两个相邻层之间的融合单元，通过下采样融合相邻层之间的不同尺度特征图信息；

第三融合路径，用于对角连接两个相邻层之间的融合单元，通过上采样融合相邻层之间的不同尺度特征图信息；

第四融合路径，用于水平连接同一层的融合单元，以融合相同尺度的特征图信息；

第五融合路径，在第一列金字塔层中自上而下由大尺度的融合单元指向小尺度的融合单元；

跳连融合路径，用于连接所述第一列金字塔层与所述第五列金字塔层中同一尺度的融合单元。

优选地，所述主干网络得到的层次化特征图具有三种尺度，所述第一列金字塔层的五个融合单元分别是由下至上尺度递增的第一融合单元、第二融合单元、第三融合单元、第四融合单元和第五融合单元，三种尺度的层次化特征图分别输入到所述第一融合单元、所述第二融合单元和所述第三融合单元；所述第一融合单元、所述第二融合单元和所述第三融合单元通过第五融合路径连接，所述第三融合单元、所述第四融合单元和所述第五融合单元通过第一融合路径连接。

优选地，所述损失函数的公式如下：

其中L_cls是Focal损失函数，L_reg是IOU损失函数，N_pos代表正样本的数量，λ是L_reg的平衡权重且值是1，

指对特征图上的所有点(x,y)所对应的损失进行求和，

指点(x,y)对应ground-truth的类别，P_x,y指点(x,y)对应预测值得类别，

指点(x,y)对应ground-truth的目标框，t_x,y指点(x,y)对应预测值的目标框，

是指数函数，当

时值为1，

取其它值时指数函数为0。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有手术动作识别模型的训练程序，所述手术动作识别模型的训练程序被处理器执行时实现上述的手术动作识别模型的训练方法。

本发明还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的手术动作识别模型的训练程序，所述手术动作识别模型的训练程序被处理器执行时实现上述的手术动作识别模型的训练方法。

(三)有益效果

本发明公开了一种手术动作识别模型的训练方法，相对于传统的训练方法，具有如下技术效果：

通过改进的金字塔特征聚合网络来充分融合高层语义信息和低层语义信息，得到的融合特征图可以更加精确地预测手术类别和边框的位置，解决了手术动作视频特征不明显的问题。

附图说明

图1为本发明的实施例一的手术动作识别模型的训练方法的流程图；

图2为本发明的实施例一的手术动作识别模型的训练测模型的框架图；

图3为本发明的实施例一的金字塔特征聚合网络的结构示意图；

图4为本发明的实施例二的手术动作识别模型的训练装置的结构示意图；

图5为本发明的实施例的计算机设备原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的技术构思：现有的基于深度学习的检测方法，需要依赖充分的上下文信息，而在真实手术场景下，由于相机拍摄场景非常接近，很难提取到有效的上下文信息，无法提高分类精度。本申请提供了一种手术动作识别模型的训练方法，首先通过主干网络提取到不同尺度的层次化特征图，接着利用金字塔特征聚合网络对层次化特征图进行融合处理，对不同尺度的特征图信息进行充分融合，得到不同尺度的融合特征图，最后利用预测网络进行预测以及利用更新后的损失函数调整手术动作识别模型的模型参数，该训练方法能充分利用视频中的空间信息，改善现有模型融合多尺度空间信息的能力，进而提高模型的识别精度和检测速度。

具体地，如图1和图2所示，本实施例一的手术动作识别模型的包括主干网络、金字塔特征聚合网络和预测网络，其中，金字塔特征聚合网络包括特征图汇集模块和特征图发散模块，特征图汇集模块的输入单元和特征图发散模块的输出单元之间具有跳连融合路径，手术动作识别模型的训练方法包括如下步骤：

步骤S10：将获取到的原始手术动作图像输入到所述主干网络，得到若干不同尺度的层次化特征图；

步骤S20：将所述层次化特征图输入到所述金字塔特征聚合网络，依次经过所述特征图汇集模块和所述特征图发散模块的融合处理，得到若干不同尺度的融合特征图；

步骤S30：将若干不同尺度的融合特征图输入到所述预测网络，得到预测目标值；

步骤S40：根据预测目标值和获取的真实目标值更新损失函数，并根据更新后的损失函数调整手术动作识别模型的模型参数。

示例性地，在步骤S10中，主干网络对原始手术动作图像进行处理，得到 C3、C4、C5三个尺度的层次化特征图，接着在步骤S20中，将相应尺度的层次化特征图输入到相应尺度的融合单元中，进行特征图信息的融合。

具体地，如图3所示，特征图汇集模块包括融合单元数量递减的第一列金字塔层P1、第二列金字塔层P2和第三列金字塔层P3，特征图发散模块包括融合单元数量递增的所述第三列金字塔层P3、第四列金字塔层P4和第五列金字塔层P5，其中，所述第一列金字塔层为所述特征图汇集模块的输入单元，所述第五列金字塔层为所述所述特征图发散模块的输出单元，且所述第一列金字塔层与所述第五列金字塔层的融合单元数量相同，所述第二列金字塔层与所述第四列金字塔层的融合单元数量相同，各个融合单元通过预定融合路径网进行信息传递。整个金字塔特征聚合网络呈蝴蝶状，通过各个融合单元对不同尺度的特征图信息进行充分融合。

示例性地，所述第一列金字塔层与所述第五列金字塔层均包括五个不同特征尺度的融合单元，所述第二列金字塔层与所述第四列金字塔层均包括三个不同特征尺度的融合单元，所述第三列金字塔层具有一个融合单元。需要说明的是，位于同一行的融合单元的尺度相同，又称为同一层的融合单元，同一列金字塔层的各个融合单元的尺度由上至下递减。

进一步地，如图2所示，预定融合路径网包括第一融合路径11、第二融合路径12、第三融合路径13、第四融合路径14、第五融合路径15和跳连融合路径16。其中，第一融合路径11在金字塔层中自下而上由小尺度的融合单元指向大尺度的融合单元；第二融合路径12用于对角连接两个相邻层之间的融合单元，通过下采样融合相邻层之间的不同尺度特征图信息；第三融合路径13用于对角连接两个相邻层之间的融合单元，通过上采样融合相邻层之间的不同尺度特征图信息；第四融合路径14用于水平连接同一层的融合单元，以融合相同尺度的特征图信息；第五融合路径15在第一列金字塔层中自上而下由大尺度的融合单元指向小尺度的融合单元；跳连融合路径16用于连接所述第一列金字塔层与所述第五列金字塔层中同一尺度的融合单元，即用于融合同层输入单元与输出单元之间的特征图信息，以保留更多原始信息。

示例性地，所述第一列金字塔层P1的五个融合单元分别是由下至上尺度递增的第一融合单元、第二融合单元、第三融合单元、第四融合单元和第五融合单元，三种尺度C5、C4、C3的层次化特征图分别输入到所述第一融合单元、所述第二融合单元和所述第三融合单元；所述第一融合单元、所述第二融合单元和所述第三融合单元通过第五融合路径连接，即通过上采样方式传递特征图信息，所述第三融合单元、所述第四融合单元和所述第五融合单元通过第一融合路径连接，即通过下采样方式传递特征图信息，这样可以进一步融合特征图信息。

经过金字塔特征聚合模块充分利用特征图多尺度信息的融合，经过特征图信息的初始层汇集、输出层发散，利用输入层与输出层的跳连保留特征图的原始信息，得到信息更加丰富的融合特征图。预测网络包括两条分支网络，分别用于分类与回归任务，分支网络对融合特征图进行处理之后，得到预测目标值，最后根据预测目标值更新损失函数，并根据更新后的损失函数调整手术动作识别模型的模型参数，其中调整模型参数的过程为现有技术，在此不进行赘述。

示例性地，在步骤S40中，损失函数的公式如下：

指对特征图上的所有点(x,y)所对应的损失进行求和，

是指数函数，当

时值为1，

取其它值时指数函数为0。

上式中Focal损失函数的一般形式是：

L_cls(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，参数α解决正负样本不平衡的问题，置信度p_t能够使模型主要关注难分类的样本，这样就解决了样本类别不均衡的问题。

本实施例一公开的手术动作识别模型的训练方法，通过改进的金字塔特征聚合网络来充分融合高层语义信息和低层语义信息，得到的融合特征图可以更加精确地预测手术类别和边框的位置，解决了手术动作视频特征不明显的问题。

本实施例二还公开了一种手术动作识别模型的训练装置，训练装置包括第一输入单元100、第二输入单元200、第三输入单元300和模型训练单元400。其中，第一输入单元100用于将获取到的原始手术动作图像输入到所述主干网络，得到若干不同尺度的层次化特征图；第二输入单元200用于将所述层次化特征图输入到所述金字塔特征聚合网络，依次经过所述特征图汇集模块和所述特征图发散模块的融合处理，得到若干不同尺度的融合特征图；第三输入单元 300用于将若干不同尺度的融合特征图输入到所述预测网络，得到预测目标值；模型训练单元400用于根据预测目标值和获取到的真实目标值更新损失函数，并根据更新后的损失函数调整手术动作识别模型的模型参数。

进一步地，本实施例三还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有手术动作识别模型的训练程序，所述手术动作识别模型的训练程序被处理器执行时实现上述的手术动作识别模型的训练方法。

进一步地，本申请还公开了一种计算机设备，在硬件层面，如图5所示，该计算机设备包括处理器20、内部总线30、网络接口40、计算机可读存储介质 50。处理器20从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质50上存储有手术动作识别模型的训练程序，所述手术动作识别模型的训练程序被处理器执行时实现上述的手术动作识别模型的训练方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种手术动作识别模型的训练方法，其特征在于，手术动作识别模型包括主干网络、金字塔特征聚合网络和预测网络，其中，所述金字塔特征聚合网络包括特征图汇集模块和特征图发散模块，所述特征图汇集模块的输入单元和所述特征图发散模块的输出单元之间具有跳连融合路径，所述训练方法包括：

2.根据权利要求1所述的手术动作识别模型的训练方法，其特征在于，所述特征图汇集模块包括融合单元数量递减的第一列金字塔层、第二列金字塔层和第三列金字塔层，所述特征图发散模块包括融合单元数量递增的所述第三列金字塔层、第四列金字塔层和第五列金字塔层，其中，所述第一列金字塔层为所述特征图汇集模块的输入单元，所述第五列金字塔层为所述所述特征图发散模块的输出单元，且所述第一列金字塔层与所述第五列金字塔层的融合单元数量相同，所述第二列金字塔层与所述第四列金字塔层的融合单元数量相同，各个融合单元通过预定融合路径网进行信息传递。

3.根据权利要求2所述的手术动作识别模型的训练方法，其特征在于，所述第一列金字塔层与所述第五列金字塔层均包括五个不同特征尺度的融合单元，所述第二列金字塔层与所述第四列金字塔层均包括三个不同特征尺度的融合单元，所述第三列金字塔层具有一个融合单元。

4.根据权利要求3所述的手术动作识别模型的训练方法，其特征在于，所述预定融合路径网包括：

5.根据权利要求4所述的手术动作识别模型的训练方法，其特征在于，所述主干网络得到的层次化特征图具有三种尺度，所述第一列金字塔层的五个融合单元分别是由下至上尺度递增的第一融合单元、第二融合单元、第三融合单元、第四融合单元和第五融合单元，三种尺度的层次化特征图分别输入到所述第一融合单元、所述第二融合单元和所述第三融合单元；所述第一融合单元、所述第二融合单元和所述第三融合单元通过第五融合路径连接，所述第三融合单元、所述第四融合单元和所述第五融合单元通过第一融合路径连接。

6.根据权利要求4所述的手术动作识别模型的训练方法，其特征在于，所述损失函数的公式如下：

指对特征图上的所有点(x,y)所对应的损失进行求和，

是指数函数，当

时值为1，

取其它值时指数函数为0。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有手术动作识别模型的训练程序，所述手术动作识别模型的训练程序被处理器执行时实现权利要求1至6任一项所述的手术动作识别模型的训练方法。

8.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的手术动作识别模型的训练程序，所述手术动作识别模型的训练程序被处理器执行时实现权利要求1至6任一项所述的手术动作识别模型的训练方法。