CN112818959B

CN112818959B - 手术流程识别方法、装置、系统及计算机可读存储介质

Info

Publication number: CN112818959B
Application number: CN202110321310.3A
Authority: CN
Inventors: 王亦菲
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2023-09-05
Anticipated expiration: 2041-03-25
Also published as: CN112818959A

Abstract

本申请实施例公开了一种手术流程识别方法、装置、系统及计算机可读存储介质，属于计算机技术领域。在本申请实施例中，手术阶段分为多个主阶段，且存在主阶段包括子阶段，基于此，先参考手术视频中在第一图像之前已经历的手术阶段，确定第一图像所属的手术主阶段，如果识别出的手术主阶段还细分子阶段，再参考第一图像中存在的器械，确定第一图像所属的手术子阶段。可以看出，本方案通过粗识别和细识别相结合，且利于粗识别和细识别各自的特性，有效提高了手术流程识别的精细度和准确率。若在手术过程中进行手术流程识别，本方案能够为手术提供准确信息，有效减少手术失误，提高手术成功率。

Description

手术流程识别方法、装置、系统及计算机可读存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种手术流程识别方法、装置、系统及计算机可读存储介质。

背景技术

手术流程识别包括对手术视频进行手术阶段的分段和识别，手术流程识别对内窥镜手术具有非常重大的意义。在手术实施过程中，手术流程自动识别可以提醒医生注意并发症的发生，减少医生在手术中的操作失误，也可以为手术室外的临床工作人员提供相关手术进展的信息，为手术后续相关工作的安排也起到一个参考作用。在手术复盘或者规培阶段，手术流程识别可以方便医生以及实习生从手术视频中搜索特定的手术阶段。

以腹腔手术为例，腹腔镜手术的基本模式，是通过气腹制造腹腔内操作空间，医生通过监视器观察手术视野，使用各种长柄器械经腹壁通道伸入腹腔，进行分离、结扎、缝合等各种手术操作。腹腔镜手术中医生不能直接触摸腹内脏器，缺乏直接探查的手感，只能通过视频图像和器械间接感觉来判断。在腹腔镜手术过程中，通过手术流程自动识别为医生进行手术提供重要信息，可以减少手术失误，提高手术成功率。

发明内容

本申请实施例提供了一种手术流程识别方法、装置、系统及计算机可读存储介质，能够准确识别手术阶段，在手术过程中为医生进行手术提供准确的手术阶段信息，减少手术失误，提高手术成功率。所述技术方案如下：

一方面，提供了一种手术流程识别方法，所述方法包括：

获取手术视频中的第一图像；

根据所述第一图像对应的第一空间信息和历史阶段信息，确定所述第一图像所属的目标手术主阶段，所述目标手术主阶段为手术过程涉及的多个主阶段中的一个，所述历史阶段信息用于表征在采集所述第一图像之前经历的手术阶段，所述第一空间信息用于表征所述第一图像的语义特征；

在确定所述目标手术主阶段之后，根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段，所述器械存在信息用于表征所述第一图像中存在的器械，所述手术子阶段为所述目标手术主阶段包括的子阶段中的一个。

可选地，所述多个主阶段中至少一个主阶段包括子阶段，任一子阶段的图像具有对应的器械；

所述多个主阶段包括观察搜索阶段、术野暴露分离阶段、手术主体阶段、标本取出阶段、冲洗与引流阶段、关闭套管口阶段；

其中，所述手术主体阶段包括切除子阶段、结扎子阶段、吻合与钉合子阶段、缝合子阶段；

所述切除子阶段的图像对应的器械包括电刀类工具，所述结扎子阶段的图像对应的器械包括血管夹和纱条类工具，所述吻合与钉合子阶段的图像对应的器械包括疝钉类工具，所述缝合子阶段的图像对应的器械包括缝合针和缝合线。

可选地，所述根据所述第一图像对应的第一空间信息和历史阶段信息，确定所述第一图像所属的第一手术阶段之前，包括：

将所述第一图像输入第一空间信息提取子模型，输出所述第一图像对应的第一空间信息，所述第一空间信息提取子模型为第一深度学习模型包括的一个子模型；

所述根据第一图像对应的第一空间信息和历史阶段信息，确定所述第一图像所属的目标手术主阶段，包括：

将所述第一图像对应的第一空间信息和历史阶段信息输入第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一分类子模型为所述第一深度学习模型包括的一个子模型，所述第一深度学习模型包括所述第一空间信息提取子模型与所述第一分类子模型串联而成的一个分支；或者，

将所述第一图像对应的第一空间信息输入第一时序信息提取子模型，通过所述第一时序信息提取子模型对所述第一图像对应的第一空间信息和第一历史图像对应的空间信息进行处理，输出所述第一图像对应的第一时序信息，将所述第一图像对应的第一时序信息和历史阶段信息输入所述第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一时序信息提取子模型为所述第一深度学习模型包括的一个子模型，所述第一深度学习模型包括所述第一空间信息提取子模型、所述第一时序信息提取子模型与所述第一分类子模型串联而成的一个分支；

其中，所述第一历史图像包括所述手术视频中在所述第一图像之前的图像，所述第一历史图像对应的空间信息基于所述第一空间信息提取子模型得到，所述第一时序信息用于表征从所述第一历史图像到所述第一图像的空间信息变化情况。

可选地，所述根据所述第一图像对应的第一空间信息和历史阶段信息，确定所述第一图像所属的目标手术主阶段之前，还包括：

将所述第一图像对应的第一空间信息输入第二分类子模型，通过所述第二分类子模型包括的全连接层输出所述第一图像对应的历史阶段信息，所述第二分类子模型为所述第一深度学习模型的一个子模型，所述第一深度学习模型还包括所述第一空间信息提取子模型与所述第二分类子模型串联而成的一个分支。

可选地，所述根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段之前，包括：

将所述第一图像输入第二空间信息提取子模型，输出所述第一图像对应的第二空间信息，所述第二空间信息提取子模型为第二深度学习模型的一个子模型；

所述根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段，包括：

将所述第一图像对应的第二空间信息和器械存在信息输入第三分类子模型，输出所述第一图像所属的手术子阶段，所述第三分类子模型为所述第二深度学习模型包括的一个子模型，所述第二深度学习模型包括所述第二空间信息提取子模型与所述第三分类子模型串联而成的一个分支；或者，

将所述第一图像对应的第二空间信息输入第二时序信息提取子模型，通过所述第二时序信息提取子模型对所述第一图像对应的第二空间信息和第二历史图像对应的空间信息进行处理，输出所述第一图像对应的第二时序信息，将所述第一图像对应的第二时序信息和器械存在信息输入所述第三分类子模型，输出所述第一图像所属的手术子阶段，所述第二时序信息提取子模型为所述第二深度学习模型包括的一个子模型，所述第二深度学习模型包括所述第二空间信息提取子模型、所述第二时序信息提取子模型与所述第三分类子模型串联而成的一个分支；

其中，所述第二历史图像包括所述手术视频中在所述第一图像之前的图像，所述第二历史图像对应的空间信息基于所述第二空间信息提取子模型得到。

可选地，所述根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段之前，还包括：

将所述第一图像对应的第二空间信息输入第四分类子模型，通过所述第四分类子模型包括的全连接层输出所述第一图像对应的器械存在信息，所述第四分类子模型为所述第二深度学习模型的一个子模型，所述第二深度学习模型还包括所述第一空间信息提取子模型与所述第四分类子模型串联而成的一个分支。

可选地，所述第一历史图像基于第一采样步长从所述手术视频中在所述第一图像之前的视频段中采样得到，所述第二历史图像基于第二采样步长从所述手术视频中在所述第一图像之前的视频段中采样得到，所述第一采样步长大于所述第二采样步长。

另一方面，提供了一种手术流程识别装置，所述装置包括：

获取模块，用于获取手术视频中的第一图像；

第一确定模块，用于根据所述第一图像对应的第一空间信息和历史阶段信息，确定所述第一图像所属的目标手术主阶段，所述目标手术主阶段为手术过程涉及的多个主阶段中的一个，所述历史阶段信息用于表征在采集所述第一图像之前经历的手术阶段，所述第一空间信息用于表征所述第一图像的语义特征；

第二确定模块，用于在确定所述目标手术主阶段之后，根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段，所述器械存在信息用于表征所述第一图像中存在的器械，所述手术子阶段为所述目标手术主阶段包括的子阶段中的一个。

可选地，所述多个主阶段中至少一个主阶段包括子阶段，任一子阶段具有对应的器械；

所述切除子阶段对应的器械包括电刀类工具，所述结扎子阶段对应的器械包括血管夹和纱条类工具，所述吻合与钉合子阶段对应的器械包括疝钉类工具，所述缝合子阶段对应的器械包括缝合针和缝合线。

可选地，所述装置还包括：

第一提取模块，用于将所述第一图像输入第一空间信息提取子模型，输出所述第一图像对应的第一空间信息，所述第一空间信息提取子模型为第一深度学习模型包括的一个子模型；

所述第一确定模块包括：

第一分类子模块，用于将所述第一图像对应的第一空间信息和历史阶段信息输入第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一分类子模型为所述第一深度学习模型包括的一个子模型，所述第一深度学习模型包括所述第一空间信息提取子模型与所述第一分类子模型串联而成的一个分支；或者，

第一提取子模块，用于将所述第一图像对应的第一空间信息输入第一时序信息提取子模型，通过所述第一时序信息提取子模型对所述第一图像对应的第一空间信息和第一历史图像对应的空间信息进行处理，输出所述第一图像对应的第一时序信息，所述第一时序信息提取子模型为所述第一深度学习模型包括的一个子模型，所述第一历史图像包括所述手术视频中在所述第一图像之前的图像，所述第一历史图像对应的空间信息基于所述第一空间信息提取子模型得到，所述第一时序信息用于表征从所述第一历史图像到所述第一图像的空间信息变化情况；

第二分类子模块，用于将所述第一图像对应的第一时序信息和历史阶段信息输入所述第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一深度学习模型包括所述第一空间信息提取子模型、所述第一时序信息提取子模型与所述第一分类子模型串联而成的一个分支。

可选地，所述装置还包括：

第一分类模块，用于将所述第一图像对应的第一空间信息输入第二分类子模型，通过所述第二分类子模型包括的全连接层输出所述第一图像对应的历史阶段信息，所述第二分类子模型为所述第一深度学习模型的一个子模型，所述第一深度学习模型还包括所述第一空间信息提取子模型与所述第二分类子模型串联而成的一个分支。

可选地，所述装置还包括：

第二提取模块，用于将所述第一图像输入第二空间信息提取子模型，输出所述第一图像对应的第二空间信息，所述第二空间信息提取子模型为第二深度学习模型的一个子模型；

所述第二确定模块包括：

第三分类子模块，用于将所述第一图像对应的第二空间信息和器械存在信息输入第三分类子模型，输出所述第一图像所属的手术子阶段，所述第三分类子模型为所述第二深度学习模型包括的一个子模型，所述第二深度学习模型包括所述第二空间信息提取子模型与所述第三分类子模型串联而成的一个分支；或者，

第二提取子模块，用于将所述第一图像对应的第二空间信息输入第二时序信息提取子模型，通过所述第二时序信息提取子模型对所述第一图像对应的第二空间信息和第二历史图像对应的空间信息进行处理，输出所述第一图像对应的第二时序信息，所述第二时序信息提取子模型为所述第二深度学习模型包括的一个子模型；

第四分类子模块，用于将所述第一图像对应的第二时序信息和器械存在信息输入所述第三分类子模型，输出所述第一图像所属的手术子阶段，所述第二深度学习模型包括所述第二空间信息提取子模型、所述第二时序信息提取子模型与所述第三分类子模型串联而成的一个分支；

可选地，所述装置还包括：

第二分类模块，用于将所述第一图像对应的第二空间信息输入第四分类子模型，通过所述第四分类子模型包括的全连接层输出所述第一图像对应的器械存在信息，所述第四分类子模型为所述第二深度学习模型的一个子模型，所述第二深度学习模型还包括所述第一空间信息提取子模型与所述第四分类子模型串联而成的一个分支。

另一方面，提供了一种内窥镜系统，所述内窥镜系统包括内窥镜、摄像系统主机、显示装置和存储装置；

所述内窥镜用于采集图像，将所述图像发送给所述摄像系统主机；

所述摄像系统主机用于执行上述手术流程识别方法的步骤，以识别出所述图像所属的手术阶段，所述摄像系统主机还用于对所述图像进行处理，将处理后的图像和识别出的手术阶段的阶段信息发送给所述显示装置和所述存储装置；

所述显示装置用于接收所述处理后的图像和所述阶段信息，将所述处理后的图像和所述阶段信息显示在所述显示装置上；

所述存储装置用于接收所述处理后的图像和所述阶段信息，将接收到的图像形成手术视频，存储带有所述阶段信息的手术视频，以供回放。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储处理器可执行指令，所述处理器被配置为执行所述指令实现上述手术流程识别方法中的任一步骤。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述手术流程识别方法中的任一步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述手术流程识别方法中任一步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，手术阶段分为多个主阶段，且存在主阶段包括子阶段，也即本方案对个别手术主阶段进行了细分，而非只考虑粗的手术流程。基于此，本方案先参考手术视频中在第一图像之前已经历的手术阶段，确定第一图像所属的手术主阶段，也即先基于手术主流程存在的时间先后特性对手术阶段进行粗识别。如果识别出的手术主阶段还细分子阶段，再参考第一图像中存在的器械，确定第一图像所属的手术子阶段，也即再基于手术子阶段所用器械不同的特征对手术阶段进行细识别。可以看出，本方案通过粗识别和细识别相结合，且利用粗识别和细识别各自的特性，有效提高了手术流程识别的准确率和精细度。若在手术过程中进行手术流程识别，本方案能够为手术提供准确信息，有效减少手术失误，提高手术成功率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种内窥镜系统的结构示意图；

图2是本申请实施例提供的一种内窥镜系统的详细结构示意图；

图3是本申请实施例提供的一种手术流程识别方法的流程图；

图4是本申请实施例提供的一种手术阶段的分类示意图；

图5是本申请实施例提供的另一种手术流程识别方法的流程图；

图6是本申请实施例提供的一种粗阶段识别的方法流程图；

图7是本申请实施例提供的一种粗阶段识别模型的结构示意图；

图8是本申请实施例提供的另一种粗阶段识别模型的结构示意图；

图9是本申请实施例提供的一种细阶段识别模型的结构示意图；

图10是本申请实施例提供的一种手术流程识别装置的结构示意图；

图11是本申请实施例提供的一种终端的结构示意图；

图12是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了后续便于说明，在此先对本申请实施例的应用场景进行介绍说明。

随着医疗技术的发展，内窥镜在医疗中广泛使用。内窥镜是一种常用的医疗器械，内窥镜经人体的天然孔道，或者是经手术做的小切口进入人体内。使用时将内窥镜导入预检查的器官，可直接窥视有关部位的变化。而手术流程识别对内窥镜手术具有非常重大的意义。

以腹腔手术为例，腹腔镜手术的基本模式，是通过气腹制造腹腔内操作空间，医生通过监视器观察手术视野，使用各种长柄器械经腹壁通道伸入腹腔，进行分离、结扎、缝合等各种手术操作。由于腹腔镜手术中术者不能直接触摸腹内脏器，缺乏直接探查的手感，只能通过视频图像和器械间接感觉来判断，因此手术流程识别能够为腹腔镜手术提供重要信息。包括腹腔镜手术在内的各种内窥镜手术，在手术实施过程中，手术流程自动识别可以提醒医生注意并发症的发生，减少医生在手术中的操作失误，也可以为手术室外的临床工作人员提供相关手术进展的信息，为手术后续相关工作的安排也起到一个参考的作用。在手术复盘或者规培阶段，手术流程识别可以方便外科医生以及实习生从手术视频中搜索特定的操作阶段。由于手术流程本身存在不确定性，如意外出血、其他不良事件、人为错误和个人技能等，通过手术视频进行手术流程识别存在较大的难度，本申请实施例提供的手术流程识别方法能够准确识别手术阶段。

本申请实施例提供的手术流程识别方法应用于基于内窥镜系统采集图像的场景中。为了后续便于说明，下面首先对本申请实施例涉及的内窥镜系统进行整体介绍，如图1所示，图1是本申请实施例提供的一种内窥镜系统的结构示意图。在图1中，内窥镜系统包括内窥镜、光源、摄像系统主机、显示装置以及存储装置。

其中，内窥镜用于将长管插入患者体内，拍摄患者体内需要被观察的部位，采集该部位的图像，并将采集的图像发送给摄像系统主机。光源装置用于从内窥镜的长管前端射出的照明光，以便于内窥镜拍摄出清晰的图像。摄像系统主机用于接收内窥镜发送的图像，对该图像进行处理，然后将处理后的图像发送给显示装置和存储装置，摄像系统主机还用于执行本申请实施例提供的手术流程识别方法的步骤，以识别出图像所属的手术阶段，将识别出的手术阶段的阶段信息发送给显示装置和存储装置。摄像系统主机还用于统一控制整个内窥镜系统，比如控制内窥镜将采集的图像发送给摄像系统主机等。显示装置用于接收摄像系统主机发送的处理后的图像和识别得到的阶段信息，然后将处理后的图像和阶段信息显示在显示装置上。存储装置用于接收摄像系统主机发送的处理后的图像和阶段信息，并将该处理后的图像形成手术视频，存储带有图像所属手术阶段的阶段信息的手术视频，以供回放。

通过图1所示的内窥镜系统，医生通过观察由显示装置显示的处理后的图像，来观测图像中有无出血部位、肿瘤部位和异常部位等。在手术时，通过图1所示的内窥镜系统可以提供手术过程中的实时影像。此外，医生还可以获取存储装置中的图像，根据多个图像组成的手术视频，进行术后回顾和手术培训。

为了更加清楚的了解内窥镜系统的原理，在此对内窥镜系统组成部分进行解释说明。如图2所示，图2是本申请实施例提供的一种内窥镜系统的详细结构示意图。

在图2中，内窥镜系统中的摄像系统主机包括图像输入单元、图像处理单元、智能处理单元、视频编码单元、控制单元和操作单元。

其中，图像输入单元接收内窥镜发送过来的图像，并将接受到的图像传输给图像处理单元。

图像处理单元接收图像输入单元发送的图像，对接收到的图像进行处理，也即是对图像进行ISP(Image Signal Processor，图像信号处理)操作，ISP操作包括对图像进行亮度变换、锐化、去摩尔纹、缩放等操作。图像处理单元处理完图像之后，将处理后的图像发送给智能处理单元、视频编码单元或显示装置。此外，图像处理单元还用于接收智能处理单元智能分析后的图像，并对智能分析后的图像再一次进行ISP操作。

智能处理单元接收到图像处理单元发送的处理后的图像，并对处理后的图像进行智能分析，智能分析包括对处理后的图像基于深度学习进行场景分类、器械或器械头检测、纱布检测、摩尔纹分类和浓雾分类等。智能处理单元智能分析完处理后的图像之后，将智能分析后的图像发送给图像处理单元或视频编码单元。

视频编码单元用于接收图像处理单元处理后的图像，或智能处理单元智能分析后的图像。对处理后的图像或智能分析后的图像进行编码压缩，并将压缩后的图像发送给存储装置。

控制单元用于向内窥镜系统的各个单元发送不同的功能指令，用于控制内窥镜系统的各个模块来执行某些功能，比如控制光源的照明、图像处理单元的图像处理方式、智能处理单元的智能分析方式和视频编码单元的编码压缩方式等。此外，控制单元还用于接收操作单元发送的触发指令，并响应于该触发指令，以便于开启摄像系统主机。当用户对摄像系统主机上的开关、按钮或触摸面板进行触发操作时，操作单元用于接收用户的触发指令，并向控制单元发送该触发指令。

在图2中，内窥镜系统中的光源包括照明控制单元和照明单元。其中，照明控制单元接收摄像系统主机中控制单元发送的功能指令后，并向照明单元发送照明指令，用于控制照明单元向内窥镜提供照明光。照明单元接收到明控制单元发送的照明指令，并向内窥镜提供照明光。

在图2中，内窥镜系统中的内窥镜具有摄像光学系统、成像单元、处理单元和操作单元。其中，摄像光学系统由一个或多个透镜构成，对来自患者体内需要被观测部位的光进行聚光，以便观测部位可以被清晰的拍摄下来。成像单元由CMOS(complementary metaloxide semiconductor，互补金属氧化物半导体)或CCD(charge coupled device，电荷耦合器件)等图像传感器组成，用于将各个像素点所接收的光进行光电转换来生成图像。成像单元将生成的图像发送给处理单元。处理单元接收成像单元发送的图像，将该图像转换成数字信号图像，并将转换后的图像发送到摄像系统主机的图像输入单元。当用户对内窥镜上的开关、按钮或触摸面板进行触发操作时，操作单元用于接收用户的触发指令，并向摄像系统主机的控制单元发送该触发指令。

本申请实施例提供的手术流程识别方法应用于基于内窥镜系统采集图像的场景中，例如在采集图像的过程中实时识别手术阶段，或者在采集图像得到完整的手术视频之后再进行手术阶段的识别。可选地，本申请实施例提供的手术流程识别方法也可以应用在其他对图像进行处理的场景中。在此就不再一一举例说明。

需要说明的是，本申请实施例提供的手术流程识别方法的执行主体并不限定，例如，在手术过程中该方法可以由摄像系统主机执行，也可以由外接设备执行，在非手术过程的任意时间，该方法可以由任一计算机设备执行。其中，在由摄像系统主机执行的情况下，主要通过智能处理单元识别手术阶段，也即本方案对智能处理单元改进后能够识别手术阶段。为了便于后续说明，下述实施例以该方法由计算机设备执行为例进行说明。

图3是本申请实施例提供的一种手术流程识别方法的流程图，该手术流程识别方法可以包括如下几个步骤：

步骤301：获取手术视频中的第一图像。

在本申请实施例中，获取手术视频中的第一图像的一种实现方式为：若在手术过程中进行手术流程识别，则计算机设备获取内窥镜最新采集的图像，作为第一图像。若在非手术过程的任意时间进行手术流程识别，则计算机设备按照时间顺序，逐帧获取手术视频包括的图像，在获取一帧图像作为第一图像，并基于本方案进行手术阶段识别后，再获取下一帧图像作为第一图像继续进行手术阶段识别，直至获取最后一帧图像并识别手术阶段为止。

可选地，由于内窥镜采集图像的帧率很高，而在短时间内手术阶段保持不变，计算机设备不必针对手术视频中的每帧图像都进行手术流程识别，因此，在本申请实施例中，获取手术视频中的第一图像的另一种实现方式为：计算机设备根据识别采样步长，从手术视频中获取第一图像。示例性地，若在手术过程中进行手术流程识别，则计算机设备每隔一个识别采样步长，获取内窥镜最新采集的一帧图像，作为第一图像。若在非手术阶段的任意时间进行手术流程识别，则计算机设备按照时间顺序，每隔一个识别采样步长，从手术视频中获取一帧图像，作为第一图像。可选地，识别采样步长设置为一个帧间隔，如10帧、15帧等，或者，识别采样步长也可以设置为一个时间间隔，如3s、5s等，本申请实施例对此不作限定。

步骤302：根据第一图像对应的第一空间信息和历史阶段信息，确定第一图像所属的目标手术主阶段，目标手术阶段为手术过程涉及的多个主阶段中的一个，历史阶段信息用于表征在采集第一图像之前经历的手术阶段。

在介绍本申请实施例中识别手术阶段的实现方式之前，先对本申请实施例中手术阶段的分类进行介绍。在本申请实施例中，将一个手术过程分为多个主阶段，将至少一个主阶段分为多个子阶段，也即该多个主阶段中至少一个主阶段包括子阶段。其中，该多个主阶段具有时间先后顺序，任一子阶段具有对应的器械。

示例性地，本方案首先对内窥镜手术进行了详细的阶段分类，如图4所示，多个主阶段包括观察搜索阶段、术野暴露分离阶段、手术主体阶段、标本取出阶段、冲洗与引流阶段、关闭套管口阶段。考虑到手术主体阶段的复杂性和重要性，本方案将手术主体阶段又细分为切除子阶段、结扎子阶段、吻合与钉合子阶段以及缝合子阶段，在实际场景中这些细分阶段可能会重复出现，也即在手术过程中任一子阶段允许重复出现，且没有明确的时间先后顺序。由此可见，本方案并非将手术主体阶段作为单阶段参与分类，而是将其进行了细分类，这样分类更加细致，后续识别手术子阶段的话，能够为医生提供更精确的信息。

基于如图4所示的分类方式，本申请实施例采用一种渐进式的识别方法来识别手术阶段，参见图5，对于需要识别手术阶段的手术视频(如内镜手术视频)，先进行粗阶段识别，识别出手术视频中的任一帧图像属于六个主阶段中的哪个主阶段。由于手术主体阶段包括子阶段，那么若该图像属于手术主体阶段，则再进行细阶段识别，识别出该图像属于四个子阶段中的哪个子阶段。其中，在本申请实施例中每个主阶段仅出现一次，而各个子阶段允许重复出现。

接下来首先对本申请实施例中识别主阶段的实现方式进行介绍，也即对粗阶段识别进行介绍。

在本申请实施例中，计算机设备根据第一图像对应的第一空间信息和历史阶段信息，确定第一图像所属的目标手术主阶段。其中，历史阶段信息用于表征在采集第一图像之前经历的手术阶段，第一空间信息用于表征第一图像的语义特征。也即是，考虑到该多个主阶段的特点是具有明确的时间先后顺序，且各个主阶段仅出现一次，那么粗阶段识别利用历史阶段信息进行辅助，提高识别准确率。

需要说明的是，在本申请实施例中历史阶段信息表示在采集第一图像之前经历的全部手术阶段，例如，对于手术主体阶段的任何一帧图像而言，对应的历史阶段信息表征了观察搜索阶段和术野暴露分离阶段。可选地，在另一些实施例中，历史阶段信息表示在采集第一图像之前最近经历的一个或多个手术阶段，例如最近经历的一个或两个手术阶段，而不一定是全部手术阶段，例如对于手术主体阶段的任一帧图像而言，对应的历史阶段信息表征了术野暴露分离阶段。

本申请实施例中识别主阶段的一种实现方式为：将第一图像输入第一空间信息提取子模型，输出第一图像对应的第一空间信息，将第一图像对应的第一空间信息和历史阶段信息输入第一分类子模型，输出第一图像所属的手术子阶段。也即是，利用第一图像本身的特征，将第一图像之前经历的手术阶段信息作为辅助信息，识别第一图像所属的目标手术主阶段。

其中，第一空间信息提取子模型为第一深度学习模型包括的一个子模型，第一分类子模型为第一深度学习模型包括的一个子模型，第一深度学习模型包括第一空间信息提取子模型与第一分类子模型串联而成的一个分支。也即是，第一深度学习模型包括串联的两个子模型，第一个子模型用于提取图像的空间信息，第二个子模型用于对该图像的空间信息和历史阶段信息进行分类，得到该图像所属的手术主阶段。

本申请实施例中识别主阶段的另一种实现方式为：将第一图像输入第一空间信息提取子模型，输出第一图像对应的第一空间信息，将第一图像对应的第一空间信息输入第一时序信息提取子模型，通过第一时序信息提取子模型对第一图像对应的第一空间信息和第一历史图像对应的空间信息进行处理，输出第一图像对应的第一时序信息。将第一图像对应的第一时序信息和历史阶段信息输入第一分类子模型，输出第一图像所属的目标手术主阶段。其中，第一历史图像包括手术视频中在第一图像之前的图像，第一历史图像对应的空间信息基于第一空间信息提取子模型得到，第一时序信息用于表征从第一历史图像到第一图像的空间信息变化情况。

其中，第一空间信息提取子模型为第一深度学习模型包括的一个子模型，第一时序信息提取子模型为第一深度学习模型包括的一个子模型，第一分类子模型为第一深度学习模型包括的一个子模型，第一深度学习模型包括第一空间信息提取子模型、第一时序信息提取子模型与第一分类子模型串联而成的一个分支。也即是，第一深度学习模型包括串联的三个子模型，第一个子模型用于提取图像的空间信息，第二个子模型用于对该图像和历史图像的空间信息进行融合以得到该图像对应的时序信息，第三个子模型用于结合该时序信息和历史阶段信息进行分类，得到该图像所属的手术主阶段。

也即是，将粗阶段识别看作一个图像多分类任务，考虑到手术主阶段的时序相关性，手术过程中连续图像帧之间的时序信息能够有效帮助到手术主阶段的识别，也即连续图像帧之间具有上下文信息，仅利用单帧图像的空间信息进行图像多分类能够达到的性能有限，例如分类准确度有限，所以结合图像的空间信息和时序信息来进行手术主阶段的智能识别，再以历史阶段信息作为辅助信息，共同用于判断第一图像所属的手术主阶段。

图6是本申请实施例提供的一种粗阶段识别的方法流程图。参见图6，示例性地，将实时采集的内镜手术视频(连续的图像帧)不断输入第一空间信息提取子模型，依次对最新接收到的一帧图像进行处理，提取该帧图像对应的空间信息，将提取的空间信息依次输入第一时序信息提取子模型。第一时序信息提取子模型接收到最新一帧图像对应的空间信息之后，结合历史接收到的多帧图像对应的空间信息，提取得到最新一帧图像对应的时序信息。将最新提取得到的时序信息和该图像对应的历史阶段信息输入第一分类子模型。第一分类子模型对输入的信息进行分类，输出最新一帧图像对应的手术主阶段，也即输出粗阶段识别结果。

可选地，在根据第一图像对应的第一空间信息和历史阶段信息，确定第一图像所属的目标手术主阶段之前，将第一图像对应的第一空间信息输入第二分类子模型，通过第二分类子模型包括的全连接层输出第一图像对应的历史阶段信息。也即是，第一图像对应的历史阶段信息也能够基于第一图像对应的第一空间信息得到。

其中，第二分类子模型为第一深度学习模型的一个子模型，第一深度学习模型还包括第一空间信息提取子模型与第二分类子模型串联而成的一个分支。也即是，第一深度学习模型包括串联的两个分支，第一个分支用于得到历史阶段信息，另一个分支用于基于第一个分支得到的历史阶段信息识别出图像所属的手术主阶段。

需要说明的是，第二分类子模型包括的全连接层用于对第一图像对应的第一空间信息进行处理，得到对应的历史阶段信息，历史阶段信息为第二分类子模型中间处理得到的特征数据，第二分类子模型还包括另一个处理层(如Sigmoid层)，历史阶段信息再经全连接层之后连接的处理层处理之后，输出第一图像对应的历史阶段识别结果。其中，历史阶段信息为特征数据，而上述第一时序信息也是模型中间的特征数据，因此，本申请实施例能够将历史阶段信息与第一时序信息这两个特征数据合并，也即拼接在一起作为第一分类子模型的输入特征。

由前述可知，第一分类子模型用于输出手术主阶段识别结果，第二分类子模型能够输出第一图像对应的历史阶段识别结果。接下来先以粗阶段识别包括手术主阶段识别和历史阶段识别这两个分支为例，先分别介绍这两个分支各自对应的示例性模型结构，再介绍将这两个分支耦合在一起得到的粗阶段识别模型。也即是，手术主阶段识别和历史阶段识别这两个分支分别对应第一深度学习模型包括的两个分支，接下来先分别介绍第一深度学习模型包括的两个分支的模型结构，再介绍将这两个分支耦合在一起得到的第一深度学习模型(也即粗阶段识别模型)。

在本申请实施例中，手术主阶段识别这个分支包括第一空间信息提取子模型、第一时序信息提取子模型和第一分类子模型。其中，基于第一空间信息提取子模型提取图像对应的空间信息(也称为空间语义信息、空间语义特征、语义特征)。可选地，第一空间信息提取子模型基于人工设计特征的方法原理来设计，例如基于HOG(Histogram of OrientedGradient，方向梯度直方图)、LBP(Local Binary Pattern，局部二值模式)等方法设计。或者，第一空间信息提取子模型基于深度学习方法来设计，例如基于CNN(ConvolutionalNeural Networks，卷积神经网络)设计，也即基于CNN提取图像特征。

在本申请实施例中，基于第一时序信息提取子模型提取图像对应的时序信息(也称为时序特征)。可选地，第一时序信息提取子模型基于HMM(Hidden Markov Model，隐马尔可夫模型)的方法原理设计。或者，第一时序信息提取子模型基于深度学习方法设计，例如基于RNN(Recurrent Neural Network，循环神经网络)设计。其中，RNN选择基于LSTM(LongShort-Term Memory，长短期记忆)网络和GRU(Gated Recurrent Unit，门控循环单元)设计，LSTM网络和GRU能够对历史信息进行有选择的存储，具备长时间依赖捕获的能力。

可选地，第一历史图像基于第一采样步长从手术视频中在第一图像之前的视频段中采样得到。可选地，第一历史图像包括一帧或多帧图像。示例性地，第一采样步长为10帧、15帧、20帧等，本申请实施例对第一采样步长不作限定。假设第一历史图像包括4帧图像，第一采样步长为20帧，第一图像对应的时间为采样的基准帧，基准帧为第0帧，那么第一历史图像包括的4帧图像分别为-20帧、-40帧、-60帧、-80帧。可选地，在其他一些实施例中，第一采样步长也可以设置为时间间隔。

在本申请实施例中，将第一图像对应的第一时序信息和历史阶段信息合并后输入第一分类子模型，基于第一分类子模型对输入的信息进行分类。假设手术共分为六个主阶段，那么第一分类子模型的输出包括六个类别。第一分类子模型基于机器学习或深度学习设计，例如基于SVM(Support Vector Machines，支持向量机)设计，基于FC(FullyConnected，全连接)层结合Softmax函数设计，通过全连接层结合Softmax层输出各个类别的概率，概率最大的作为最终识别出的类别。

本申请实施例基于粗阶段识别模型进行手术阶段的粗识别，在暂不考虑历史阶段信息的情况下，图7是本申请实施例提供的一种粗阶段识别模型(即第一深度学习模型)的结构示意图。参见图7，粗阶段识别模型包括串行的三个子模型，粗阶段识别模型的输入为手术视频段中的连续图像帧，输出为每帧图像的手术主阶段识别结果。其中，第一空间信息提取子模型基于AlexNet网络框架设计，包括多个卷积(Convolutional，CONV)层(图示为五层)和多个FC层(图示为两层)，其中，卷积层带ReLU(Rectified Linear Unit，线性修正单元，也称为线性整流单元)函数和池化层(如Max Pooling，最大池化)。第一时序信息提取子模型采用单层的LSTM网络，第一分类子模型采用FC层加Softmax层。

在本申请实施例中，历史阶段识别这个分支包括第一空间信息提取子模型和第二分类子模型。可选地，在本申请实施例中，在将手术阶段分为前述介绍的六个主阶段的情况下，历史阶段信息可以用一个六维矢量表示，这六维矢量中的六个值依次对应观察搜索阶段、术野暴露分离阶段、手术主体阶段、标本取出阶段、冲洗与引流阶段、关闭套管口阶段。如表1所示，每一维的值为‘1’或‘0’，‘1’表示对应的阶段已经历，‘0’表示对应的阶段未经历。第二分类子模型即输出表1所示的六个标签中的一个。历史阶段识别可单独作为一个学习任务，与手术主阶段识别任务相耦合，以提升主阶段识别任务的精确度。

表1

图像所属主阶段	历史阶段输出(标签)
		观察搜寻阶段	[0,0,0,0,0,0]
术野暴露分离阶段	[1,0,0,0,0,0]
		手术主体阶段	[1,1,0,0,0,0]
标本取出阶段	[1,1,1,0,0,0]
		冲洗与引流阶段	[1,1,1,1,0,0]
关闭套管口阶段	[1,1,1,1,1,0]

基于表1对历史阶段信息的表示方式，本申请实施例将历史阶段识别任务作为学习一个六维二值矢量的任务，可定义为六个二分类任务，二分类任务的求解与多分类任务类似，先提取图像特征，再将图像特征送入分类器进行分类。历史阶段识别任务也可以先用第一空间信息提取子模型(如AlexNet的CNN网络)提取第一图像的空间信息，再利用第二分类子模型(如FC层加上Sigmoid层)对空间信息进行分类。可选地，历史阶段识别任务中也可以不用第一空间信息提取子模型，而采用其他结构的网络模型，本申请实施例对此不作限定。

可选地，表1仅为一种示例性说明，每个主阶段对应的历史阶段识别结果也可以用其他的形式表示。

接下来以历史阶段识别任务和主阶段识别任务均基于第一空间信息提取子模型提取空间信息为例，对两个任务耦合后得到的一个示例性模型结构进行介绍。图8是本申请实施例提供的另一种粗阶段识别模型(即第一深度学习模型)的结构示意图，参见图8，将历史阶段识别分支中FC层得到的历史阶段信息(历史阶段特征)输入主阶段识别任务分支中第一分类子模型包括的FC层之前，以丰富主阶段识别的可用特征。通过Concat(合并)将历史阶段信息和第一时序信息合并，合并后输入第一分类子模型包括的FC层，再经最后的Softmax层处理得到主阶段分类结果。

在图8所示的粗阶段识别模型的实现方式中，第一空间信息提取子模型、第一时序信息提取子模型、第一分类子模型和第二分类子模型基于第一训练过程中的训练损失得到。第一训练过程中的训练损失包括历史阶段损失和主阶段分类损失，历史阶段损失是指第一训练过程中第二分类子模型输出的历史阶段识别结果与真实历史阶段之间的损失，主阶段分类损失是指第一训练过程中第一分类子模型输出的手术主阶段识别结果与真实所属主阶段之间的损失。也即是，粗阶段识别模型的训练损失为历史阶段识别分支和主阶段识别分支的损失的结合，示例性地，第一训练过程中的训练损失L＝α*L₁(历史阶段损失)+(1-α)*L₂(主阶段分类损失)，其中，α可以视为一个平衡系数，α可取0至1之间的任一数值，例如α为0.2、0.3或0.5等。

步骤303：在确定目标手术主阶段之后，根据第一图像对应的器械存在信息，确定第一图像所属的手术子阶段，器械存在信息用于表征第一图像中存在的器械，该手术子阶段为目标手术主阶段包括的子阶段中的一个。

在本申请实施例中，在确定第一图像对应的目标手术主阶段之后，如果目标手术主阶段包括子阶段，也即目标手术主阶段细分为多个子阶段，则进行细阶段识别，也即识别第一图像对应的手术子阶段。由前述介绍可知，任一子阶段可能会重复出现，因此，历史阶段信息对细阶段识别的意义不大，但任一子阶段有明确对应的器械，即子阶段的图像存在对应的器械，也即子阶段与操作器械之间具有非常大相关性的特点，因此，本方案利用器械存在信息辅助进行细阶段识别。

表2是本申请实施例示出的一种子阶段与器械之间的对应关系，由表2可知，本方案共分为六种器械，即电刀类工具、血管夹、纱条类工具、疝钉类工具、缝合针和缝合线，每种器械的存在都对手术子阶段的判断有帮助。可选地，电刀类工具包括但不限于手术抓钳、分离钳、剪刀、双极抓钳、电凝器械、打结钳、切开刀等，血管夹工具包括但不限于金属钛夹、塑料夹、可吸收夹中的一种或多种，纱条类工具包括但不限于医用纱条、医用纱布拭子、医用纱布块、医用腹巾中的一种或多种，疝钉类工具包括但不限于疝钉。

表2

/>

本申请实施例中识别子阶段的一种实现方式为：将第一图像输入第二空间信息提取子模型，输出第一图像对应的第二空间信息，将第一图像对应的第二空间信息和器械存在信息输入第三分类子模型，输出第一图像所属的手术子阶段。也即是，利用第一图像对应的第二空间信息和器械存在信息，来识别第一图像所属的手术子阶段。

其中，第二空间信息提取子模型为第二深度学习模型的一个子模型，第三分类子模型为第二深度学习模型包括的一个子模型，第二深度学习模型包括第二空间信息提取子模型与第三分类子模型串联而成的一个分支。也即是，第二深度学习模型包括两个串联的子模型，第一个子模型用于提取图像的空间信息，第二个子模型用于对该图像的空间信息和器械存在信息进行分类，得到该图像所属的手术子阶段。

需要说明的是，第二空间信息提取子模型与第一空间信息提取子模型的结构和参数均相同，或者，结构相同，参数不同(不同的训练可能得到不同的参数)，或者，结构和参数均不相同。若第二空间信息提取子模型与第一空间信息提取子模型的结构和参数均相同，那么第一图像对应的第一空间信息与第二空间信息也相同，若第二空间信息提取子模型与第一空间信息提取子模型的结构或参数存在不同，那么第一图像对应的第一空间信息和第二空间信息也就不同。

本申请实施例中识别子阶段的另一种实现方式为：将第一图像输入第二空间信息提取子模型，输出第一图像对应的第二空间信息。将第一图像对应的第二空间信息输入第二时序信息提取子模型，通过第二时序信息提取子模型对第一图像对应的第二空间信息和第二历史图像对应的空间信息进行处理，输出第一图像对应的第二时序信息。将第一图像对应的第二时序信息和器械存在信息输入第三分类子模型，输出第一图像所属的手术子阶段。其中，第二历史图像包括手术视频中在第一图像之前的图像，第二历史图像对应的空间信息基于第二空间信息提取子模型得到，第二时序信息表征从第二历史图像到第一图像的空间信息变化情况。也即是，在这种实现方式，基于第一图像对应的第二空间信息和第二历史图像对应的空间信息得到第二时序信息，将第二时序信息与器械存在信息结合，来识别第一图像所属的手术子阶段。

其中，第二空间信息提取子模型为第二深度学习模型的一个子模型，第三分类子模型为第二深度学习模型包括的一个子模型，第二时序信息提取子模型为第二深度学习模型包括的一个子模型，第二深度学习模型包括第二空间信息提取子模型、第二时序信息提取子模型与第三分类子模型串联而成的一个分支。也即是，第二深度学习模型包括串联的三个子模型，第一个子模型用于提取图像的空间信息，第二个子模型用于对该图像的空间信息和历史图像的空间信息进行融合以得到该图像对应的时序信息，第三个子模型用于结合该时序信息和器械存在信息进行分类，得到该图像所属的手术子阶段。

可选地，第二历史图像基于第二采样步长从手术视频中在第一图像之前的视频段中采样得到，考虑到任一主阶段持续的时间相对较长，任一子阶段持续的时间相对较短，所以设置第二采样步长小于第一采样步长，这样能够提高提取的时序信息的可靠性，也即更加有用，提高了识别准确率。可选地，第二历史图像包括一帧或多帧图像。示例性地，第二采样步长为3帧、5帧、7帧、10帧等，本申请实施例对第二采样步长不作限定。假设第二历史图像包括4帧图像，第二采样步长为10帧，第一图像为采样的基准帧，基准帧为第0帧，那么第二历史图像包括的4帧图像分别为-10帧、-20帧、-30帧、-40帧。可选地，在其他一些实施例中，第二采样步长也可以设置为时间间隔。

可选地，本申请实施例中的细阶段识别中所用的第二空间信息提取子模型、第二时序信息提取子模型和第三分类子模型的结构，可以参照前述粗阶段识别中的相关介绍，这里不再赘述，当然，粗识别和细识别中所用的各个子模型的结构或参数也可以不同。

在本申请实施例中，器械存在信息基于器械存在检测技术确定。可选地，基于器械存在检测技术确定器械存在信息的一种实现方式为：将第一图像对应的第二空间信息输入第四分类子模型，通过第四分类子模型包括的全连接层输出第一图像对应的器械存在信息。也即是，与前述识别历史阶段信息的方式类似，在一个示例中，器械存在信息也用第二空间信息提取子模型包括的CNN网络提取第二空间信息，将提取的第二空间信息送入第四分类子模型包括的FC层和Sigmoid层进行多个二分类，得到器械存在检测结果。需要说明的是，这里的FC层得到器械存在信息，Sigmoid层得到器械存在检测结果，其中，器械存在信息为第四分类子模型中间处理得到的特征数据。可选地，器械存在检测结果由多维矢量表示。如识别六种器械的话，器械存在检测结果可以以六维矢量表示，每一维矢量对应一种器械，每一维矢量的值为‘0’或‘1’，‘0’表示第一图像中不存在对应的器械，‘1’表示第一图像中存在对应的器械。

其中，第四分类子模型为第二深度学习模型的一个子模型，第二深度学习模型还包括第一空间信息提取子模型与第四分类子模型串联而成的一个分支。也即是，第二深度学习模型包括串联的两个分支，第一个分支用于用于得到器械存在信息，另一个分支用于基于第一个分支得到的器械存在信息识别出图像所属的手术子阶段。

需要说明的是，在本申请实施例中存在子阶段对应多种器械，也即每帧图像中可能存在多种器械，例如缝合子阶段对应缝合针和缝合线两种器械，缝合子阶段中的任一图像可能存在缝合针和缝合线中的任一种或两种。示例性地，若器械存在检测结果为[000011]，表示检测到第一图像中同时存在缝合针和缝合线。

由上述可见，细阶段识别任务包括器械存在检测任务和子阶段识别任务这两个分支。接下来以器械存在检测任务和子阶段识别任务均基于第二空间信息提取子模型提取空间信息为例，对两个任务耦合后得到的一个示例性模型结构进行介绍。也即是，手术子阶段识别和器械存在检测这两个分支分别对应第二深度学习模型包括的两个分支，接下来先分别介绍第二深度学习模型包括的两个分支的模型结构，再介绍将这两个分支耦合在一起得到的第二深度学习模型第二深度学习模型也可称为粗阶段识别模型。

图9是本申请实施例提供的一种细阶段识别模型(即第二深度学习模型)的结构示意图，参见图9，将器械存在检测分支中第四分类模型包括的FC层得到的器械存在信息(器械存在特征)输入子阶段识别任务分支中第三分类子模型包括的FC层之前，以丰富子阶段识别的可用特征。通过Concat(合并)将器械存在信息和第二时序信息合并，合并后输入第三分类子模型包括的FC层，再经最后的Softmax层处理得到子阶段分类结果。

在图9所示的细阶段识别模型的实现方式中，第二空间信息提取子模型、第二时序信息提取子模型、第三分类子模型和第四分类子模型基于第二训练过程中的训练损失得到。第二训练过程中的训练损失包括器械存在损失和子阶段分类损失，器械存在损失是指第二训练过程中第四分类子模型输出的器械存在检测结果与真实器械存在标签之间的损失，子阶段分类损失是指第二训练过程中第三分类子模型输出的手术子阶段识别结果与真实所属子阶段之间的损失。也即是，细阶段识别模型的训练损失为器械存在检测分支和子阶段识别分支的损失的结合，示例性地，第二训练过程中的训练损失L＝β*L₁(器械存在损失)+(1-β)*L₂(子阶段分类损失)，其中，β可以视为一个平衡系数，β可取0至1之间的任一数值，例如β为0.2、0.4或0.5等。

可选地，在实际使用中，本方案不仅可以识别出手术阶段给医生等人员参考，还可以提供器械存在检测结果给医生等人员，器械存在检测结果也可以为内窥镜系统的其他模块提供重要信息。

由上述可知，本申请实施例提供了一种更细分的手术阶段分类方法，对于手术复杂的手术主体阶段进行了细化，为手术的实施过程、手术复盘或规培等提供更加丰富的信息。另外，本方案也是一种渐进式的手术流程智能识别方法，根据手术主阶段和子阶段不同的特性，构建不同的多任务学习以辅助提升手术阶段识别的准确性。

综上所述，在本申请实施例中，手术阶段分为多个主阶段，且存在主阶段包括子阶段，也即本方案对个别手术主阶段进行了细分，而非只考虑粗的手术流程。基于此，本方案先参考手术视频中在第一图像之前已经历的手术阶段，确定第一图像所属的手术主阶段，也即先基于手术主流程存在的时间先后特性对手术阶段进行粗识别。如果识别出的手术主阶段还细分子阶段，再参考第一图像中存在的器械，确定第一图像所属的手术子阶段，也即再基于手术子阶段所用器械不同的特征对手术阶段进行细识别。可以看出，本方案通过粗识别和细识别相结合，且利用粗识别和细识别各自的特性，有效提高了手术流程识别的准确率和精细度。若在手术过程中进行手术流程识别，本方案能够为手术提供准确信息，有效减少手术失误，提高手术成功率。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请实施例对此不再一一赘述。

图10是本申请实施例提供的一种手术流程识别装置的结构示意图，该手术流程识别装置1000可以由软件、硬件或者两者的结合实现，该手术流程识别装置1000可以成为计算机设备的部分或全部，该计算机设备可以为上述实施例中的计算机设备。在本申请实施例中，该手术流程识别装置1000包括：

获取模块1001，用于获取手术视频中的第一图像；

第一确定模块1002，用于根据第一图像对应的第一空间信息和历史阶段信息，确定第一图像所属的目标手术主阶段，目标手术主阶段为手术过程涉及的多个主阶段中的一个，历史阶段信息用于表征在采集第一图像之前经历的手术阶段，第一空间信息用于表征第一图像的语义特征；

第二确定模块1003，用于在确定目标手术主阶段之后，根据第一图像对应的器械存在信息，确定第一图像所属的手术子阶段，器械存在信息用于表征第一图像中存在的器械，手术子阶段为目标手术主阶段包括的子阶段中的一个。

可选地，多个主阶段中至少一个主阶段包括子阶段，任一子阶段具有对应的器械；

多个主阶段包括观察搜索阶段、术野暴露分离阶段、手术主体阶段、标本取出阶段、冲洗与引流阶段、关闭套管口阶段；

其中，手术主体阶段包括切除子阶段、结扎子阶段、吻合与钉合子阶段、缝合子阶段；

切除子阶段对应的器械包括电刀类工具，结扎子阶段对应的器械包括血管夹和纱条类工具，吻合与钉合子阶段对应的器械包括疝钉类工具，缝合子阶段对应的器械包括缝合针和缝合线。

可选地，该装置1000还包括：

第一提取模块，用于将第一图像输入第一空间信息提取子模型，输出第一图像对应的第一空间信息，第一空间信息提取子模型为第一深度学习模型包括的一个子模型；

第一确定模块1002包括：

第一分类子模块，用于将第一图像对应的第一空间信息和历史阶段信息输入第一分类子模型，输出第一图像所属的目标手术主阶段，第一分类子模型为第一深度学习模型包括的一个子模型，第一深度学习模型包括第一空间信息提取子模型与第一分类子模型串联而成的一个分支；或者，

第一提取子模块，用于将第一图像对应的第一空间信息输入第一时序信息提取子模型，通过第一时序信息提取子模型对第一图像对应的第一空间信息和第一历史图像对应的空间信息进行处理，输出第一图像对应的第一时序信息，第一时序信息提取子模型为第一深度学习模型包括的一个子模型，第一历史图像包括手术视频中在第一图像之前的图像，第一历史图像对应的空间信息基于第一空间信息提取子模型得到，第一时序信息用于表征从第一历史图像到第一图像的空间信息变化情况；

第二分类子模块，用于将第一图像对应的第一时序信息和历史阶段信息输入第一分类子模型，输出第一图像所属的目标手术主阶段，第一深度学习模型包括第一空间信息提取子模型、第一时序信息提取子模型与第一分类子模型串联而成的一个分支。

可选地，该装置1000还包括：

第一分类模块，用于将第一图像对应的第一空间信息输入第二分类子模型，通过第二分类子模型包括的全连接层输出第一图像对应的历史阶段信息，第二分类子模型为第一深度学习模型的一个子模型，第一深度学习模型还包括第一空间信息提取子模型与第二分类子模型串联而成的一个分支。

可选地，该装置1000还包括：

第二提取模块，用于将第一图像输入第二空间信息提取子模型，输出第一图像对应的第二空间信息，第二空间信息提取子模型为第二深度学习模型的一个子模型；

第二确定模块1003包括：

第三分类子模块，用于将第一图像对应的第二空间信息和器械存在信息输入第三分类子模型，输出第一图像所属的手术子阶段，第三分类子模型为第二深度学习模型包括的一个子模型，第二深度学习模型包括第二空间信息提取子模型与第三分类子模型串联而成的一个分支；或者，

第二提取子模块，用于将第一图像对应的第二空间信息输入第二时序信息提取子模型，通过第二时序信息提取子模型对第一图像对应的第二空间信息和第二历史图像对应的空间信息进行处理，输出第一图像对应的第二时序信息，第二时序信息提取子模型为第二深度学习模型包括的一个子模型；

第四分类子模块，用于将第一图像对应的第二时序信息和器械存在信息输入第三分类子模型，输出第一图像所属的手术子阶段，第二深度学习模型包括第二空间信息提取子模型、第二时序信息提取子模型与第三分类子模型串联而成的一个分支；

其中，第二历史图像包括手术视频中在第一图像之前的图像，第二历史图像对应的空间信息基于第二空间信息提取子模型得到。

可选地，该装置1000还包括：

第二分类模块，用于将第一图像对应的第二空间信息输入第四分类子模型，通过第四分类子模型包括的全连接层输出第一图像对应的器械存在信息，第四分类子模型为第二深度学习模型的一个子模型，第二深度学习模型还包括第一空间信息提取子模型与第四分类子模型串联而成的一个分支。

可选地，第一历史图像基于第一采样步长从手术视频中在第一图像之前的视频段中采样得到，第二历史图像基于第二采样步长从手术视频中在第一图像之前的视频段中采样得到，第一采样步长大于第二采样步长。

需要说明的是：上述实施例提供的手术流程识别在识别手术流程时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的手术流程识别装置与手术流程识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种终端1100的结构示意图。该终端1100可以是智能手机、平板电脑、笔记本电脑或台式电脑。终端1100还可能被称为计算机设备、用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的手术流程识别方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置在终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在另一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置在终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行上述实施例提供的手术流程识别方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在终端上运行时，使得终端执行上述实施例提供的手术流程识别方法。

图12是本申请实施例提供的一种服务器的结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请的各种实施例，服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的手术流程识别方法的指令。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的手术流程识别方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的手术流程识别方法。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中手术流程识别方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的图像处理方法的步骤。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种手术流程识别方法，其特征在于，所述方法包括：

获取手术视频中的第一图像；

将所述第一图像输入第一空间信息提取子模型，输出所述第一图像对应的第一空间信息，所述第一空间信息提取子模型为第一深度学习模型包括的一个子模型，所述第一空间信息用于表征所述第一图像的语义特征；

将所述第一图像对应的第一空间信息和历史阶段信息输入第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一分类子模型为所述第一深度学习模型包括的一个子模型，所述第一深度学习模型包括所述第一空间信息提取子模型与所述第一分类子模型串联而成的一个分支；或者，将所述第一图像对应的第一空间信息输入第一时序信息提取子模型，通过所述第一时序信息提取子模型对所述第一图像对应的第一空间信息和第一历史图像对应的空间信息进行处理，输出所述第一图像对应的第一时序信息，将所述第一图像对应的第一时序信息和历史阶段信息输入所述第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一时序信息提取子模型为所述第一深度学习模型包括的一个子模型，所述第一深度学习模型包括所述第一空间信息提取子模型、所述第一时序信息提取子模型与所述第一分类子模型串联而成的一个分支；

其中，所述第一历史图像包括所述手术视频中在所述第一图像之前的图像，所述第一历史图像对应的空间信息基于所述第一空间信息提取子模型得到，所述第一时序信息用于表征从所述第一历史图像到所述第一图像的空间信息变化情况，所述目标手术主阶段为手术过程涉及的多个主阶段中的一个，所述历史阶段信息用于表征在采集所述第一图像之前经历的手术阶段；

2.根据权利要求1所述的方法，其特征在于，所述多个主阶段中至少一个主阶段包括子阶段，任一子阶段具有对应的器械；

3.根据权利要求1所述的方法，其特征在于，将所述历史阶段信息输入所述第一分类子模型之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段之前，还包括：

6.根据权利要求4所述的方法，其特征在于，所述第一历史图像基于第一采样步长从所述手术视频中在所述第一图像之前的视频段中采样得到，所述第二历史图像基于第二采样步长从所述手术视频中在所述第一图像之前的视频段中采样得到，所述第一采样步长大于所述第二采样步长。

7.一种手术流程识别装置，其特征在于，所述装置包括：

获取模块，用于获取手术视频中的第一图像；

第二确定模块，用于根据所述第一图像对应的器械存在信息，确定所述第一图像所属的手术子阶段，所述器械存在信息用于表征所述第一图像中存在的器械，所述手术子阶段为所述目标手术主阶段包括的子阶段中的一个；

所述装置还包括：

其中，所述第一确定模块包括第一分类子模块，或者，所述第一确定模块包括第一提取子模块和第二分类子模块；

所述第一分类子模块，用于将所述第一图像对应的第一空间信息和历史阶段信息输入第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一分类子模型为所述第一深度学习模型包括的一个子模型，所述第一深度学习模型包括所述第一空间信息提取子模型与所述第一分类子模型串联而成的一个分支；

所述第一提取子模块，用于将所述第一图像对应的第一空间信息输入第一时序信息提取子模型，通过所述第一时序信息提取子模型对所述第一图像对应的第一空间信息和第一历史图像对应的空间信息进行处理，输出所述第一图像对应的第一时序信息，所述第一时序信息提取子模型为所述第一深度学习模型包括的一个子模型，所述第一历史图像包括所述手术视频中在所述第一图像之前的图像，所述第一历史图像对应的空间信息基于所述第一空间信息提取子模型得到，所述第一时序信息用于表征从所述第一历史图像到所述第一图像的空间信息变化情况；

所述第二分类子模块，用于将所述第一图像对应的第一时序信息和历史阶段信息输入所述第一分类子模型，输出所述第一图像所属的目标手术主阶段，所述第一深度学习模型包括所述第一空间信息提取子模型、所述第一时序信息提取子模型与所述第一分类子模型串联而成的一个分支。

8.根据权利要求7所述的装置，其特征在于，所述多个主阶段中至少一个主阶段包括子阶段，任一子阶段具有对应的器械；

9.一种内窥镜系统，其特征在于，所述内窥镜系统包括内窥镜、摄像系统主机、显示装置和存储装置；

所述摄像系统主机用于执行权利要求1-6任一所述方法的步骤，以识别出所述图像所属的手术阶段，所述摄像系统主机还用于对所述图像进行处理，将处理后的图像和识别出的手术阶段的阶段信息发送给所述显示装置和所述存储装置；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1至权利要求6中的任一项所述的方法的步骤。