CN114601560B

CN114601560B - 微创手术辅助方法、装置、设备及存储介质

Info

Publication number: CN114601560B
Application number: CN202210508088.2A
Authority: CN
Inventors: 乔宇; 黎昆昌; 邹静; 周蔚; 李英
Original assignee: Shenzhen Institute of Advanced Technology of CAS; Union Shenzhen Hospital of Huazhong University of Science and Technology
Current assignee: Shenzhen Institute of Advanced Technology of CAS; Union Shenzhen Hospital of Huazhong University of Science and Technology
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-19
Anticipated expiration: 2042-05-11
Also published as: CN114601560A

Abstract

本发明公开了一种微创手术辅助方法、装置、设备及存储介质，其中方法包括：获取连续的多帧当前手术视频；利用预先训练好的语义分割网络从关键帧中分割得到手术器械图像特征和目标区域图像特征；将当前手术视频、手术器械图像特征、目标区域图像特征输入至手术动作预测模型，得到手术动作，该模型包括编码器和第一全连接层，编码器从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征并交由第一全连接层预测得到手术动作；根据手术动作、目标区域、手术器械生成三元组信息并输出。本发明通过利用手术动作预测模型对当前手术视频进行特征分析，再给出合理的手术动作建议，以辅助医生精准完成微创手术过程中的细粒度手术动作。

Description

微创手术辅助方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种微创手术辅助方法、装置、设备及存储介质。

背景技术

腔镜手术是一门新发展起来的微创方法，临床应用广泛，其具有创伤小，手术视野放大，对周围组织损伤低，术后伤口疼痛轻，美观，恢复快，并发症少，住院天数少，费用负担小等优点，已广泛应用于腹腔和颅腔手术中。

通常情况下，一台微创手术的开展需要主刀医生、一助、二助、器械护士、麻醉医师、巡回护士等医护人员，其中主刀医生是手术台上的决策者，其他人配合主刀医生完成相关任务，例如二助需要持镜、器械护士需要管理传递器械，手术能否成功主要取决于主刀医生的医技以及其他助手与主刀医生的默契配合程度。目前微创手术主要采用腔镜，呈现在显示器上供医生观察，观察时医生需要不断地在手术部位和显示器支架移动视线，对于主刀医生来说，由于微创手术时是通过腔镜成像间接观察手术区域，丢失深度信息，影响其对手术环境把控，成像方位不固定和创口点约束下的手术动作进一步削弱了主刀医生的手眼协调能力，从而给外科医生很大的挑战，使得外科医生的技巧成长需要非常长的时间，而对于助手来说，需要对主刀医生的操作心领神会、下一步动作未卜先知，提供稳定而准确的腔镜视野。因此，腔镜手术的成功与否往往极大依靠医生个人经验，医生一旦在手术中发现超出个人经验的无法处理的复杂情况，可能会导致手术失败。

发明内容

有鉴于此，本申请提供一种视频优化方法、装置、终端设备及存储介质，以辅助医生精准完成微创手术。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种微创手术辅助方法，包括：获取连续的多帧当前手术视频；利用预先训练好的语义分割网络从关键帧中分割得到手术器械图像特征和目标区域图像特征；将当前手术视频、手术器械图像特征、目标区域图像特征输入至预先训练好的手术动作预测模型，得到手术动作，手术动作预测模型包括编码器和第一全连接层，编码器从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征，第一全连接层根据目标合并特征预测得到手术动作；根据手术动作、目标区域、手术器械生成三元组信息并输出。

作为本申请的进一步改进，编码器包括视频编码模块、第一交叉注意力网络、第一池化层和第二池化层，视频编码模块分别与第一交叉注意力网络、第二池化层连接，第一交叉注意力网络与第一池化层连接，第一池化层、第二池化层均与第一全连接层连接；编码器从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征，包括：将当前手术视频输入至视频编码模块进行编码，得到视频全局特征；将手术器械图像特征、目标区域图像特征对齐后进行拼接，得到初始二元组特征；将初始二元组特征、视频全局特征输入至第一交叉注意力网络进行处理得到目标二元组特征；利用第一池化层对目标二元组特征进行池化，且利用第二池化层对视频全局特征进行池化；将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到目标合并特征。

作为本申请的进一步改进，手术动作预测模型还包括解码器，解码器包括第二交叉注意力网络和与第二交叉注意力网络连接的第三池化层，编码器与第二交叉注意力网络连接；将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到目标合并特征，包括：将池化后的目标二元组特征和池化后的视频全局特征进行拼接得到初始合并特征；将初始合并特征和随机初始化特征输入至第二交叉注意力网络进行处理得到解码特征；利用第三池化层对解码特征进行池化操作；将池化后的解码特征与初始合并特征进行拼接，得到目标合并特征。

作为本申请的进一步改进，训练手术动作预测模型包括对编码器进行预训练，以及对预训练之后的编码器和解码器进行综合训练。

作为本申请的进一步改进，当对编码器进行预训练时，编码器还包括文本编码模块，文本编码模块与第一全连接层连接；对编码器进行预训练，包括：获取训练样本视频以及与训练样本视频对应的病程文本；将训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征；将病程文本输入至文本编码模块进行编码，得到病程文本特征；利用第一合并样本特征、病程文本特征进行对比学习，得到对比学习结果；根据对比学习结果以及对比学习对应的第三预设损失函数更新编码器。

作为本申请的进一步改进，当对预训练之后的编码器和解码器进行综合训练时，手术动作预测模型还包括第二全连接层，第二全连接层与解码器连接；对预训练之后的编码器和解码器进行综合训练，包括：将打上了预测类别标签的训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征；将第一合并样本特征和随机初始化特征输入至解码器进行解码，得到解码样本特征；拼接解码样本特征和第一合并样本特征，得到第二合并样本特征；将第二合并样本特征输入至第一全连接层进行预测，得到第一预测手术动作，并将解码样本特征输入至第二全连接层进行预测，得到第二预测手术动作；根据第一预测手术动作以及第一预测手术动作对应的第一预设损失函数、第二预测手术动作以及第二预测手术动作对应的第二预设损失函数、预测类别标签更新编码器、解码器、第一全连接层和第二全连接层。

作为本申请的进一步改进，第一预设损失函数和第二预设损失函数为交叉熵损失函数，第三预设损失函数为KL损失函数；

交叉熵损失函数表示为：

；

其中，

表示交叉熵损失，

表示第一预测手术动作或第二预测手术动作，

表示真实预测类别，

是指预先设定的预测类别的总数量；

KL损失函数表示为：

；

其中，

表示KL损失，

表示病程文本特征与第一合并样本特征的真实相似度，

表示病程文本特征与第一合并样本特征对比学习得到的相似度。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机设备，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如上述任一项的微创手术辅助方法的步骤。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储有能够实现上述任一项的微创手术辅助方法或微创手术辅助方法的程序指令。

本申请的有益效果是：本申请的微创手术辅助方法通过获取到当前手术视频的多帧连续图片后，通过语义分割网络从中分割提取得到手术器械图像特征和目标区域图像特征，再利用手术动作预测模型根据当前手术视频、手术器械图像特征、目标区域图像特征预测医生后续的手术动作，再输出包括目标区域、手术器械和手术动作的信息以指导医生后续的手术动作，辅助医生快速精准的完成微创手术，并且其结合手术场景与器械的特殊性，融合了包括手术视频、手术器械和目标区域的多模态信息进行识别，从而使得模型预测的准确率更高，并且，利用该方法输出的指导信息还可与医生手术动作进行比对，以帮助医生确认手术动作的完整性，提示医生对不符合要求的手术动作进行修正。

附图说明

图1是本发明实施例的微创手术辅助方法的一流程示意图；

图2是本发明实施例的手术动作预测模型的结构示意图；

图3是本发明实施例的手术动作预测模型中编码器预训练过程的一流程示意图；

图4是本发明实施例的手术动作预测模型训练过程的一流程示意图；

图5是本发明实施例的微创手术辅助装置的功能模块示意图；

图6是本发明实施例的计算机设备的结构示意图；

图7是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明实施例的微创手术辅助方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取连续的多帧当前手术视频。

需要理解的是，本实施例中，微创手术过程是一个实时进行的过程，而本发明即为了实现实时的在线指导，以辅助医生精确的完成手术动作。因此，本实施例中，在获取当前手术视频时，以当前帧的视频图像为参考，获取该当前帧之前的连续t帧视频图像，从而得到t+1帧视频图像组成的当前手术视频，再基础该当前手术视频进行手术动作预测。需要理解的是，为了保证手术动作的连贯性，可以设定单位时间，将单位时间内获取的多帧图像作为当前手术视频，例如，该单位时间可以1秒钟或2秒钟等等，以该单位时间为间隔进行实时预测。

步骤S102：利用预先训练好的语义分割网络从关键帧中分割得到手术器械图像特征和目标区域图像特征。

需要说明的是，本实施例中的语义分割网络可基于全卷积神经网络（FullyConvolutional Networks （FCN））、SegNet网络、U-Net网络、PSPNet网络（Pyramid SceneParsing Network）、DeepLab网络中的一种来实现。对于视频处理的算法最为常用的方式是使用光流法（opticalflow）来提取视频内每帧图像序列之间的语义信息，具体操作为在语义分割网络处理单张图像帧的基础上，新增光流通道，并将两个通道得到的计算结果进行处理，得到最终的视频分割结果。该语义分割网络预先训练好。

在步骤S102中，在得到当前手术视频之后，基于光流法提取当前手术视频的每帧图像序列之间的语义信息，从而得到手术器械图像特征和目标区域图像特征。需要理解的是，该目标区域是指需要进行手术动作的区域，该手术器械是指针对于该目标区域进行手术动作时需要使用的手术器械。

步骤S103：将当前手术视频、手术器械图像特征、目标区域图像特征输入至预先训练好的手术动作预测模型，得到手术动作，手术动作预测模型包括编码器和第一全连接层，编码器从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征，第一全连接层根据目标合并特征预测得到手术动作。

在步骤S103中，当得到手术器械图像特征和目标区域图像特征之后，将当前手术视频、手术器械图像特征和目标区域图像特征作为多模态信息输入至预先训练好的手术动作预测模型，通过手术动作预测模型来分析当前手术视频、手术器械图像特征和目标区域图像特征中的信息，并根据该信息预测未来的手术动作。其中，该手术动作预测模型基于预先准备好的样本手术视频训练得到。

需要说明的是，手术动作的类别预先设定，并作为预测类别标签信息对训练该手术动作预测模型。通常的手术动作包括有：切除、探视、分离、穿刺、钝性分离、锐性分离、止血等。通过对当前手术视频的目标区域和手术器械进行特征分析，即可得到下一个针对目标区域的手术动作。

进一步的，本实施例中，请参阅图2，图2展示了该手术动作预测模型的结构示意图，该手术动作预测模型包括编码器和第一全连接层，该编码器包括视频编码模块、第一交叉注意力网络、第一池化层和第二池化层，视频编码模块分别与第一交叉注意力网络、第二池化层连接，第一交叉注意力网络与第一池化层连接，第一池化层、第二池化层均与第一全连接层连接。

进一步的，编码器从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征的步骤，具体包括：

1、将当前手术视频输入至视频编码模块进行编码，得到视频全局特征。

具体地，本实施例中，该视频编码模块为一视频编码器网络。在得到当前手术视频后，将该当前手术视频输入至该视频编码模块，由该视频编码模块从当前手术视频中编码得到视频全局特征。

2、将手术器械图像特征、目标区域图像特征对齐后进行拼接，得到初始二元组特征。

具体地，该手术器械图像特征和目标区域图像特征均为向量表示，在得到手术器械图像特征和目标区域图像特征，将两者的向量表示进行拼接得到初始二元组特征。需要说明的是，在对手术器械图像特征和目标区域图像特征进行拼接之前，需要对手术器械图像特征和目标区域图像特征进行ROI对齐，以方便对手术器械图像特征和目标区域图像特征进行拼接。

3、将初始二元组特征、视频全局特征输入至第一交叉注意力网络进行处理得到目标二元组特征。

具体地，在得到初始二元组特征和视频全局特征，利用第一交叉注意力网络对两者进行处理，从而得到增强的目标二元组特征，其中，以初始二元组特征作为Query，视频全局特征作为Key和Value，将两者输入至第一交叉注意力网络。需要说明的是，该第一交叉注意力网络基于注意力机制实现。

4、利用第一池化层对目标二元组特征进行池化，且利用第二池化层对视频全局特征进行池化。

具体地，将目标二元组特征输入至第一池化层中进行平均池化操作，得到池化后的目标二元组特征，将视频全局特征输入至第二池化层中进行平均池化操作，得到池化后的目标二元组特征，从而，对目标二元组特征和视频全局特征的维度进行压缩。

5、将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到目标合并特征。

具体地，通过将池化后的目标二元组特征和池化后的视频全局特征进行拼接，从而得到具有多模态的目标合并特征。

进一步的，为了对腔镜手术事件进行高精度在线检测，本实施例中，请继续参阅图2，该手术动作模型还包括解码器，从而构成一种“编码器-解码器”风格的模型。其中，该解码器包括第二交叉注意力网络和与第二交叉注意力网络连接的第三池化层，编码器与第二交叉注意力网络连接。为了减少手术事件边界识别错误，本实施例通过解码器引入未来的预测，该解码器以随机的“可学输入”作为未来不同时刻的“期望”，不同的“期望”除了在解码器中基于自注意力机制进行解码以外，还会与编码器中池化后的目标二元组特征和池化后的视频全局特征拼接得到的特征进行交叉注意力，不断增强未来时刻的“期望”，从而提升对手术事件边界的识别精度。因此，该步骤将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到目标合并特征，具体包括：

5.1、将池化后的目标二元组特征和池化后的视频全局特征进行拼接得到初始合并特征。

具体地，编码器中在得到池化后的目标二元组特征和池化后的视频全局特征，将该两者进行拼接，从而得到初始合并特征，然后将该初始合并特征输入至解码器中。

5.2、将初始合并特征和随机初始化特征输入至第二交叉注意力网络进行处理得到解码特征。

具体地，解码器在得到初始合并特征后，将初始合并特征和随机初始化特征输入至第二交叉注意力网络中进行处理，该第二交叉注意力网络与第一交叉注意力网络结构相同。

5.3、利用第三池化层对解码特征进行池化操作。

具体地，利用第三池化层对解码特征进行池化操作，以降低解码特征的维度。

5.4、将池化后的解码特征与初始合并特征进行拼接，得到目标合并特征。

具体地，在得到解码特征后，再将初始合并特征与解码特征进行拼接，从而得到目标合并特征。

进一步的，本实施例中，在使用该手术动作预测模型之前，还需对该手术动作预测模型进行训练。具体地，训练手术动作预测模型包括对编码器进行预训练，以及对预训练之后的编码器和解码器进行综合训练。

其中，在手术动作一寸模型的训练阶段，为了加强训练效果，通过挖掘手术过程报告中丰富的语义信息，将医生对手术过程的描述文本（病程文本）作为额外输入，经过文本编码模块编码后与前述得到的目标合并特征进行维度对齐，再进行病程文本与手术视频的对比学习，对于每一对文本与视频对，可以根据二元组物体类别的重合率，赋予一定的相似度，利用两两匹配相似度进行KL损失约束，从而能更充分地利用视频与文本之间的语义信息相似性，辅助分类，提升编码器的分类准确性。

因此，当对编码器进行预训练时，编码器还包括文本编码模块，文本编码模块与第一全连接层连接。请参阅图3，对编码器进行预训练，包括：

步骤S201：获取训练样本视频以及与训练样本视频对应的病程文本。

其中，病程文本为与训练样本视频对应的手术过程的报告。具体地，在医生完成手术后均会按要求医生完整整个手术过程的文本描述并记录。

步骤S202：将训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征。

具体地，该编码器对训练样本视频进行编码操作具体包括：将训练样本视频输入至视频编码模块进行编码，得到视频全局样本特征；从训练样本视频中获取手术器械图像样本特征、目标区域图像样本特征，再将手术器械图像样本特征、目标区域图像样本特征对齐后进行拼接，得到初始二元组样本特征；将初始二元组样本特征、视频全局样本特征输入至第一交叉注意力网络进行处理得到目标二元组样本特征；利用第一池化层对目标二元组样本特征进行池化，且利用第二池化层对视频全局样本特征进行池化；将池化后的目标二元组样本特征和池化后的视频全局样本特征进行拼接，得到第一合并样本特征。

步骤S203：将病程文本输入至文本编码模块进行编码，得到病程文本特征。

具体地，该文本编码模块为一文本编码器网络。在得到病程文本后，将该当前手术视频输入至该文本编码模块，由该文本编码模块从病程文本中编码得到病程文本特征。

步骤S204：利用第一合并样本特征、病程文本特征进行对比学习，得到对比学习结果。

需要说明的是，对比学习（Contrastive Learning）是自监督学习的一种。自监督学习属于无监督学习范式的一种，常见的机器学习大多数是有监督学习，特点是训练数据都有标注，而无监督学习解决的问题是数据没有标注的情况。对比学习的目标是学习一个编码器，此编码器对同类数据进行相似的编码，并使不同类的数据的编码结果尽可能的不同。

步骤S205：根据对比学习结果以及对比学习对应的第三预设损失函数更新编码器。

此外，当对预训练之后的编码器和解码器进行综合训练时，手术动作预测模型还包括第二全连接层，第二全连接层与解码器连接；

请参阅图4，对预训练之后的编码器和解码器进行综合训练，包括：

步骤S301：将打上了预测类别标签的训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征。

具体地，该步骤S301的具体过程与步骤S202相同，请参阅步骤S202的具体内容，此处不再赘述。

步骤S302：将第一合并样本特征和随机初始化特征输入至解码器进行解码，得到解码样本特征。

本实施例中，在训练解码器时，利用解码器对第一合并样本特征和随机初始化特征的处理方式与使用解码器进行预测时的处理方式相同，具体请参考上述解码器对初始合并特征和随机初始化特征的处理方式，此处不再赘述。

步骤S303：拼接解码样本特征和第一合并样本特征，得到第二合并样本特征。

步骤S304：将第二合并样本特征输入至第一全连接层进行预测，得到第一预测手术动作，并将解码样本特征输入至第二全连接层进行预测，得到第二预测手术动作。

需要说明的是，本实施例中，在训练解码器时，由于在训练时，可以得到离线训练样本，因此可以将不同为未来“期望”输入到第二全连接层进行分类，得到的第二预测手术动作与实际的手术动作相比较计算损失，从而增强特征的语义表达能力。因此在训练手术动作预测模型时，手术动作预测模型还包括第二全连接层，第二全连接层与解码器连接，需要理解的是，该第二全连接层仅用于对模型的训练过程，在模型训练好之后进行使用时，不再使用该第二全连接层进行手术动作的预测。

步骤S305：根据第一预测手术动作以及第一预测手术动作对应的第一预设损失函数、第二预测手术动作以及第二预测手术动作对应的第二预设损失函数、预测类别标签更新编码器、解码器、第一全连接层和第二全连接层。

具体地，在得到第一预测手术动作，第二预测手术动作后，结合预设的损失函数对编码器、解码器、第一全连接层和第二全连接层进行更新训练。

进一步的，本实施例中，该第一预设损失函数和第二预设损失函数为交叉熵损失函数，第三预设损失函数为KL损失函数；

交叉熵损失函数表示为：

；

其中，

表示交叉熵损失，

表示第一预测手术动作或第二预测手术动作，

表示真实预测类别，

是指预先设定的预测类别的总数量；

KL损失函数表示为：

；

其中，

表示KL损失，

表示病程文本特征与第一合并样本特征的真实相似度，

步骤S104：根据手术动作、目标区域、手术器械生成三元组信息并输出。

在步骤S104中，预测得到手术动作后，根据手术动作、目标区域、手术器械生成三元组信息来辅助医生进行手术。例如，该三元组信息可以是，操作器械X、Y对器官Z进行切除，其中，“器械X、Y”为手术器械，“器官Z”为目标区域，“切除”为手术动作。

进一步的，在一些实施例中，本实施例的微创手术辅助方法还用于实时识别医生执行的当前手术动作的类别，并与该类别对应的预设手术动作要求比对，从而确认当前手术动作是否规范以及当前手术动作的完整性，在当前手术动作不规范或手术动作不完整时，发出告警信息。例如，当医生使用纱布进行止血操作后，要校验止血操作后是否取出纱布，若未取出则发出告警，从而避免出现纱布遗留在术者体内。此外，在校验医生手术动作的同时，该微创手术辅助方法还用于按照预设规则记录医生每个手术动作的得分评价，术后根据各个手术动作的得分评价得出医生本场手术的评分结果，以该评分结果作为对医生的考核标准之一。其中，该得分评价根据手术动作的规范性和完整性进行评估，例如：一个手术动作10分，当手术动作出现不规范操作时扣2-5分，当手术动作不完整时扣5-10分，具体扣分规则预先设定。

此外，在一些实施例中，本实施例的微创手术辅助方法还用于记录整个手术过程视频，在手术完成后，根据该手术过程视频进行手术回顾。本发明实施例的微创手术辅助方法通过获取到当前手术视频的多帧连续图片后，通过语义分割网络从中分割提取得到手术器械图像特征和目标区域图像特征，再利用手术动作预测模型根据当前手术视频、手术器械图像特征、目标区域图像特征预测医生后续的手术动作，再输出包括目标区域、手术器械和手术动作的信息以指导医生后续的手术动作，辅助医生快速精准的完成微创手术，并且其结合手术场景与器械的特殊性，融合了包括手术视频、手术器械和目标区域的多模态信息进行识别，从而使得模型预测的准确率更高，并且，利用该方法输出的指导信息还可与医生手术动作进行比对，以帮助医生确认手术动作的完整性，提示医生对不符合要求的手术动作进行修正。

图5是本发明实施例的微创手术辅助装置的功能模块示意图。如图5所示，该微创手术辅助装置40包括获取模块41、特征提取模块42、预测模块43和输出模块44。

获取模块41，用于获取连续的多帧当前手术视频；

特征提取模块42，用于利用预先训练好的语义分割网络从关键帧中分割得到手术器械图像特征和目标区域图像特征；

预测模块43，用于将当前手术视频、手术器械图像特征、目标区域图像特征输入至预先训练好的手术动作预测模型，得到手术动作，手术动作预测模型包括编码器和第一全连接层，编码器从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征，第一全连接层根据目标合并特征预测得到手术动作；

输出模块44，用于根据手术动作、目标区域、手术器械生成三元组信息并输出。

可选地，编码器包括视频编码模块、第一交叉注意力网络、第一池化层和第二池化层，视频编码模块分别与第一交叉注意力网络、第二池化层连接，第一交叉注意力网络与第一池化层连接，第一池化层、第二池化层均与第一全连接层连接；预测模块43的编码器执行从当前手术视频、手术器械图像、目标区域图像中提取得到目标合并特征的操作，具体包括：将当前手术视频输入至视频编码模块进行编码，得到视频全局特征；将手术器械图像特征、目标区域图像特征对齐后进行拼接，得到初始二元组特征；将初始二元组特征、视频全局特征输入至第一交叉注意力网络进行处理得到目标二元组特征；利用第一池化层对目标二元组特征进行池化，且利用第二池化层对视频全局特征进行池化；将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到目标合并特征。

可选地，手术动作预测模型还包括解码器，解码器包括第二交叉注意力网络和与第二交叉注意力网络连接的第三池化层，编码器与第二交叉注意力网络连接；预测模块43执行将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到目标合并特征，包括：将池化后的目标二元组特征和池化后的视频全局特征进行拼接得到初始合并特征；将初始合并特征和随机初始化特征输入至第二交叉注意力网络进行处理得到解码特征；利用第三池化层对解码特征进行池化操作；将池化后的解码特征与初始合并特征进行拼接，得到目标合并特征。

可选地，该微创手术辅助装置40还包括训练模块，用于训练手术动作预测模型，该训练过程包括对编码器进行预训练，以及对预训练之后的编码器和解码器进行综合训练。

可选地，当对编码器进行预训练时，编码器还包括文本编码模块，文本编码模块与第一全连接层连接；训练模块对编码器进行预训练的操作，具体包括：获取训练样本视频以及与训练样本视频对应的病程文本；将训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征；将病程文本输入至文本编码模块进行编码，得到病程文本特征；利用第一合并样本特征、病程文本特征进行对比学习，得到对比学习结果；根据对比学习结果以及对比学习对应的第三预设损失函数更新编码器。

可选地，当对预训练之后的编码器和解码器进行综合训练时，手术动作预测模型还包括第二全连接层，第二全连接层与解码器连接；训练模块对预训练之后的编码器和解码器进行综合训练的操作，具体包括：将打上了预测类别标签的训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征；将第一合并样本特征和随机初始化特征输入至解码器进行解码，得到解码样本特征；拼接解码样本特征和第一合并样本特征，得到第二合并样本特征；将第二合并样本特征输入至第一全连接层进行预测，得到第一预测手术动作，并将解码样本特征输入至第二全连接层进行预测，得到第二预测手术动作；根据第一预测手术动作以及第一预测手术动作对应的第一预设损失函数、第二预测手术动作以及第二预测手术动作对应的第二预设损失函数、预测类别标签更新编码器、解码器、第一全连接层和第二全连接层。

可选地，第一预设损失函数和第二预设损失函数为交叉熵损失函数，第三预设损失函数为KL损失函数；

交叉熵损失函数表示为：

；

其中，

表示交叉熵损失，

表示第一预测手术动作或第二预测手术动作，

表示真实预测类别，

是指预先设定的预测类别的总数量；

KL损失函数表示为：

；

其中，

表示KL损失，

表示病程文本特征与第一合并样本特征的真实相似度，

关于上述实施例微创手术辅助装置中各模块实现技术方案的其他细节，可参见上述实施例中的微创手术辅助方法中的描述，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

请参阅图6，图6为本发明实施例的计算机设备的结构示意图。如图6所示，该计算机设备30包括处理器31及和处理器31耦接的存储器32，存储器32中存储有程序指令，程序指令被处理器31执行时，使得处理器31执行上述任一实施例所述的微创手术辅助方法步骤。

其中，处理器31还可以称为CPU（Central Processing Unit，中央处理单元）。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述微创手术辅助方法的程序指令41，其中，该程序指令41可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等计算机设备设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的计算机设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种微创手术辅助方法，其特征在于，所述方法包括：

获取连续的多帧当前手术视频；

利用预先训练好的语义分割网络从关键帧中分割得到手术器械图像特征和目标区域图像特征；

将所述当前手术视频、所述手术器械图像特征、所述目标区域图像特征输入至预先训练好的手术动作预测模型，得到手术动作，所述手术动作预测模型包括编码器和第一全连接层，所述编码器从所述当前手术视频、所述手术器械图像、所述目标区域图像中提取得到目标合并特征，所述第一全连接层根据所述目标合并特征预测得到所述手术动作；

根据所述手术动作、所述目标区域、所述手术器械生成三元组信息并输出；

其中，训练所述手术动作预测模型包括对所述编码器进行预训练；

当对所述编码器进行预训练时，所述编码器还包括文本编码模块，所述文本编码模块与第一全连接层连接；

对所述编码器进行预训练，包括：

获取训练样本视频以及与所述训练样本视频对应的病程文本；

将所述训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征；

将所述病程文本输入至所述文本编码模块进行编码，得到病程文本特征；

利用所述第一合并样本特征、所述病程文本特征进行对比学习，得到对比学习结果；

根据所述对比学习结果以及对比学习对应的第三预设损失函数更新所述编码器。

2.根据权利要求1所述的微创手术辅助方法，其特征在于，所述编码器包括视频编码模块、第一交叉注意力网络、第一池化层和第二池化层，所述视频编码模块分别与所述第一交叉注意力网络、所述第二池化层连接，所述第一交叉注意力网络与所述第一池化层连接，所述第一池化层、所述第二池化层均与所述第一全连接层连接；所述编码器从所述当前手术视频、所述手术器械图像、所述目标区域图像中提取得到目标合并特征，包括：

将所述当前手术视频输入至所述视频编码模块进行编码，得到视频全局特征；

将所述手术器械图像特征、所述目标区域图像特征对齐后进行拼接，得到初始二元组特征；

将所述初始二元组特征、所述视频全局特征输入至所述第一交叉注意力网络进行处理得到目标二元组特征；

利用所述第一池化层对所述目标二元组特征进行池化，且利用所述第二池化层对所述视频全局特征进行池化；

将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到所述目标合并特征。

3.根据权利要求2所述的微创手术辅助方法，其特征在于，所述手术动作预测模型还包括解码器，所述解码器包括第二交叉注意力网络和与所述第二交叉注意力网络连接的第三池化层，所述编码器与所述第二交叉注意力网络连接；

所述将池化后的目标二元组特征和池化后的视频全局特征进行拼接，得到所述目标合并特征，包括：

将池化后的目标二元组特征和池化后的视频全局特征进行拼接得到初始合并特征；

将所述初始合并特征和随机初始化特征输入至所述第二交叉注意力网络进行处理得到解码特征；

利用所述第三池化层对所述解码特征进行池化操作；

将池化后的解码特征与所述初始合并特征进行拼接，得到所述目标合并特征。

4.根据权利要求3所述的微创手术辅助方法，其特征在于，训练所述手术动作预测模型还包括对预训练之后的编码器和解码器进行综合训练。

5.根据权利要求4所述的微创手术辅助方法，其特征在于，当对预训练之后的编码器和解码器进行综合训练时，所述手术动作预测模型还包括第二全连接层，所述第二全连接层与所述解码器连接；

对预训练之后的编码器和解码器进行综合训练，包括：

将打上了预测类别标签的训练样本视频输入至预训练后的编码器进行编码，得到第一合并样本特征；

将所述第一合并样本特征和随机初始化特征输入至解码器进行解码，得到解码样本特征；

拼接所述解码样本特征和所述第一合并样本特征，得到第二合并样本特征；

将所述第二合并样本特征输入至所述第一全连接层进行预测，得到第一预测手术动作，并将所述解码样本特征输入至所述第二全连接层进行预测，得到第二预测手术动作；

根据所述第一预测手术动作以及所述第一预测手术动作对应的第一预设损失函数、所述第二预测手术动作以及所述第二预测手术动作对应的第二预设损失函数、所述预测类别标签更新所述编码器、所述解码器、所述第一全连接层和所述第二全连接层。

6.根据权利要求5所述的微创手术辅助方法，其特征在于，所述第一预设损失函数和所述第二预设损失函数为交叉熵损失函数，所述第三预设损失函数为KL损失函数；

所述交叉熵损失函数表示为：

；

其中，

表示所述交叉熵损失，

表示所述第一预测手术动作或所述第二预测手术动作，

表示真实预测类别，

是指预先设定的预测类别的总数量；

所述KL损失函数表示为：

；

其中，

表示所述KL损失，

表示所述病程文本特征与所述第一合并样本特征的真实相似度，

表示所述病程文本特征与所述第一合并样本特征对比学习得到的相似度。

7.一种利用权利要求1所述微创手术辅助方法的微创手术辅助装置，其特征在于，包括：

获取模块，用于获取连续的多帧当前手术视频；

特征提取模块，用于利用预先训练好的语义分割网络从关键帧中分割得到手术器械图像特征和目标区域图像特征；

预测模块，用于将所述当前手术视频、所述手术器械图像特征、所述目标区域图像特征输入至预先训练好的手术动作预测模型，得到手术动作，所述手术动作预测模型包括编码器和第一全连接层，所述编码器从所述当前手术视频、所述手术器械图像、所述目标区域图像中提取得到目标合并特征，所述第一全连接层根据所述目标合并特征预测得到所述手术动作；

输出模块，用于根据所述手术动作、所述目标区域、所述手术器械生成三元组信息并输出。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如权利要求1-6中任一项权利要求所述的微创手术辅助方法的步骤。

9.一种存储介质，其特征在于，存储有能够实现如权利要求1-6中任一项所述的微创手术辅助方法的程序指令。