CN117058936A

CN117058936A - 一种基于多路音视频的手术示教方法、装置和设备

Info

Publication number: CN117058936A
Application number: CN202310960184.5A
Authority: CN
Inventors: 蒋博峰; 王明; 杨俊文
Original assignee: Shenzhen China Ark Information Industry Co ltd
Current assignee: Shenzhen China Ark Information Industry Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-14

Abstract

本申请涉及医疗示教的技术领域，尤其是涉及一种基于多路音视频的手术示教方法、装置和设备，其方法包括：在整合示教音视频的播放过程中，将全景音视频的音频数据进行文字转化，并将音频文字添加至整合示教音视频中。进而，基于音频文字进行特征词分析，并基于目标特征词从补充示教知识库中确定若干补充示教内容，然后，基于若干补充示教内容的数量调整图像布局，并利用更新图像布局，将若干补充示教内容与整合示教音视频同时在示教端进行播放。在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

Description

一种基于多路音视频的手术示教方法、装置和设备

技术领域

本申请涉及医疗示教的技术领域，尤其是涉及一种基于多路音视频的手术示教方法、装置和设备。

背景技术

临床教学作为众多医院的重要任务，担负着培养医护人员的责任，传统的手术教学、手术指导，需要相应人员现场观摩、交流，但是由于现场条件或手术设备的限制，现场手术观摩的空间狭窄、参加人员受到限制，对手术感染率也会带来负面影响，同时也给病人正常治疗带来了不必要的麻烦，这就造成了实习医生学习观摩手术的机会大大减少，不利于提高实习医生的学习质量。随着数字化、信息技术的高速发展，医院数字化也得到了进一步的发展，手术室实现数字化是必然趋势，其中，手术示教系统是数字化手术室中一个非常重要的应用，手术示教系统的出现提高了手术质量。

现有的手术示教系统，通过音视频编解码技术，可将手术现场音视频实时转播，便于示教室众多医生、实习医生观摩学习。通过这种方式，既保障了手术室内无菌要求，又减少了手术室内交叉感染，同时也扩大了手术示教的范围，从而摆脱了传统示教模式在时间、空间和人数上的限制。手术示教过程中涉及到的相关知识较多，然而，现有的手术示教系统仅采用视频转播和语音指导的方式进行示教，并未深入考虑实习医生的手术实践经验较少，仅凭借视频转播和语音指导并不能使得实习医生较为深入的掌握相关知识，手术示教的效果较差。

因而，如何提高手术示教的效果是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种基于多路音视频的手术示教方法、装置和设备，用于解决以上至少一项技术问题。

本申请的上述发明目的是通过以下技术方案得以实现的：

第一方面，本申请提供一种基于多路音视频的手术示教方法，采用如下的技术方案：

一种基于多路音视频的手术示教方法，包括：

在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，得到音频文字，并将所述音频文字添加至所述整合示教音视频中，其中，所述整合示教音视频是基于全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合得到的；

基于所述音频文字进行特征词分析，得到目标特征词，并基于所述目标特征词从补充示教知识库中确定与所述目标特征词对应的若干补充示教内容；

基于所述若干补充示教内容的数量调整图像布局，得到更新图像布局，并利用所述更新图像布局，将所述若干补充示教内容与所述整合示教音视频同时在示教端进行播放。

通过采用上述技术方案，将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频并在示教端进行播放，多路音视频整合用于在示教端能够同时播放手术过程中的多维度视频，以便于实习医生能够更加全面的观看示教手术。然后，在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，并将音频文字添加至所述整合示教音视频中，在一定程度上能够避免音频音量小或示教老师的口音问题影响手术示教效果。由于观看手术示教的大多为手术实践经验较少且理论知识较为薄弱的实习医生，在没有理论知识支撑的情况下，仅仅凭借手术室内的整合示教音视频进行示教并不能较为深入的掌握相关知识，因而，在整合示教音视频播放的过程中，从补充示教知识库中确定与音频文字中的目标特征词对应的若干补充示教内容，在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

本申请在一较佳示例中可以进一步配置为：所述基于所述音频文字进行特征词分析，得到目标特征词之后，还包括：

基于所述目标特征词进行重建关键词分析，得到重建分析结果；

当所述重建分析结果为重建关键词，则基于所述目标特征词进行器官三维重建，得到目标器官的初始三维模型；

获取目标器官的实际尺寸，基于所述实际尺寸调整所述初始三维模型的尺寸，得到目标三维模型；

基于所述目标三维模型模拟手术操作，并调整图像布局，以使得模拟手术操作在示教端进行展示。

本申请在一较佳示例中可以进一步配置为：所述基于所述目标三维模型模拟手术操作，包括：

基于所述目标三维模型进行坐标系构建，得到虚拟坐标系；

基于所述术野视频和所述内窥镜视频，实时获取手术器械和内窥镜在虚拟坐标系下各自对应的位置坐标；

基于所述手术器械的位置坐标、所述内窥镜的位置坐标和所述目标三维模型，在所述目标三维模型模拟手术操作。

本申请在一较佳示例中可以进一步配置为：所述在整合示教音视频的播放过程中之前，还包括：

获取全景音视频、术野视频、内窥镜视频和监护仪器视频，其中，所述监护仪器视频用于显示患者的生命体征数据；

将所述全景音视频、所述术野视频、所述内窥镜视频和所述监护仪器视频进行多路音视频整合，得到整合示教音视频，并将所述整合示教音视频在示教端进行播放。

本申请在一较佳示例中可以进一步配置为：所述将所述全景音视频、所述术野视频、所述内窥镜视频和所述监护仪器视频进行多路音视频整合，得到整合示教音视频，包括：

基于所述全景音视频和所述术野视频进行人脸检测，得到若干人脸特征；

获取示教患者人脸特征，并基于所述若干人脸特征和所述示教患者人脸特征进行特征相似度匹配，从所述若干人脸特征中确定目标人脸特征；

对所述全景音视频和所述术野视频中所述目标人脸特征对应的人脸数据进行模糊处理，得到处理后的全景音视频和处理后的术野视频；

将所述处理后的全景音视频、所述处理后的术野视频、所述内窥镜视频和所述监护仪器视频进行多路音视频整合，得到整合示教音视频。

本申请在一较佳示例中可以进一步配置为：所述将所述若干补充示教内容与所述整合示教音视频同时在示教端进行播放之后，还包括：

当检测到手术示教结束时，则获取示教患者的手术记录，基于所述手术记录对所述手术示教视频进行资源分类，得到手术示教视频的分类信息，其中，所述手术示教视频为在示教端展示内容的合集；

基于所述手术示教视频的分类信息，确定手术示教视频的节点信息和批注信息；

基于所述批注信息和所述节点信息，对所述手术示教视频进行批注和切片处理，得到处理后的手术示教视频；

将所述处理后的手术示教视频保存至本地，并上传至云端。

本申请在一较佳示例中可以进一步配置为：所述将所述处理后的手术示教视频保存至本地，并上传至云端，包括：

将所述处理后的手术示教视频进行加密处理，得到加密手术示教视频并保存至本地；

将所述加密手术示教视频上传至云端。

本申请在一较佳示例中可以进一步配置为：还包括：

基于全景音视频、术野视频和内窥镜视频进行手术进程确定，得到手术进程；

利用进程和各类视频权重的关系，确定所述手术进程对应的全景音视频权值、术野视频权值、内窥镜视频权值和监护仪器视频权值；

基于各项权值和图像布局的关系，调整所述全景音视频、所述术野视频、所述内窥镜视频和所述监护仪器视频在图像布局中的位置，其中，所述各项权值包括：全景音视频权值、术野视频权值、内窥镜视频权值和监护仪器视频权值。

第二方面，本申请提供一种基于多路音视频的手术示教装置，采用如下的技术方案：

一种基于多路音视频的手术示教装置，包括：

文字转化模块，用于在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，得到音频文字，并将所述音频文字添加至所述整合示教音视频中，其中，所述整合示教音视频是基于全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合得到的；

补充示教模块，用于基于所述音频文字进行特征词分析，得到目标特征词，并基于所述目标特征词从补充示教知识库中确定与所述目标特征词对应的若干补充示教内容；

补充显示模块，用于基于所述若干补充示教内容的数量调整图像布局，得到更新图像布局，并利用所述更新图像布局，将所述若干补充示教内容与所述整合示教音视频同时在示教端进行播放。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述的基于多路音视频的手术示教方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行上所述的基于多路音视频的手术示教方法。

综上所述，本申请包括以下至少一种有益技术效果：

1.将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频并在示教端进行播放，多路音视频整合用于在示教端能够同时播放手术过程中的多维度视频，以便于实习医生能够更加全面的观看示教手术。然后，在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，并将音频文字添加至所述整合示教音视频中，在一定程度上能够避免音频音量小或示教老师的口音问题影响手术示教效果。由于观看手术示教的大多为手术实践经验较少且理论知识较为薄弱的实习医生，在没有理论知识支撑的情况下，仅仅凭借手术室内的整合示教音视频进行示教并不能较为深入的掌握相关知识，因而，在整合示教音视频播放的过程中，从补充示教知识库中确定与音频文字中的目标特征词对应的若干补充示教内容，在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

2.在手术示教的过程中，常常会涉及到对器官的手术处理，倘若仅仅通过全景视频、术野视频和内窥镜视频进行手术操作教学，实习医生并不能较为直观的了解人体结构，且不能较为深入地掌握术中器械的移动幅度。因而，在得到目标特征词后，基于目标特征词进行重建关键词分析，当重建分析结果为重建关键词，表明目标特征词中表述了对器官操作的含义，故基于目标特征词进行器官三维重建，得到目标器官的初始三维模型，进而，基于目标器官的实际尺寸调整初始三维模型的尺寸，得到目标三维模型，调整初始三维模型的尺寸是为了实习医生能够更为准确地了解人体结构，能够精准手术操作，最终，基于目标三维模型模拟手术操作，以使得可以在目标三维模型上较为清楚地显示出内窥镜和手术器械的移动和操作详细情况，便于实习医生更为真实地学习到手术操作。

附图说明

图1是本申请其中一实施例的一种基于多路音视频的手术示教方法的流程示意图；

图2是本申请其中一实施例的一种基于多路音视频的手术示教装置的结构示意图；

图3是本申请其中一实施例的一种电子设备的结构示意图。

具体实施方式

以下结合图1至图3对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供了一种基于多路音视频的手术示教方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括步骤S101、步骤S102和步骤S103，其中：

步骤S101：在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，得到音频文字，并将音频文字添加至整合示教音视频中，其中，所述整合示教音视频是基于全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合得到的。

对于本申请实施例，整合示教音视频能够在同一显示界面中同时播放全景音视频、术野视频、内窥镜视频和监护仪器视频。在实际的手术示教过程中，可能会存在音频信号传输不稳定的情况，即，示教端的实习医生可能并不能完整清晰地接收到手术室内传来的手术指导，与此同时，还会存在示教老师有地方口音的情况。因此，在整合示教音视频的播放过程中，将全景音视频中的音频数据提取出来并进行文字转化，得到文字形式的音频文字，并将音频文字以字幕的形式添加至整合示教音视频中，以使得实习医生在示教端能够完整且清晰地获取到示教老师的语音示教指导内容，一定程度上能够降低音频信息传输不稳定或示教老师的口音问题影响手术示教效果。

步骤S102：基于音频文字进行特征词分析，得到目标特征词，并基于目标特征词从补充示教知识库中确定与目标特征词对应的若干补充示教内容。

对于本申请实施例，在整合示教音视频的播放过程中，将文字形式的音频文字进行分词处理，得到音频文字对应的若干音频分词，优选的，可以对若干音频分词进行分词清洗，剔除一些无语义的分词，例如：的、你、我、吗等。然后，基于分词清洗后的音频分词进行特征词分析，具体的，预先设定了特征词数据库，其中，特征词数据库中存储有大量有特殊含义的预设特征词，例如：麻醉、开腹、缝合、切开、分离、止血、打结、膝关节置换、甲状腺切除、肺叶切除、胆囊切除、子宫切除等。基于分词清洗后的音频分词和特征词数据库中存储的所有预设特征词进行语义相似度匹配，且将语义相似度高于相似度阈值的音频分词确定为目标特征词，其中，相似度阈值是技术人员经过大量的实验确定的。然后，从补充示教知识库中确定与目标特征词对应的若干补充示教内容，其中，补充示教知识库中以关联表的形式存储了大量医疗知识、若干成功案例和手术注意事项，即，一个目标特征词对应至少一个补充示教内容，当然还可以存储其他的与目标特征词相关的医疗知识，针对补充示教知识库内存储的具体内容，本申请实施例不再进行限定。

步骤S103：基于若干补充示教内容的数量调整图像布局，得到更新图像布局，并利用更新图像布局，将若干补充示教内容与整合示教音视频同时在示教端进行播放。

对于本申请实施例，在补充示教知识库中不同的目标特征词所对应的若干补充示教内容不尽相同，且，若干补充示教内容的数量也不尽相同，不同数量的补充示教内容会影响示教端的视频播放，因而，基于若干补充示教内容的数量调整图像布局是尤为重要的。因此，基于若干补充示教内容的数量调整图像布局，得到更新图像布局，针对调整图像布局得到更新图像布局的操作有多种形式，例如，保持图像布局中每一小窗口的相对位置不变，增加与若干补充示教内容的数量相同的小窗口，以完成布局调整；当然，还可以基于图像布局和若干补充示教内容的总数量确定图像布局，得到更新图像布局，并替换图像布局。在得到更新图像布局后，则基于更新图像布局将若干补充示教内容和整合示教音视频进行同步播放，在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

可见，在本申请实施例中，将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频并在示教端进行播放，多路音视频整合用于在示教端能够同时播放手术过程中的多维度视频，以便于实习医生能够更加全面的观看示教手术。然后，在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，并将音频文字添加至所述整合示教音视频中，在一定程度上能够避免音频音量小或示教老师的口音问题影响手术示教效果。由于观看手术示教的大多为手术实践经验较少且理论知识较为薄弱的实习医生，在没有理论知识支撑的情况下，仅仅凭借手术室内的整合示教音视频进行示教并不能较为深入的掌握相关知识，因而，在整合示教音视频播放的过程中，从补充示教知识库中确定与音频文字中的目标特征词对应的若干补充示教内容，在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

进一步的，为了便于实习医生更为真实地学习到手术操作，在本申请实施例中，基于音频文字进行特征词分析，得到目标特征词之后，还包括：

基于目标特征词进行重建关键词分析，得到重建分析结果；

当重建分析结果为重建关键词，则基于目标特征词进行器官三维重建，得到目标器官的初始三维模型；

获取目标器官的实际尺寸，基于实际尺寸调整初始三维模型的尺寸，得到目标三维模型；

基于目标三维模型模拟手术操作，并调整图像布局，以使得模拟手术操作在示教端进行展示。

对于本申请实施例，由于手术的类型众多，且大多会涉及到对器官的手术处理，例如，甲状腺大部切除术、经鼻蝶内镜手术、肺叶切除术、胃大部切除术、胆囊切除术和子宫切除术。在示教的过程中，仅仅通过全景视频、术野视频和内窥镜视频进行手术操作教学，实习医生并不能较为直观的了解人体结构，且不能较为深入地掌握术中器械的移动幅度，因而，在对器官进行手术演示时，构建三维模型能够便于实习医生更为真实地学习到手术操作。

具体的，基于目标特征词进行重建关键词分析，重建关键词分析用于确定目标特征词是否为与器官操作相关的特征词，即，用于手术操作过程中是否会对器官的手术处理，具体的，预先设定重建关键词数据库，重建关键词数据库中存储有大量的重建关键词，例如：甲状腺、肺叶、胃、胆囊、子宫等，然后，将目标特征词与所有重建关键词进行匹配，若匹配成功，则确定重建分析结果为重建关键词；若匹配失败，则确定重建分析结果为非重建关键词。

进而，当重建分析结果为重建关键词，则基于目标特征词进行器官三维重建，即，基于目标特征词中的关于器官的描述进行器官三维重建，得到目标器官的初始三维模型，其中，初始三维模型仅仅是构建了一个虚拟的三维的器官模型，并未具体考虑示教患者器官的实际大小情况。然而，由于示教患者存在差异性的特点，并非所有示教患者的器官均相同，其中，年龄、性别、体型等各种差异性特点均会影响器官的大小，为了实习医生能够更为准确地了解人体结构，并精准手术操作，因而，会基于示教患者器官的实际大小调整初始三维模型的大小。具体的，获取目标器官的实际尺寸，其中，可以基于预先的拍摄的CT检查结果来确定目标器官的实际尺寸，然后，基于目标器官的实际尺寸来调节初始三维模型的尺寸，以使得目标三维模型的尺寸与实际尺寸一致。在得到目标三维模型后，可以将实际的手术操作进行虚拟模拟，即，在目标三维模型上模拟手术操作，以使得可以在目标三维模型上较为清楚地显示出内窥镜和手术器械的移动和操作详细情况。最终，调整图像布局，以使得模拟手术操作在示教端进行展示。

可见，在本申请实施例中，在手术示教的过程中，常常会涉及到对器官的手术处理，倘若仅仅通过全景视频、术野视频和内窥镜视频进行手术操作教学，实习医生并不能较为直观的了解人体结构，且不能较为深入地掌握术中器械的移动幅度。因而，在得到目标特征词后，基于目标特征词进行重建关键词分析，当重建分析结果为重建关键词，表明目标特征词中表述了对器官操作的含义，故基于目标特征词进行器官三维重建，得到目标器官的初始三维模型，进而，基于目标器官的实际尺寸调整初始三维模型的尺寸，得到目标三维模型，调整初始三维模型的尺寸是为了实习医生能够更为准确地了解人体结构，能够精准手术操作，最终，基于目标三维模型模拟手术操作，以使得可以在目标三维模型上较为清楚地显示出内窥镜和手术器械的移动和操作详细情况，便于实习医生更为真实地学习到手术操作。

进一步的，为了能够较为精准地在目标三维模型上模拟手术操作，在本申请实施例中，基于目标三维模型模拟手术操作，包括：

基于目标三维模型进行坐标系构建，得到虚拟坐标系；

基于术野视频和内窥镜视频，实时获取手术器械和内窥镜在虚拟坐标系下各自对应的位置坐标；

基于手术器械的位置坐标、内窥镜的位置坐标和目标三维模型，在目标三维模型模拟手术操作。

对于本申请实施例，在基于目标三维模型进行模拟手术操作时，清楚且准确地模拟手术操作是异常重要的，其中，手术过程中器械的移动幅度是确保模拟手术操作精准的一个重要指标。因而，在基于目标三维模型模拟手术操作时，基于目标三维模型进行坐标系构建，得到虚拟坐标系，且，后续将手术器械和内窥镜的移动幅度转化为在虚拟坐标系下的坐标移动幅度，以使得手术操作的模拟更加精准。具体的，预先为手术器械和内窥镜各自设置一个标识，标识包括但不限于：颜色、数字，基于术野视频和内窥镜视频进行标识的识别和追踪，以实时获取手术器械和内窥镜在虚拟坐标系下各自对应的位置坐标，然后，基于实时获取到的位置坐标叠加至目标三维模型中，以完成在目标三维模型模拟手术操作，通过这种方式，能够使得实习医生对于手术过程中力度和位移距离有较为深刻的感知。

可见，在本申请实施例中，手术过程中器械的移动幅度是确保模拟手术操作精准的一个重要指标，为了能够较为精准地在目标三维模型上模拟手术操作，故基于目标三维模型进行坐标系构建，得到虚拟坐标系，然后，基于术野视频和内窥镜视频，实时获取手术器械和内窥镜在虚拟坐标系下各自对应的位置坐标，并基于各自对应的位置坐标和目标三维模型，实现在目标三维模型模拟手术操作，通过这种方式，能够使得实习医生对于手术过程中力度和位移距离有较为深刻的感知。

进一步的，为了提高实习医生的观看体验感，在本申请实施例中，在整合示教音视频的播放过程中之前，还包括：

获取全景音视频、术野视频、内窥镜视频和监护仪器视频，其中，监护仪器视频用于显示患者的生命体征数据；

将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频，并将整合示教音视频在示教端进行播放。

对于本申请实施例，全景音视频用于显示手术室全景画面并提供示教过程中的音频数据，优选的，利用4K全景摄像机来采集手术室的全景画面，利用麦克风来采集示教过程中的音频数据；术野视频用于显示手术细节画面，优选的，利用3D/4K术野摄像机来采集术野视频；内窥镜是一个配备有灯光的管子，可以经人体的天然孔道或者是经手术做的小切口进入人体内，内窥镜至少包括：胃镜、支气管镜、乙状结肠镜、膀胱镜、喉镜、鼻咽镜、阴道镜等，因而，基于内窥镜视频能够较为清晰地观察到示教患者体内的情况；在手术过程中常常会接入呼吸机、心电仪、CT影像等监护仪器，因而，基于监护仪器视频能够使实习医生较为直观地观察示教患者的生命体征，以便于实习医生能够较为清楚地得知示教患者在手术过程中各项生命体征的详细情况。

手术示教过程中，为了能够让实习医生较为深入且轻松地学习到更多知识，因而，在手术示教过程中将手术室内的全景音视频、手术操作过程中的视野视频、内窥镜显示出的内窥镜视频和监控仪器显示的视频均展示给实习医生，以便于实习医生能够较为全面地理解整个手术操作过程。然后，倘若将每一项视频各自显示在一个屏幕中，这种操作不便于实习医生进行观看，因而，本申请实施例利用多路音视频整合，能够使得多项视频在同一显示界面显示，提高了实习医生的观看体验感。

具体的，由于获取的多路音视频数据在利用网络传输协议进行传输时，会因为复杂的网络环境产生延时，倘若不对接收到的多路音视频数据进行同步处理，会造成整合示教音视频中播放进度不一致。因而，在利用图像布局进行多路音视频整合处理前，先将全景音视频、术野视频、内窥镜视频和监护仪器视频进行同步处理，得到同步音视频，具体的，基于每一路音视频数据的时间戳进行匹配，将第一个匹配成功的时间戳记作最早时间戳，并按照最早时间戳截取多路音视频数据，得到多个同步音视频，通过同步处理使得每一路音视频数据能够基于同一时间戳进行同步播放，以完成多路音视频同步处理。然后，按照图像布局，将同步处理后的全景音视频、术野视频、内窥镜视频和监护仪器视频进行布局整合，得到一个整合示教音视频，其中，图像布局是预先存储在电子设备内的，将整个大的播放窗口划分成多个小的播放窗口，并预先设定了每一小窗口的大小尺寸和位置信息。在多路音视频整合完成并生成整合示教音视频后，将整合示教音视频在示教端进行播放，以使得在示教端的实习医生能够实时观看到手术室的手术情况。

可见，在本申请实施例中，基于全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频，并将整合示教音视频在示教端进行播放，能够使得多项视频在同一显示界面显示，提高了实习医生的观看体验感。

进一步的，为了保护示教患者的隐私，在本申请实施例中，将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频，包括：

基于全景音视频和术野视频进行人脸检测，得到若干人脸特征；

获取示教患者人脸特征，并基于若干人脸特征和示教患者人脸特征进行特征相似度匹配，从若干人脸特征中确定目标人脸特征；

对全景音视频和术野视频中目标人脸特征对应的人脸数据进行模糊处理，得到处理后的全景音视频和处理后的术野视频；

将处理后的全景音视频、处理后的术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频。

对于本申请实施例，在进行手术示教时，手术室内的全景视频和术野视频存在着暴露示教患者隐私的风险，因而，在进行手术示教时，针对示教患者的隐私进行预先处理，能够较好地保护到示教患者。具体的，基于全景音视频和术野视频进行人脸检测，得到若干人脸特征，其中，若干人脸特征中包括：若干医护人员的人脸特征和示教患者的人脸特征。在手术示教过程中，隐私处理主要是针对示教患者而言，因而，需要在若干人脸特征中确定示教患者对应的人脸特征，并进行隐私处理。进而，基于示教患者人脸特征和若干人脸特征进行特征匹配，其中，示教患者人脸特征是预先存储在电子设备内的，可以在患者入院时或手术前进行示教患者的人脸特征采集，然后，将特征相似度高于特征阈值的人脸特征确定为目标人脸特征，其中，特征阈值是技术人员经过大量的实验确定的。在确定了示教患者对应的目标人脸特征后，对全景音视频和术野视频中目标人脸特征对应的人脸数据进行模糊处理，优选的，模糊处理的方式为进行马赛克模糊处理，以使得示教患者的隐私得以保护。最终，基于模糊处理后的全景音视频、模糊处理后的术野视频、内窥镜视频和监护仪器视频，进行多路音视频整合，得到整合示教音视频。

可见，在本申请实施例中，在进行手术示教时，手术室内的全景视频和术野视频存在着暴露示教患者隐私的风险，因而，基于全景音视频和术野视频进行人脸检测，并基于若干人脸特征和示教患者人脸特征进行特征相似度匹配，从若干人脸特征中确定目标人脸特征，进而，对全景音视频和术野视频中目标人脸特征对应的人脸数据进行模糊处理，以使得示教患者的隐私得以保护，最终，基于隐私处理后的全景音视频、隐私处理后的术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频，以使得整合示教音视频中保护了示教患者的隐私。

进一步的，为了便于实习医生基于手术示教视频进行相关知识学习，在本申请实施例中，将若干补充示教内容与整合示教音视频同时在示教端进行播放之后，还包括：

当检测到手术示教结束时，则

获取示教患者的手术记录，基于手术记录对手术示教视频进行资源分类，得到手术示教视频的分类信息，其中，手术示教视频为在示教端展示内容的合集；

基于手术示教视频的分类信息，确定手术示教视频的节点信息和批注信息；

基于批注信息和节点信息，对手术示教视频进行批注和切片处理，得到处理后的手术示教视频；

将处理后的手术示教视频保存至本地，并上传至云端。

对于本申请实施例，手术示教大多是以直播的形式，即，将手术室和示教端连接起来，并且能够进行示教互动，然而，由于时间的限制、地域的限制，一场直播形式的手术示教并不能使得较多数量的实习医生参与，因而，将录制的手术示教视频进行保存，便于更多的实习医生进行手术知识的学习，与此同时，进一步将手术示教的指导效果增强。

具体的，判断手术示教是否结束的方式有很多，例如：基于全景音视频进行人员识别，倘若未识别到人员，则表征手术示教已结束；基于术野视频进行手术进程分析，倘若术野视频内不再能够检测到手术操作行为，则表征手术示教已结束；基于监护仪器视频进行仪器连接分析，倘若不存在监护仪器与示教患者连接，则表征手术示教已结束；当然，还可以基于其他方式判断手术示教是否结束，本申请实施例不再进行限定。当检测到手术示教结束时，获取示教患者的手术记录，其中，手术记录包括但不限于：手术名称、术前诊断、术后诊断、手术详细操作流程，并基于手术记录进行资源分类，得到手术示教视频的分类信息，资源分类用于将手术示教视频划分至对应的科室、手术类型，以便于后续在查找手术示教视频时能够较为容易且快速地找到对应的手术示教视频，其中，分类信息包括：科室信息、手术类型信息，例如，分类信息为：妇产科的子宫切除手术。然后，基于分类信息确定手术示教视频的节点信息和批注信息，具体的，预先设定批注信息数据库，批注信息数据库中存储了大量有关手术示教视频的指导内容，大量的指导内容可以是从互联网和/或相关论文中爬取下来的，当然，也可以为示教老师进行自行批注的指导内容，对于批注信息数据库中指导内容的来源，本申请实施例不再进行限定；节点信息的划分标准也存在着多种情况，在一种可实现的方式中，按照常规手术的操作流程进行节点划分，即，将整个手术的操作流程划分成术前准备、麻醉、开皮、手术关键操作、缝合；在另一种可实现的方式中，基于手术示教视频的分类信息确定手术的操作特点，并基于操作特点确定与之对应的节点信息。然后，基于批注信息和节点信息对手术示教视频进行批注和切片处理，得到处理后的手术示教视频，其中，处理后的手术示教视频在播放过程中能够显示批注信息，且实习医生在观看时能够基于节点信息自行选择满足需要的片段式的手术示教视频，既能够方便实习医生进行学习，又不破坏手术示教视频的完整性。

然后，将处理后的手术示教视频保存至本地，并上传至云端，便于更多的实习医生能够基于处理后的手术示教视频进行手术知识学习，优选的，可以将保存在本地的处理后的手术示教视频进行加密处理，避免该处理后的手术示教视频被没有权限的人员窃取，将手术示教视频上传至云端以起到数据备份的作用，倘若发生医疗纠纷，能够避免本地存储的手术示教视频丢失而造成追责困难。

可见，在本申请实施例中，当检测到手术示教结束时，则基于患者的手术记录对手术示教视频进行资源分类，并基于手术示教视频的分类信息，确定手术示教视频的节点信息和批注信息，进而，基于节点信息和批注信息对手术示教视频进行批注和切片处理，得到处理后的手术示教视频。处理后的手术示教视频在播放过程中能够显示批注信息，便于实习医生获取到更多指导内容，将整个手术示教视频进行切片，既能够方便实习医生进行学习，又不破坏手术示教视频的完整性。然后，将处理后的手术示教视频保存至本地，并上传至云端，将处理后的手术示教视频进行本地保存，便于更多的实习医生进行手术知识的学习，且进一步将手术示教的指导效果增强，将处理后的手术示教视频上传至云端以起到数据备份的作用，倘若发生医疗纠纷，能够避免本地存储的手术示教视频丢失而造成追责困难。

进一步的，为了能够防止无观看权限的用户查看手术示教视频，在一定程度上保护医护人员、示教患者和医院的权益，在本申请实施例中，将处理后的手术示教视频保存至本地，并上传至云端，包括：

将处理后的手术示教视频进行加密处理，得到加密手术示教视频并保存至本地；

将加密手术示教视频上传至云端。

对于本申请实施例，手术示教视频对实习医生的指导作用是异常重要的，并且注入了示教老师和所在医院的辛勤付出，然而，倘若手术示教视频被非法人员窃取进行恶意修改并传播，会给社会带来较为恶劣的影响，因而，对处理后的手术示教视频进行加密处理是异常重要的。加密处理有多种方式，例如：VRM加密、播放器加密、文件流加密、视频逐帧转码加密等，对于使用何种加密处理方式，本申请实施例不再进行限定。进而，将加密处理后的加密手术示教视频保存至本地，因而，后续在观看本地存储的加密手术示教视频时，首先需要进行权限鉴定，能够防止无观看权限的用户查看手术示教视频，在一定程度上保护了医护人员、示教患者和医院的权益。

可见，在本申请实施例中，将录制的手术示教视频进行加密处理，然后，将加密手术示教视频保存至本地并上传至云端，能够防止无观看权限的用户查看手术示教视频，在一定程度上保护了医护人员、示教患者和医院的权益。

进一步的，为了便于实习医生较为清楚地观察到手术操作，且便于实习医生掌握示教过程中的重点内容，在本申请实施例中，将整合示教音视频在示教端进行播放之后，还包括：

利用进程和各类视频权重的关系，确定手术进程对应的全景音视频权值、术野视频权值、内窥镜视频权值和监护仪器视频权值；

基于各项权值和图像布局的关系，调整全景音视频、术野视频、内窥镜视频和监护仪器视频在图像布局中的位置，其中，各项权值包括：全景音视频权值、术野视频权值、内窥镜视频权值和监护仪器视频权值。

对于本申请实施例，示教端播放的整合示教音视频是基于图像布局进行显示的，优选的，图像布局中每一小窗口的尺寸大小不同，尺寸大的小窗口用于播放主要的视频，然而，伴随着手术的进行，示教老师所想重点展示的内容也不尽相同，因而，随着手术的进行适应性的调整全景音视频、术野视频、内窥镜视频和监护仪器视频在图像布局中的位置，不仅能够便于实习医生较为清楚地观察到手术操作，且便于实习医生掌握示教过程中的重点内容。

具体的，基于全景音视频、术野视频、内窥镜视频进行手术进程确定，手术进程确定的方式有多种，本申请实施例不再进行限定，在一种可实现的方式中，基于全景音视频中的音频数据进行手术进程分析，初步确定手术进程，然后，基于术野视频中手术人员的具体操作行为和内窥镜视频的具体展示情况进一步确定手术进程，最终确定手术进程；在另一种可实现的方式中，基于全景音视频的视频数据和术野视频进行手术人员动作识别，得到每一手术人员的行为操作，并综合所有手术人员的手术操作，最终确定手术进程。在确定了手术进程后，利用进程和各类视频权重的关系确定各项视频各自对应的权值，其中，进程和各类视频权值的关系是示教老师基于大量的示教实验确定的，预先存储在电子设备内，针对每一进程均会对应有各类视频各自对应的权值，例如，手术进程为术前准备，则利用进程和各类视频权重的关系确定各项视频各自对应的权值为：全景音视频权值为5、术野视频权值为4、内窥镜视频权值和监护仪器视频权值均为3，表明当前阶段重点展示的内容为全景音视频，对术前准备进行全景式展示；手术进程为缝合，则利用进程和各类视频权重的关系确定各项视频各自对应的权值为：术野视频权值为5、全景音视频权值、内窥镜视频权值和监护仪器视频权值均为3，表明当前阶段重点展示的内容为术野视频，指导实习医生如何进行缝合。最终，基于各项权值和图像布局的关系，调整全景音视频、术野视频、内窥镜视频和监护仪器视频在图像布局中的位置，其中，权值和图像布局预先存储在电子设备内，权值越高则对应于图像布局中尺寸大的小窗口，以便于突出当前状态示教老师所想展示的视频内容。

可见，在本申请实施例中，基于全景音视频、术野视频和内窥镜视频进行手术进程确定，得到手术进程，并利用进程和各类视频权重的关系，确定各类视频各自对应的权值，然后，基于各项权值和图像布局的关系，调整各类视频在图像布局中的位置。随着手术的进行适应性的调整全景音视频、术野视频、内窥镜视频和监护仪器视频在图像布局中的位置，不仅能够便于实习医生较为清楚地观察到手术操作，且便于实习医生掌握示教过程中的重点内容。

上述实施例从方法流程的角度介绍一种基于多路音视频的手术示教方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种基于多路音视频的手术示教装置，具体详见下述实施例。

本申请实施例提供一种基于多路音视频的手术示教装置200，如图2所示，该基于多路音视频的手术示教装置200具体可以包括：

文字转化模块210，用于在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，得到音频文字，并将音频文字添加至整合示教音视频中，其中，整合示教音视频是基于全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合得到的；

补充示教模块220，用于基于音频文字进行特征词分析，得到目标特征词，并基于目标特征词从补充示教知识库中确定与目标特征词对应的若干补充示教内容；

补充显示模块230，用于基于若干补充示教内容的数量调整图像布局，得到更新图像布局，并利用更新图像布局，将若干补充示教内容与整合示教音视频同时在示教端进行播放。

对于本申请实施例，文字转化模块210能够在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，并将音频文字添加至整合示教音视频中，在一定程度上能够避免音频音量小或示教老师的口音问题影响手术示教效果。进而，补充示教模块220能够基于音频文字进行特征词分析，得到目标特征词，并基于目标特征词从补充示教知识库中确定与目标特征词对应的若干补充示教内容，然后，补充显示模块230能够基于若干补充示教内容的数量调整图像布局，并利用更新图像布局，将若干补充示教内容与整合示教音视频同时在示教端进行播放。由于观看手术示教的大多为手术实践经验较少且理论知识较为薄弱的实习医生，在没有理论知识支撑的情况下，仅仅凭借手术室内的整合示教音视频进行示教并不能较为深入的掌握相关知识，因而，在整合示教音视频播放的过程中，从补充示教知识库中确定与目标特征词对应的若干补充示教内容，在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

本申请实施例的一种可能的实现方式，基于多路音视频的手术示教装置200，还包括：

模型构建模块，用于基于目标特征词进行重建关键词分析，得到重建分析结果；

本申请实施例的一种可能的实现方式，模型构建模块在执行基于目标三维模型模拟手术操作时，用于：

基于目标三维模型进行坐标系构建，得到虚拟坐标系；

多路音视频整合模块，用于获取全景音视频、术野视频、内窥镜视频和监护仪器视频，其中，监护仪器视频用于显示患者的生命体征数据；

本申请实施例的一种可能的实现方式，多路音视频整合模块在执行将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频时，用于：

视频处理模块，用于当检测到手术示教结束时，则获取示教患者的手术记录，基于手术记录对手术示教视频进行资源分类，得到手术示教视频的分类信息，其中，手术示教视频为在示教端展示内容的合集；

将处理后的手术示教视频保存至本地，并上传至云端。

本申请实施例的一种可能的实现方式，视频处理模块在执行将处理后的手术示教视频保存至本地，并上传至云端时，用于：

将加密手术示教视频上传至云端。

调整布局模块，用于基于全景音视频、术野视频和内窥镜视频进行手术进程确定，得到手术进程；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的一种基于多路音视频的手术示教装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图3所示，图3所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一型的总线。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，本申请实施例，将全景音视频、术野视频、内窥镜视频和监护仪器视频进行多路音视频整合，得到整合示教音视频并在示教端进行播放，多路音视频整合用于在示教端能够同时播放手术过程中的多维度视频，以便于实习医生能够更加全面的观看示教手术。然后，在整合示教音视频的播放过程中，将全景音视频中的音频数据进行文字转化，并将音频文字添加至整合示教音视频中，在一定程度上能够避免音频音量小或示教老师的口音问题影响手术示教效果。由于观看手术示教的大多为手术实践经验较少且理论知识较为薄弱的实习医生，在没有理论知识支撑的情况下，仅仅凭借手术室内的整合示教音视频进行示教并不能较为深入的掌握相关知识，因而，在整合示教音视频播放的过程中，从补充示教知识库中确定与音频文字中的目标特征词对应的若干补充示教内容，在手术示教过程中结合补充示教知识库能够使得实习医生较容易地理相关知识，提高手术示教的效果。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于多路音视频的手术示教方法，其特征在于，包括：

2.根据权利要求1所述的基于多路音视频的手术示教方法，其特征在于，所述基于所述音频文字进行特征词分析，得到目标特征词之后，还包括：

3.根据权利要求2所述的基于多路音视频的手术示教方法，其特征在于，所述基于所述目标三维模型模拟手术操作，包括：

基于所述目标三维模型进行坐标系构建，得到虚拟坐标系；

4.根据权利要求1所述的基于多路音视频的手术示教方法，其特征在于，所述在整合示教音视频的播放过程中之前，还包括：

5.根据权利要求4所述的基于多路音视频的手术示教方法，其特征在于，所述将所述全景音视频、所述术野视频、所述内窥镜视频和所述监护仪器视频进行多路音视频整合，得到整合示教音视频，包括：

6.根据权利要求1所述的基于多路音视频的手术示教方法，其特征在于，所述将所述若干补充示教内容与所述整合示教音视频同时在示教端进行播放之后，还包括：

将所述处理后的手术示教视频保存至本地，并上传至云端。

7.根据权利要求6所述的基于多路音视频的手术示教方法，其特征在于，所述将所述处理后的手术示教视频保存至本地，并上传至云端，包括：

将所述加密手术示教视频上传至云端。

8.根据权利要求1至7任意一项所述的基于多路音视频的手术示教方法，其特征在于，还包括：

9.一种基于多路音视频的手术示教装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1～8任一项所述的基于多路音视频的手术示教方法。