CN115079825A

CN115079825A - 一种基于3d全息投影技术的互动医疗教学问诊系统

Info

Publication number: CN115079825A
Application number: CN202210732841.6A
Authority: CN
Inventors: 华春生; 华宏岗; 童心
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-20
Anticipated expiration: 2042-06-27
Also published as: CN115079825B

Abstract

一种基于3D全息投影技术的医疗教学问诊系统，结合深度相机可以获取手部关键点的深度信息，在相机视野范围内实现多人沉浸式互动全息投影，即多人实时切换进行全息投影互动或多人同时协作进行全息投影互动，能够为用户提供一种更好的互动体验；融合图像特征和关键点特征进行手势识别，能够解决二维关键点对于复杂手势判定困难问题，以及CNN图像分类识别错误无法自行纠正导致手势识别错误问题，多算法融合能够提高人机交互时手势识别的鲁棒性和识别率。

Description

一种基于3D全息投影技术的互动医疗教学问诊系统

技术领域

本发明涉及计算机视觉和深度学习领域，具体而言涉及一种基于3D全息投影技术的互动医疗教学问诊系统。

背景技术

现如今，在医疗教学和问诊过程中，缺少裸眼3D全息影像展示，尤其是能够多人交互的裸眼3D全息投影。目前，有一些比较成熟的虚拟现实技术在医疗方面的应用，但是要求使用者在使用过程中全程佩戴3D眼镜。一方面，由于设备造价比较昂贵；另一方面，由于使用方式比较受限，所以无法在医疗应用方面进行全面普及。

另外，大多数人机交互技术需要依靠体感控制器、操控台或触摸板等来实现交互；但是，由于体感控制器要求使用者手部必须位于感应区，限制了用户活动范围，增加了活动局限性，不利于在医疗教学和医疗问诊过程中使用；操控台和触摸板不仅会限制使用者的活动范围，而且只能接触式的操作，无法实现隔空人机交互，因此更加不利于在医疗教学和问诊过程中使用。

发明内容

为解决现有技术中接触式操作存在的在医疗教学和问诊过程中使用不利的技术问题，本发明提供了一种基于3D全息投影技术的互动医疗教学问诊系统。

本发明的目的是通过下述技术方案实现的：

一种基于3D全息投影技术的互动医疗教学问诊系统，其步骤为：

步骤1：双手位于深度相机视野范围内，通过调用OpenCV库视频采集模块进行视频流的采集；

步骤2：对步骤1中采集的每一帧通过Google开源框架MediaPipHands进行手部关键点检测，获取每一帧中所有手部21个关键点；

H_i＝{(x_j,y_j)|0<＝j<＝20and j∈N}，i∈N⁺为手的编号，其中H_i为第i只手的21关键点信息，j为手部关键点的编号，x，y为图像坐标系中关键点的坐标；

步骤3：通过调用深度相机SDK，根据步骤2获取的每一只手的21关键点信息，计算每一只手的21关键点深度信息，记D_i＝{d_j|0<＝j<＝20and j∈N}，D_i为第i只手21关键点的深度信息；

步骤4：根据步骤3中获取的每一手的21关键点深度信息，通过计算21个关键点深度信息的均值，计算每一只手距离深度相机的物理距离，公式如下：

其中n＝20为关键点的最大编号，从零开始编号，共n+1个关键点；L_i为第i只手距离深度相机的物理距离；

步骤5:根据步骤4计算的每一只手距离深度相机的物理距离L，获取距离深度相机最近的两只手(或者一只手)，记为F＝{H_i ^k|k＝(1or 2)and i∈N⁺}，通过手势的深度信息，可以对相机视野中出现的多只手进行过滤，解决多个用户人机交互的问题；

步骤6：根据步骤5获取的最近手势F，提取每一只手部的ROI区域，提取方法：根据手部的21关键点在图像坐标系中的位置，分别获取在图像坐标系X轴和Y轴最小值和最大值，记为x_min,x_max,y_min,y_max，手部ROI区域提取公式如下：

x_min＝min(x₀,x₁,..,x₂₀)

x_max＝max(x₀,x₁,..,x₂₀)

y_min＝min(y₀,y₁,..,y₂₀)

y_max＝min(y₀,y₁,..,y₂₀)

R_i＝{x_min,x_max,y_min,y_max},R_i为第i只手的ROI区域；

步骤7：根据步骤1获取的21关键点信息、步骤6获取的手势ROI区域，进行多算法融合处理，生成控制指令信号；

步骤8：根据步骤7生成的控制指令信号Z，对3D模型进行手势控制，做出相应的模型变换并实时投影至投影金字塔显示。

所述的步骤7中，多算法融合处理具体步骤如下：

1)训练分类器：分类器是基于Pytorch搭建的EfficientNetV2网络，数据集是使用多个RGB相机在不同场景下采集和制作手势数据集，然后在自己定义的数据集上进行模型的训练；

2)将提取的手势ROI区域输入到训练好的分类器进行分类，模型输出手势的类别class和概率p；

3)对模型输出手势类别和概率结果进行过滤，输出过滤后的手势G，过滤条件如下：

其中class为控制指令手势，需要进行下面步骤4的处理，other为非控制指令手势，视为无效指令，终止以下步骤；

4)对过滤后手势再融合关键点特征信息进行级联判定手势类别，判定方法是：通过判断分类器输出的手势部分关键点在当前帧中的位置信息，与其预先设定的手势的关键点位置模板是否匹配，最后输出手势控制指令Z；

判定方法如下：

其中T为抽象出的预先设定手势类别关于关键点信息模板函数，F为需要判定手势关键点即为距离相机最近的手，class为步骤3输出的手势类别，Z为最终输出手势指令。

本发明创造的有益效果是：

1、本发明为医疗教学和问诊过程提供了一种多人沉浸式3D互动全息投影，不仅能够减少医疗教学中器材使用费用，而且可以在教学过程为学生形象的展示教学内容；另外，在向患者问诊过程中，也可以使患者更加明白和了解相关诊断信息，有利于促进医生和患者之间的交流。

2、通过结合深度相机，不仅可以让用户在相机视野范围内实现人机交互，使用户活动局限性小，并且可以进行一些精细化的手势控制，从而为医疗教学和问诊带来更好的使用体验。

3、通过多算法融合生成的指令信号，能够准确识别控制指令和非控制指令，提高了系统的准确性。

附图说明

图1是本发明的原理框架图。

图2是本发明的装置结构图。

图3是基本控制指令示意图。

具体实施方式

下面结合附图和具体的实施例对本发明系统与方法进行详细描述，以对本发明方法进一步了解其目的、方案及效果。

如图1所示，为本发明的原理框架图，本发明具体分为三大模块：1)S110手势识别模块、2)S120全息投影模块、3)S130控制指令队列模块；

三大模块主要实现及其功能如下：

S110手势识别模块：通过使用深度相机，结合手部关键点检测和深度图像识别算法，对采集的手势信息进行多算法融合处理，生成相应的指令信号；

S120全息投影模块：用于处理用户手势控制指令，对OpenGL生成的3D模型做出相应的控制变换，实时将3D全息影像投影至投影金字塔中。

S130控制指令队列模块：基于队列数据结构实现的控制指令队列，一方面用于接收S110手势识别模块输出的控制指令，另一方面用于处理S120全息投影模块的请求与响应。

如图2所示，为本发明的装置结构图，本发明的硬件装置包括：2-1投影金字塔、2-2显示屏、2-3柜体、2-4主机和2-5深度相机。2-1投影金字塔由四个全息投影玻璃组成，位于2-2显示屏正下方；2-1显示屏位于2-3柜体顶部；2-4主机位于2-3柜体底部；2-4主机与2-2显示屏通过数据线连接并传输3D影像；2-5深度相机与2-4主机连接用于采集用户手势动作信息，位于2-2显示器正前方。

如图3所示，为本发明的基本控制指令示意图，包括：1)3-1平移：控制模型上、下、左、右、前、后平移；2)3-2缩放：控制模型整体放大或缩小和控制模型局部点放大或缩小；3)3-3旋转：控制模型围绕坐标轴旋转；4)3-4：切割重置：对模型进行手术切割模拟和还原模型初始化状态。

本系统的使用场景为医疗教学和医疗问诊过程中，例如图2。医生或者老师只需在自然状态下位于深度相机的视野范围内，伸出双手做出控制指令动作，系统可以实时采集用户手势，当相机视野范围内出现多个用户的多只手，系统可以通过深度相机获取的深度信息进行过滤，以保证系统可以正常运行，因为用户在自然状态下可能会做出其它无关手势，因此系统需要再判断用户手势是否为控制指令，如果用户做出的手势为控制指令，手势识别模块会将用户指令发送至指令队列模块，全息投影模块会主动实时获取队列中的用户指令，然后对3D模型根据用户所发出的指令进行变换操作，最后会在全息投影玻璃板中实时显示变换的模型画面。3D模型可以根据医生或者老师的手势动作进行实时变换，在问诊教学过程中可以清晰，形象地向学生或者患者展示，相比传统的2维医学图像，3D模型展示的信息更加丰富。

Claims

1.一种基于3D全息投影技术的互动医疗教学问诊系统，其特征在于，其步骤为：

步骤5:根据步骤4计算的每一只手距离深度相机的物理距离L，获取距离深度相机最近的两只手或者一只手，记为F＝{H_i ^k|k＝(1 or 2)and i∈N⁺}，通过手势的深度信息，可以对相机视野中出现的多只手进行过滤，解决多个用户人机交互的问题；