CN115079825A - 一种基于3d全息投影技术的互动医疗教学问诊系统 - Google Patents

一种基于3d全息投影技术的互动医疗教学问诊系统 Download PDF

Info

Publication number
CN115079825A
CN115079825A CN202210732841.6A CN202210732841A CN115079825A CN 115079825 A CN115079825 A CN 115079825A CN 202210732841 A CN202210732841 A CN 202210732841A CN 115079825 A CN115079825 A CN 115079825A
Authority
CN
China
Prior art keywords
gesture
hand
key point
acquired
key points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210732841.6A
Other languages
English (en)
Other versions
CN115079825B (zh
Inventor
华春生
华宏岗
童心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN202210732841.6A priority Critical patent/CN115079825B/zh
Publication of CN115079825A publication Critical patent/CN115079825A/zh
Application granted granted Critical
Publication of CN115079825B publication Critical patent/CN115079825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种基于3D全息投影技术的医疗教学问诊系统,结合深度相机可以获取手部关键点的深度信息,在相机视野范围内实现多人沉浸式互动全息投影,即多人实时切换进行全息投影互动或多人同时协作进行全息投影互动,能够为用户提供一种更好的互动体验;融合图像特征和关键点特征进行手势识别,能够解决二维关键点对于复杂手势判定困难问题,以及CNN图像分类识别错误无法自行纠正导致手势识别错误问题,多算法融合能够提高人机交互时手势识别的鲁棒性和识别率。

Description

一种基于3D全息投影技术的互动医疗教学问诊系统
技术领域
本发明涉及计算机视觉和深度学习领域,具体而言涉及一种基于3D全息投影技术的互动医疗教学问诊系统。
背景技术
现如今,在医疗教学和问诊过程中,缺少裸眼3D全息影像展示,尤其是能够多人交互的裸眼3D全息投影。目前,有一些比较成熟的虚拟现实技术在医疗方面的应用,但是要求使用者在使用过程中全程佩戴3D眼镜。一方面,由于设备造价比较昂贵;另一方面,由于使用方式比较受限,所以无法在医疗应用方面进行全面普及。
另外,大多数人机交互技术需要依靠体感控制器、操控台或触摸板等来实现交互;但是,由于体感控制器要求使用者手部必须位于感应区,限制了用户活动范围,增加了活动局限性,不利于在医疗教学和医疗问诊过程中使用;操控台和触摸板不仅会限制使用者的活动范围,而且只能接触式的操作,无法实现隔空人机交互,因此更加不利于在医疗教学和问诊过程中使用。
发明内容
为解决现有技术中接触式操作存在的在医疗教学和问诊过程中使用不利的技术问题,本发明提供了一种基于3D全息投影技术的互动医疗教学问诊系统。
本发明的目的是通过下述技术方案实现的:
一种基于3D全息投影技术的互动医疗教学问诊系统,其步骤为:
步骤1:双手位于深度相机视野范围内,通过调用OpenCV库视频采集模块进行视频流的采集;
步骤2:对步骤1中采集的每一帧通过Google开源框架MediaPipHands进行手部关键点检测,获取每一帧中所有手部21个关键点;
Hi={(xj,yj)|0<=j<=20and j∈N},i∈N+为手的编号,其中Hi为第i只手的21关键点信息,j为手部关键点的编号,x,y为图像坐标系中关键点的坐标;
步骤3:通过调用深度相机SDK,根据步骤2获取的每一只手的21关键点信息,计算每一只手的21关键点深度信息,记Di={dj|0<=j<=20and j∈N},Di为第i只手21关键点的深度信息;
步骤4:根据步骤3中获取的每一手的21关键点深度信息,通过计算21个关键点深度信息的均值,计算每一只手距离深度相机的物理距离,公式如下:
Figure BDA0003714481800000021
其中n=20为关键点的最大编号,从零开始编号,共n+1个关键点;Li为第i只手距离深度相机的物理距离;
步骤5:根据步骤4计算的每一只手距离深度相机的物理距离L,获取距离深度相机最近的两只手(或者一只手),记为F={Hi k|k=(1or 2)and i∈N+},通过手势的深度信息,可以对相机视野中出现的多只手进行过滤,解决多个用户人机交互的问题;
步骤6:根据步骤5获取的最近手势F,提取每一只手部的ROI区域,提取方法:根据手部的21关键点在图像坐标系中的位置,分别获取在图像坐标系X轴和Y轴最小值和最大值,记为xmin,xmax,ymin,ymax,手部ROI区域提取公式如下:
xmin=min(x0,x1,..,x20)
xmax=max(x0,x1,..,x20)
ymin=min(y0,y1,..,y20)
ymax=min(y0,y1,..,y20)
Ri={xmin,xmax,ymin,ymax},Ri为第i只手的ROI区域;
步骤7:根据步骤1获取的21关键点信息、步骤6获取的手势ROI区域,进行多算法融合处理,生成控制指令信号;
步骤8:根据步骤7生成的控制指令信号Z,对3D模型进行手势控制,做出相应的模型变换并实时投影至投影金字塔显示。
所述的步骤7中,多算法融合处理具体步骤如下:
1)训练分类器:分类器是基于Pytorch搭建的EfficientNetV2网络,数据集是使用多个RGB相机在不同场景下采集和制作手势数据集,然后在自己定义的数据集上进行模型的训练;
2)将提取的手势ROI区域输入到训练好的分类器进行分类,模型输出手势的类别class和概率p;
3)对模型输出手势类别和概率结果进行过滤,输出过滤后的手势G,过滤条件如下:
Figure BDA0003714481800000022
其中class为控制指令手势,需要进行下面步骤4的处理,other为非控制指令手势,视为无效指令,终止以下步骤;
4)对过滤后手势再融合关键点特征信息进行级联判定手势类别,判定方法是:通过判断分类器输出的手势部分关键点在当前帧中的位置信息,与其预先设定的手势的关键点位置模板是否匹配,最后输出手势控制指令Z;
判定方法如下:
Figure BDA0003714481800000031
其中T为抽象出的预先设定手势类别关于关键点信息模板函数,F为需要判定手势关键点即为距离相机最近的手,class为步骤3输出的手势类别,Z为最终输出手势指令。
本发明创造的有益效果是:
1、本发明为医疗教学和问诊过程提供了一种多人沉浸式3D互动全息投影,不仅能够减少医疗教学中器材使用费用,而且可以在教学过程为学生形象的展示教学内容;另外,在向患者问诊过程中,也可以使患者更加明白和了解相关诊断信息,有利于促进医生和患者之间的交流。
2、通过结合深度相机,不仅可以让用户在相机视野范围内实现人机交互,使用户活动局限性小,并且可以进行一些精细化的手势控制,从而为医疗教学和问诊带来更好的使用体验。
3、通过多算法融合生成的指令信号,能够准确识别控制指令和非控制指令,提高了系统的准确性。
附图说明
图1是本发明的原理框架图。
图2是本发明的装置结构图。
图3是基本控制指令示意图。
具体实施方式
下面结合附图和具体的实施例对本发明系统与方法进行详细描述,以对本发明方法进一步了解其目的、方案及效果。
如图1所示,为本发明的原理框架图,本发明具体分为三大模块:1)S110手势识别模块、2)S120全息投影模块、3)S130控制指令队列模块;
三大模块主要实现及其功能如下:
S110手势识别模块:通过使用深度相机,结合手部关键点检测和深度图像识别算法,对采集的手势信息进行多算法融合处理,生成相应的指令信号;
S120全息投影模块:用于处理用户手势控制指令,对OpenGL生成的3D模型做出相应的控制变换,实时将3D全息影像投影至投影金字塔中。
S130控制指令队列模块:基于队列数据结构实现的控制指令队列,一方面用于接收S110手势识别模块输出的控制指令,另一方面用于处理S120全息投影模块的请求与响应。
如图2所示,为本发明的装置结构图,本发明的硬件装置包括:2-1投影金字塔、2-2显示屏、2-3柜体、2-4主机和2-5深度相机。2-1投影金字塔由四个全息投影玻璃组成,位于2-2显示屏正下方;2-1显示屏位于2-3柜体顶部;2-4主机位于2-3柜体底部;2-4主机与2-2显示屏通过数据线连接并传输3D影像;2-5深度相机与2-4主机连接用于采集用户手势动作信息,位于2-2显示器正前方。
如图3所示,为本发明的基本控制指令示意图,包括:1)3-1平移:控制模型上、下、左、右、前、后平移;2)3-2缩放:控制模型整体放大或缩小和控制模型局部点放大或缩小;3)3-3旋转:控制模型围绕坐标轴旋转;4)3-4:切割重置:对模型进行手术切割模拟和还原模型初始化状态。
本系统的使用场景为医疗教学和医疗问诊过程中,例如图2。医生或者老师只需在自然状态下位于深度相机的视野范围内,伸出双手做出控制指令动作,系统可以实时采集用户手势,当相机视野范围内出现多个用户的多只手,系统可以通过深度相机获取的深度信息进行过滤,以保证系统可以正常运行,因为用户在自然状态下可能会做出其它无关手势,因此系统需要再判断用户手势是否为控制指令,如果用户做出的手势为控制指令,手势识别模块会将用户指令发送至指令队列模块,全息投影模块会主动实时获取队列中的用户指令,然后对3D模型根据用户所发出的指令进行变换操作,最后会在全息投影玻璃板中实时显示变换的模型画面。3D模型可以根据医生或者老师的手势动作进行实时变换,在问诊教学过程中可以清晰,形象地向学生或者患者展示,相比传统的2维医学图像,3D模型展示的信息更加丰富。

Claims (2)

1.一种基于3D全息投影技术的互动医疗教学问诊系统,其特征在于,其步骤为:
步骤1:双手位于深度相机视野范围内,通过调用OpenCV库视频采集模块进行视频流的采集;
步骤2:对步骤1中采集的每一帧通过Google开源框架MediaPipHands进行手部关键点检测,获取每一帧中所有手部21个关键点;
Hi={(xj,yj)|0<=j<=20and j∈N},i∈N+为手的编号,其中Hi为第i只手的21关键点信息,j为手部关键点的编号,x,y为图像坐标系中关键点的坐标;
步骤3:通过调用深度相机SDK,根据步骤2获取的每一只手的21关键点信息,计算每一只手的21关键点深度信息,记Di={dj|0<=j<=20and j∈N},Di为第i只手21关键点的深度信息;
步骤4:根据步骤3中获取的每一手的21关键点深度信息,通过计算21个关键点深度信息的均值,计算每一只手距离深度相机的物理距离,公式如下:
Figure FDA0003714481790000011
其中n=20为关键点的最大编号,从零开始编号,共n+1个关键点;Li为第i只手距离深度相机的物理距离;
步骤5:根据步骤4计算的每一只手距离深度相机的物理距离L,获取距离深度相机最近的两只手或者一只手,记为F={Hi k|k=(1 or 2)and i∈N+},通过手势的深度信息,可以对相机视野中出现的多只手进行过滤,解决多个用户人机交互的问题;
步骤6:根据步骤5获取的最近手势F,提取每一只手部的ROI区域,提取方法:根据手部的21关键点在图像坐标系中的位置,分别获取在图像坐标系X轴和Y轴最小值和最大值,记为xmin,xmax,ymin,ymax,手部ROI区域提取公式如下:
xmin=min(x0,x1,..,x20)
xmax=max(x0,x1,..,x20)
ymin=min(y0,y1,..,y20)
ymax=min(y0,y1,..,y20)
Ri={xmin,xmax,ymin,ymax},Ri为第i只手的ROI区域;
步骤7:根据步骤1获取的21关键点信息、步骤6获取的手势ROI区域,进行多算法融合处理,生成控制指令信号;
步骤8:根据步骤7生成的控制指令信号Z,对3D模型进行手势控制,做出相应的模型变换并实时投影至投影金字塔显示。
2.一种基于3D全息投影技术的互动医疗教学问诊系统,其特征在于,所述的步骤7中,多算法融合处理具体步骤如下:
1)训练分类器:分类器是基于Pytorch搭建的EfficientNetV2网络,数据集是使用多个RGB相机在不同场景下采集和制作手势数据集,然后在自己定义的数据集上进行模型的训练;
2)将提取的手势ROI区域输入到训练好的分类器进行分类,模型输出手势的类别class和概率p;
3)对模型输出手势类别和概率结果进行过滤,输出过滤后的手势G,过滤条件如下:
Figure FDA0003714481790000021
其中class为控制指令手势,需要进行下面步骤4的处理,other为非控制指令手势,视为无效指令,终止以下步骤;
4)对过滤后手势再融合关键点特征信息进行级联判定手势类别,判定方法是:通过判断分类器输出的手势部分关键点在当前帧中的位置信息,与其预先设定的手势的关键点位置模板是否匹配,最后输出手势控制指令Z;
判定方法如下:
Figure FDA0003714481790000022
其中T为抽象出的预先设定手势类别关于关键点信息模板函数,F为需要判定手势关键点即为距离相机最近的手,class为步骤3输出的手势类别,Z为最终输出手势指令。
CN202210732841.6A 2022-06-27 2022-06-27 一种基于3d全息投影技术的互动医疗教学问诊系统 Active CN115079825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210732841.6A CN115079825B (zh) 2022-06-27 2022-06-27 一种基于3d全息投影技术的互动医疗教学问诊系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210732841.6A CN115079825B (zh) 2022-06-27 2022-06-27 一种基于3d全息投影技术的互动医疗教学问诊系统

Publications (2)

Publication Number Publication Date
CN115079825A true CN115079825A (zh) 2022-09-20
CN115079825B CN115079825B (zh) 2024-09-10

Family

ID=83255435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210732841.6A Active CN115079825B (zh) 2022-06-27 2022-06-27 一种基于3d全息投影技术的互动医疗教学问诊系统

Country Status (1)

Country Link
CN (1) CN115079825B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120223909A1 (en) * 2011-03-02 2012-09-06 Smart Technologies Ulc 3d interactive input system and method
CN207883270U (zh) * 2018-02-06 2018-09-18 西安元智系统技术有限责任公司 一种用于博物馆的3d全息互动展示系统
US10798292B1 (en) * 2019-05-31 2020-10-06 Microsoft Technology Licensing, Llc Techniques to set focus in camera in a mixed-reality environment with hand gesture interaction
KR20220036146A (ko) * 2020-09-15 2022-03-22 광운대학교 산학협력단 손 제스처 인식에 기초한 인터랙션 홀로그램 디스플레이 방법 및 시스템
CN114463833A (zh) * 2021-11-01 2022-05-10 成都市挟翼劼世科技有限公司 基于MediaPipe手势识别模型的安卓人机交互方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120223909A1 (en) * 2011-03-02 2012-09-06 Smart Technologies Ulc 3d interactive input system and method
CN207883270U (zh) * 2018-02-06 2018-09-18 西安元智系统技术有限责任公司 一种用于博物馆的3d全息互动展示系统
US10798292B1 (en) * 2019-05-31 2020-10-06 Microsoft Technology Licensing, Llc Techniques to set focus in camera in a mixed-reality environment with hand gesture interaction
KR20220036146A (ko) * 2020-09-15 2022-03-22 광운대학교 산학협력단 손 제스처 인식에 기초한 인터랙션 홀로그램 디스플레이 방법 및 시스템
CN114463833A (zh) * 2021-11-01 2022-05-10 成都市挟翼劼世科技有限公司 基于MediaPipe手势识别模型的安卓人机交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕宝媛;蔡煜城;林伟达;曹家榕;杨敬达;蔡泽民;: "一种基于Leap Motion的交互全息投影方法", 信息技术与网络安全, no. 10, 10 October 2018 (2018-10-10) *

Also Published As

Publication number Publication date
CN115079825B (zh) 2024-09-10

Similar Documents

Publication Publication Date Title
CN112970056B (zh) 使用高速和精确的用户交互跟踪的人类-计算机接口
CN107656613B (zh) 一种基于眼动追踪的人机交互系统及其工作方法
CN107485844B (zh) 一种肢体康复训练方法、系统及嵌入式设备
Al-Rahayfeh et al. Eye tracking and head movement detection: A state-of-art survey
US20140049465A1 (en) Gesture operated control for medical information systems
CN106293082A (zh) 一种基于虚拟现实的人体解剖交互系统
WO2012082971A1 (en) Systems and methods for a gaze and gesture interface
CN109145802A (zh) 基于Kinect的多人手势人机交互方法及装置
CN112199015B (zh) 智能交互一体机及其书写方法、装置
CN105912126A (zh) 一种手势运动映射到界面的增益自适应调整方法
Memon On assisted living of paralyzed persons through real-time eye features tracking and classification using Support Vector Machines
WO2010142455A2 (en) Method for determining the position of an object in an image, for determining an attitude of a persons face and method for controlling an input device based on the detection of attitude or eye gaze
Roy et al. A robust webcam-based eye gaze estimation system for Human-Computer interaction
LIU et al. A preliminary study of kinect-based real-time hand gesture interaction systems for touchless visualizations of hepatic structures in surgery
Liu et al. CamType: assistive text entry using gaze with an off-the-shelf webcam
CN113128417B (zh) 一种基于头部姿态的双区域眼动跟踪方法
Liu et al. An Improved Kinect-Based Real-Time Gesture Recognition Using Deep Convolutional Neural Networks for Touchless Visualization of Hepatic Anatomical Mode
CN111312363B (zh) 一种基于虚拟现实的双手协调性增强系统
CN115079825B (zh) 一种基于3d全息投影技术的互动医疗教学问诊系统
Jain et al. Human computer interaction–Hand gesture recognition
CN113100755B (zh) 一种基于视觉追踪控制的肢体康复训练与评估系统
CN110858095A (zh) 可由头部操控的电子装置与其操作方法
Abbas et al. Eye-to-text communication based on human-computer interface method
Przybyło Vision based facial action recognition system for people with disabilities
CN118675385A (zh) 虚拟眼科icl晶状体植入手术训练方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant