CN115089300A - 基于眼球定位和声音识别的控制方法、手术机器人 - Google Patents
基于眼球定位和声音识别的控制方法、手术机器人 Download PDFInfo
- Publication number
- CN115089300A CN115089300A CN202210667711.9A CN202210667711A CN115089300A CN 115089300 A CN115089300 A CN 115089300A CN 202210667711 A CN202210667711 A CN 202210667711A CN 115089300 A CN115089300 A CN 115089300A
- Authority
- CN
- China
- Prior art keywords
- eye image
- eyepiece
- screen
- coordinate
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 210000005252 bulbus oculi Anatomy 0.000 title claims abstract description 70
- 210000001508 eye Anatomy 0.000 claims abstract description 191
- 210000001747 pupil Anatomy 0.000 claims abstract description 89
- 230000000149 penetrating effect Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000001356 surgical procedure Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 13
- 238000011022 operating instruction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013507 mapping Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 241000287181 Sturnus vulgaris Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000007795 chemical reaction product Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000009297 electrocoagulation Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002357 laparoscopic surgery Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B34/00—Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
- A61B34/30—Surgical robots
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/0016—Operational features thereof
- A61B3/0025—Operational features thereof characterised by electronic signal processing, e.g. eye models
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/113—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/14—Arrangements specially adapted for eye photography
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B34/00—Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
- A61B34/70—Manipulators specially adapted for use in surgery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Surgery (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Veterinary Medicine (AREA)
- Ophthalmology & Optometry (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Robotics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种基于眼球定位和声音识别的控制方法、手术机器人,其中,该控制方法包括:获取目标操作者透过目镜的实时的眼部图像和语音数据;根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。通过上述方案解决了现有的在操作者双手需要执行其它操作时,无法对设备进行准确控制的问题,达到了基于瞳孔在目镜中的相对位置和语音指令实现准确控制的技术效果。
Description
技术领域
本申请属于电数字数据处理技术领域,尤其涉及一种基于眼球定位和声音识别的控制方法、手术机器人。
背景技术
目前,在进行带屏幕的电子设备控制的时候,一般还是采用外接设备的方式,例如,通过外接鼠标、键盘的方式,实现对设备的控制和系统操作的完成。
然而,有些情况下,对于操作者人员双手需要执行其它操作,无法执行通过鼠标等执行对设备的控制操作。例如:医生通过手术机器人进行手术的时候,有时需要对屏幕中的影像进行操作,例如,对影像进行显示、放大、缩小等操作,或者是进行影像叠加等,以辅助手术的实施。然而,因为医生此时还需要操作手柄,双手当前无法操作鼠标等外接设备。
针对上述无法对设备进行有效操控的问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种基于眼球定位和声音识别的控制方法、手术机器人,可以实现对设备的有效操控。
一方面,提供了一种基于眼球定位和声音识别的控制方法,包括:
获取目标操作者透过目镜的实时的眼部图像和语音数据;
根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。
在一个实施方式中,根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置,包括:
从所述眼部图像中识别出瞳孔在目镜中的位置坐标作为第一坐标信息;
调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;
根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。
在一个实施方式中,预先生成眼部图像坐标系与屏幕坐标系之间的对应关系,包括:
在所述目标屏幕上显示多个位置引导点;
显示引导所述目标操作者逐一注视所述多个位置引导点中各个位置引导点的指引信息;
获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像;
根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系。
在一个实施方式中,在获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像之后,还包括:
确定所述多个眼部图像中瞳孔位置点所形成的形状与所述多个位置引导点所形成的形状是否相同;
在确定不相同的情况下,触发重新在所述目标屏幕上显示多个位置引导点。
在一个实施方式中,在根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系之后,还包括:
通过目镜边缘设置的压力传感器检测所述目标操作者的眼睛是否离开又返回所述目镜;
在确定所述目标操作者的眼睛离开又返回所述目镜的情况下,在所述目标屏幕的中心位置显示一个中心位置引导点;
获取所述目标操作者注视所述中心位置引导点透过目镜的眼部图像作为目标眼部图像;
根据所述目标眼部图像中瞳孔在目镜中的位置,对所述眼部图像坐标系与屏幕坐标系之间的对应关系进行校准。
在一个实施方式中,从所述语音数据中识别出控制指令包括:
对所述语音数据进行声纹识别,确定出所述语音数据中与所述目标操作者的声纹匹配的语音内容;
对确定出的语音内容进行文字识别,以确定出控制指令。
在一个实施方式中,所述获取目标操作者透过目镜的实时的眼部图像包括:
通过安装的摄像头获取目标操作者透过目镜的眼部图像。
在一个实施方式中,所述目镜为手术机器人上的目镜,所述控制指令为在手术过程中对所述手术机器人上的显示屏的操作指令。
另一方面,提供了一种基于眼球的定位方法,包括:
获取目标对象透过目镜的实时的眼部图像;
根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
以图标的形式,在所述目标屏幕中显示对应的坐标位置。
在一个实施方式中,目镜与获取眼部图像的摄像头采用固定位置设置。
在一个实施方式中,根据所述眼部图像,确定所述眼部图像中瞳孔与目镜之间的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置,包括:
从所述眼部图像中识别出瞳孔在目镜中位置坐标作为第一坐标信息;
调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;
根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。
又一方面,提供了一种手术机器人,包括:
手术组件,用于目标操作者执行手术操作;
摄像组件,与目镜相对设置,用于在所述目标操作者执行手术操作的过程中,拍摄所述目镜中目标操作者的眼部图像;
处理器,与所述摄像组件相连,用于根据所述眼部图像中瞳孔在目镜中的相对坐标数据,确定对应显示屏的屏幕中的坐标位置;
显示屏,与所述处理器通信,用于在手术过程中进行显示操作。
在一个实施方式中,上述手术机器人还包括:
收音组件,用于获取所述目标操作者执行手术操作的过程中的语音数据;
所述处理器,还用于从所述语音数据中识别出控制指令,并控制在所述显示屏的坐标位置处执行所述控制指令。
又一方面,提供了一种手术机器人,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述方法的步骤。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本申请提供的基于眼球定位和声音识别的控制方法,通过获取目标操作者透过目镜的实时的眼部图像以确定目标屏幕中的对应位置,通过获取语音数据识别出控制指令,从而触发在对应目标屏幕中的坐标位置处执行控制指令。通过上述方案解决了现有的在操作者双手需要执行其它操作时,无法对设备进行准确控制的问题,达到了基于瞳孔在目镜中的相对位置和语音指令实现准确控制的技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的手术机器人的架构示意图;
图2是本申请提供的医生控制台的架构示意图;
图3是本申请提供的图像台车的架构示意图;
图4是本申请提供的基于眼球定位和声音识别的控制方法的方法流程图;
图5是本申请提供的基于位置引导点确定映射关系的示意图;
图6是本申请提供的基于位置引导点确定映射关系的校准示意图;
图7是本申请提供的基于位置引导点确定映射关系的临时校准示意图;
图8是本申请提供的眼球位置与显示屏坐标位置的映射关系示意图;
图9是本申请提供的系统的摄像头安装示意图;
图10是本申请提供的为系统的收音设备安装示意图;
图11是本申请提供的基于眼球的定位方法的方法流程图;
图12是本申请提供的一种基于眼球定位和声音识别的控制方法的电子设备的硬件结构框图;
图13是本申请提供的基于眼球定位和声音识别的控制装置一种实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在本申请实施例中,考虑到在对设备进行操控的时候,有时用户的双手是无法解放出来操控外接设备(例如:键盘、鼠标等)的,为此,在本例中,考虑到可以通过眼球定位实现鼠标移动功能,通过语音指令实现操作触发,从而使得用户不需要通过双手就可以实现对设备的操控。
以将基于眼球定位和声音识别的控制方法应用在手术机器人上为例对该方法进行具体的说明,如图1所示,手术机器人可以包括:图像车10、侧手推车11、手术台车12、工具车13以及医生控制台20。基于该手术机器人,医生可通过医生控制台20进行远程操作,以实现对手术台车12上的患者进行手术治疗,其中,上述图像车10用于为医生/护士等提供辅助的图像资料,工具车13用于为医生提供手术中所需的工具等,侧手推车11包括至少一个图像臂110和工具臂112,在图像臂110上挂载有图像采集装置,其中,图像采集装置与显示装置通信连接,用于获取手术环境的图像信息并提供给显示装置进行显示。
上述的图像采集装置用于获取包含人体组织器官、手术器械、血管以及体液等手术环境的图像信息并提供给显示装置,工具臂112上挂载有手术器械113。其中,图像采集装置可以如图1所示,为图1中的内窥镜111,其中,内窥镜111和手术器械113分别通过患者身体上的创口进入病患位置,以实现微创伤手术治疗。
上述医生控制台20可以如图2所示包括:两个操纵手臂2001和2002,这两个操纵手臂末端的控制手柄检测术者的手部运动信息,作为整个系统的运动控制输入;台车部件用于安装其他部件的基础支架,台车部件上可以安装脚踏开关2003和2004,用于检测术者(即,手术操作者)发出的开关量控制信号。其中,调整部件可以电动调整操纵手臂、图像部件、操作者扶手等装置的位置;其中,图像部件(即,显示屏)可以为术者提供从图像系统中检测到的立体图像,从而为术者进行手术操作提供可靠的图像信息。在手术过程中,坐在医生控制台前的术者位于在消毒区域外,术者通过操作操纵手臂末端的控制手柄来控制手术器械和腹腔镜。术者透过目镜观察传回的腔内画面,双手动作控制患者手术平台机械臂及器械运动,完成各种操作,从而达到为患者做手术的目的,同时术者可通过脚踏开关控制部分动作,例如:通过脚踏开关完成电切、电凝等相关操作输入。
上述图像台车可以是如图3所示,包括:图像主机301、键盘302、鼠标303、显示屏304,其中,图像主机301用于为手术机器人主控端的内窥镜提供影像信息,控制者可以通过控制键盘302和鼠标303可以实现对图像主机的控制,对于图像主机的控制结果通过显示屏304显示,例如,可以显示实时的手术视频以及手术过程中的相关数据。
因为对于术者而言,需要手术器械实现手术操作,又需要控制键盘鼠标以对医生控制台进行操作,这样显然是不合理的,为此,在本例中,考虑到可以通过眼球定位和声音识别实现对医生控制台中的图像部件进行控制,从而使得术者不需要操控键盘鼠标就可以实现对医生控制台中的图像部件的控制。
图4是本申请提供的基于眼球定位和声音识别的控制方法一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
具体的,如图4所示,上述的基于眼球定位和声音识别的控制方法可以包括如下步骤:
步骤401:获取目标操作者透过目镜的实时的眼部图像和语音数据;
例如,目标操作者(可以是上述的术者,即,手术操作者、手术医生)在进行手术的时候,其是通过目镜观看图像部件(即,显示屏)的,目镜与显示屏的距离和设置等是保持稳定不变的,考虑到可以设置一个摄像组件,透过目镜获取目标操作者的眼部图像,然后基于瞳孔在眼部图像中的位置,可以匹配到对应的显示屏中的坐标位置。
进一步的,可以通过设置收音装置,获取目标操作者的语音数据,从语音数据中识别出目标操作者的语音内容,并分析出其中的控制指令,以结合坐标位置和控制指令实现对总控系统的控制。
举例而言,在通过手术机器人进行手术操作的时候,医生在手术操作的同时,有时需要做一些额外的系统操作,例如:调取CT影像数据和超声影像数据等,进行影像叠加形成3D图像,从而辅助手术,但是医生因为在操作手柄,无法释放双手做其它事情,通过眼部图像和语音数据的分析,可以识别出用户的控制指令,例如:显示CT影像数据,那么就可以在基于眼部图像确定的位置坐标处显示CT影像数据。
步骤402:根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
具体的,为了根据所述眼部图像中瞳孔的相对坐标数据,确定对应目标屏幕中的坐标位置,可以从所述眼部图像中识别出瞳孔在目镜中的位置坐标作为第一坐标信息;调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。在实际进行位置确定和坐标系确定的时候,可以以眼球中瞳孔的中心点作为定位点。即,可以先从眼球中识别出瞳孔的位置,然后,确定所述眼部图像中瞳孔中心点的位置,以瞳孔中心点的位置作为确定基础。
即,预先建立眼部图像的坐标与显示屏坐标之间的对应关系,识别出瞳孔位置在眼部图像中的坐标,从而可以换算出在显示屏中的坐标位置。
步骤403:从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。
考虑到操作者的视线范围是不同的,因此,对于每个操作者而言,可以预先生成眼部图像坐标系与屏幕坐标系之间的对应关系,在实现的时候,可以采用如下方式生成对应关系:
S1:在所述目标屏幕上显示多个位置引导点;
S2:显示引导所述目标操作者逐一注视所述多个位置引导点中各个位置引导点的指引信息;
S3:获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像;
S4:根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系。
考虑到显示屏是长方形的,为此,可以设置五个位置引导点的方式进行对应关系的建立,如图5所示,可以在显示屏上依次显示5个亮点(1、2、3、4和5),操作者根据引导,依次用眼球中的瞳孔定位这5个引导点,每次停留1秒,依次定位所有亮点,从而确定一个矩形的眼球视觉范围,从而实现视觉范围与屏幕的位置映射在将视觉范围和屏幕位置映射。即,操作者瞳孔定位点1可以形成一个位置点(即,左上角),操作者瞳孔定位点2可以形成一个位置点(即,右上角),操作者瞳孔定位点3可以形成一个位置点(即,左下角),操作者瞳孔定位点4可以形成一个位置点(即,右下角),操作者瞳孔定位点5可以形成一个位置点(即,中心点)。这样对于眼部图像而言,可以形成一个坐标系,显示屏也可以形成一个坐标系,在实现的时候,可以以中心点作为坐标系的(0,0)点,也可以左下角的点作为坐标系的(0,0)点,在实现的时候,可以根据需求设置坐标系的(0,0)点,保证显示屏的坐标系与眼部图像形成的坐标系一致即可。
在实际实现的时候,可以采用上述五个点形成长方形和中心点的定位方式,也可以其它的定位方式,例如,三个点形成三角形,五个点形成五边形等都可以,对于坐标系的基础定位方式,本申请不作具体限定。
考虑到坐标系对应关系形成的过程中,有时会存在错误,或者准确性不高的问题,为此,在本例中,提供了一种校准方式,在获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像之后,可以确定所述多个眼部图像中瞳孔位置点所形成的形状与所述多个位置引导点所形成的形状是否相同;在确定不相同的情况下,触发重新在所述目标屏幕上显示多个位置引导点。即,如图6所示,引导点形成的图形是长方形,但是瞳孔位置形成的图形不是长方形,则可以确定建立的对应关系不准确,为此可以触发进行校准,可以采用重新显示引导点,以引导注视的方式,重新建立对应关系。具体的,可以基于眼部图像中瞳孔的相对位置建立目镜坐标系,例如,可以选择四个边角引导点和一个中心点的方式进行引导定位,四个边角点定义了眼球活动范围,中心点辅助4个点,从而基于拍摄图像中瞳孔位置识别形成视觉范围图形,再与引导点形成的图形进行形状对比,以实现校准。
操作者在进行手术的过程中,有时会移开目镜又重新回来,这种情况下,为了保证坐标系对应关系的准确,可以对坐标系进行校准,考虑到对于同一操作者而言,视野范围是相同的,离开又回来往往是视线中点出现偏移,为此,在校准的时候,可以仅对中心点进行校准,在校准之后,按照之前确定的坐标系进行平移即可。具体的,可以如图7所示,医生在手术的时候,有时候头部会从医生端目镜上移开,再回到目镜上,因为人的脸较上次会有偏移,原来的校准和中心点也会有偏移,这时可以采用临时校准的方式,在临时校准的时候,仅校准中心点,视觉范围假定不变,因此在中间位置仅显示中心点(5),提醒操作者仅注视中心点,例如,持续大概2秒钟,然后红点消失,在这个过程中完成坐标系的校准。具体的,在操作者注视屏幕上的中心引导点的时候,拍摄眼部图像,假定第一次校准的视野范围的宽度和高度,那么以中心点校准后的位置进行平移即可,即,保证视觉范围的中心点与显示屏的中心点相同。
即,在根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系之后,可以通过目镜边缘设置的压力传感器检测所述目标操作者的眼睛是否离开又返回所述目镜;在确定所述目标操作者的眼睛离开又返回所述目镜的情况下,在所述目标屏幕的中心位置显示一个中心位置引导点;获取所述目标操作者注视所述中心位置引导点透过目镜的眼部图像作为目标眼部图像;根据所述目标眼部图像中瞳孔在目镜中的位置,对所述眼部图像坐标系与屏幕坐标系之间的对应关系进行校准。
在基于实时的眼部图像数据和预定的对应关系来确定在屏幕中的坐标位置,可以如图8所示,摄像头拍摄操作者注视某一点的眼部图像,瞳孔位置在目镜坐标系中的位置为p(x,y),这时可以先计算p点相对眼球活动范围左上角o的相对距离,然后,根据视觉范围与显示屏的映射关系,o对应显示屏的(0,0)点坐标,相对距离实际上就是显示屏中的坐标(x0,y0)。在计算的时候,可以将p点的x坐标减去o点x坐标即(x-x’),p点y坐标减去o点y坐标即(y-y’),从而可以获取p相对于o的坐标,再将获取到的x坐标乘以屏幕高度/视觉范围高度H,y坐标乘以屏幕宽度/视觉范围宽度W,可以通过在目镜坐标系中的相对坐标推断出在显示屏中的坐标位置。
即,在实现的时候,可以先获取图像的瞳孔坐标,然后,计算出瞳孔与瞳孔范围的相对坐标,再将相对坐标乘以对应的视觉范围宽高与显示屏幕宽高的比值,从而计算得到瞳孔在显示屏的坐标位置。
在本例中是结合眼球定位和语音识别,实现最终控制,对于语音识别而言,可以是从操作者的语音数据中识别出控制指令。考虑到手术环境有时是嘈杂的,为了保证识别控制指令的准确性,可以为每个操作者预先录制语音信息,以形成各个操作者对应的声纹,在进行语音识别的时候,可以通过声纹从获取的语音数据中识别出属于当前操作者的语音数据,并对属于当前操作者的语音数据进行加强处理,对不属于当前操作者的语音数据进行剔除或者弱化处理,然后对属于当前操作者的语音数据进行语音识别,从而识别出当前操作者的语音控制指令。具体的,从语音数据中识别出控制指令可以包括:对所述语音数据进行声纹识别,确定出所述语音数据中与所述目标操作者的声纹匹配的语音内容;对确定出的语音内容进行文字识别,以确定出控制指令。通过预设声纹的方式,可以有效提升识别的准确率,避免识别到不属于当前操作者的控制指令,而导致误操作的产生。
上述获取目标操作者实时的眼部图像可以包括:通过安装的摄像头获取目标操作者透过目镜的眼部图像。即,可以预先安装摄像头,该摄像头可以正对着目镜固定设置,这样通过该摄像头可以实时获取目镜中的图像,目镜即目标操作者用于观看图像的设备,目标操作者的眼睛是对着目镜的。
在本例中,在实现的时候,可以仅以一个眼睛作为眼部图像的图像基础,即,可以仅以目镜中的一边目镜作为目标图像的获取,例如,可以以右眼作为图像获取基础,也可以以左眼作为图像获取基础,具体选择哪只眼睛可以根据实际需要和情况确定,本申请对此不作具体限定。通过一只眼睛而不是两只眼睛的方式,可以有效避免选择两只眼睛所导致的结果出现偏差,计算起来较为繁琐的问题。
具体的,上述的目镜可以是手术机器人上的目镜,所述控制指令为在手术过程中对所述手术机器人上的显示屏的操作指令。该操作指令可以是:在手术过程中,医生可以唤出CT影像、三维建模影像、或者超声影像等,从而融合到现有的内窥镜图像中辅助医生实施手术,具体的,还可以包括但不限于:对融合的图像进行放大、缩小、旋转、隐藏、显示等操作。
在本例中,还提供了一种手术机器人,可以包括:
1)手术组件,用于目标操作者执行手术操作;
2)摄像组件,与目镜相对设置,用于在所述目标操作者执行手术操作的过程中,拍摄所述目镜中目标操作者的眼部图像;
3)处理器,与所述摄像组件相连,用于根据所述眼部图像中瞳孔的相对坐标数据,确定对应显示屏的屏幕中的坐标位置;
4)显示屏,与所述处理器通信,用于在手术过程中进行显示操作;
5)收音组件,用于获取所述目标操作者执行手术操作的过程中的语音数据;
上述处理器还可以用于从所述语音数据中识别出控制指令,并控制在所述显示屏的坐标位置处执行所述控制指令。
即,可以将上述的眼球定位和声纹控制相结合的控制系统嵌入到上述医生控制台的软硬件系统中,在手术过程中,通过摄像头设备实时获取医生眼睛部位的图像信息,然后,转换成系统中显示屏中的位置坐标,再通过医生发出的语音指令对系统进行各种操作,将语音指令结合显示屏中的位置坐标就可以实现精准控制,具体的,还可以根据精度需求等,添加声纹识别,以提升语音识别的准确性,并可以设置控制指令与业务执行模型的对应关系,从而可以实现高效控制。即,基于眼球定位与声纹控制进行交互控制,而不需要借助外接设备,这样就不再需求为医生额外添加键盘和鼠标,就可以辅助医生进行更为准确的手术实施。
具体的,在本例中提供的基于手术机器人的眼球定位与声纹控制系统可以将声音识别和眼球识别硬件嵌入到医生控制台的硬件结构中,硬件结构可以包括,摄像头设备、收音设备;软件系统模块可以嵌入到主控端的操作系统中独立运行,软件系统可以包括:瞳孔位置校准系统模块、眼球定位系统模块、语音语义识别系统模块、指令解析系统模块、指令执行模块。其中,指令执行模块可嵌入到任何腔镜主机和其它扩展的硬件系统中,从而实现更丰富全面的系统控制,不仅仅是基于图像的控制方式。
上述的摄像头设备可以安装在机器人主控端中目镜的对应位置,以用于拍摄眼部图像,该图像可以生成目镜的虚拟坐标系,瞳孔在该坐标系内的移动可以被转换为真实显示屏的坐标移动,例如,可以等同于鼠标在显示屏上的移动;
上述的收音设备,可以获取环境中的语音信息,用于识别为语音指令;
上述的眼球校准系统模块,可以预先生成眼球在目镜上的活动范围(目镜虚拟坐标系)与真实显示屏之间的位置映射,基于该映射关系,在后续就可以基于眼球的移动,转换为在真实显示屏中的移动;
眼球定位系统模块,可以根据摄像头设备拍摄的图像,动态识别眼睛和瞳孔,并转换为瞳孔在目镜虚拟坐标系的位置,进而映射为真实显示屏上的位置。该位置将模拟鼠标移动的位置,结合语音控制技术,以及具体的指令执行调用,可以对系统进行控制;
语音语义识别系统模块,用于识别声音,以及解析声音所表达的语义;
指令解析系统模块,根据使用者的语音语义信息,分析出对应的声纹模式,根据声纹模式,调用对应的指令执行模块;
指令执行模块,可以是基于具体的业务需求设置的,声纹和指令控制可以是一对一添加的,例如,针对不同的操作者设置不同的声纹,针对不同的操作者设置可能的控制操作,从而形成一对一的声纹模式,例如,操作者A控制操作1对应着声纹模式A-1,操作者A控制操作2对应着声纹模式A-2,操作者B控制操作1对应着声纹模式B-1,操作者B控制操作2对应着声纹模式B-2。通过这种一对一的模式,可以有效提升语音识别的准确性和指令执行的准确性。其中,指令可以包括但不限于以下至少之一:显示画面、移动窗口、放大、缩小、旋转、隐藏等,从而可以实现医疗数据的融合显示。即,可以设置多种声纹模式,根据收音设备的语音信息分析出对应的声纹模式后,来调用本地指令执行模块中对应的执行指令,如果是远程控制,则可以需要通过TCP/IP进行远程调用对应的执行指令。
具体的,可以根据拍摄的眼睛部位图像计算瞳孔的相对坐标信息来计算对应的显示屏的坐标位置,并根据声纹信息识别并解析语义,根据解析的语义分析出对应的声纹模式,从而执行对应的执行指令。
例如:瞳孔移动到屏幕P处,语音指令“显示CT影像”,那么可以在P出显示CT影像。语音指令“CT影像右上角显示”,“CT影像宽200,高180”,那么可以将P移动到屏幕右上角,并修改显示为宽为200,高为100像素。即,通过眼球识别和语音识别,实现显示控制。
即,通过眼球定位和语音识别,在通过手术机器人进行手术的过程中,可以不使用鼠标和键盘还有双手的情况下,通过医生的眼球和声音实现对图像主机中的融合影像和系统资源进行操作,例如,可以查看和操作医疗影像,从而提升手术成功率。具体的,医生在手术的过程中,可以控制医疗图像和患者腔镜手术影像进行融合显示,让医生对患者手术部位信息有一个更全方面的剖析,对危险进行规避,从而提高手术成功率。
如图9所示,为系统的摄像头安装示意图,包括:摄像头1、目镜2,其中,摄像头用于拍摄操作者的单只眼睛的眼部图像,目镜用于固定操作者的眼部位置,操作者通过目镜观看显示屏,其中,d表示摄像头设备与目镜之间的距离,一旦固定不会改变,即,摄像头与目镜是固定设置的。如图10所示,为系统的收音设备安装示意图,该收音设备(即,麦克风)可以安装在医生主控端目镜处的正下方,用于收集环境中的语音信息。
通过图9中的摄像头可以拍摄眼球部位图像,通过图10中的收音设备可以识别环境中的语音信息,将图像传递给眼球定位模块进行图像分析并转为在显示屏中的位置坐标,将语音信息传递给声纹识别模块进行语音分析以得到执行指令并被传送至指令执行模块进行指令执行,最后,对医疗影像通过渲染模块进行融合显示,再通过腔镜软件将视频输出到医生端的显示屏(即,位于医生端的微型显示器)中进行显示控制。
对于坐标系的校准操作,在本例中提供了至少两个阶段的校准操作,阶段一:针对不同操作者的使用,在该操作者第一次使用的时候,启动眼球定位校准,可以认为是初始眼球定位校准。具体的,可以在显示屏上依次显示5个亮点(1、2、3、4和5),操作者根据引导,依次用眼球中的瞳孔定位这5个引导点,每次停留1秒,依次定位所有亮点,从而确定一个矩形的眼球视觉范围,从而实现视觉范围与屏幕的位置映射在将视觉范围和屏幕位置映射。阶段二:每次检测到当前操作者的眼球离开并重新回到目镜之后,考虑到这时脸部位置和初始校准时相比都会发生轻微偏移,此时可以进行临时的眼球定位校准,临时的眼球定位校准可以仅校准中心点,视觉范围假定不变,因此可以仅显示中心位置引导点,提醒操作者仅注视中心点,例如,持续大概2秒钟,然后红点消失,在这个过程中完成坐标系的校准。
具体的,可以通过在目镜边缘设置的压力传感器,或者是对目镜内的图像进行瞳孔识别的方式等,检测目标操作者的眼睛是否离开又返回所述目镜;在确定所述目标操作者的眼睛离开又返回所述目镜的情况下,在所述目标屏幕的中心位置显示一个中心位置引导点;获取所述目标操作者注视所述中心位置引导点的眼部图像作为目标眼部图像;根据所述目标眼部图像中瞳孔的位置,对所述眼部图像坐标系与屏幕坐标系之间的对应关系进行校准,即,进行临时眼球定位校准。
在完成上述的初始眼球定位校准和临时眼球定位校准之后,就可以进行基于眼球的定位操作了,眼球在目镜上的移动被映射为在显示屏上的系统坐标,语音信息被解析为执行指令,系统结合位置坐标和执行指令,在位置坐标处执行对应的执行指令。具体的,可以是主控端进行解析,得到位置坐标和执行指令,然后将该解析出的位置坐标和执行指令通过TCP\IP传递给腔镜主机,进行指令执行,从而执行具体操作。同时,执行指令可以通过网络传送至腔镜主机做图像融合操作,还可以对其它扩展系统做远程系统操作,实现局域网级别的分布式控制。
在本例中还提供了一种基于眼球的定位方法,如图11所示,可以包括如下步骤:
步骤1101:获取目标对象透过目镜的实时的眼部图像;
步骤1102:根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
步骤1103:以图标的形式,在所述目标屏幕中显示对应的坐标位置。
其中,目镜与获取眼部图像的摄像头采用固定位置设置,即,在头部位置相对于摄像头固定设置的场景中,可以通过目标对象实时的眼部图像,以确定出瞳孔的位置,从而基于预先建立的映射关系,确定出目标对象视线在显示屏中的位置,从而使得目标对象不借助双手,仅依靠眼睛的转动,即可实现对屏幕中目标位置的锁定,即,通过眼睛转动实现对显示屏中位置的移动控制。
具体的,根据所述眼部图像,确定所述眼部图像中瞳孔与目镜之间的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置,可以包括:从所述眼部图像中识别出瞳孔在所述眼部图像中的位置坐标作为第一坐标信息;调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。其中,该第一对应关系的确定可以通过上述介绍的方式实现,本申请对此不再赘述。
然而,值得注意的是,上述是以应用在手术机器人中为例对基于眼球定位和声音识别的控制方法、基于眼球的定位方法进行的说明,在实际实现的时候,上述的基于眼球定位和声音识别的控制方法、基于眼球的定位方法还可以应用在其它的场景中,例如,微生物观察、精细零件加工、虚拟现实等需要配合目镜进行观察和操作的场景中。
本申请上述实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在电子设备上为例,图12是本申请提供的一种基于眼球定位和声音识别的控制方法的电子设备的硬件结构框图。如图12所示,电子设备10可以包括一个或多个(图中仅示出一个)处理器02(处理器02可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器04、以及用于通信功能的传输模块06。本领域普通技术人员可以理解,图12所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备10还可包括比图12中所示更多或者更少的组件,或者具有与图12所示不同的配置。
存储器04可用于存储应用软件的软件程序以及模块,如本申请实施例中的基于眼球定位和声音识别的控制方法对应的程序指令/模块,处理器02通过运行存储在存储器04内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的基于眼球定位和声音识别的控制方法。存储器04可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器04可进一步包括相对于处理器02远程设置的存储器,这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块06用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备10的通信供应商提供的无线网络。在一个实例中,传输模块06包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块06可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在软件层面,基于眼球定位和声音识别的控制装置可以如图13所示,可以包括:
获取模块1301,用于获取目标操作者透过目镜的实时的眼部图像和语音数据;
确定模块1302,用于根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
执行模块1303,用于从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。
在一个实施方式中,上述确定模块1302具体可以用于从所述眼部图像中识别出瞳孔在目镜中的位置坐标作为第一坐标信息;调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。
在一个实施方式中,预先生成眼部图像坐标系与屏幕坐标系之间的对应关系,可以包括:在所述目标屏幕上显示多个位置引导点;显示引导所述目标操作者逐一注视所述多个位置引导点中各个位置引导点的指引信息;获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像;根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系。
在一个实施方式中,在获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像之后,还可以确定所述多个眼部图像中瞳孔位置点所形成的形状与所述多个位置引导点所形成的形状是否相同;在确定不相同的情况下,触发重新在所述目标屏幕上显示多个位置引导点。
在一个实施方式中,在根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系之后,还可以通过目镜边缘设置的压力传感器检测所述目标操作者的眼睛是否离开又返回所述目镜;在确定所述目标操作者的眼睛离开又返回所述目镜的情况下,在所述目标屏幕的中心位置显示一个中心位置引导点;获取所述目标操作者注视所述中心位置引导点透过目镜的眼部图像作为目标眼部图像;根据所述目标眼部图像中瞳孔在目镜中的位置,对所述眼部图像坐标系与屏幕坐标系之间的对应关系进行校准。
在一个实施方式中,从所述语音数据中识别出控制指令可以包括:对所述语音数据进行声纹识别,确定出所述语音数据中与所述目标操作者的声纹匹配的语音内容;对确定出的语音内容进行文字识别,以确定出控制指令。
在一个实施方式中,上述获取模块1301具体可以用于通过安装的摄像头获取目标操作者透过目镜的眼部图像。
在一个实施方式中,上述目镜为手术机器人上的目镜,所述控制指令为在手术过程中对所述手术机器人上的显示屏的操作指令。
在本例中还提供了一种基于眼球的定位装置,可以用于获取目标对象透过目镜的实时的眼部图像;根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;以图标的形式,在所述目标屏幕中显示对应的坐标位置。
在一个实施方式中,目镜与获取眼部图像的摄像头采用固定位置设置。
在一个实施方式中,根据所述眼部图像,确定所述眼部图像中瞳孔与目镜之间的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置,可以包括:从所述眼部图像中识别出瞳孔在所述眼部图像中的位置坐标作为第一坐标信息;调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。
本申请的实施例还提供能够实现上述实施例中的基于眼球定位和声音识别的控制方法中全部步骤的一种电子设备的具体实施方式,所述电子设备具体包括如下内容:处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的基于眼球定位和声音识别的控制方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤1:获取目标操作者透过目镜的实时的眼部图像和语音数据;
步骤2:根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
步骤3:从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。
从上述描述可知,本申请实施例通过获取目标操作者实时的眼部图像以确定目标屏幕中的对应位置,通过获取语音数据识别出控制指令,从而触发在对应目标屏幕中的坐标位置处执行控制指令。通过上述方案解决了现有的在操作者双手需要执行其它操作时,无法对设备进行准确控制的问题,达到了基于眼球位置和语音指令实现准确控制的技术效果。
本申请的实施例还提供能够实现上述实施例中的基于眼球定位和声音识别的控制方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于眼球定位和声音识别的控制方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤1:获取目标操作者透过目镜的实时的眼部图像和语音数据;
步骤2:根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
步骤3:从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。
从上述描述可知,本申请实施例通过获取目标操作者实时的眼部图像以确定目标屏幕中的对应位置,通过获取语音数据识别出控制指令,从而触发在对应目标屏幕中的坐标位置处执行控制指令。通过上述方案解决了现有的在操作者双手需要执行其它操作时,无法对设备进行准确控制的问题,达到了基于眼球位置和语音指令实现准确控制的技术效果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (15)
1.一种基于眼球定位和声音识别的控制方法,其特征在于,包括:
获取目标操作者透过目镜的实时的眼部图像和语音数据;
根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
从所述语音数据中识别出控制指令,在所述对应目标屏幕中的坐标位置处执行所述控制指令。
2.根据权利要求1所述的方法,其特征在于,根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置,包括:
从所述眼部图像中识别出瞳孔在目镜中的位置坐标作为第一坐标信息;
调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;
根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。
3.根据权利要求2所述的方法,其特征在于,预先生成眼部图像坐标系与屏幕坐标系之间的对应关系,包括:
在所述目标屏幕上显示多个位置引导点;
显示引导所述目标操作者逐一注视所述多个位置引导点中各个位置引导点的指引信息;
获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像;
根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系。
4.根据权利要求3所述的方法,其特征在于,在获取所述目标操作者逐一注视各个位置引导点透过目镜的多个眼部图像之后,还包括:
确定所述多个眼部图像中瞳孔位置点所形成的形状与所述多个位置引导点所形成的形状是否相同;
在确定不相同的情况下,触发重新在所述目标屏幕上显示多个位置引导点。
5.根据权利要求3所述的方法,其特征在于,在根据所述多个眼部图像中瞳孔在目镜中的位置,和对应的屏幕中的位置引导点的位置信息,形成眼部图像坐标系与屏幕坐标系之间的对应关系之后,还包括:
通过目镜边缘设置的压力传感器检测所述目标操作者的眼睛是否离开又返回所述目镜;
在确定所述目标操作者的眼睛离开又返回所述目镜的情况下,在所述目标屏幕的中心位置显示一个中心位置引导点;
获取所述目标操作者注视所述中心位置引导点透过目镜的眼部图像作为目标眼部图像;
根据所述目标眼部图像中瞳孔在目镜中的位置,对所述眼部图像坐标系与屏幕坐标系之间的对应关系进行校准。
6.根据权利要求1所述的方法,其特征在于,从所述语音数据中识别出控制指令包括:
对所述语音数据进行声纹识别,确定出所述语音数据中与所述目标操作者的声纹匹配的语音内容;
对确定出的语音内容进行文字识别,以确定出控制指令。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述获取目标操作者透过目镜的实时的眼部图像包括:
通过安装的摄像头获取目标操作者透过目镜的眼部图像。
8.根据权利要求7所述的方法,其特征在于,所述目镜为手术机器人上的目镜,所述控制指令为在手术过程中对所述手术机器人上的显示屏的操作指令。
9.一种基于眼球的定位方法,其特征在于,包括:
获取目标对象透过目镜的实时的眼部图像;
根据所述眼部图像,确定所述眼部图像中瞳孔在目镜中的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置;
以图标的形式,在所述目标屏幕中显示对应的坐标位置。
10.根据权利要求9所述的方法,其特征在于,目镜与获取眼部图像的摄像头采用固定位置设置。
11.根据权利要求9所述的方法,其特征在于,根据所述眼部图像,确定所述眼部图像中瞳孔与目镜之间的相对坐标数据,并根据所述相对坐标数据确定对应目标屏幕中的坐标位置,包括:
从所述眼部图像中识别出瞳孔在目镜中位置坐标作为第一坐标信息;
调取预先生成的眼部图像坐标系与屏幕坐标系之间的对应关系作为第一对应关系;
根据所述第一坐标信息和所述第一对应关系,确定所述眼部图像中瞳孔对应目标屏幕中的坐标位置。
12.一种手术机器人,其特征在于,包括:
手术组件,用于目标操作者执行手术操作;
摄像组件,与目镜相对设置,用于在所述目标操作者执行手术操作的过程中,拍摄所述目镜中目标操作者的眼部图像;
处理器,与所述摄像组件相连,用于根据所述眼部图像中瞳孔在目镜中的相对坐标数据,确定对应显示屏的屏幕中的坐标位置;
显示屏,与所述处理器通信,用于在手术过程中进行显示操作。
13.根据权利要求12所述的手术机器人,其特征在于,还包括:
收音组件,用于获取所述目标操作者执行手术操作的过程中的语音数据;
所述处理器,还用于从所述语音数据中识别出控制指令,并控制在所述显示屏的坐标位置处执行所述控制指令。
14.一种手术机器人,包括处理器以及用于存储处理器可执行指令的存储器,其特征在于,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210667711.9A CN115089300A (zh) | 2022-06-14 | 2022-06-14 | 基于眼球定位和声音识别的控制方法、手术机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210667711.9A CN115089300A (zh) | 2022-06-14 | 2022-06-14 | 基于眼球定位和声音识别的控制方法、手术机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115089300A true CN115089300A (zh) | 2022-09-23 |
Family
ID=83290778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210667711.9A Pending CN115089300A (zh) | 2022-06-14 | 2022-06-14 | 基于眼球定位和声音识别的控制方法、手术机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115089300A (zh) |
-
2022
- 2022-06-14 CN CN202210667711.9A patent/CN115089300A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210157403A1 (en) | Operating room and surgical site awareness | |
KR102018565B1 (ko) | 수술 시뮬레이션 정보 구축 방법, 장치 및 프로그램 | |
CN107296650A (zh) | 基于虚拟现实和增强现实的智能手术辅助系统 | |
US9355574B2 (en) | 3D virtual training system and method | |
EP4136653A1 (en) | Cooperative overlays of interacting instruments which result in both overlays being effected | |
EP2919093A1 (en) | Method, system, and computer for identifying object in augmented reality | |
AU2017275482A1 (en) | Systems, methods, and computer-readable storage media for controlling aspects of a robotic surgical device and viewer adaptive stereoscopic display | |
CN111655184A (zh) | 用于放置手术端口的引导 | |
CN112618026B (zh) | 远程手术数据融合交互显示系统及方法 | |
KR20150125069A (ko) | 로봇 수술 계획 조정 장치 | |
WO2018211969A1 (ja) | 入力制御装置、入力制御方法、および手術システム | |
KR20080089376A (ko) | 3차원 텔레스트레이션을 제공하는 의료용 로봇 시스템 | |
CN113495613B (zh) | 眼球追踪校准方法及装置 | |
CN115804652A (zh) | 手术操作系统及方法 | |
CN112818959A (zh) | 手术流程识别方法、装置、系统及计算机可读存储介质 | |
CN112906205A (zh) | 一种用于全髋关节置换手术的虚拟学习方法 | |
WO2020243425A1 (en) | Composite medical imaging systems and methods | |
CN111658142A (zh) | 一种基于mr的病灶全息导航方法及系统 | |
CN115089300A (zh) | 基于眼球定位和声音识别的控制方法、手术机器人 | |
US10854005B2 (en) | Visualization of ultrasound images in physical space | |
WO2018170678A1 (zh) | 一种头戴式显示装置及其手势动作识别方法 | |
KR20150044243A (ko) | 손 아바타를 이용한 콘텐츠 제어가능 전자학습 장치 및 방법 | |
CN112927330A (zh) | 用于生成虚拟人体图像的方法和系统 | |
EP3690609B1 (en) | Method and system for controlling dental machines | |
JP7417337B2 (ja) | 情報処理システム、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |