CN112507799B - 基于眼动注视点引导的图像识别方法、mr眼镜及介质 - Google Patents

基于眼动注视点引导的图像识别方法、mr眼镜及介质 Download PDF

Info

Publication number
CN112507799B
CN112507799B CN202011267174.6A CN202011267174A CN112507799B CN 112507799 B CN112507799 B CN 112507799B CN 202011267174 A CN202011267174 A CN 202011267174A CN 112507799 B CN112507799 B CN 112507799B
Authority
CN
China
Prior art keywords
image
user
eye
camera
glasses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011267174.6A
Other languages
English (en)
Other versions
CN112507799A (zh
Inventor
陈涛
朱若晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Scorpion Technology Wuhan Co ltd
Original Assignee
Magic Scorpion Technology Wuhan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Scorpion Technology Wuhan Co ltd filed Critical Magic Scorpion Technology Wuhan Co ltd
Priority to CN202011267174.6A priority Critical patent/CN112507799B/zh
Publication of CN112507799A publication Critical patent/CN112507799A/zh
Application granted granted Critical
Publication of CN112507799B publication Critical patent/CN112507799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明属于图像识别技术领域,公开了一种基于眼动注视点引导的图像识别方法、MR眼镜及介质,进行红外和彩色摄像头混合获取图像;IR相机和RGB相机混合获取实景图像,IR相机和RGB相机混合获取实景图像;低分辨率和高分辨率摄像头混合获取实景图像并识别;在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像并识别;通过检测用户的行为和生理数据计算兴趣程度,进而启动摄像头获取外景图像并识别;本发明还进行在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像中,通过检测用户的行为和生理数据计算兴趣程度启动摄像头,再通过注视点的位置和/或深度来选择使用物理相机或虚拟相机获取图像并识别。

Description

基于眼动注视点引导的图像识别方法、MR眼镜及介质
技术领域
本发明属于图像识别技术领域,尤其涉及一种基于眼动注视点引导的图像识别方法、MR眼镜及介质。
背景技术
目前,随着近几年AR/VR产业的高速发展,我们关注到AR智能眼镜可能会是淘汰智能手机的下一 代智能终端,那么AR智能眼镜上的app就如同智能手机上在刚兴起时的状态,存在着巨大的市场价值。 我们了解到眼动追踪技术是未来AR智能眼镜的重要人机交互方式,我们立足这样的环境进行思考未来应 用可能存在潜在需求,在未来爆发巨大的市场价值。
AR/MR/XR眼镜存在隐私安全风险,在当前现有MR/AR/VR智能眼镜的广告/内容的推荐技术中都 需要前置摄像头获取并分析用户当前周围环境,进而推送与场景相关的广告内容,在这个技术环节中需要 无时无刻启动前置摄像头,其中无时无刻记录数据的摄像头会在不经意间侵害其他人的隐私,隐私问题在 未来会成为“AR广告推荐系统”商业化的头号敌人。不仅如此始终启动摄像头对MR眼镜的电池续航能 力也带来不小的挑战,降低MR眼镜整体体验。
目前,国际专利涌现大量通过眼动追踪技术获取用户在物理世界的注视点坐标,并对注视区域图像 进行图像识别。例如《一种基于AR智能眼镜的局部图像识别方法》CN109086726,《ENABLING AUGMENTNED REALITY USING EYE GAZE TRACKING》高通US20200033943,《MEASUREMENT METHOD AND SYSTEM》谷歌US10598929等公开了通过MR/AR眼镜的眼动追踪装置对注视区域图像 识别,根据识别内容推送广告、数字信息、应用程序等。但是上述的这些方法存在:1.隐私安全风险。2. 程序功耗大。3.无法辨别用户眼睛对注视物体的真实意图。4.无法精准的框选感兴趣的目标物体。
同时,在具体的应用服务中需要全程开启彩色前置摄像头,这可能会拍摄和存储下其他人的影像, 这存在对其他人隐私权和个人肖像权的侵害,并且这类MR眼镜应用造成隐私安全会给公众造成抵触情绪。 例如国外一些公众场所(例如超市、商场等)曾禁止佩戴MR/AR眼镜。
通常MR/AR眼镜为了能够使用一些应用(例如光学显示),三维信息感知功能是需要始终启动的, 那么再启动上述物体检测功能时,还需要启动彩色摄像头用于获取图像,这就相当于同时启动彩色和红外 两种摄像头,这会造成巨大的AR/MR眼镜功耗,同时AR/MR眼镜系统/应用运行卡顿,进一步造成MR/AR 眼镜体验差。
在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,通过用户产生“感兴趣行为” 时注视点的位置为几何中截取局部图像。这种方法存在的弊端是1)相机截图存在延迟,2)截图不准确, 容易把一个目标物体图像一分为二,因而造成整体的体验不佳,程序迟缓,获取图像质量不佳,图像识别 不准确,交互体验不好。在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,启动局部图 像识别程序,获取到人类生物电并识别出用户兴趣点时启动图像局部图像识别程序,兴趣识别条件包括: A、对某一区域凝视时长超过阈值;B、对某一区域回视次数超过预设次数;C、对某一区域注视时眨眼次 数或眨眼行为达到预设标准;D、对某一事物产生规律性视觉注意模型;E、同一时刻脑电波检测模块检测 出用户对该视觉注视区域感兴趣;F、同一时刻心率、血压人体生物信息监测模块检测出用户情绪发生变 化数据;G、同一时刻人眼对当下注视事物产生瞳孔放大或缩小的生理反应数据;然而这种机制条件有些 生硬和过于绝对,无法为为用户提供更好的交互体验。
目前在国内外的公开专利中,提供了多种通过眼动追踪引导识别物理世界物体的方法,但是还极少 对虚拟全息目标进行识别的方法,在未来MR眼镜所呈现的是一个真实和虚拟相互叠加混合的世界,全息 对象往往更能吸引用户的注意力。但是如同现有的手机APP,不同的全息内容可能出自于各种不同的app, 因此在MR眼镜中需要一个统一的、可以适用于任何MR应用程序、可以获取不同MR应用程序生成的全 息对象的图像的方法,并对虚拟全息对象进行识别。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有通过MR/AR眼镜的眼动追踪装置对注视区域图像识别的方法存在隐私安全风险,程序功耗 大,无法辨别用户眼睛对注视物体的真实意图,无法精准的框选感兴趣的目标物体。
(2)在具体的应用服务中需要全程开启彩色前置摄像头,这可能会拍摄和存储下其他人的影像,这 存在对其他人隐私权和个人肖像权的侵害,并且这类MR眼镜应用造成隐私安全会给公众造成抵触情绪。
(3)通常MR/AR眼镜三维信息感知功能是需要始终启动的,那么再启动上述物体检测功能时,还需 要启动彩色摄像头用于获取图像,这就相当于同时启动彩色和红外两种摄像头,这会造成巨大的AR/MR 眼镜功耗,同时AR/MR眼镜系统/应用运行卡顿,进一步造成MR/AR眼镜体验差。
(4)现有通过用户产生“感兴趣行为”时注视点的位置为几何中截取局部图像的方法,相机截图存 在延迟;截图不准确,容易把一个目标物体图像一分为二,因而造成整个的体验不佳,程序迟缓,获取图 像质量不佳,图像识别不准确,交互体验不好。
(5)目前在国内外的公开专利中,极少有对虚拟全息目标进行识别的方法;同时,现有基于AR智 能眼镜的局部图像识别方法中,机制条件有些生硬和过于绝对,无法为为用户提供更好的交互体验。
解决以上问题及缺陷的意义为:
(1),在当前国内外已公开的同类应用服务中需要全程开启彩色前置摄像头,这可能会拍摄和存储 下其他人的影像,这存在对其他人隐私权和个人肖像权的侵害,并且这类MR眼镜应用造成隐私安全会给 公众造成抵触情绪。例如国外一些公众场所(例如超市、商场等)曾禁止佩戴MR/AR眼镜。
本发明提供的方式(一)中选用IR红外摄像头采集的黑白图像进行图像识别,这能够限制获取更多 图像信息,因为黑白图像不同于彩色图像,他缺少色彩这一维度的信息,这可以降低恶意传播和隐私侵害 动机,从而给公众更多的安全感。不仅降低了功耗,而且在图像处理过程中避免了灰度图的处理,进一步 降低功耗和处理时间。
(2),在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,通过用户产生“感兴趣 行为”时注视点的位置为几何中截取局部图像。这种方法存在的弊端是1)相机截图存在延迟,2)截图不 准确,容易把一个目标物体图像一分为二,因而造成整个的体验不佳,程序迟缓,获取图像质量不佳,图 像识别不准确,交互体验不好。
本发明提供的方式(一)中,MR眼镜通过检测红外摄像头拍摄的黑白图像,进而获得对物理世界的 初步了解,获得至少一个物体的坐标。考虑到避免弹出无用的信息,本实施例而是通过“提示标签”来提 示用户物体的可交互性,当用户通过注视点选中目标并且充分表达了交互意愿时,切换高清彩色摄像头获 得目标物体的局部图像,物体局部图像上传服务器进行识别。由此利用红外摄像头和彩色摄像头交替使用 平衡了隐私安全、功耗性能、物体识别的精度。红外拍摄的黑白照片中,全部画面细节都将被识别,可以 识别多种物体,在这一环节中解决这里存在物体。彩色摄像头只获取用户注视点指定物体的图像区域,上 传至服务器的图片也仅仅识别用户注视点指定物体的图像区域,在这一环节中解决物体是什么?因此本方 案的图像截取、局部图像质量、图像识别精度更加的智能,自适应性更好。
《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,图像的识别能力是完全通过云端服 务器的算力进行计算的,然而在本发明实施例中是将图像识别的逻辑步骤拆分,将一定的图像处理能力放 在本地MR眼镜上实现的,服务器承担更为精细的识别和检索。及图像处理是通过本地和云端相互协作实 现的图像处理。通过本地算力承担一部分图像物体检测的另一好处为是的局部图像的截取更加智能。
(3),目前在国内外的公开专利中,提供了多种通过眼动追踪引导识别物理世界物体的方法,但是 还极少对虚拟全息目标进行识别的方法,在未来MR眼镜所呈现的是一个真实和虚拟相互叠加混合的世界, 全息对象往往更能吸引用户的注意力。但是如同现有的手机APP,不同的全息内容可能出自于各种不同的 app,因此在MR眼镜中需要一个统一的、可以适用于任何MR应用程序、可以获取不同MR应用程序生 成的全息对象的图像的方法,并对虚拟全息对象进行识别。
本发明提供的方式(五)中,提供了一种通过虚拟摄像机获取全息对象,并且进行识别的方法。
(4),在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,启动局部图像识别程序, 获取到人类生物电并识别出用户兴趣点时启动图像局部图像识别程序,兴趣识别条件包括:A、对某一区 域凝视时长超过阈值;B、对某一区域回视次数超过预设次数;C、对某一区域注视时眨眼次数或眨眼行为 达到预设标准;D、对某一事物产生规律性视觉注意模型;E、同一时刻脑电波检测模块组件检测出用户对 该视觉注视区域感兴趣;F、同一时刻心率、血压人体生物信息监测模块组件检测出用户情绪发生变化数 据;G、同一时刻人眼对当下注视事物产生瞳孔放大或缩小的生理反应数据;然而这种机制条件有些生硬 和过于绝对,无法为为用户提供更好的交互体验。
在本发明方式(二)和方式(三)中:方式(二)提出场景分析和行为分析预测用户感兴趣的目标物 体并开启彩色摄像头进行图像识别。方式(三)提出眼动交互意图预测用户预测下一时刻兴趣目标注视点 的位置并开始黑白摄像头进行图像识别,根据用户选择后开始彩色摄像头获取图片。
通过合适的AI算法对“有意图”眼动与“无意图”眼动、头动行为进行分类,进而根据眼动交互意 图进行交互预测,需要同时考虑多种措施。被用于机器学习的数据可以包括扫视发射延迟,峰值扫视速度, 扫视所覆盖的角距离,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正扫视,瞳孔直径变化,注视 时长等。
综上,进一步提高MR眼镜/智能汽车上通过眼动追踪技术进行目标识别的方法,通过视线追踪技术获取用 户正在注视的事物图像,计算机推荐与注视物体相关的应用、服务的通知标识。本发明技术是未来的新一 代智能终端(MR眼镜/智能汽车)上的流量入口之一,真正意义上实现了所见即所得。弥补的国内和国外 的技术空白,促进我国AR/VR产业的发展。
发明内容
针对现有技术存在的问题,本发明提供了一种基于眼动注视点引导的图像识别方法、MR眼镜及介质。
本发明是这样实现的,一种基于眼动注视点引导的图像识别方法,所述基于眼动注视点引导的图像识 别方法包括以下七种实现方式:
方式(一)中,红外和彩色摄像头混合获取图像的方式。
方式(二)中,所述IR相机和RGB相机混合获取实景图像,场景分析和行为分析预测用户感兴趣的目标 物体并图像识别的方式。
方式(三)中,所述IR相机和RGB相机混合获取实景图像,和眼动交互意图预测用户感兴趣的目标物体 并图像识别的方式。
方式(四)中,低分辨率和高分辨率摄像头混合获取实景图像并识别的方式。
方式(五)中,在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像并识别的方式。
方式(六)中,通过检测用户的行为和生理数据计算兴趣程度,进而启动摄像头获取外景图像并识别的方 式。
方式(七)中,在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像中,通过检测用户的行为和生理 数据计算兴趣程度启动摄像头,再通过注视点的位置和/或深度来选择使用物理相机或虚拟相机获取图像并 识别的方式。
进一步,方式(一)中,所述红外和彩色摄像头混合获取图像的方式包括以下步骤:
(1)通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像传送至图像识别模块。
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
(3)MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像进行AI图像分析,利 用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标 物体坐标。
(4)系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。如果用户对当前选中 区域执行点击确认的交互行为,则执行步骤(5)。
(5)系统接受到确认交互指令后,开启RGB彩色摄像头,RGB摄像头对用户当前点击确认的目标物 体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
(6)MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像,其中用户可以手动 编辑边缘框大小来优化选中图像。
(7)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
(8)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,所述内 容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
进一步,步骤(1)中,所述MR眼镜的红外摄像头将物理世界构建三维空间的方法,包括:
1)三维信息感知:MR眼镜通过视觉传感器感知三维环境信息,可以使用任何目前已知的空间感知的 三维环境扫描算法。例如所述传感器是IR红外摄像头,也可以是TOF或者结构光深度摄像头,但是选择 不同的摄像头也决定了接下来算法的复杂程度。
2)三维场景重构,通过视觉传感器所获得的环境信息实时对场景进行三维重构。
进一步,步骤(1)中,所述利用红外摄像头捕获实景黑白图像的方法为:
使用所述三维信息感知的同一红外摄像头获得的黑白图像传送至图像识别模块。
进一步,步骤(1)中,在全息三维空间中,通过沿眼动追踪设备检测到的用户注视的方向投射来自 MR眼镜的射线来测量注视位置,并且注视位置是与虚拟环境或共享环境的表面进行交互;在三维空间中, 可以使用检测到的每个用户眼睛的注视的焦距来测量注视位置。
在前置摄像头中,前置摄像头拍摄用户视觉前方真实物理世界,经过图像校准,前置摄像头视场角/ 角度被配置为等于或大于用户视场角。
进一步,步骤(2)中,所述将用户眼睛视线坐标映射于MR眼镜的混合现实空间中或/和光学显示器 坐标系中,或/和映射在一个或者多个摄像头中。映射于MR眼镜的混合现实空间中和光学显示器坐标系中 被用于是计算机获取用户在虚拟世界中的注视对象,映射在一个或者多个物理摄像头坐标系中被用计算机 获取用户在物理世界中的注视对象。
获得可用于计算机处理的注视点中,注视点可以呈现视觉反馈(可见注视点),及以动态光标的形式 光学成像屏幕上呈现的可见的图形,也可以是不呈现视觉反馈。
进一步,步骤(3)中,所述MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图 像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像 中目标物体,记录下目标物体坐标的方法,包括:
利用MR眼镜终端的本地处理器运行预先训练好的特征数据库识别图像中兴趣物体,其中MR眼镜的 前置摄像头拍到的图像被配置为与用户眼睛所看到的物理世界影像画面一致,相机视场角与人眼视场角一 致,已经被校准过。在对象检测后,根据图像识别和图像分割结果在对象外围设置边界框图。
其中,MR眼镜本地的存储器存储着被用于图像识别的数据库样本,终端的数据库样本可以是全部数 据中的一部分,总数据库存储在云端服务器中,终端的部分数据库被配置为生活中常见的特征物体、识别 频率较高的物体等。另外的本地数据库可以定期接收云端服务器的样本数据库更新。
其中,前置摄像头拍到的物理世界图像数据已经过预处理程序,预处理例如执行图像数据的过滤,校 正或其他预处理,所述物理世界图像数据为视觉图像数据和/或深度图像数据。
进一步,通过MR眼镜的对象检测模块真实世界图像中的对象进行AI识别和分类,并确定由MR设 备观察到的场景中的真实世界的对象的位置和/或姿势。在某些真实世界中可识别视觉标签或其他标记,以 标记或附加到真实对象上。对象分类模块被配置为从MR设备接收图像数据并且使用已训练好的一个或多 个模型数据识别红外相机捕获的真实世界对象。
对象分类系统被配置为使用机器学习和推理技术来基于图像数据识别和/或分类真实世界的对象。可以 利用各种已知的计算机对象识别技术来识别现实世界场景的图像中的对象。对象识别可以使用基于外观的 方法,该方法将图像与已知对象的参考图像进行比较以识别对象。基于外观的方法的示例包括边缘匹配, 灰度匹配,接收场响应的直方图等。对象识别可以使用依赖于匹配对象特征和图像特征的基于特征的方法。 基于特征的方法的示例包括姿势聚类,几何哈希,尺度不变特征变换,解释树。系统可以结合使用一种或多种对象识别方法以增强对象识别的准确性。对象检测模块可以被配置为执行图像数据的语义分割或语义 标记,可以使用诸如DeepMask和SharpMask之类的图像分割技术来识别对象,并使用诸如MuiltiPathNet 之类的图像分类技术对对象进行分类。对象检测模块可以被配置为从云端服务器的对象分类系统获得一个 或多个模型,即将云端机器训练好的现实物体特征模型数据同步终端MR设备中,这样MR眼镜可以用本 地较小的处理器运算量和数据库容量来执行现实世界中的对象识别和/或分类。
进一步,步骤(4)中,所述系统在目标物体位置呈现提示通知时,该通知可以是以下各项中的一项 或多项:弹出通知,声音通知,振动,基于对象的内容共享用户界面中的通知文本或图标,社交媒体服务 中的通知消息,文本消息,一旦检测到目标对象,系统就会使用户的设备发出声音或振动。在一些实施例 中,用户可以单独配置通知的类型以接收与用户相关联的每个对象和/或对象类别。用户可以单独配置是否 接收与用户相关联的每个对象和/或对象类别的通知,用户可以配置要接收的通知类型。
进一步,步骤(4)中,还可以使用“通知模块”对目标物体位置呈现提示通知,该通知模块使MR 眼镜系统的OS可以将物体识别结果与应用程序匹配,再将通知与已在OS中注册的应用程序对象进行匹 配,从而将对象标识为通知的目标。OS可以通过例如将通知有效负载中包含的上下文标识符ID与系统中 注册的所有对象的上下文ID进行比较,并找到具有匹配上下文ID的对象来执行此步骤。在将对象标识为 通知的目标后,操作系统可以调用与对象的应用程序关联的特殊通知处理程序,但与应用程序的主过程分 开。然后,通知处理程序可以执行代码,以在系统UI中相对于对象在上下文中处理和呈现通知。
进一步,步骤(4)中,所述眼动光标与各个交互目标的感应区之间的接触情况的实时检测方法,包 括:
客户端软件或内部系统软件在运行时加载检测眼动光标与交互目标及其感应区之间接触情况的可执 行代码程序组件。通过软件程序实现眼动光标与任意交互目标感应区的接触反馈,反馈信息包括光标与目 标感应区接触的起止时间、光标与各个目标感应区重叠部分的面积、光标到交互目标的几何中心距离,通 过上述反馈信息检测接触情况。
进一步,步骤(4)中,所述交互目标设置感应区的设置方法为:
在本实施例中,通过步骤(3)中物体检测后绘制出的边缘框自动添加交互(碰撞)属性。将边缘框 图形与注视射线相对应,形成碰撞体属性,进而使该图形成为感应区域。
进一步,步骤(5)中,系统接受到确认交互指令后,开启RGB彩色摄像头,RGB摄像头对用户当前 点击确认的目标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
其中所述用户的交互指令包括:眼动交互、手势识别交互、外设控制器、有声/无声语音识别、头动交 互。
1)MR眼镜的眼动追踪装置捕获眼睛运动数据,检测眼睛动作,计算眼睛的瞳孔大小、虹膜图像、、 眼跳轨迹以及注视时长等,当注视时长超过一定时长,则视为对某一位置进行了对应眼球的行为动作,例 如对交互界面中的RGB摄像头的UI按钮做出了凝视对应点击操作(眼睛行为动作)的动作,进而开启 RGB摄像头;。
2)MR眼镜的手势识别组件检测手部做出特定的动作,例如手势识别装置接收到用户手部的运动信息, 或识别手部特定的形状,与上、下、左、右滑动、放大、缩小、点击以及关闭等控制选项相关联,进而控 制系统开启RGB摄像头。
3)通过操控设备的含有无线信号传输的移动控制器(3自由度或6自由度),例如握持按键式控制器、 穿戴式手套以及指套控制器等,向MR眼镜发射控制信号,通过操作交互界面,点击UI按钮开启RGB摄 像头,其中包括6DoF加速度传感器追踪技术和6DoF电磁追踪技术手柄。
4)通过MR眼镜的有声或无声语音识别装置接收用户发出的有声或无声语音,并通过系统解析用户 的语音指令,控制设备开启RGB摄像头。
5)通过头动追踪装置选择交互界面的按钮,例如通过在MR眼镜的的加速度传感器、陀螺仪、磁力 计计算用户头部的运动,在MR眼睛视野中央设置一个与头部相对位置固定的光标,移动头部控制光标选 择位置与全息UI界面进行点击确认,进而启动望远模式。
进一步,步骤(5)中,所述图像对焦的方法包括:
驱动前置摄像头对眼动追踪组件捕获双眼视线的注视区域和/或头动追踪组件捕获视野中心点的景象 进行对焦摄像;MR眼镜系统获取到眼动追踪装置发送的检测信息,检测信息包括眼球注视位置的空间坐 标的变化量、晶状体厚度大小变化量、瞳孔直径的变化量,其中注视点位置的空间坐标可以通过眼球的移 动计算获得X和Y轴坐标,通过双眼视线的夹角或/和晶状体厚度获得Z轴坐标,及视觉深度,因而形成 空间坐标(X,Y,Z)。
利用眼睛注视点的X坐标和Y坐标选定外景照片上放大和对焦的区域。其中,至少一个摄像机取景 设置在MR眼镜的正中间或者两边,摄像机所拍摄的照片为用户当前的视野画面,及上述外景照片为用户 当时视野前方图像。根据(X,Y)注视点坐标获取外景照片上某一点,确定以该点为中心得目标区域,该 目标区域为摄像头对焦和放大的区域。
利用眼睛注视点得Z坐标确定在外景照片上该目标区域中物体的视觉深度,进而控制摄像机对目标物 体进行对焦并数码变焦放大一定的倍率,使其获得更清晰的图像,影像放大倍率以RGB摄像头默认的初 始放大倍数为准。实现用户看哪里就放大和对焦哪里的效果。
进一步,步骤(5)中,所述图像参数调节的方法包括:
对此时摄像头实时拍摄的放大区域的影像进行自动参数优化,优化的参数包括曝光时间、ISO值、帧 率、锐度、白平衡。
进一步,步骤(6)中,所述用户可以手动编辑边缘框大小来优化选中图像的方法,包括:
如果MR眼镜本地的对象识别过程无法确定对象,例如MR眼镜不能识别物理世界中的物体边界,因 此设置了错误的边界框位置和大小。在一种配置中,边界的尺寸可以增加预定量。例如,移动设备可以通 过将原始边界的大小加倍来增加边界的大小。
MR眼镜可以接收的手势识别装置、和/或语音识别装置、和/或6DOF控制器手柄、和/或无声语音肌 肉电探测器、和/或脑电波等来执行边界框大小编辑。在一种配置中,手势可以是“捏缩放”手势。在另一 方面,MR眼镜可在用户的眼睛注视的持续时间超过时间阈值时执行放大。在一种配置中,可以在MR眼 镜光学显示屏幕上呈现边界框和/或照片编辑的应用程序图标,点击所述“应用程序图标“后出现全息UI 界面,通过与“放大”、“缩小”的UI功能键来编辑边界框。
可多能存在多个物体,相应的被设置多个对应的边界框,可能两个以上的边界框相互重叠或者相互很 靠近,这可能会干扰服务器的图像识别。因此还可以通过用户的手动操作禁用不需要的边界框,从而不对 禁用边界框中的图像内容进行识别。另外一种实施例中用户还可以通过手势或/和6DOF控制器手柄手动自 由绘制多边形禁用边界框,该禁用边界框可以是任意的二维或三维的边界框,从而不对禁用边界框中的图 像内容进行识别。
进一步,步骤(7)中,所述内容列表中的选项包括一个或多个文字、图片、音频、视频、3D模型/ 动画、应用程序,当对同一对象物体进行图像识别时,识别后的内容结果可能对应着多个不同的内容,所 述内容包括文字、图片、音频、视频、3D模型/动画、应用程序,这些内容排列在列表中向用户展示。在 内容列表中同一物体可能存在几种不同的对象映射关系。
所述映射关系可以被程序工程师人为的编辑对象和内容之间的映射关系。在另外一种实施例中,可以 通过人工智能技术自动编辑对象和内容之间的映射关系,用户可以自己编辑和/或校正内容与对象映射关 系,
进一步,步骤(7)中,用户自主预先编辑目标物体和信息内容的对应关系,包括:
将在步骤(7)中标识的真实世界/虚拟世界对象添加到与用户关联的对象列表中。对象列表可以被维 护在内容共享服务器上。列表存储对象的一个或多个图像和属性。系统为用户提供用户界面以访问和编辑 对象列表;用户还可以编辑和/或校正与对象相关联的属性;系统可以隔离图像中的对象,而不能将其与已 知对象匹配;用户可以手动输入对象的属性信息。该系统提供了一个用户界面,供用户访问和编辑对象列 表,用户可以使用用户界面从与他/她相关联的对象列表中添加和删除对象;还可以广告运营商可以预先编 辑物理世界户外广告与全息内容的映射关系。
进一步,方式(二)中,所述IR相机和RGB相机混合获取实景图像,场景分析和行为分析预测用户 感兴趣的目标物体并图像识别的方式包括以下步骤:
(1)通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像。
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
(3)检测场景的物体和声音,MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白 图像进行AI图像分析,检测图像中物体的显著性,利用已经训练好的物体特征库识别图像中的至少一个 物体,并自适应的框选出图像中目标物体,记录下目标物体坐标。MR眼镜的声音装置检测环境中的声音 源。
(4)检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装置 检测身体运动、麦克风检测用户声音、脑电波检测装置探测脑电波。
(5)通过步骤(3)检测场景和S204检测用户行为两者结果的预测判断用户对目标物体的兴趣程度。 如果兴趣程度等于/超过阈值时执行步骤(6)。
(6)系统开启RGB(彩色)摄像头,RGB摄像头对兴趣物体的目标物体位置处进行对焦、图像参数 调节、放大以获得最优图像质量。
(7)MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像(局部图像),其中 用户可以手动编辑边缘框大小来优化选中图像。
(8)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
(9)当眼动注视点或头动凝视点到达预测的交互目标位置时,MR眼镜直接呈现相关运算结果和内容 信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,也 可以为用户自主预先编辑对应关系。
进一步,步骤(3)中,所述检测图像中物体的显著性中,通过任何图像分析算法的来检测图像,所 述显著性检测方法包括:
1)检测物体在图像中的位置,越靠近中心越显著;
2)检测图像中色彩对比度较高的区域;
3)检测视频中动态物体检测,并计算物体的移动速度;
4)检测物体移动的方向,是由远到近,还是由近到远;
5)计算目标物体在整幅画面中的占比。
进一步,所述检测图像中物体的显著性中,通过预先训练好的显着性预测模型预测前置摄像头拍摄的 影像中的物体显著性。
用于分析用户观看活动的各种方法来确定(或预测)给定视频中的用户特定的兴趣点。基于用户在呈 现期间与内容项的交互来确定该热图数据;用户特定模型可用于预测用户可能会在用户访问的其他内容项 中关注哪些兴趣点。
在前置摄像头的实时画面中提取一个或多个帧以创建附加内容;基于内容项的呈现期间的用户交互来 识别有趣内容的这些部分;生成一个或多个显着性预测模型,该显着性预测模型可以用于预测在内容项的 呈现期间用户可能感兴趣的内容。
还可以通过相关图像算法检测前置摄像头画面中的环境人物的动作、姿态、表情,判断该环境人物可 能是潜在将被本用户关注的目标对象。
进一步,步骤(4)中,所述通过眼动追踪装置检测眼睛运动,包括:
扫视距离超过/等于预设阈值,和/或眼睛的平滑的移动行为持续时间超过/等于预设阈值,和/或眼睛的 移动速度超过/等于预设阈值,和/或眼睛突然停止无序的运动,和/或眼睛对某一点的注视时长超过/等于预 设阈值,和/或眼睛在两点/两范围之间往复运动,和/或眼颤行为,和/或眼睛瞳孔直径的变化超过/等于预设 阈值,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正扫视;在正常的日常活动中,可以跟踪眼睛 进行自愿和非自愿活动的过程。这样的实施例的一方面是在用户的眼睛例行执行两种类型的运动时辨别用 户的意图。这需要区分用于传达意图的自愿运动和非自愿眼动。
自愿运动可以与进行正常的日常活动相关,也可以用于根据眼部信号“语言”传达有目的的意图。因 此,算法“过滤器”和/或其他编程方法用于基于一只或两只眼睛的视频图像来识别意图。可以将算法编码 为软件,固件,嵌入在基于硅的逻辑设备中或这些方法的组合。处理也可以在本地,远程执行,也可以结 合包括所谓的“云计算”在内的此类方法来执行。
跟踪的眼睛运动和几何形状可以用于以连续的方式辨别个体的生理和/或情绪状态。反扫视运动可能是 观看令人讨厌的东西的指示。当与关于用户正在观看的真实或虚拟物体的信息结合时,可以辨别例如引起 惊吓,吸引力或兴趣的物体类别的指示,这样的信息可以例如用于定制信息的后续显示。
进一步,步骤(4)中,所述通过头动追踪装置检测头部运动,包括:
检测用户转头过程中的速度、加速度、转动的角度,可以同时检测眼睛运动和头部运动,当人的视野 范围外出现感兴趣的物体/事件时,人会下意识的转动头和眼睛寻找目标物体。
非自愿的眼球运动通常与自愿的头部运动相关。因此,在与头部运动相反的方向上反身地发生的前庭 眼运动可以在自愿的头部运动期间包括在眼睛信号控制中。可以与眼睛信号语言结合使用的其他形式包括 手势,其他身体部位的动作,语音,开关激活,面部表情。
头部位置跟踪系统包括位置和运动传感器,加速度计光源和/或其他用于获取MR眼镜的位置,方向和 运动的设备通过检测面向外部的照相机中的整个场景的运动来检测,可以从头部位置跟踪系统接收头部位 置信息。将头部位置信息提供给眼动交互意图预测模型的头部位置跟踪系统。在MR眼镜上共同形成一个 惯性测量单元IMU,头部位置信息可以帮助确定用户的头部运动,旋转或方向。
进一步,步骤(4)中,所述通过运动追踪装置检测身体运动,包括:
检测用户的躲闪、跳跃、颤抖等身体行为。在一定程度上MR眼睛的头动追踪装置可以代表运动追踪 装置来检测身体运动;还可以通过智能手表、智能手环、具有空间定位的控制器手柄等任意的可穿戴智能 硬件来检测身体运动;可以检测用户在感兴趣的关键字等进入耳朵时停止工作并且以高精度将视线转向声 音源的反应。通过这些身体行为,MR计算机可以判断用户兴趣程度。
进一步,步骤(4)中,所述通过麦克风检测用户声音,包括:
检测用户所发出的关键字语音,用于唤醒和启动兴趣程度分析,通过词语也是一个判断用户对当前视 野内物体感兴趣程度的分析维度之一。
进一步,方式(三)中,所述IR相机和RGB相机混合获取实景图像,和眼动交互意图预测用户感兴 趣的目标物体并图像识别的方式包括以下步骤:
(1)通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像。
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
(3)通过已训练好眼动交互意图模型预测下一时刻兴趣目标注视点的位置,提取注视点预测坐标位 置所在一定范围内的黑白图像,并执行步骤(4)。
(4)MR眼镜本地处理器和本地数据库对步骤(3)中红外摄像头捕获黑白图像进行AI图像分析,利 用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标 物体坐标。
(5)将目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点、或头 动凝视点、或手势识别、语音识别来选中当前物体。
(6)系统开启RGB(彩色)摄像头,RGB摄像头对用户当前点击选中的目标物体位置处进行对焦、 图像参数调节、放大以获得最优图像质量。
(7)MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像(局部图像),其中 用户可以手动编辑边缘框大小来优化选中图像。
(8)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
(9)当眼动注视点或头动凝视点到达预测的交互目标位置时,MR眼镜直接呈现相关运算结果和内容 信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,也 可以为用户自主预先编辑对应关系。
进一步,步骤(3)中,所述通过已训练好眼动交互意图模型预测下一时刻兴趣目标注视点的位置, 提取注视点预测坐标位置所在一定范围内的黑白图像。进一步,通过AI训练算法找出用户对某一目标进 行眼动交互前一时间段内用户产生的眼睛动作/状态与交互目标位置之间的关系。
其中,被用于训练交互意图模型中眼睛动作/状态数据包括但不限于1)前庭眼运动,2)汇聚/扩散运 动,3)平滑追视,4)长扫视和矫正扫视,5)瞳孔直径变化,6)注视时长。
可以根据诸如运动范围,速度分布,两只眼睛是否执行共轭(相对方向不同)运动以及头部或视野的 运动参数来区分每种运动类型。每种类型的眼睛运动都涉及不同的神经回路。不同的眼球运动涉及不同程 度的自愿(即意识控制)与非自愿(即反射)神经通路。在辨别眼睛信号的过程中,特别重要的是能够识 别传达意识意图的眼睛自愿运动。
1)前庭眼眼球运动通过使眼睛移动与头部旋转相同的角度但方向相反来补偿头部运动。这具有稳定 投射到眼睛中央凹区域的外部世界图像保持高分辨率的作用。具体的当用户正在注视某个物体的同时扭转 头部到左/右一侧,此时眼球会向与转头方向相反的方向偏转。尽管前庭眼运动本质上是自反的,但前庭眼 运动的检测可用于间接辨别头部运动的绝对位置。通常这是人类的主观意识才能够实现行为。
2)汇聚/扩散眼动用于独立对准每只眼的中央凹区域,以观察与观察者一定距离之外的物体。与其他 眼睛运动不同的是,汇聚/扩散运动是不确定的,其中每只眼睛向不同的方向运动。汇聚运动指的是双眼相 向运动汇聚至一点,双眼视线的夹角较大,扩散运动指的是双眼相反运动,双眼视线的夹角较大。例如, 当用户在注视远处和近处两个距离的目标物体时,人双眼的汇聚/扩散是不同的,在观察近处物体时相对处 于汇聚状态,双眼视线的夹角较大,在观察远处物体时相对处于扩散状态,双眼视线的夹角较小。通常只 有在用户在主观意识层面对某个物体具备明确的观察需求时才可以出现汇聚/扩散眼动用,在没有目标物体 的空间中,双眼很难控制双眼运动调节对焦深度。因此汇聚/扩散眼动可以间接的作为是人类才能够实现的 主观意识行为。
3)平滑追视眼睛运动是缓慢的,用户主观意识控制,且自愿的眼睛运动。可将移动目标对象的投影 保持在眼睛的中央凹区域上。因此,平滑追踪运动的整体速度通常对应于观察中的移动目标的速度。对于 大多数人来说,很难在不实际观察移动目标的情况下执行平稳的跟踪运动。换句话说,除非进行了观察者 的大量专业训练,否则在没有跟踪运动目标的能力的情况下试图进行平滑跟踪的尝试只会导致观察者进行 一个或多个眼跳运动。因此平滑追视眼动可以作为是人类的主观意识才能够实现行为。
4)扫视(眼跳)运动是快速运动,会突然改变眼睛的注视点。扫视是“弹道的”,即一旦开始,扫视所 覆盖的方向和距离仅由扫视发射控制。换句话说,即使在扫视开始和/或其执行期间目标的位置发生变化, 扫视期间也无法进行中间校正。扫视运动是人体产生的最快运动,达到了高达900°/秒的角速度。扫视角 大约大于20°时,通常会伴随头部运动,尽管个体之间差异很大。就速度分布而言,扫视也是“弹道”的。 响应意外的刺激,扫视的起始部分大约需要200毫秒。起爆导致进入快速加速阶段,在此阶段类似于其他 弹道速度曲线,峰值速度与行进距离大致成比例。扫视的运动阶段持续20到200毫秒,具体取决于所移 动的总角距离。通常,只要头部保持不动,扫视镜就不会使眼睛在扭转轴上旋转。扫视角大约大于20°时, 通常会伴随头部运动,尽管个体之间差异很大。通常用户通过眼睛注视点对准交互目标时,长距离扫视通 常覆盖目标距离的90%,然后是10%的校正扫视。向心扫视比离心扫视更准确选中目标。下冲或过冲后 进行的校正可能会出现较长或较短的延迟。校正扫视可以快速执行,也可能需要数百毫秒。视线方向落在 新的目标位置上时,有一个快速减速阶段。在非常短的延迟之后,大扫视通常会伴随至少一个较小的校正 扫视,以进一步接近目标位置。即使目标已经消失,也可能发生矫正扫视,从而进一步支持了眼跳运动的 投射弹道性质。如果目标仍然可见,则矫正扫视的频率会更高。
这些中间的眼睛运动包括一个或多个矫正扫视,眨眼,震颤,漂移。眼颤指的是瞳孔和角膜缘可能会 出现位移,当眼球运动到达目标目标时可能产生眼颤,其表现为阻尼振荡。这些运动的主要振荡频率通常 约为20赫兹。通常可以检测到约50-60毫秒的阻尼振荡。这样就可以观察1-3个这样的阻尼振荡。在该时 间段内会持续抑制跳音。否则,运动模糊将在观察到的场景中显而易见。眼睛的生理漂移,震颤和其他较 小运动的测量可以用作识别设备佩戴者的生理和心理状态的组件。这些运动对于确定和监测各种病理状况 以及药物和其他化合物的作用也很有价值。
进一步,步骤(3)中,所述构建眼动交互意图预测模型的方法,包括:
在眼动交互过程中需要确定眼睛运动是否“有意图”,并对眼睛运动进行分类。这通常与生理“非自 愿”和“自愿”眼动之间的区别有关。眼睛的非自愿运动不受意识控制,因此在与眼睛交互过程中帮助不 大。自愿的眼球运动在有意识的控制下,因此可用于在眼球信号形成过程中传达有目的的意图。
通过其他感测的数据来通知对目的性的确定。这种感官数据的示例包括头部移动,面部移动,手部移 动以及其他可量化的数据。此外,概述的上下文以及对象注视特定的上下文可以帮助确定目的。
为了对“有意图”眼动与“无意图”眼动进行分类,进而根据眼动交互意图进行交互预测,需要同时 考虑多种措施。这些度量可以包括扫视发射延迟,峰值扫视速度,扫视所覆盖的角距离,前庭眼运动,汇 聚/扩散运动,平滑追视,长扫视和矫正扫视,瞳孔直径变化,注视时长等。换句话说,这种分类通常是多 元的。此类数据的分类方法可以使用:1)统计和2)神经网络方法。
统计方法包括线性分类器,二次分类器和贝叶斯统计;建立眼动关注意图模型的人工智能训练包括有 标记的监督训练和无标记的无监督训练两种方式。监督学习可以用于机器学习。训练和验证数据集可以例 如通过使设备佩戴者在执行眼信号时实时指示眼动是否“有意图”来收集。用于获取此类数据的典型且易 于使用的设置涉及在进行有意图的眼动时按住计算机鼠标上的按钮。通常将具有已知结果的此类数据集分 为用于训练的数据集和用于验证的数据集。
同样,具有正确识别结果的数据集也可以用于神经网络或深度学习分类方法的训练和验证。训练神经 网络的方法,例如反向传播,在本领域中是众所周知的。具有大量中间层和互连关系的神经网络的应用通 常称为“深度学习”。这些非常适合根据眼动模式和其他感官输入来识别用户的意图。
当使用许多人工智能(AI)或基于神经网络的分类方法时,通常难以确定诸如相对重要性或不同输入 之间的相互作用之类的因素,或者很难插入概率信息来改善网络。在某些情况下这可能是不利的。但是, 一旦经过培训,基于神经网络的实现可能会非常快,并且在存储和功耗方面都非常高效。神经网络也可以 很容易地直接在固件逻辑中实现,而无需利用中央处理单元(CPU)资源。将训练数据输入卷积神经网络 模型,通过不断迭代对卷积神经网络模型进行训练,得到性能较好、稳定性较好的卷积神经网络模型,进 一步地可以将训练好的卷积神经网络模型确定为预测模型。
进一步,方式(四)中,所述低分辨率和高分辨率摄像头混合获取实景图像并识别的方式包括以下步 骤:
(1)通过MR眼镜的第一前置低分辨率摄像头实时捕获用户视觉前方实景影像。
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
(3)MR眼镜本地处理器和本地数据库对步骤(1)中低分辨率摄像头捕获低分辨率图像进行AI图像 分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记 录下目标物体坐标。
(4)系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。如果用户对当前选中 区域执行点击确认的交互行为,则执行步骤(6)。
(5)系统接受到确认交互指令后,开启第二高分辨率摄像头,高分辨率摄像头对用户当前点击确认 的目标物体位置处进行对焦、图像参数调节、放大以获得最优高清图像。
(6)MR眼镜从第二高分辨率摄像头捕获高清图像中截取已被AI算法框选的物体图像(局部图像), 其中用户可以手动编辑边缘框大小来优化选中图像。
(7)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
(8)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内 容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
进一步,步骤(1)中,通过MR眼镜的第一前置低分辨率摄像头实时捕获用户视觉前方实景影像; 具体为前置低分辨率摄像头包括分辨率较低的彩色摄像头、较低的红外摄像头。
通过使用低分辨率摄像头和高分辨率摄像头结合方式获取图像。在通常情况下优先使用低分辨率摄像 头需要长时间开启并获取场景图像,低分辨率摄像头通常使用较低的功耗。在步骤(3)-(4)中,计算机 系统在低分辨率摄像头获取的图像中检测到目标物体,并且该目标物体获得用户的交互指令后在步骤(3) 开启第二高分辨率摄像头,高分辨率摄像头对用户当前点击确认的目标物体位置处进行对焦、图像参数调 节、放大以获得最优高清图像。通过上述高低分辨率摄像头结合的方式可以有效的降低系统功耗。
进一步,方式(五)中,所述在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像并识别的方式 包括以下步骤:
(1)通过MR眼镜的物理红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景 黑白图像。
(2)通过MR眼镜的图像渲染装置(GPU)生成的全息影像被光学显示系统呈现,同时实时利用虚 拟摄像头捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像。
(3)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置物理摄像头和虚拟摄像头的画面中、全息空间中的注视点/凝视点坐标 位置。
(4)MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像和/或步骤(2)中虚 拟摄像头捕获虚拟全息影像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体, 并自适应的框选出图像中目标物体,记录下目标物体坐标。
(5)系统在目标物体位置呈现提示通知,并且将目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。根据注视点的位置和 /或深度确定用户关注的是物理世界目标还是虚拟世界目标,如果用户对当前物理世界目标交互区域执行点 击确认的交互行为,则执行步骤(6),如果用户对当前虚拟世界目标交互区域执行点击确认的交互行为, 则执行步骤(7)。
(6)系统接受到确认交互指令后,开启RGB(彩色)摄像头,RGB摄像头对用户当前点击确认的目 标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
(7)系统接受到确认交互指令后,虚拟摄像头被配置为截获高分辨率的目标物体全息图像,虚拟摄 像头可以获取与渲染装置生成的全息图质量相同的高清图像。
(8)MR眼镜从RGB摄像头和/或高清虚拟摄像头捕获彩色图像中截取注视点坐标位置的兴趣物体图 像(局部图像),其中用户可以手动编辑边缘框大小来优化选中图像。
(9)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
(10)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
进一步,步骤(2)中,通过在设备运行系统中设置虚拟摄像机,虚拟摄像机设置在MR眼镜的中心, 及用户在佩戴状态下了眉心位置,其虚拟摄像机的视角可以拍摄真人用户视野中的虚拟全息物体。实际中, 虚拟摄像机被设置为可以获取MR眼镜的图像渲染装置(GPU)生成的影像。附加或替换的虚拟摄像机可 以控制获取虚拟图像的分辨率和清晰度,在通常情况下较低的图像质量被优先选择,当确定需要被传输至 云端服务器被用于图像识别时,可以截选较高的图像质量,其目的在于在降低功耗的同时保证图像识别的 准确性,较低图像质量有助于降低计算机功耗。
进一步,步骤(10)中,服务器识别的全息内容包括例如文字、图像、虚拟人物形象、游戏形象等, 均是以图像的形式被识别,则可以自动使用OCR光学字符识别技术将图片中文字识别为可编辑文字/字符。
进一步,方式(六)中,所述通过检测用户的行为和生理数据计算兴趣程度,进而启动摄像头获取外 景图像并识别方式包括以下步骤:
(1)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
(2)检测用户对物体可能感兴趣的行为,包括眼动追踪装置检测眼睛运动、头动追踪装置检测头部 运动、运动追踪装置检测身体运动、麦克风检测用户声音、脑电波与已经训练好的交互意图模型匹配, 进而判断用户对当前注视位置的兴趣程度和,如果兴趣程度等于/超过阈值时执行步骤(3)。
(3)系统开启RGB(彩色)高清摄像头,RGB摄像头对感兴趣物体的目标物体位置处进行对焦、放 大、图像参数调节、放大以获得最优图像质量。
(4)MR眼镜从RGB摄像头捕获彩色图像中检测注视点坐标位置的兴趣物体图像(局部图像),利 用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,并根据程序 框选的图像范围截取目标物体的图像,其中用户可以手动编辑边缘框大小来优化选中图像。兴趣物体图像 上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息。
(5)MR眼镜直接呈现云端服务器传回的运算结果和内容信息,通过光学成像系统渲染呈现内容信息, 其中内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
进一步,步骤(2)步骤(3)中,通过检测到眼睛运动、头部运动、身体运动、声音来实时分析用户 当前的交互意图,和是否存在可能感兴趣的物体,及通过上述行为分析获得的兴趣程度作为启动物体检测 和图像识别的条件。例如系统的眼动追踪装置和头动追踪装置检测到用户头猛的一转,同时眼睛注视点长 距离扫视到达某一目标物体附近,在检测到校正扫视将注视点对准目标物体上,通过这一系列的行为动作, 系统判断用户对该目标物体具有很高兴趣程度,进而反馈计算系统启动图像识别(具体参见方式(二)步 骤四所述)。启动图像识别的过程中首先需要启动前置摄像头感兴趣物体的目标物体进行对焦、放大、图 像参数调节、放大以获得最优图像质量。在前置物理摄像头获得的图像中,通过已经训练好的物体特征库 识别图像中的至少一个物体,并自适应的框选出图像中目标物体,并根据程序框选的图像范围截取目标物 体的图像。其中应注意用户当前的注视点位置坐标应该在程序框选的图像范围内,则视为有效目标图像; 反之注视点不在框选的图像范围内,则不进行下一步。
进一步,方式(七)中,所述在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像中,通过检测 用户的行为和生理数据计算兴趣程度启动摄像头,再通过注视点的位置和/或深度来选择使用物理相机或虚 拟相机获取图像并识别的方式。
获取外景图像并识别的方式包括以下步骤:
(1)配置MR眼镜的物理摄像头被用于捕获实景图像。
(2)配置MR眼镜的图像渲染装置生成的全息影像被光学显示系统呈现,同时实时利用虚拟摄像头 捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像。
(3)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过 映射算法获取用户在一个或多个前置物理摄像头和虚拟摄像头的画面中、全息空间中的注视点/凝视点坐标 位置。
(4)检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装置 检测身体运动、麦克风检测用户声音、脑电波综合判断用户对当前注视位置的兴趣程度,如果兴趣程度等 于/超过阈值时执行步骤(5)。
(5)通过眼动追踪装置检测注视点的位置和/或深度确定用户关注的是物理世界目标还是虚拟世界目 标;如果用户对当前物理世界目标选中区域执行点击确认的交互行为,则执行步骤(6);如果用户对当 前虚拟世界目标选中区域执行点击确认的交互行为,则执行步骤(7)。
(6)系统接受到确认交互指令后,开启RGB(彩色)摄像头,RGB摄像头对用户当前点击确认的目 标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
(7)系统接受到确认交互指令后,虚拟摄像头被配置为截获高分辨率全息图像,虚拟摄像头可以获 取与渲染装置生成的全息图质量相同的高清图像。
(8)MR眼镜从RGB摄像头和/或高清虚拟摄像头捕获彩色图像中截取已被AI算法框选的物体图像 (局部图像),其中用户可以手动编辑边缘框大小来优化选中图像。
(9)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
(10)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
进一步,步骤(5)通过眼动追踪装置检测注视点的位置和/或深度确定用户关注的是物理世界目标还 是虚拟世界目标具体为。MR眼镜系统获取到眼动追踪装置发送的检测信息,检测信息包括眼球注视位置 的空间坐标的变化量、晶状体厚度大小变化量、瞳孔直径的变化量,其中注视点位置的空间坐标可以通过 眼球的移动计算获得X和Y轴坐标,通过双眼视线的夹角或/和晶状体厚度获得Z轴坐标,及视觉深度(眼睛 到注视物体的距离),因而形成空间坐标(X,Y,Z)。
方式(七)中,通过注视点的位置和/或深度来选择使用物理相机或虚拟相机的方式,避免了物理相机 或虚拟相机的同时运行,而是通过用户的注视点选择需要启动的相机。因此相比于方式(六)减低了功耗, 体验更加流畅,同时使得获取的目标图像更加精简(虚拟影像和实景图像互不干扰),间接降低了图像识 别的复杂度,提高了图像识精准度。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序, 供于电子装置上执行时,提供用户输入接口以实施所述的基于眼动注视点引导的图像识别方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时, 使得计算机执行所述的基于眼动注视点引导的图像识别方法。
本发明的另一目的在于提供一种实施所述基于眼动注视点引导的图像识别方法的MR眼镜
本发明的另一目的在于提供一种应用终端包括AR眼镜、VR眼镜、MR眼镜、XR眼镜等HMD近眼 显示设备,和智能汽车、飞机等具有驾驶舱场景的交通工具。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
(1)本发明提供的方式(一)使用同一红外摄像头的图像源进行目标检测,不仅降低了功耗,而且 在图像处理过程中避免了灰度图的处理,进一步降低功耗和处理时间。
(2)本发明提供的方式(二)在方式(一)的基础上增加了场景分析和行为分析,及通过场景的显 著性预测、兴趣程度分析、的预测实现了用户交互意图预测,进而省略了用户对目标物体明确的交互行为 (例如点击确认),进一步提高了产品体验。
(3)本发明提供的方式(三)通过交互意图预测的方式省略了用户确认点击的交互动作,在整体的 交互操作上减少了一步操作步骤。进而从效果上实现了在不需要用户操作点击的情况下,被识别物体的内 容信息自动呈现的技术效果,为用户提供了更智能、更舒适的产品体验。
(4)本发明提供的方式(五)不仅可以对眼睛注视的物理世界物体进行图像识别,还可以对MR眼 镜显示的虚拟全息内容进行捕获。其中全息内容也可能包含了大量用户可能感兴趣的信息,例如文字、图 像、虚拟人物形象、游戏形象等,因而在目标的识别不应局限于物理世界物体。
(5)本发明提供的方式(六)省略了需要始终开启前置摄像头获取图像的功能,通过检测用户对物 体可能感兴趣的行为作为启动图像识别的条件和指令,当判定用户对物体感兴趣时开启前置摄像头获取兴 趣物体的图像,进一步降低了功耗。
(5)本发明提供的方式(七)中,通过注视点的位置和/或深度来选择使用物理相机或虚拟相机的方 式,避免了物理相机或虚拟相机的同时运行,而是通过用户的注视点选择需要启动的相机。因此相比于方 式(六)减低了功耗,体验更加流畅,同时使得获取的目标图像更加精简(虚拟影像和实景图像互不干扰), 间接降低了图像识别的复杂度,提高了图像识精准度。
对比的技术效果或者实验效果。
问题(1),在当前国内外已公开的同类应用服务中需要全程开启彩色前置摄像头,这可能会拍摄和 存储下其他人的影像,这存在对其他人隐私权和个人肖像权的侵害,并且这类MR眼镜应用造成隐私安全 会给公众造成抵触情绪。例如国外一些公众场所(例如超市、商场等)曾禁止佩戴MR/AR眼镜。
因此在本发明实施例一中选用IR红外摄像头采集的黑白图像进行图像识别,这能够限制获取更多图 像信息,因为黑白图像不同于彩色图像,他缺少色彩这一维度的信息,这可以降低恶意传播和隐私侵害动 机,从而给公众更多的安全感。
问题(2),通常MR/AR眼镜为了能够使用一些应用(例如光学显示),三维信息感知功能是需要始 终开启的,那么再启动上述物体检测功能时,还需要启动彩色摄像头用于获取图像,这就相当于同时启动 彩色和红外两种摄像头,这会造成巨大的AR/MR眼镜功耗,同时AR/MR眼镜系统/应用运行卡顿,进一 步造成MR/AR眼镜体验差。
在本发明实施例一中,使用同一红外摄像头的图像源进行目标检测,不仅降低了功耗,而且在图像处 理过程中避免了灰度图的处理,进一步降低功耗和处理时间。
问题(3),在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,通过用户产生“感 兴趣行为”时注视点的位置为几何中截取局部图像。这种方法存在的弊端是1)相机截图存在延迟,2)截 图不准确,容易把一个目标物体图像一分为二,因而造成整个的体验不佳,程序迟缓,获取图像质量不佳, 图像识别不准确,交互体验不好。
本发明实施例一中,MR眼镜通过检测红外摄像头拍摄的黑白图像,进而获得对物理世界的初步了解, 获得至少一个物体的坐标。考虑到避免弹出无用的信息,本实施例而是通过“提示标签”来提示用户物体 的可交互性,当用户通过注视点选中目标并且充分表达了交互意愿时,切换高清彩色摄像头获得目标物体 的局部图像,物体局部图像上传服务器进行识别。由此利用红外摄像头和彩色摄像头交替使用平衡了隐私 安全、功耗性能、物体识别的精度。红外拍摄的黑白照片中,全部画面细节都将被识别,可以识别多种物 体,在这一环节中解决这里存在物体。彩色摄像头只获取用户注视点指定物体的图像区域,上传至服务器 的图片也仅仅识别用户注视点指定物体的图像区域,在这一环节中解决物体是什么?因此本方案的图像截 取、局部图像质量、图像识别精度更加的智能,自适应性更好。
《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,图像的识别能力是完全通过云端服 务器的算力进行计算的,然而在本发明实施例中是将图像识别的逻辑步骤拆分,将一定的图像处理能力放 在本地MR眼镜上实现的,服务器承担更为精细的识别和检索。及图像处理是通过本地和云端相互协作实 现的图像处理。通过本地算力承担一部分图像物体检测的另一好处为是的局部图像的截取更加智能。
方法二中,在方法一的基础上增加了场景分析和行为分析,及通过场景的显著性预测、兴趣程度分析、 的预测实现了用户交互意图预测,进而省略了用户对目标物体明确的交互行为(例如点击确认),进一步 提高了产品体验。
方法四中,在方法一的基础上增加低分辨率和高分辨率摄像头相互配合的眼动识图方法,进一步降低 了系统功耗。
问题(4),目前在国内外的公开专利中,提供了多种通过眼动追踪引导识别物理世界物体的方法, 但是还极少对虚拟全息目标进行识别的方法,在未来MR眼镜所呈现的是一个真实和虚拟相互叠加混合的 世界,全息对象往往更能吸引用户的注意力。但是如同现有的手机APP,不同的全息内容可能出自于各种 不同的app,因此在MR眼镜中需要一个统一的、可以适用于任何MR应用程序、可以获取不同MR应用 程序生成的全息对象的图像的方法,并对虚拟全息对象进行识别。
本发明实施例五中,提供了一种通过虚拟摄像机获取全息对象,并且进行识别的方法。
问题(5),在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,启动局部图像识别 程序,获取到人类生物电并识别出用户兴趣点时启动图像局部图像识别程序,兴趣识别条件包括:
A、对某一区域凝视时长超过阈值;B、对某一区域回视次数超过预设次数;C、对某一区域注视时眨 眼次数或眨眼行为达到预设标准;D、对某一事物产生规律性视觉注意模型;E、同一时刻脑电波检测模块 组件检测出用户对该视觉注视区域感兴趣;F、同一时刻心率、血压人体生物信息监测模块组件检测出用 户情绪发生变化数据;G、同一时刻人眼对当下注视事物产生瞳孔放大或缩小的生理反应数据;然而这种 机制条件有些生硬和过于绝对,无法为为用户提供更好的交互体验。
在本发明方式(二)和方式(三)、方式(六)中:方式(二)提出场景分析和行为分析预测用户感 兴趣的目标物体并开启彩色摄像头进行图像识别。方式(三)提出眼动交互意图预测用户预测下一时刻兴 趣目标注视点的位置并开始黑白摄像头进行图像识别,根据用户选择后开始彩色摄像头获取图片。
通过合适的AI算法对“有意图”眼动与“无意图”眼动、头动行为进行分类,进而根据眼动交互意 图进行交互预测,需要同时考虑多种措施。被用于机器学习的数据可以包括扫视发射延迟,峰值扫视速度, 扫视所覆盖的角距离,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正扫视,瞳孔直径变化,注视 时长等。
附图说明
图1A是本发明实施例提供的混合现实MR设备100的示例图。
图1B是本发明实施例提供的图1A中示出的MR设备100的框图。
图1C是本发明实施例提供的车载显示交互系统示意图。
图1D是本发明实施例提供的图1C的车载显示交互系统结构组件图。
图2A是本发明实施例提供的MR眼镜利用眼动追踪对识别图像进行选择的示例图。
图2B是本发明实施例提供的用户第一视角示意图和摄像头130捕获的图像数据245示意图。
图2C是本发明实施例提供的用户通过视线选中目标物体的示意图。
图2D是本发明实施例提供的,MR眼镜显示识别结果的示意图。
图3是本发明实施例提供的基于眼动注视点引导的图像识别方法流程图。
图4是本发明实施例提供的利用红外和彩色摄像头混合获取图像流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说 明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于眼动注视点引导的图像识别方法,下面结合附图对 本发明作详细的描述。
如图3所示,本发明实施例提供的所述基于眼动注视点引导的图像识别方法包括以下七种实现方式:
方式(一)中,红外和彩色摄像头混合获取图像的方式。
方式(二)中,所述IR相机和RGB相机混合获取实景图像,场景分析和行为分析预测用户感兴趣的 目标物体并图像识别的方式。
方式(三)中,所述IR相机和RGB相机混合获取实景图像,和眼动交互意图预测用户感兴趣的目标 物体并图像识别的方式。
方式(四)中,低分辨率和高分辨率摄像头混合获取实景图像并识别的方式。
方式(五)中,在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像并识别的方式。
方式(六)中,通过检测用户的行为和生理数据计算兴趣程度,进而启动摄像头获取外景图像并识别 的方式。
方式(七)中,在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像中,通过检测用户的行为和 生理数据计算兴趣程度启动摄像头,再通过注视点的位置和/或深度来选择使用物理相机或虚拟相机获取图 像并识别的方式。
下面结合实施例对本发明作进一步描述。
技术意义与发明点:
问题(1),在当前国内外已公开的同类在应用服务中需要全程开启彩色前置摄像头,这可能会拍摄 和存储下其他人的影像,这存在对其他人隐私权和个人肖像权的侵害,并且这类MR眼镜应用造成隐私安 全会给公众造成抵触情绪。例如国外一些公众场所(例如超市、商场等)曾禁止佩戴MR/AR眼镜。
因此在本发明实施例一中选用IR红外摄像头采集的黑白图像进行图像识别,这能够限制获取更多图像 信息,因为黑白图像不同于彩色图像,他缺少色彩这一维度的信息,这可以降低恶意传播和隐私侵害动机, 从而给公众更多的安全感。
问题(2),通常MR/AR眼镜为了能够使用一些应用(例如光学显示),三维信息感知功能是需要始 终启动的,那么再启动上述物体检测功能时,还需要启动彩色摄像头用于获取图像,这就相当于同时启动 彩色和红外两种摄像头,这会造成巨大的AR/MR眼镜功耗,同时AR/MR眼镜系统/应用运行卡顿,进一步 造成MR/AR眼镜体验差。
在本发明实施例一中,使用同一红外摄像头的图像源进行目标检测,不仅降低了功耗,而且在图像处 理过程中避免了灰度图的处理,进一步降低功耗和处理时间。
问题(3),在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,通过用户产生“感兴 趣行为”时注视点的位置为几何中截取局部图像。这种方法存在的弊端是1)相机截图存在延迟,2)截图 不准确,容易把一个目标物体图像一分为二,因而造成整个的体验不佳,程序迟缓,获取图像质量不佳, 图像识别不准确,交互体验不好。
本发明实施例一中,MR眼镜通过检测红外摄像头拍摄的黑白图像,进而获得对物理世界的初步了解, 获得至少一个物体的坐标。考虑到避免弹出无用的信息,本实施例而是通过“提示标签”来提示用户物体 的可交互性,当用户通过注视点选中目标并且充分表达了交互意愿时,切换高清彩色摄像头获得目标物体 的局部图像,物体局部图像上传服务器进行识别。由此利用红外摄像头和彩色摄像头交替使用平衡了隐私 安全、功耗性能、物体识别的精度。红外拍摄的黑白照片中,全部画面细节都将被识别,可以识别多种物 体,在这一环节中解决这里存在物体。彩色摄像头只获取用户注视点指定物体的图像区域,上传至服务器 的图片也仅仅识别用户注视点指定物体的图像区域,在这一环节中解决物体是什么?因此本方案的图像截 取、局部图像质量、图像识别精度更加的智能,自适应性更好。
《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,图像的识别能力是完全通过云端服 务器的算力进行计算的,然而在本发明实施例中是将图像识别的逻辑步骤拆分,将一定的图像处理能力放 在本地MR眼镜上实现的,服务器承担更为精细的识别和检索。及图像处理是通过本地和云端相互协作实 现的图像处理。通过本地算力承担一部分图像物体检测的另一好处为是的局部图像的截取更加智能。
方法二中,在方法一的基础上增加了场景分析和行为分析,及通过场景的显著性预测、兴趣程度分析、 的预测实现了用户交互意图预测,进而省略了用户对目标物体明确的交互行为(例如点击确认),进一步 提高了产品体验。
方法四中,在方法一的基础上增加低分辨率和高分辨率摄像头相互配合的眼动识图方法,进一步降低 了系统功耗。
问题(4),目前在国内外的公开专利中,提供了多种通过眼动追踪引导识别物理世界物体的方法, 但是还极少对虚拟全息目标进行识别的方法,在未来MR眼镜所呈现的是一个真实和虚拟相互叠加混合的 世界,全息对象往往更能吸引用户的注意力。但是如同现有的手机APP,不同的全息内容可能出自于各种 不同的app,因此在MR眼镜中需要一个统一的、可以适用于任何MR应用程序、可以获取不同MR应用程序 生成的全息对象的图像的方法,并对虚拟全息对象进行识别。
本发明实施例五中,提供了一种通过虚拟摄像机获取全息对象,并且进行识别的方法。
问题(5),在《一种基于AR智能眼镜的局部图像识别方法》CN 109086726中,启动局部图像识别程 序,获取到人类生物电并识别出用户兴趣点时启动图像局部图像识别程序,兴趣识别条件包括:
A、对某一区域凝视时长超过阈值;B、对某一区域回视次数超过预设次数;C、对某一区域注视时眨 眼次数或眨眼行为达到预设标准;D、对某一事物产生规律性视觉注意模型;E、同一时刻脑电波检测组件 检测出用户对该视觉注视区域感兴趣;F、同一时刻心率、血压人体生物信息监测组件检测出用户情绪发 生变化数据;G、同一时刻人眼对当下注视事物产生瞳孔放大或缩小的生理反应数据;然而这种机制条件 有些生硬和过于绝对,无法为为用户提供更好的交互体验。
在本发明实施例六和实施例七中,提出通过眼睛运动、头部运动、身体运动、声音来实时分析用户当 前的交互意图,和是否存在可能感兴趣的物体,及通过上述行为分析获得的兴趣程度作为启动物体检测和 图像识别的条件。通过目前已知任何合适的AI算法对“有意图”眼动与“无意图”眼动、头动行为进行分 类,进而根据眼动交互意图进行交互预测,需要同时考虑多种措施。被用于机器学习的数据可以包括扫视 发射延迟,峰值扫视速度,扫视所覆盖的角距离,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正 扫视,瞳孔直径变化,注视时长等。
图1A示出了混合现实(MR)设备100的示例,图1B示出了混合现实(MR)设备100的示例。图1B示 出了图1A中示出的MR设备100的框图。MR设备100是头戴式MR设备,旨在在普通使用期间佩戴在用户的 头上,包括头戴式显示器(HMD)设备。但是,本公开显然不限于头戴式MR设备,并且本文描述的技术 可以与其他类型的MR设备一起使用,包括但不限于智能手机设备,平板计算机,笔记本计算机和/或系统, 包括配置为提供混合现实功能的平视显示器。混合现实是指一种允许虚拟图像与显示器中的现实世界物理 环境混合的体验。例如,可以标识真实世界的对象和/或真实世界的空间,并用相应的虚拟对象来增强它们。 可以使用例如虚拟现实或增强现实技术来实现混合现实。
MR设备100包括用于将图像显示给MR设备100的用户的显示子系统120。如图1A所示,显示子系统120 旨在靠近用户的眼睛,并且包括透明的HMD设备,该透明的HMD设备包括一个或多个透明或半透明的光 学透镜122,其被布置为使得图像可以被投影到透明透镜上。全息影像由位于透视透镜122内的图像生成元 件(例如,透视OLED显示器)生成。佩戴MR设备100的用户可以看到真实世界的实际直接视图(而不是 图像)透过透明镜头122,并同时查看虚拟对象(可以称为虚拟图像或全息图),这些对象可以增强用户 对真实空间的直接观看。注意,本公开明确地不限于使用透视显示设备的MR设备。光学透镜122可以通过 各种波导技术来控制眼睛的图像的照明和/或获取。更具体地,诸如由Digilens Inc.生产的那些可切换的布 拉格光栅(SBG),电可切换的液晶光栅,表面起伏光栅(SRG),可切换的波导显示器或基于MEMS反 射镜(即,光束扫描)设备可以当光线指向眼睛时,光学透镜122可以用来控制光源的位置和/或在空间上 选择从眼睛收集的光。照明源(包括单个光源(例如,发光二极管,LED)和/或检测器,包括单个检测器 (例如,光电二极管))可以用于照明和/或获取图像。照明源可能是不连贯的(例如,LED)或相干光源, 包括超低功率(为确保眼睛安全)二极管激光器。可以通过电子选择性波导(例如SBG,SRG,液晶,MEMS 镜)提供空间分辨率。照明和图像捕获可以附加地或替代地涉及所谓的“热镜”,Fraunhoffer透镜,微透镜 阵列,波导组合器,全内反射(TIR)全息波导和/或全息透镜或其他光学器件的反射或折射。
在一些实施方式中,显示子系统120可以是不透明的,并且在用户的全部或部分视场中不允许用户通 过显示子系统120直接查看场景。这样的实施方式包括但不限于这些增强现实设备被布置为在MR设备100 的前面显示物理空间的可视图像,并添加了虚拟对象以增强物理空间的显示,虚拟现实设备和虚拟现实设 备被布置为在与MR设备100前面的物理空间中的现实世界对象相对应的位置处显示虚拟对象。在一些实现 中,MR设备100可以体现在手持移动设备中以显示为对象。在诸如LCD面板的显示设备上的增强。在这样 的实施方式中,手持移动设备可以被布置为提供“窗口”,其中可以显示针对MR设备100周围的场景的虚 拟扩增。
MR设备100还包括一个或多个面向外部的图像传感器(前置摄像头)130,其被配置为获取MR设备100 周围和/或前方的真实场景的图像数据。前置摄像头130可以包括一个或多个更多的数字成像相机132被布置 为捕获二维视觉图像。在一些实施方式中,两个成像相机132可用于捕获立体图像。前置摄像头130还可包 括一个或多个深度相机134,例如但不限于飞行时间深度相机,其被布置为捕获深度图像数据,例如提供 估计的和/或深度的深度图。或从MR装置100到深度相机134的各个视场(FOV)的测量距离。可以将经由 深度相机134获得的深度图像数据配准到其他图像数据,诸如经由成像相机132同时捕获的图像。面向外的 图像传感器130可以被配置为捕获各个图像和/或序列。图像可以配置的帧速率或帧速率。在一些实施方式 中,与MR设备100相关联的前置摄像头130或其他传感器可以被配置为评估和/或识别外部条件,包括但不 限于一天中的时间,照明的方向,环境,温度和其他。外部条件可以向MR设备100提供附加因素以确定要 显示给用户的虚拟图形元素的类型。
MR设备100可以进一步包括眼动追踪系统140,该眼动追踪系统140被配置为检测用户的每只眼睛的凝 视方向的传感器数据。眼动追踪系统140可以被布置为以任何合适的方式确定用户的每只眼睛的视线方向。 参照图1A和1B,眼动追踪系统140包括一个或多个闪烁源142,例如红外光源,其被布置成使闪烁的光从用 户的每个眼球反射,以及一个或多个图像传感器144。捕获用户每个眼球的图像。从经由一个或多个图像 传感器144收集的图像数据确定的来自用户眼球的闪烁变化可以用于确定凝视的方向。进一步,从用户的 眼睛投影的注视点与外部显示器相交的位置可以用于确定用户注视的对象或位置(例如,由显示子系统120 显示的虚拟对象)。眼动追踪系统140可以具有任何合适数量和布置的闪光源和图像传感器。在一个非限 制性示例实施例中,每只眼睛使用四个闪烁源和一个图像传感器。此外,在一些实施方式中,眼动追踪系 统140可以被配置为协助MR设备100更准确地识别感兴趣的现实世界对象并将这些对象与虚拟应用程序相 关联。通过眼动追踪装置捕获眼睛运动数据,检测眼睛动作,计算眼睛的瞳孔大小、虹膜图像、眨眼频率、 单眼眨眼、眼脸闭合、视线、眼跳轨迹、注视时长,当注视时长超过一定时长或眨眼,则对某一功能的UI 位置进行点击确认指令。
进一步,所述眼动追踪装置的眼动追踪方法包括但不限于:
1)通过接收眼睛反射红外光线,计算瞳孔中心与角膜中心的连线进行眼动追踪。硬件包括至少一个 不可见红外光源、微型摄像头、反光热镜、光波导镜片。
2)另一种眼动追踪技术实施例为通过捕获眼睛图像或者计算视网膜的影像(毛细血管、中央凹)或 者视网膜反射光的强度进行眼动追踪。硬件包括不可见红外光源、光敏传感器、MEMS微机械系统反射镜、 光学导光元件(例如光波导镜片)。
3)另一种眼动追踪技术实施例为通过发射结构光对眼睛创建模型,计算眼睛模型的视觉中心进行眼 动追踪。结构光红外图案投影器将一定数量的不可见的光点投影到被测物体上,再根据红外相机接收到的 反射光点,就可以计算得到人眼深度图。RGB摄像头拍摄的2D人脸结合计算的深度人眼信息,经过算法处 理就可以绘制出精确细致的3D目标物体。
4)另一种眼动追踪技术实施例为通过接收眼睛角膜的反射光线,计算角膜中心反射光的强度最大的 时刻来进行眼动追踪。硬件包括不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片, 光波导镜片可以配置为靠近眼睛的一层或多层光波导进行眼睛图像的获取和传导,波导中的输入衍射耦合 器将眼睛图像耦合,眼睛图像光线在光波导中传导,同时图像传感器配置在光波导输出衍射耦合器的光线 出射端。
5)附加地或替代地,用于跟踪眼睛运动的设备可以被包含在隐形眼镜内或与隐形眼镜结合操作。此 外,该装置可以植入眼睛,眼窝内,或附着在视神经和/或肌肉上以跟踪运动。
作为附加示例,该眼动追踪设备可以被嵌入在智能电话,平板电脑,计算机,智能手表或任何其他远 程对象或位置中,包括计算机,显示器,汽车仪表板,标牌或其他人佩戴的可穿戴设备。在这些情况下, 与头戴式可穿戴设备相比,眼睛的成像通常在距眼睛更大的距离处进行。当用户在设备的大致方向上看时, 一个或多个照相机或感测设备用于从这样的距离监视眼睛的运动。
MR设备100可以包括位置子系统150,该位置子系统150被布置为提供MR设备100的位置。位置子系统 150可以被布置为基于从导航卫星系统接收的信号来确定当前位置,例如但不限于GPS(美国),GLONASS (俄罗斯),Galileo(欧洲)和CNSS(中国),以及增强此类信号的技术,例如但不限于增强GPS(A-GPS)。 位置子系统150可以被布置为基于标识发射设备的射频(RF)信号和为这种设备确定的位置来确定位置。 举例来说,Wi-Fi,蓝牙,Zigbee,RFID,NFC和蜂窝通信包括可用于位置确定的设备标识符。MR设备100 可以被布置为使用由位置子系统150提供的位置作为近似位置,其基于由其他传感器收集的数据而被完善。 MR设备100可以包括音频硬件,音频硬件包括被布置为检测声音的一个或多个麦克风170,诸如来自MR设 备100的用户的口头命令,和/或被布置为将声音输出到扬声器的一个或多个扬声器180。用户,例如口头查 询,回复,说明和/或信息。
MR设备100可以包括一个或多个运动传感器160,其被布置为测量和报告MR设备100的运动作为运动 数据。在一些实施方式中,运动传感器160可以包括惯性测量单元(IMU),惯性测量单元(IMU)包括加 速度计(例如3轴陀螺仪),陀螺仪(例如3轴陀螺仪)和/或磁力计(例如3轴磁力计)。MR设备100可以 被布置为使用该运动数据来确定MR设备100的位置和/或取向的改变,和/或相对于MR设备100的场景中的 物体的位置和/或取向的各自的改变。面对式图像传感器130,图像传感器144,位置子系统150中包含的传 感器,运动传感器160和麦克风170,这些传感器包含在或耦合到头戴式MR设备中100,可以单独或共同作为头戴式传感器使用。通过这种头戴式传感器收集的数据反映了用户头部的位置和方向。
MR设备100还包括控制器110,该控制器110包括逻辑系统112,数据保持系统114和通信系统116。逻辑 子系统112可以包括例如被配置为执行指令并进行通信的一个或多个处理器。图1和图2中所示的MR装置 100的其他元件具有相同的结构。图1A和1B根据这样的指令来实现涉及MR设备100的本公开的各个方面。 这些方面包括但不限于配置和控制设备,处理传感器输入,与其他计算机系统通信和/或显示虚拟设备。数 据保存子系统114包括一个或多个存储设备(例如但不限于DRAM设备)和/或一个或多个存储设备(例如 但不限于以下对象)。闪存设备)。数据保存子系统114包括其上存储有可由逻辑子系统112执行的指令的 一种或多种介质,其使逻辑子系统112实现涉及MR设备100的本公开的各个方面。这样的指令可以被包括 为一部分。操作系统,应用程序或其他可执行程序。通信子系统116被布置为允许MR设备100与其他计算 机系统通信。这样的通信可以经由例如Wi-Fi,蜂窝数据通信和/或蓝牙来执行。这些指令使逻辑子系统112 实现涉及MR设备100的本公开的各个方面。这样的指令可以被包括为操作系统,应用程序或其他可执行程 序的一部分。
生物特征传感器190包括一个或多个生物特征传感器(例如,用于测量皮肤电反应的皮肤电反应传感 器,心率监测器,用于测量皮肤表面温度的皮肤温度传感器)。用于测量大脑电活动的脑电图(EEG)设 备,用于测量心脏电活动的心电图(ECG或EKG)设备),麦克风(例如,麦克风108)或其他用于测量 语音音量,语速等的声音传感器,光传感器,光学扫描仪等。
缓冲器195可以被配置为记录视频/音频以支持情绪/认知状态触发的视频记录。
另外,输入/输出设备748可以包括一个或多个输入接口,其可以包括键盘,小键盘,鼠标,麦克风, 触摸传感器,触摸屏,操纵杆,控制按钮,滚动按钮,照相机,神经接口或任何其他合适的设备。以产生 定义用户与电子设备706的交互的信号和/或数据。作为示例而非限制,输入/输出设备748可以包括显示器 (例如,全息显示器,平视显示器,保护器,触摸屏屏幕,液晶显示器(LCD)等),扬声器,触觉界面 等。
将会理解,MR设备100是作为示例提供的,因此并不意味着是限制性的。因此,应当理解,在不脱离 本公开的范围的情况下,MR设备100可以包括除了所示的传感器,照相机,麦克风,输入设备,输出设备 等之外的附加和/或替代的传感器,照相机,麦克风,输入设备,输出设备等。此外,在不脱离本公开的范 围的情况下,MR设备及其各种传感器和子组件的物理配置可以采取各种不同的形式。
图1C是根据本公开的至少一个实施例的车载显示交互系统。图1C中,用户驾驶车辆视角画面如620所 示,在所述的一个车载显示交互系统实施例中,包括但不限于车载显示系统621,眼动追踪装置622,实体 键盘623,车载前置相机624以及车载处理器625等。
在该所述实施例中,车载处理器625可以处理来自车载前置相机624捕获的车辆前方路况画面及信息, 并生成特殊图文信息发送至车载显示器621进行显示,例如路线导航、路障/路况报警、变道提示、限速提 示等等。同时眼动追踪装置622可以实时捕获驾驶员眼睛注视点的,映射在车载显示器621上,用户可以通 过注视点对显示器显示的虚拟界面进行交互,并结合实体按键623进行输入/控制,例如实现驾驶路线规划、 接听/拨打电话、查看天气信息等交互操作。
所述车载显示器可以包括但不限于平行显示器(HUD)或具有增强现实系统的平行显示器(AR-HUD), 驾驶员信息控制台(DIC),基于投影的显示器,信息娱乐单元或主机单元(HU)的显示器,透视/透明 液晶显示器,智能眼镜显示器和/或电致变色显示器等。在示例中,显示器是车辆的窗户/挡风玻璃,可能 不是车辆的所有窗户,并且可能是不透明的,例如车辆的圆顶屋顶或车辆前仪表板或侧面板。在微处理器 的控制下,显示器的光引擎可以生成车辆路况警报和/或所确定的导航预测路径和/或用户客户端交互界面 和/或车辆状况信息的二维(2D)或三维(3D)图形或文字视图,并传输至显示器显示。
根据示例,车载显示系统的交互输入系统可以包括但不限于触屏输入、手势识别输入、语音识别输入、 实体按键输入、眼动追踪输入等等。触屏输入指用户通过手触碰显示器表面进行输入的交互方式;手势识 别输入指通过被配置在车内任意能够拍摄到用户手部交互动作位置的手势识别摄像头进行输入的方式;语 音识别输入指通过被配置在车内的语音收录识别装置对用户发出的指令进行识别控制交互的输入方式;实 体按键输入指通过安装在车内例如方向盘、操作盘等处的实体按键来控制交互;眼动追踪输入指通过安装 在车内任意能够拍摄/捕获用户眼睛投影在显示屏上的注视点的眼动追踪装置识别用户眼睛的动作进行交 互的方式。
图1D是图1C的车载显示交互系统结构组件图。参照图1C,根据本公开的至少一个实施例。图1D中, 车载显示器621与车载处理器625进行通信,显示和呈现处理器处理的虚拟交互界面给驾驶员。眼动追踪装 置622将捕获到的驾驶员眼睛注视点信息传输给处理器,以进行眼动数据分析或提供眼动交互反馈。实体 按键623作为一种便捷交互弥补了眼动交互的缺陷,保证用户驾驶安全。车载前置相机624与车载处理器625 进行通信以提供车辆行驶时前方路况图像和/或信息,处理器进行处理以通过显示器反馈和提醒用户。存储装置626可以是硬件存储设备,例如基于压板的存储设备,固态存储设备或其他非暂时性的,或长期存储 设备。存储装置626可以在其上存储指令以执行一种或多种方法或本文描述的方法的一部分。
实施例一:如图4所示,红外+彩色摄像头混合获取图像
S101:通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像。
S102:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
S103:MR眼镜本地处理器和本地数据库对S101中红外摄像头捕获黑白图像进行AI图像分析,利用已 经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体 坐标。
S104:系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。如果用户对当前选中 区域执行点击确认的交互行为,则执行S105。
S105:系统接受到确认交互指令后,开启RGB(彩色)摄像头,RGB摄像头对用户当前点击确认的目 标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
S106:MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像(局部图像),其中用 户可以手动编辑边缘框大小来优化选中图像。
S107:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S108:MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
S103:MR眼镜本地处理器和本地数据库对S101中红外摄像头捕获黑白图像进行AI图像分析,利用已 经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体 坐标。
物理空间可以与一个或多个分类(也可以称为类型,标签或标签)相关联。例如,物理空间200可以 与诸如“封闭空间”,“房间”,“客厅”和“内部空间”的分类相关联。物理空间的分类可以与一个或 多个活动和/或相关联。在物理空间中通常发生或执行的活动类型。物理空间的分类可以与物理空间通常使 用或包括的一个或多个对象和/或对象类型相关联。MR设备250可以被配置为自动确定物理空间的位置和/ 或边界,并且可以被配置为自动对物理空间进行分类,如下面更详细地讨论的。物理空间的自动分类可以 从一般分类开始,并且随着时间的流逝,更具体的分类可能会替换或添加到更一般的分类中。例如,起初,MR设备250通常可以将物理空间200分类为“封闭的房间”,后来又收集了关于物理空间200的足够的信息 以将其分类为“客厅”。位置,边界和/或分类可以手动指定和/或修改物理空间,包括使用MR设备250。
具体说明:
S101:通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像传送至图像识别模块;
进一步,MR眼镜的红外摄像头将物理世界构建三维空间具体为:(1)三维信息感知:MR眼镜通过 视觉传感器感知三维环境信息,可以使用任何目前已知的空间感知的三维环境扫描算法。例如所述传感器 包括但不限于IR红外摄像头,也可以是TOF或者结构光深度摄像头,但是选择不同的摄像头也决定了接下 来算法的复杂程度。(2)三维场景重构,通过视觉传感器所获得的环境信息实时对场景进行三维重构。 优先的通过SLAM算法在实时构建三维场景的同时,能够准确地定位拍摄相机(或MR眼镜/用户)的位置。 将构建虚拟三维空间与物理世界做空间拟合。
进一步,同时实时利用红外摄像头捕获实景黑白图像具体为,使用上述三维信息感知的同一红外摄像 头获得的黑白图像传送至图像识别模块。
原因:本发明实施例中充分考虑了公众隐私安全的因素,因而使用红外摄像头。原因在于,目前国内 外大量AR/MR眼镜发明中是通过RGB彩色前置摄像头实时采集用户视野前方画面,进而对彩色画面中图像 进行物体检测/目标识别/图像识别,进而通过图像识别结果向用户提供服务,例如信息推送、应用启动、 广告推荐等。
S102:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在至少一个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置;
MR眼镜的眼动追踪设备可以使用户的眼睛的至少一部分(诸如瞳孔,虹膜或巩膜)成像并且识别用 户的注视的方向或位置。然后,可以将用户注视的方向或位置映射至近眼显示器上和/或虚拟环境中的位置。 光标可以与注视位置相关联,以允许用户通过查看该位置来突出显示或选择虚拟环境中的位置。
在其他本发明实施例中,注视跟踪设备可以包括陀螺仪,加速度计,多个视觉传感器以对位置进行三 角测量,或其他允许测量MR眼镜相对于虚拟环境的方向和/或位置的设备。例如,用户的“注视”可以是 从MR眼镜向前投射的射线,以通过将用户的头部位置和取向近似为代表他们的注视方向来近似用户的注 视。在一些示例中,这样的头部跟踪“注视”可能比眼动追踪注视更简单,因为用户在其视场中保持自由 浏览,而不会无意中移动注视位置光标。在其他示例中,由于用户在与虚拟环境的交互过程中自然会看着 用户感兴趣的任何对象,因此眼动追踪的目光可能更为直观。
在本发明提供的实施例中,在全息三维空间中,可以通过沿眼动追踪设备检测到的用户注视的方向投 射来自MR眼镜的射线来测量注视位置,并且注视位置可以是与虚拟环境或共享环境的表面进行交互。例 如,射线可以与虚拟元件的上表面相互作用,并且注视位置可以被测量为在虚拟元件的上表面上已经响应。 在其他示例中,射线可以与物理对象(例如,用户面前的桌子表面)相互作用。注视位置可以被测量为在 物理平台的表面上已经响应。
在其他实施例中,在三维空间中,可以使用检测到的每个用户眼睛的注视的焦距来测量注视位置。例 如,基于用户正在注视的物体的距离,检测到的每只眼睛的眼睛位置和相关的注视方向将是不同的。每只 眼睛的不同注视位置可以允许计算用户的焦深。使用用户注视的焦深来测量注视位置可以允许注视位置位 于空间中,而不是位于(虚拟或物理)表面上。
在本发明提供的实施例中,在前置摄像头中,前置摄像头拍摄用户视觉前方真实物理世界,经过图像 校准,前置摄像头视场角/角度被配置为等于或大于用户视场角。
进一步,S102中,所述将用户眼睛视线坐标映射于MR眼镜的混合现实空间中或/和光学显示器坐标 系中,或/和映射在一个或者多个摄像头中。映射于MR眼镜的混合现实空间中和光学显示器坐标系中被用 于是计算机获取用户在虚拟世界中的注视对象,映射在一个或者多个物理摄像头坐标系中被用计算机获取 用户在物理世界中的注视对象。
获得可用于计算机处理的注视点。注视点可以呈现视觉反馈(可见注视点),及以动态光标的形式光 学成像屏幕上呈现的可见的图形,也可以是不呈现视觉反馈。特别地,在优选实施例为不呈现视觉反馈, 原因是有时候用户希望屏幕中的内容无任何物体遮挡,有一个光标会使用户始终跟随其视点运动会造成一 些不好的体验(例如狗咬着狗尾巴转圈的效果)。
所述一种动态光标是映射注视点坐标的光标,可被称作眼动光标/注视点光标/注视光标,为了方便技 术方法的描述,下文可直接简称光标。所述眼动光标可以具有圆形、矩形/圆角矩形、三角形/圆角三角形、 以及其他多边形/圆角多边形等形状,在这些形状中,优选形状为圆形。所述眼动光标的大小可以根据用户 的使用习惯或者交互界面的设计和布局来确定。
S103:MR眼镜本地处理器和本地数据库对S101中红外摄像头捕获黑白图像进行AI图像分析,利用已 经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体 坐标。具体为:
利用MR眼镜终端的本地处理器运行预先训练好的特征数据库识别图像中兴趣物体,其中MR眼镜的前 置摄像头拍到的图像被配置为与用户眼睛所看到的物理世界影像画面一致(相机视场角与人眼视场角一 致,已经被校准过)。在对象检测后,根据图像识别和图像分割结果在对象外围设置边界框图。边界框被 用于裁剪照片的范围,边界框范围外的图像将被舍弃,间接的在云端服务器上执行物体识别过程中,并且 可以避免在边界框外部的区域上执行物体识别过程,有效的提高了识别速度与计算量。
其中,MR眼镜本地的存储器存储着被用于图像识别的数据库样本,终端的数据库样本可以是全部数 据中的一部分,总数据库存储在云端服务器中,终端的部分数据库被配置为生活中常见的特征物体、识别 频率较高的物体等。另外的本地数据库可以定期接收云端服务器的样本数据库更新。
其中,前置摄像头拍到的物理世界图像数据(诸如视觉图像数据和/或深度图像数据)已经经过了一定 的预处理程序,预处理例如执行图像数据的过滤,校正或其他预处理。在一些示例中,图像预处理器可以 基于视觉和/或深度图像数据将图像数据分割成区域。
进一步,通过MR眼镜250的对象检测模块真实世界图像中的对象进行AI识别和分类,并确定由MR设 备250观察到的场景中的真实世界的对象的位置和/或姿势。在某些真实世界中不识别视觉标签(例如,QR 码或条形码)或其他标记,以标记或附加到真实对象上。对象分类器被配置为从MR设备250接收图像数据 并且使用已训练好的一个或多个模型数据识别红外相机捕获的真实世界对象。对象分类系统被配置为使用 机器学习和推理技术来基于图像数据识别和/或分类真实世界的对象。各种已知的计算机对象识别技术来识 别现实世界场景的图像中的对象。在一些实施例中,对象识别可以使用基于外观的方法,该方法将图像与 已知对象的参考图像进行比较以识别对象。基于外观的方法的示例包括边缘匹配,灰度匹配,接收场响应 的直方图等。在一些实施例中,对象识别可以使用依赖于匹配对象特征和图像特征的基于特征的方法。基 于特征的方法的示例包括姿势聚类,几何哈希,尺度不变特征变换,解释树等。系统可以结合使用一种或 多种对象识别方法以增强对象识别的准确性。对象检测模块可以被配置为执行图像数据的语义分割或语义 标记,可以使用诸如DeepMask和SharpMask之类的图像分割技术来识别对象,并使用诸如MuiltiPathNet之 类的图像分类技术对对象进行分类。对象检测模块可以被配置为从云端服务器的对象分类系统获得一个或 多个模型,即将云端机器训练好的现实物体特征模型数据同步终端MR设备中,这样MR眼镜可以用本地 较小的处理器运算量和数据库容量来执行现实世界中的对象识别和/或分类。
其中,所述“一个或多个对象检测/分类模型”可以各自指定用于机器学习算法(例如,卷积神经网络 (CNN)),一个或多个决策树的参数(例如,权重值)或随机森林,经过培训可以检测和/或分类提供给 机器学习算法的图像数据中捕获的现实世界对象。
S104:系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。如果用户对当前选中 区域执行点击确认的交互行为,则执行S105。
系统在目标物体位置呈现提示通知,该通知可以是以下各项中的一项或多项:弹出通知,声音通知, 振动,基于对象的内容共享用户界面中的通知文本或图标,社交媒体服务中的通知消息,文本消息,一旦 检测到目标对象,系统就会使用户的设备发出声音或振动。在一些实施例中,用户可以单独配置通知的类 型以接收与用户相关联的每个对象和/或对象类别。在一些实施例中,用户可以单独配置是否接收与用户相 关联的每个对象和/或对象类别的通知。用户可以配置要接收的通知类型。
在另外一种实施例中,还可以使用“通知模块”对目标物体位置呈现提示通知,该通知模块使MR眼 镜系统的OS可以将物体识别结果与应用程序匹配,再将通知与已在OS中注册的应用程序对象进行匹配, 从而将对象标识为通知的目标。OS可以通过例如将通知有效负载中包含的上下文标识符(ID)与系统中注 册的所有对象的上下文ID进行比较,并找到具有匹配上下文ID的对象来执行此步骤。在将对象标识为通知 的目标后,操作系统可以调用与对象的应用程序(或与图像中物体)关联的特殊通知处理程序,但与应用 程序的主过程分开。例如,此通知处理程序可以是与应用程序的主要可执行文件不同的可执行文件。然后, 通知处理程序可以执行代码(例如,由应用程序开发人员定义),以在系统UI中(例如,与对象并排,在 对象之上等)相对于对象在上下文中处理和呈现通知。
进一步,S104中,所述眼动光标与各个交互目标的感应区之间的接触情况的实时检测方法包括:客户 端软件或内部系统软件在运行时加载检测眼动光标与交互目标及其感应区之间接触情况的可执行代码程 序组件。通过软件程序实现眼动光标与任意交互目标感应区的接触反馈,反馈信息包括光标与目标感应区 接触的起止时间、光标与各个目标感应区重叠部分的面积、光标到交互目标的几何中心距离等,通过上述 反馈信息检测接触情况。
进一步,S104中:所述交互目标设置感应区的设置方法具体为:通过步骤S103中物体检测后绘制出的 边缘框自动添加交互(碰撞)属性。将边缘框图形与注视射线相对应,形成碰撞体属性,进而使该图形成 为感应区域。
所述用户用户的交互指令具体包括:眼动交互、手势识别交互、外设控制器、有声/无声语音识别、头 动交互。
(1)MR眼镜的眼动追踪装置捕获眼睛运动数据,检测眼睛动作,计算眼睛的瞳孔大小、虹膜图像、 眼跳轨迹以及注视时长等,当注视时长超过一定时长,则视为对某一位置进行了对应眼球的行为动作,例 如对交互界面中的RGB摄像头的UI按钮做出了凝视对应点击操作(眼睛行为动作)的动作,进而开启RGB 摄像头。
(2)MR眼镜的手势识别组件检测手部做出特定的动作,例如手势识别装置接收到用户手部的运动信 息,或识别手部特定的形状,与上、下、左、右滑动、放大、缩小、点击以及关闭等控制选项相关联,进 而控制系统开启RGB摄像头。
(3)通过操控设备的含有无线信号传输的移动控制器(3自由度或6自由度),例如握持按键式控制 器、穿戴式手套以及指套控制器等,向MR眼镜发射控制信号,通过操作交互界面,点击UI按钮开启RGB 摄像头,其中包括6DoF加速度传感器追踪技术和6DoF电磁追踪技术手柄。
(4)通过MR眼镜的有声或无声语音识别装置接收用户发出的有声或无声语音,并通过系统解析用户 的语音指令,控制设备开启RGB摄像头。
(5)通过头动追踪装置选择交互界面的按钮,例如通过在MR眼镜的的加速度传感器、陀螺仪、磁力 计计算用户头部的运动,在MR眼睛视野中央设置一个与头部相对位置固定的光标,移动头部控制光标选 择位置与全息UI界面进行点击确认,进而启动RGB摄像头。
S105:系统接受到确认交互指令后,开启RGB(彩色)摄像头,RGB摄像头对用户当前点击确认的目 标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
进一步,所述图像对焦的方法包括:驱动前置摄像头对眼动追踪组件捕获双眼视线的注视区域和/或头 动追踪组件捕获视野中心点的景象进行对焦摄像;MR眼镜系统获取到眼动追踪装置发送的检测信息,检 测信息包括眼球注视位置的空间坐标的变化量、晶状体厚度大小变化量、瞳孔直径的变化量,其中注视点 位置的空间坐标可以通过眼球的移动计算获得X和Y轴坐标,通过双眼视线的夹角或/和晶状体厚度获得Z 轴坐标,及视觉深度(眼睛到注视物体的距离),因而形成空间坐标(X,Y,Z)。
利用眼睛注视点的X坐标和Y坐标选定外景照片上放大和对焦的区域。其中,至少一个摄像机取景设 置在MR眼镜的正中间或者两边,摄像机所拍摄的照片为用户当前的视野画面,及上述外景照片为用户当 时视野前方图像。根据(X,Y)注视点坐标获取外景照片上某一点,确定以该点为中心得目标区域,该目 标区域为摄像头对焦和放大的区域。
利用眼睛注视点得Z坐标确定在外景照片上该目标区域中物体的视觉深度,进而控制摄像机对目标物 体进行对焦并数码变焦放大一定的倍率,使其获得更清晰的图像,影像放大倍率以RGB摄像头默认的初始 放大倍数为准。实现用户看哪里就放大和对焦哪里的效果。
进一步,所述图像参数调节的方法包括:对此时摄像头实时拍摄的放大区域的影像进行自动参数优化, 优化的参数包括曝光时间、ISO值、帧率、锐度、白平衡;
S106:MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像(局部图像),其中用 户可以手动编辑边缘框大小来优化选中图像。
通常,系统可以利用各种已知的计算机对象识别技术来识别现实世界场景的图像中的对象。在一些实 施例中,对象识别可以使用基于外观的方法,该方法将图像与已知对象的参考图像进行比较以识别对象。 基于外观的方法的示例包括边缘匹配,灰度匹配,接收场响应的直方图等。在一些实施例中,对象识别可 以使用依赖于匹配对象特征和图像特征的基于特征的方法。基于特征的方法的示例包括姿势聚类,几何哈 希,尺度不变特征变换,解释树等。系统可以结合使用一种或多种对象识别方法以增强对象识别的准确性。
所述“用户可以手动编辑边缘框大小来优化选中图像”具体为,如果MR眼镜本地的对象识别过程无 法确定对象,例如MR眼镜不能识别物理世界中的物体边界,因此设置了错误的边界框位置和大小。在一 种配置中,边界的尺寸可以增加预定量。例如,移动设备可以通过将原始边界的大小加倍来增加边界的大 小。
在一个方面,MR眼镜可以接收的手势识别装置、和/或语音识别装置、和/或6DOF控制器手柄、和/或 无声语音肌肉电探测器、和/或脑电波等来执行边界框大小编辑。在一种配置中,手势可以是“捏缩放”手 势。在另一方面,MR眼镜可在用户的眼睛注视的持续时间超过时间阈值时执行放大。在一种配置中,可 以在MR眼镜光学显示屏幕上呈现边界框和/或照片编辑的应用程序图标,点击所述“应用程序图标”后出 现全息UI界面,通过与“放大”、“缩小”等UI功能键来编辑边界框。
在另外一种实施例中,可多能存在多个物体,相应的被设置多个对应的边界框,可能两个以上的边界 框相互重叠或者相互很靠近,这可能会干扰服务器的图像识别。因此还可以通过用户的手动操作禁用不需 要的边界框,从而不对禁用边界框中的图像内容进行识别。另外一种实施例中用户还可以通过手势或/和6DOF控制器手柄手动自由绘制多边形禁用边界框,该禁用边界框可以是任意的二维或三维的边界框,从 而不对禁用边界框中的图像内容进行识别。
S107:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S108:MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容列表,其中 内容列表中的选项包括一个或多个文字、图片、音频、视频、3D模型/动画、应用程序,也可以为用户自 主预先编辑对应关系。内容列表中的选项被设置为等待用户的选择交互,根据用户选择交互呈现最终内容;
所述“其中内容列表中的选项包括一个或多个文字、图片、音频、视频、3D模型/动画、应用程序” 具体为,当对同一对象物体进行图像识别时,识别后的内容结果可能对应着多个不同的内容(文字、图片、 音频、视频、3D模型/动画、应用程序),这些内容排列在列表中向用户展示。例如,用户注视同一“食 品”时,计算机对该食品图像进行图像识别后呈现与本“食品“映射关系对应的内容。例如可以呈现文字 信息,展示商品的价格和介绍文字、出厂日期等;可以呈现视频信息,例如该商品的广告短视频信息;可 以呈现3D模型/动画,例如可以在该商品位置空间中呈现本商品的广告代言人的虚拟化身(某明星的全息 三维形象)在旁边介绍商品;可以呈现应用程序,例如当识别是某件商品时,可向用户推荐电商APP(例如 淘宝、京东、拼多多)。由上述可知,在内容列表中同一物体可能存在几种不同的对象映射关系。
所述映射关系可以被程序工程师人为的编辑对象和内容之间的映射关系。在另外一种实施例中,可以 通过人工智能技术自动编辑对象和内容之间的映射关系。在另外一种实施例中,可以用户自己编辑和/或校 正内容与对象映射关系,例如,对物理世界的户外广告、海报、户外LED显示屏中的内容进行图像识别, 用户可以自主编辑评论/弹幕等文字信息与该海报的图像信息进行连接映射,并且还可以把自定义的映射内 容分享给允许的好友,因而当好友识别这个海报图像信息时可显示用户编辑的文字评论。
在一些实施例中,在将对象添加到内容列表之前,系统首先检查冗余。例如,系统可能首先检查内容 列表中是否已经有与图像中的对象匹配的对象。在一些实施例中,系统为用户提供用户界面以访问和编辑 内容列表。例如,用户可以使用用户界面从与他/她相关联的内容列表中添加和删除对象。在一些实施例中, 用户还可以编辑和/或校正与对象相关联的属性。例如,用户能够选择某商品在内容列表上选项,然后输入 型号和/或序列号。在另一个示例中,系统可以隔离图像中的对象,而不能将其与已知对象匹配。用户可以手动输入对象的属性信息。该系统提供了一个用户界面,供用户访问和编辑对象列表。例如,用户可以使 用用户界面从与他/她相关联的对象列表中添加和删除对象。
在另外一种实施例中,本发明还可以被定义为应用软件的打开、推荐、下载的方法和系统。例如当用 户选择了视觉前方的一张物理A4纸质文稿,MR眼镜截取A4纸张大小的图像上传至云端服务器进行图像识 别,云端服务器对图像识别结果为提示应用“翻译文稿内容”和“扫描文稿PDF”、“OCR识别”、“语 音朗读”、“更多相关内容”等多种应用程序。上述这些应用可以是MR眼镜上已安装或者未安装的应用。 如果是已安装,根据用户具体需要图像识别服务器可以传回MR眼镜指令启动所需应用程序。如果是未安 装,根据用户具体需要图像识别服务器可以发送指令响应应用下载服务器向MR眼镜发送应用程序安装包。 通过以上框架,与实现上下文通知的现有方法相比,可以实现许多优势。首先,由于应用程序开发人员(而 不是OS开发人员)可以定义由通知处理程序执行的代码,因此每个应用程序开发人员可以控制和自定义上 下文通知在其各自的应用程序对象中的显示方式。反过来,这允许系统可以支持的上下文通知的类型更大 的灵活性和多样性。
其次,由于OS负责将传入的通知与应用程序对象进行匹配,并且由于每个通知处理程序都与其相应的 应用程序的主进程是分开的,因此在接收到通知时无需为了这些通知而运行主进程根据上下文进行呈现。 取而代之的是,应用程序的主进程可以保持不活动状态,而通知处理程序(通常比主进程更轻便,资源占 用更少)执行处理和呈现上下文通知的重点任务。
在一些实施例中,在步骤S108中,系统首先基于内容项目的共享设置和/或第一用户的偏好设置来确定 是否应该与第一用户共享内容项目。在一些实施例中,内容项目的作者可以限制该内容项目的共享。例如, 作者可能仅允许在社交网络服务中连接到他和/或关注他的用户查看内容。在一些实施例中,作者可以基于 年龄,地理位置,时间等来限制谁可以查看内容项。例如,作者可能希望标记的内容仅在未来几年可用, 或者仅可用于在一段时间内观看。在一些实施例中,第一用户还可以基于内容项的作者来关闭通知。例如, 第一用户可能希望仅从他的朋友,所关注的人,其社交团体中的人等接收关于内容项目的通知。在另一个 示例中,用户可能能够选择性地阻止所选作者的内容项目。
在另外一种实施例中也可以为用户自主预先编辑目标物体和信息内容的对应关系,具体为:
将在步骤S108中标识的真实世界/虚拟世界对象添加到与用户关联的对象列表中。对象列表可以被维护 在内容共享服务器上。在一些实施例中,列表存储对象的一个或多个图像和属性。系统为用户提供用户界 面以访问和编辑对象列表。例如,用户可以使用用户界面从与他/她相关联的对象列表中添加和删除对象。 在一些实施例中,用户还可以编辑和/或校正与对象相关联的属性。在另一个示例中,系统可以隔离图像中 的对象,而不能将其与已知对象匹配。用户可以手动输入对象的属性信息。该系统提供了一个用户界面,供用户访问和编辑对象列表,用户可以使用用户界面从与他/她相关联的对象列表中添加和删除对象。例如, 用户A(丈夫)通过MR眼镜识别床头的物理台灯,编辑一段文字“亲爱的,记得吃药”,用户A可以将物 理台灯与文字“亲爱的,记得吃药”设置对应关系,并且将对应关系共享给用户B(妻子),当用户B起床 后通过MR眼镜看到物理台灯时,则会识别物理台灯,进而在物理台灯附近呈现全息内容“亲爱的,记得 吃药”,其中除了上述文字信息,还可以是任何的数字内容。另外应用例中,还可以广告运营商可以预先 编辑物理世界户外广告与全息内容的映射关系。
图2A示出了MR眼镜利用眼动追踪对识别图像进行选择的示例。在图2A的示例中,用户240位于物理 空间200内,并且正在通过MR设备250查看物理空间200。其中术语“物理空间”是指现实世界的面积或体 积,物理空间的位置,边界和/或其他属性可以部分地由一个或多个坐标来描述,包括但不限于二维(2D) 坐标和三维(3D)坐标。在图2A中,MR设备250是允许用户240直接查看物理空间200的头戴式透视MR设 备,并且包括图1和2所示的MR设备100的元件。参照图2A的示例中,所示的房间之类的物理空间被设置为 空间,物理空间200除其他外包括第一真实世界对象无人机210,第二真实世界对象台灯1410和第三真实世界对象230。真实世界对象也可以称为“物理对象”,或者在某些情况下,简称为“对象”或“目标”。 出于参考目的,可以在不同的实现方式中将现实世界的对象视为和/或指定为“静态”或“动态”。例如, 在一种实现中,无人机210可以被指定为动态对象,而物理台灯1410和盆栽230都可以被指定为静态对象。
当用户240存在于物理空间200中时,当前用户240的眼睛视野范围为锥形范围245,MR眼镜250的前置 红外摄像头134被设置为大于或等于视野范围245,前置红外摄像头134可以获取和用户眼睛看到一样的东 西,前置摄像头130(IR红外摄像头)被设置为捕获图像数据生成虚拟空间。所示如图2A中,用户240视角 偏转到某一方向时,例如当前位置中视野范围245中包含真实物体台灯1410和真实物体无人机210,MR眼 镜250对进行图像识别和分析。
如图2B,示出了用户第一视角示意图和摄像头130捕获的图像数据245示意图。MR眼镜对摄像头获取 的图像610进行物体检测,检测出物体台灯1410和体无人机210,并且根据物体检测结果自适应的框选出图 像中目标物体,例如边界框(透明交互区域)620框选在台灯1410物体外围,边界框630框选在无人机210 物体外围,边缘框大小根据目标物体在图像中的检测结果而自适应生成,边缘框是可以设置为可见或者不 可见,可见情况下将通过MR眼镜的120显示系统呈现边缘框的图案。另外的,当检测出有物体时,MR眼 镜的120显示系统将在目标物体附近显示“提示标签”,例如台灯1410上方显示提示标签520,无人机210上方显示提示标签510。系统通过“提示标签”向用户传达可以交互的视觉反馈,及可以进一步获取信息 的视觉提醒。其中,提示标签510、520可以被设置为任何的动态特效来吸引注意力。
如图2C,用户通过视线选中目标物体的示意图。用户240的视线660被眼动追踪装置140检测,所示如 图用户视线660移动至边缘框(透明交互区域)630范围内对无人机210进行选中,边缘框范围内被设置为 与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。如果用户对当前选中区域执行点击确认的 交互行为,则MR眼镜系统开启RGB(彩色)摄像头132,RGB摄像头132对用户当前点击确认的目标物体 位置处进行对焦、图像参数调节、放大以获得最优图像质量。系统将根据边缘框630的大小截取彩色图像, 将彩色图像无人机图像上传至云端服务器进行无人机局部图像进行匹配识别,在数据库中检索相关内容信 息。
如图2D,MR眼镜显示识别结果的示意图,在真实物体无人机210的附近呈现虚拟的全息内容710,全 息内容710可以是应用软件的交互界面、文字、图片、三维模型等,如图2D为无人机控制的操作界面710, 操作界面710将进一步接收用户的交互指令。
实施例二:IR相机和RGB相机混合获取实景图像,场景分析和行为分析预测用户感兴趣的目标物体并 图像识别的方式。
S201:通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像。
S202:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
S203:检测场景的物体和声音,MR眼镜本地处理器和本地数据库对S201中红外摄像头捕获黑白图像 进行AI图像分析,检测图像中物体的显著性,利用已经训练好的物体特征库识别图像中的至少一个物体, 并自适应的框选出图像中目标物体,记录下目标物体坐标。MR眼镜的声音装置检测环境中的声音源。
S204:检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装置 检测身体运动、麦克风检测用户声音、脑电波检测装置探测脑电波。
S205:通过S203检测场景和S204检测用户行为两者结果的预测判断用户对目标物体的兴趣程度。如果 兴趣程度等于/超过阈值时执行S206。
S206:系统开启RGB(彩色)摄像头,RGB摄像头对兴趣物体的目标物体位置处进行对焦、图像参数 调节、放大以获得最优图像质量。
S207:MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像(局部图像),其中用 户可以手动编辑边缘框大小来优化选中图像。
S208:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S209:当眼动注视点或头动凝视点到达预测的交互目标位置时,MR眼镜直接呈现相关运算结果和内 容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序, 也可以为用户自主预先编辑对应关系。
具体说明:
S203:检测场景的物体和声音,MR眼镜本地处理器和本地数据库对S201中红外摄像头捕获黑白图像 进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目 标物体,记录下目标物体坐标并检测图像中物体的显著性。MR眼镜的声音装置检测环境中的声音源。
进一步,所述检测图像中物体的显著性,具体为可以通过任何图像分析算法的来检测图像,包括但不 限于以下显著性检测方法;
检测物体在图像中的位置,越靠近中心越显著;
检测图像中色彩对比度较高的区域;
检测视频中动态物体检测,并计算物体的移动速度;
检测物体移动的方向,是由远到近,还是由近到远;
计算目标物体在整幅画面中的占比;
上述的显著性检测方式可以任意一种,或任意几个以一定的权重组合共同判断显著性。
进一步,所述检测图像中物体的显著性的另外一种实施例中,具体为可以通过预先训练好的显着性预 测模型预测前置摄像头拍摄的影像中的物体显著性。可以利用各种已知的计算机对象识别技术来识别现实 世界场景的图像中的对象。对象识别可以使用基于外观的方法,该方法将图像与已知对象的参考图像进行 比较以识别对象。基于外观的方法的示例包括边缘匹配,灰度匹配,接收场响应的直方图等。对象识别可 以使用依赖于匹配对象特征和图像特征的基于特征的方法。基于特征的方法的示例包括姿势聚类,几何哈希,尺度不变特征变换,解释树。系统可以结合使用一种或多种对象识别方法以增强对象识别的准确性。
用于分析用户观看活动的各种方法来确定(或预测)给定视频中的用户特定的兴趣点。例如,在一些 实施例中,可以使用由用户观看的内容项和各个用户特定的热图数据来训练用户特定的显着性模型。如所 提及的,在一些实施例中,热图数据可以逐帧地识别给定内容项中用户感兴趣的区域。如上所述,可以基 于用户在呈现期间与内容项的交互(例如,传感器数据,手势数据,输入设备数据,耳机运动数据,眼睛 跟踪数据等)来确定该热图数据。在某些实施例中,用户特定模型可用于预测用户可能会在用户访问的其 他内容项中关注哪些兴趣点。
在一些实施例中,在前置摄像头的实时画面中提取一个或多个帧以创建附加内容。例如,可以从内容 项目中提取已确定为感兴趣的一部分内容(例如,一个或多个帧),例如,作为一个或多个图像或短视频。 在一些实施例中,可以基于内容项的呈现期间的用户交互来识别有趣内容的这些部分。仅举一些例子,可 以使用传感器数据,手势数据,输入设备数据,耳机运动数据,眼睛跟踪数据来测量这种用户交互。在美 国专利申请Ser.5,200,775中描述了描述用于自动提取内容的方法的更多细节。2016年5月2日提交的第15/ 144,695号“展示内容的系统和方法”。可以生成一个或多个显着性预测模型。例如,在一些实施例中,如 上所述,可以使用聚合热图来训练一般显着性预测模型,该聚合热图描述了针对各种内容项目的用户视图 跟踪数据。在一些实施例中,该显着性预测模型可以用于预测在内容项的呈现期间用户可能感兴趣的内容 (例如,兴趣点)。
进一步,还可以通过相关图像算法检测前置摄像头画面中的环境人物的动作、姿态、表情,例如但 不限于场景中某人对本智能眼镜使用者挥手、喊叫、微笑、跳跃、投递(递烟)等,可以判断该环境人物 可能是潜在将被本用户关注的目标对象。
S204:检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装 置检测身体运动、麦克风检测用户声音、脑电波检测装置探测脑电波。具体为:
进一步,通过眼动追踪装置检测眼睛运动:扫视距离超过/等于预设阈值,和/或眼睛的平滑的移动行 为持续时间超过/等于预设阈值,和/或眼睛的移动速度超过/等于预设阈值,和/或眼睛突然停止无序的运动, 和/或眼睛对某一点的注视时长超过/等于预设阈值,和/或眼睛在两点/两范围之间往复运动,和/或眼颤行为, 和/或眼睛瞳孔直径的变化超过/等于预设阈值,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正扫 视;在正常的日常活动中,可以跟踪眼睛进行自愿和非自愿活动的过程。这样的实施例的一方面是在用户 的眼睛例行执行两种类型的运动时辨别用户的意图。这需要区分用于传达意图的自愿运动和非自愿眼动。
自愿运动可以与进行正常的日常活动相关,也可以用于根据眼部信号“语言”传达有目的的意图。因 此,算法“过滤器”和/或其他编程方法用于基于一只或两只眼睛的视频图像来识别意图。可以将算法编码 为软件,固件,嵌入在基于硅的逻辑设备中或这些方法的组合。处理也可以在本地,远程执行,也可以结 合包括所谓的“云计算”在内的此类方法来执行。
可能传达有目的意图的自愿运动包括扫视,这些扫视具有明确定义的角速度和弹道轮廓(基于眼睛的 生理学),用于在距观察者不同距离处观察的散光运动,前庭眼运动与头部运动以及用于跟随特定(真实 或虚拟)对象的平滑跟踪运动相关联。可以根据其他因素来确定用户意图的其他信息,例如瞳孔扩大,晶 状体调节,眼睑运动,面部肌肉运动,身体和头部运动,手部运动以及相关的上下文信息。
在其他方面,跟踪的眼睛运动和几何形状可以用于以连续的方式辨别个体的生理和/或情绪状态。例如, 瞳孔扩张的程度可以用于辨别诸如恐惧,兴趣或认知负荷的情绪状态。反扫视运动可能是观看令人讨厌的 东西的指示。当与关于用户正在观看的真实或虚拟物体的信息结合时,可以辨别例如引起惊吓,吸引力或 兴趣的物体类别的指示。这样的信息可以例如用于定制信息的后续显示。
进一步,通过头动追踪装置检测头部运动:在另外的方面。例如,眼睛信号可以与自愿的头部运动(例 如,头部点头)相结合,作为眼睛信号“语言”的组成部分。
检测用户转头过程中的速度、加速度、转动的角度,例如猛的一转头,平滑的转头。实际中例如,可 以同时检测眼睛运动和头部运动,当用户A在用户B侧边叫用户的名字时,用户可能会把头快速转向用户A 的方向,同时伴随眼睛长距离的眼跳,眼球转向用户A的方向,及当人的视野范围外出现感兴趣的物体/事 件时,人会下意识的转动头和眼睛寻找目标物体。在另一实际施例中,一辆跑车从远处驶来,经过用户的 面前,通过情况下人们会被跑车吸引,头和眼睛跟随着车子的移动而平滑移动。
非自愿的眼球运动通常与自愿的头部运动(即所谓的前庭眼运动)相关。因此,在与头部运动相反的 方向上反身地发生的前庭眼运动可以在自愿的头部运动期间包括在眼睛信号控制中。可以与眼睛信号语言 结合使用的其他形式包括手势,其他身体部位的动作,语音,开关激活,面部表情,
头部位置跟踪系统包括位置和运动传感器(例如,指南针,陀螺仪),加速度计光源和/或其他用于获 取MR眼镜的位置,方向和运动的设备通过检测面向外部的照相机中的整个场景的运动来检测。可以从头 部位置跟踪系统接收头部位置信息。将头部位置信息提供给眼动交互意图预测模型的头部位置跟踪系统。 在MR眼镜上共同形成一个惯性测量单元(IMU)。头部位置信息可以帮助确定用户的头部运动,旋转或 方向。
进一步,通过运动追踪装置检测身体运动:检测用户的躲闪、跳跃、颤抖等身体行为。在一定程度上 MR眼睛的头动追踪装置可以代表运动追踪装置来检测身体运动,但是在另一实施例中,还可以通过智能 手表、智能手环、具有空间定位的控制器手柄等任意的可穿戴智能硬件来检测身体运动。例如,当某件突 发事件刺激到了用户,用户被吓得浑身一躲、浑身一跳、浑身一震,突发事件包括但不限于迎面驶来一辆 车、迎面跑来一只狗、窗外一声巨响。可以检测用户在感兴趣的关键字等进入耳朵时停止工作并且以高精 度将视线转向声音源的反应。通过这些身体行为,MR计算机可以判断用户兴趣程度。
进一步,通过麦克风检测用户声音:检测用户所发出的关键字语音,用于唤醒和启动兴趣程度分析。 在本实施例中借鉴Iphone手机的“HI,Siri”语音助手的关键词唤醒技术。在现实实施例中,当人们对眼前 的关注的事物/事件感到很棒很惊艳时,会不由自主的说“哇塞”、“我的天哪”、“我的妈呀”等词语, 上述的这些词语作为说明施例,但是不限于这些词语,通过这些词语也是一个判断用户对当前视野内物体 感兴趣程度的分析维度之一。
进一步,脑电波检测装置探测脑电波;
S205:通过S203检测场景和S204检测用户行为两者结果的预测判断用户对目标物体的兴趣程度。如果 兴趣程度等于/超过阈值时执行S206。
上述的,眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装置检测身体运动、 麦克风检测用户声音的兴趣程度分析因素可以任意相互组合、叠加来综合分析兴趣程度。
实施例三:IR相机和RGB相机混合获取实景图像,和眼动交互意图预测用户感兴趣的目标物体并图像 识别的方式。
S301:通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白 图像。
S302:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
S303:MR眼镜本地处理器和本地数据库对S301中红外摄像头捕获黑白图像进行AI图像分析,利用已 经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体 坐标。
S304:将目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点或头动 凝视点产生重叠或/和碰撞来选中当前物体。通过已训练好眼动交互意图模型预测下一时刻眼动注视点或头 动凝视点的交互目标位置,如果预测的目标位置为某个目标物体的交互区域内,则预先执行S305。
S305:系统开启RGB(彩色)摄像头,RGB摄像头对用户当前点击选中的目标物体位置处进行对焦、 图像参数调节、放大以获得最优图像质量。
S306:MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像(局部图像),其中用 户可以手动编辑边缘框大小来优化选中图像。
S307:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S308:当眼动注视点或头动凝视点到达预测的交互目标位置时,MR眼镜直接呈现相关运算结果和内 容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序, 也可以为用户自主预先编辑对应关系。
具体说明:
S304:将目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点或头动 凝视点产生重叠或/和碰撞来选中当前物体。通过已训练好眼动关注意图模型预测下一时刻眼动注视点或头 动凝视点的交互目标位置,如果预测的目标位置为某个目标物体的交互区域内,则预先执行S305,具体为。
进一步,所述“已训练好交互意图模型”具体为通过眼睛行为与交互目标位置之间的位置关系确定交 互意图。进一步,通过AI训练算法找出用户对某一目标进行眼动交互前一时间段内用户产生的眼睛动作/ 状态与交互目标位置之间的关系。
其中,被用于训练交互意图模型中眼睛动作/状态数据包括但不限于1)前庭眼运动,2)汇聚/扩散运 动,3)平滑追视,4)长扫视和矫正扫视,5)瞳孔直径变化,6)注视时长。
可以根据诸如运动范围,速度分布,两只眼睛是否执行共轭(相对方向不同)运动以及头部或视野的 运动参数来区分每种运动类型。每种类型的眼睛运动都涉及不同的神经回路。不同的眼球运动涉及不同程 度的自愿(即意识控制)与非自愿(即反射)神经通路。在辨别眼睛信号的过程中,特别重要的是能够识 别传达意识意图的眼睛自愿运动。
1)前庭眼眼球运动通过使眼睛移动与头部旋转相同的角度但方向相反来补偿头部运动。这具有稳定 投射到眼睛中央凹区域的外部世界图像保持高分辨率的作用。具体的当用户正在注视某个物体的同时扭转 头部到左/右一侧,此时眼球会向与转头方向相反的方向偏转,以此来保持对目标物体的始终注视。尽管前 庭眼运动本质上是自反的,但前庭眼运动的检测可用于间接辨别头部运动的绝对位置(特别是与其他输入 (例如,与头部运动的加速度计耦合)时)。通常这是人类的主观意识才能够实现行为。
2)汇聚/扩散眼动用于独立对准每只眼的中央凹区域,以观察与观察者一定距离之外的物体。与其他 眼睛运动不同的是,汇聚/扩散运动是不确定的,其中每只眼睛向不同的方向运动。汇聚运动指的是双眼相 向运动汇聚至一点,双眼视线的夹角较大,扩散运动指的是双眼相反运动,双眼视线的夹角较大。例如, 当用户在注视远处和近处两个距离的目标物体时,人双眼的汇聚/扩散是不同的,在观察近处物体时相对处 于汇聚状态,双眼视线的夹角较大,在观察远处物体时相对处于扩散状态,双眼视线的夹角较小。通常只 有在用户在主观意识层面对某个物体具备明确的观察需求时才可以出现汇聚/扩散眼动用,在没有目标物体 的空间中,双眼很难控制双眼运动调节对焦深度。因此汇聚/扩散眼动可以间接的作为是人类才能够实现的 主观意识行为。
3)平滑追视眼睛运动是缓慢的,用户主观意识控制,且自愿的眼睛运动。可将移动目标对象的投影 保持在眼睛的中央凹区域上。因此,平滑追踪运动的整体速度通常对应于观察中的移动目标的速度。对于 大多数人来说,很难在不实际观察移动目标的情况下执行平稳的跟踪运动。换句话说,除非进行了观察者 的大量专业训练,否则在没有跟踪运动目标的能力的情况下试图进行平滑跟踪的尝试只会导致观察者进行 一个或多个眼跳运动。因此平滑追视眼动可以作为是人类的主观意识才能够实现行为。
4)扫视(眼跳)运动是快速运动,会突然改变眼睛的注视点。扫视是“弹道的”,即一旦开始,扫视所 覆盖的方向和距离仅由扫视发射控制。换句话说,即使在扫视开始和/或其执行期间目标的位置发生变化, 扫视期间也无法进行中间校正。扫视运动是人体产生的最快运动,达到了高达900°/秒的角速度。扫视角 大约大于20°时,通常会伴随头部运动,尽管个体之间差异很大。就速度分布而言,扫视也是“弹道”的。 响应意外的刺激,扫视的起始部分大约需要200毫秒。起爆导致进入快速加速阶段,在此阶段(类似于其 他弹道速度曲线),峰值速度与行进距离大致成比例。扫视的运动阶段持续20到200毫秒,具体取决于所 移动的总角距离。通常,只要头部保持不动,扫视镜就不会使眼睛在扭转轴上旋转(即所谓的李斯特定律)。 扫视角大约大于20°时,通常会伴随头部运动,尽管个体之间差异很大。通常用户通过眼睛注视点对准交 互目标时,长距离扫视通常覆盖目标距离的90%,然后是10%的校正扫视(例如当扫视到目标位置时,初 始扫视眼运动(预测的或测量的)可能不在落入距目标的预定阈值距离之内。但是,一个或多个矫正扫视 可能会导致用户的视线逐渐接近目标)。向心扫视比离心扫视更准确选中目标。下冲或过冲后进行的校正 可能会出现较长或较短的延迟。校正扫视可以快速执行(即动态下冲或过冲),也可能需要数百毫秒(即 滑行下冲或过冲)。视线方向落在新的目标位置上时,有一个快速减速阶段。在非常短的延迟之后,大扫 视通常会伴随至少一个较小的校正扫视,以进一步接近目标位置。即使目标已经消失,也可能发生矫正扫 视,从而进一步支持了眼跳运动的投射弹道性质。但是,如果目标仍然可见,则矫正扫视的频率会更高。
这些中间的眼睛运动包括一个或多个矫正扫视(通常是短距离的),眨眼,震颤,漂移等。眼颤指的 是瞳孔和角膜缘(通常程度较小)可能会出现位移,当眼球运动到达目标目标时可能产生眼颤,其表现为 阻尼振荡。这些运动的主要振荡频率通常约为20赫兹(即50毫秒的周期)。通常可以检测到约50-60毫秒的 阻尼振荡。这样就可以观察1-3个这样的阻尼振荡。在该时间段内会持续抑制跳音。否则,运动模糊将在观 察到的场景中显而易见。眼睛的生理漂移,震颤和其他较小运动的测量可以用作识别设备佩戴者的生理和 心理状态的组件。这些运动对于确定和监测各种病理状况(尤其是神经肌肉疾病)以及药物和其他化合物 的作用也很有价值。
构建眼动交互意图预测模型:
在眼动交互过程中需要确定眼睛运动是否“有意图”,并对眼睛运动进行分类。这通常与生理“非自 愿”和“自愿”眼动之间的区别有关。眼睛的非自愿运动不受意识控制,因此在与眼睛交互过程中帮助不 大。自愿的眼球运动在有意识的控制下,因此可用于在眼球信号形成过程中传达有目的的意图。
例如,可以使用特定眼睛运动是否“有意图”的知识来避免眼动交互时的对交互目标(按钮)意外激活。 如果眼球运动看起来是无目的的,则可以视为“随便看看”,进而忽略激活。相反,如果眼动看起来是有 意图的,则可以辅助对凝视激活区域的选择(吸附)。如果已经发现正在进行“有意图的”眼动,甚至可 以减少或消除一些眼动信号。
此外,可以通过其他感测的数据来通知对目的性的确定。这种感官数据的示例包括头部移动,面部移 动,手部移动以及其他可量化的数据。此外,概述的上下文以及对象注视特定的上下文可以帮助确定目的。
为了对“有意图”眼动与“无意图”眼动进行分类,进而根据眼动交互意图进行交互预测,需要同时 考虑多种措施。这些度量可以包括扫视发射延迟,峰值扫视速度,扫视所覆盖的角距离,前庭眼运动,汇 聚/扩散运动,平滑追视,长扫视和矫正扫视,瞳孔直径变化,注视时长等。换句话说,这种分类通常是多 元的。此类数据的分类方法可以使用:1)统计和2)神经网络方法。
统计方法涉及本领域众所周知的技术。这种方法的示例包括线性分类器,二次分类器和贝叶斯统计, 建立眼动关注意图模型的人工智能训练包括有标记的监督训练和无标记的无监督训练两种方式。监督学习 (即,可以使用正确识别结果的数据集)可以用于机器学习。训练和验证数据集可以例如通过使设备佩戴 者在执行眼信号时实时指示眼动是否“有意图”(例如,通过按下开关)来收集。用于获取此类数据的典 型且易于使用的设置涉及在进行有意图的眼动时按住计算机鼠标上的按钮。然后,通常将具有已知结果的 此类数据集分为用于训练(即机器学习)的数据集和用于验证的数据集。
同样,具有正确识别结果的数据集也可以用于神经网络或深度学习分类方法的训练和验证。训练神经 网络的方法,例如反向传播,在本领域中是众所周知的。具有大量中间(或称为“隐藏”)层和互连关系 (数百万至数十亿)的神经网络的应用通常称为“深度学习”。这些非常适合根据眼动模式和其他感官输 入来识别用户的意图。
当使用许多人工智能(AI)或基于神经网络的分类方法时,通常难以确定诸如相对重要性或不同输入 之间的相互作用之类的因素,或者很难插入概率信息来改善网络。在某些情况下这可能是不利的。但是, 一旦经过培训,基于神经网络的实现可能会非常快,并且在存储和功耗方面都非常高效。神经网络也可以 很容易地直接在固件逻辑中实现(例如在FPGA中),而无需利用中央处理单元(CPU)资源。将训练数 据输入卷积神经网络模型,通过不断迭代对卷积神经网络模型进行训练,得到性能较好、稳定性较好的卷 积神经网络模型,进一步地可以将训练好的卷积神经网络模型确定为预测模型。
综上,在本发明实施例中,将实施例一种S104“如果用户对当前选中区域执行点击确认的交互行为, 则执行S105”替换成“通过以训练好眼动交互意图模型预测下一时刻眼动注视点或头动凝视点的交互目标 位置,如果预测的目标位置为某个目标物体的交互区域内,则预先执行S305”,其不同点在于实施例三通 过眼动交互意图模型预测用户对“透明交互区域”交互意图,然后根据交互意图概率直接执行“透明交互 区域”对应的执行程序。由此通过交互意图预测的方式省略了用户确认点击的交互动作,在整体的交互操 作上减少了一步操作步骤。进而从效果上实现了在不需要用户操作点击的情况下,被识别物体的内容信息 自动呈现的技术效果,为用户提供了更智能、更舒适的产品体验。
实施例四:低分辨率和高分辨率摄像头混合获取实景图像并识别的方式。S401:通过MR眼镜的第一 前置低分辨率摄像头实时捕获用户视觉前方实景影像。
S402:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
S403:MR眼镜本地处理器和本地数据库对S401中低分辨率摄像头捕获低分辨率图像进行AI图像分析, 利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目 标物体坐标。
S404:系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。如果用户对当前选中 区域执行点击确认的交互行为,则执行S405。
S405:系统接受到确认交互指令后,开启第二高分辨率摄像头,高分辨率摄像头对用户当前点击确认 的目标物体位置处进行对焦、图像参数调节、放大以获得最优高清图像。
S406:MR眼镜从第二高分辨率摄像头捕获高清图像中截取已被AI算法框选的物体图像(局部图像), 其中用户可以手动编辑边缘框大小来优化选中图像。
S407:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S407:MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
具体实施:
进一步,步骤S401,通过MR眼镜的第一前置低分辨率摄像头实时捕获用户视觉前方实景影像;具体 为前置低分辨率摄像头包括分辨率较低的彩色摄像头、较低的红外摄像头等。
在本实施例中,通过使用低分辨率摄像头和高分辨率摄像头结合方式获取图像。如图在步骤S401中, 在通常情况下优先使用低分辨率摄像头需要长时间开启并获取场景图像,低分辨率摄像头通常使用较低的 功耗。在步骤S403-S404中,计算机系统在低分辨率摄像头获取的图像中检测到目标物体,并且该目标物 体获得用户的交互指令后开启第二高分辨率摄像头,高分辨率摄像头对用户当前点击确认的目标物体位置 处进行对焦、图像参数调节、放大以获得最优高清图像。通过上述高低分辨率摄像头结合的方式可以有效 的降低系统功耗。
实施例五:在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像并识别的方式S501:通过MR眼 镜的物理红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白图像。
S502:通过MR眼镜的图像渲染装置(GPU)生成的全息影像被光学显示系统呈现,同时实时利用虚 拟摄像头捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像。
S503:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置物理摄像头和虚拟摄像头的画面中、全息空间中的注视点/凝视点坐 标位置。
S504:MR眼镜本地处理器和本地数据库对S501中红外摄像头捕获黑白图像和/或S502中虚拟摄像头捕 获虚拟全息影像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的 框选出图像中目标物体,记录下目标物体坐标。
S505:系统在目标物体位置呈现提示通知,并且将目标物体的边缘框范围内设置为透明交互区域,透 明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体。根据注视点的位置和 /或深度确定用户关注的是物理世界目标还是虚拟世界目标,如果用户对当前物理世界目标交互区域执行点 击确认的交互行为,则执行S506,如果用户对当前虚拟世界目标交互区域执行点击确认的交互行为,则执 行S507。
S506:系统接受到确认交互指令后,开启RGB(彩色)摄像头,RGB摄像头对用户当前点击确认的目 标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
S507:系统接受到确认交互指令后,虚拟摄像头被配置为截获高分辨率的目标物体全息图像,虚拟摄 像头可以获取与渲染装置生成的全息图质量相同的高清图像。
S508:MR眼镜从RGB摄像头和/或高清虚拟摄像头捕获彩色图像中截取注视点坐标位置的兴趣物体图 像(局部图像),其中用户可以手动编辑边缘框大小来优化选中图像。
S509:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S510:MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
具体说明,在本实施例中,不仅可以对眼睛注视的物理世界物体进行图像识别,还可以对MR眼镜显 示的虚拟全息内容进行捕获。其中全息内容也可能包含了大量用户可能感兴趣的信息,例如文字、图像、 虚拟人物形象、游戏形象等,因而在目标的识别不应局限于物理世界物体。具体为:
S502:通过MR眼镜的图像渲染装置(GPU)生成的全息影像被光学显示系统呈现,同时实时利用虚 拟摄像头捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像。本实施例 通过在设备运行系统中设置虚拟摄像机,虚拟摄像机设置在MR眼镜的中心,及用户在佩戴状态下了眉心 位置,其虚拟摄像机的视角可以拍摄真人用户视野中的虚拟全息物体。实际中,虚拟摄像机被设置为可以 获取MR眼镜的图像渲染装置(GPU)生成的影像。附加或替换的虚拟摄像机可以控制获取虚拟图像的分 辨率和清晰度,例如具有高中低图像质量(360p、720p、4K等)可被选择,在通常情况下较低的图像质量 被优先选择,当确定需要被传输至云端服务器被用于图像识别时,可以截选较高的图像质量,其目的在于 在降低功耗的同时保证图像识别的准确性,较低图像质量有助于降低计算机功耗。
S5010:MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
附加的,服务器识别的全息内容包括例如文字、图像、虚拟人物形象、游戏形象等,均是以图像的形 式被识别。例如图像中内容为文字,则可以自动使用OCR光学字符识别技术将图片中文字识别为可编辑文 字/字符。
实施例六:通过检测用户的行为和生理数据计算兴趣程度,进而启动摄像头获取外景图像并识别的方 式。
S601:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置。
S602:检测用户对物体可能感兴趣的行为,包括眼动追踪装置检测眼睛运动、头动追踪装置检测头部 运动、运动追踪装置检测身体运动、麦克风检测用户声音、脑电波与已经训练好的交互意图模型匹配,进 而判断用户对当前注视位置的兴趣程度和,如果兴趣程度等于/超过阈值时执行S603。
S603:系统开启RGB(彩色)高清摄像头,RGB摄像头对感兴趣物体的目标物体位置处进行对焦、放 大、图像参数调节、放大以获得最优图像质量。
S604:MR眼镜从RGB摄像头捕获彩色图像中检测注视点坐标位置的兴趣物体图像(局部图像),利 用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,并根据程序 框选的图像范围截取目标物体的图像,其中用户可以手动编辑边缘框大小来优化选中图像。兴趣物体图像 上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息。
S605:MR眼镜直接呈现云端服务器传回的运算结果和内容信息,通过光学成像系统渲染呈现内容信 息,其中内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
具体说明:
本实施例中,S602-S603为通过检测到眼睛运动、头部运动、身体运动、声音来实时分析用户当前的 交互意图,和是否存在可能感兴趣的物体,及通过上述行为分析获得的兴趣程度作为启动物体检测和图像 识别的条件。例如系统的眼动追踪装置和头动追踪装置检测到用户头猛的一转,同时眼睛注视点长距离扫 视到达某一目标物体附近,在检测到校正扫视将注视点对准目标物体上,通过这一系列的行为动作,系统 判断用户对该目标母体具有很高兴趣程度,进而反馈计算系统启动图像识别。启动图像识别的过程中首先 需要启动前置摄像头感兴趣物体的目标物体进行对焦、放大、图像参数调节、放大以获得最优图像质量。 在前置物理摄像头获得的图像中,通过已经训练好的物体特征库识别图像中的至少一个物体,并自适应的 框选出图像中目标物体,并根据程序框选的图像范围截取目标物体的图像。其中应注意用户当前的注视点 位置坐标应该在程序框选的图像范围内,则视为有效目标图像;反之注视点不在框选的图像范围内,则 不进行下一步。
综上,本实施例省略了需要始终开启前置摄像头获取图像的功能,通过检测用户对物体可能感兴趣的 行为作为启动图像识别的条件和指令,当判定用户对物体感兴趣时开启前置摄像头获取兴趣物体的图像, 进一步降低了功耗。
实施例七:在物理相机和虚拟相机混合获取获取真实/虚拟目标的图像中,通过检测用户的行为和生理 数据计算兴趣程度启动摄像头,再通过注视点的位置和/或深度来选择使用物理相机或虚拟相机获取图像并 识别的方式。
S701:通过MR眼镜的物理摄像头捕获实景图像。
S702:通过MR眼镜的图像渲染装置生成的全息影像被光学显示系统呈现,同时实时利用虚拟摄像头 捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像。
S703:MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经 过映射算法获取用户在一个或多个前置物理摄像头和虚拟摄像头的画面中、全息空间中的注视点/凝视点坐 标位置。
S704:检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装置 检测身体运动、麦克风检测用户声音、脑电波综合判断用户对当前注视位置的兴趣程度,如果兴趣程度等 于/超过阈值时执行S705。
S705:通过眼动追踪装置检测注视点的位置和/或深度确定用户关注的是物理世界目标还是虚拟世界目 标;如果用户对当前物理世界目标选中区域执行点击确认的交互行为,则执行S706;如果用户对当前虚拟 世界目标选中区域执行点击确认的交互行为,则执行S707。
S706:系统接受到确认交互指令后,开启RGB(彩色)摄像头,RGB摄像头对用户当前点击确认的目 标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量。
S707:系统接受到确认交互指令后,虚拟摄像头被配置为截获高分辨率全息图像,虚拟摄像头可以获 取与渲染装置生成的全息图质量相同的高清图像。
S708:MR眼镜从RGB摄像头和/或高清虚拟摄像头捕获彩色图像中截取已被AI算法框选的物体图像 (局部图像),其中用户可以手动编辑边缘框大小来优化选中图像。
S709:物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行 匹配识别,在数据库中检索相关内容信息。
S710:MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中 内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部 分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或 执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是 通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存 储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可 以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线 (例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可 读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据 中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、 或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的 技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等, 都应涵盖在本发明的保护范围之内。

Claims (22)

1.一种基于眼动注视点引导的图像识别方法,其特征在于,所述基于眼动注视点引导的图像识别方法利用红外和彩色摄像头混合获取图像,所述利用红外和彩色摄像头混合获取图像包括:
(1)通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白图像传送至图像识别模块;
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置;
(3)MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体坐标;
(4)系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体;如果用户对当前选中区域执行点击确认的交互行为,则执行步骤(5);
(5)系统接受到确认交互指令后,开启RGB彩色摄像头,RGB摄像头对用户当前点击确认的目标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量;
(6)MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像,其中用户手动编辑边缘框大小来优化选中图像;
(7)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(8)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,所述内容信息包括文字、图片、音频、视频、应用程序,或者为用户自主预先编辑对应关系;
步骤(1)中,所述MR眼镜的红外摄像头将物理世界构建三维空间的方法,包括:
1)三维信息感知:MR眼镜通过视觉传感器感知三维环境信息,可以使用任何目前已知的空间感知的三维环境扫描算法;所述传感器是IR红外摄像头, TOF或者结构光深度摄像头,但是选择不同的摄像头也决定了接下来算法的复杂程度;
2)三维场景重构,通过视觉传感器所获得的环境信息实时对场景进行三维重构;
所述利用红外摄像头捕获实景黑白图像的方法为:
使用所述三维信息感知的同一红外摄像头获得的黑白图像传送至图像识别模块;
在全息三维空间中,通过沿眼动追踪设备检测到的用户注视的方向投射来自MR眼镜的射线来测量注视位置,并且注视位置是与虚拟环境或共享环境的表面进行交互;在三维空间中,使用检测到的每个用户眼睛的注视的焦距来测量注视位置;
在前置摄像头中,前置摄像头拍摄用户视觉前方真实物理世界,经过图像校准,前置摄像头视场角/角度被配置为等于或大于用户视场角;
步骤(3)中,所述MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体坐标的方法,包括:
利用MR眼镜终端的本地处理器运行预先训练好的特征数据库识别图像中兴趣物体,其中MR眼镜的前置摄像头拍到的图像被配置为与用户眼睛所看到的物理世界影像画面一致,相机视场角与人眼视场角一致,已经被校准过;在对象检测后,根据图像识别和图像分割结果在对象外围设置边界框图;
其中,MR眼镜本地的存储器存储着被用于图像识别的数据库样本,终端的数据库样本是全部数据中的一部分,总数据库存储在云端服务器中,终端的部分数据库被配置为生活中常见的特征物体、识别频率较高的物体,另外的本地数据库可以定期接收云端服务器的样本数据库更新;
其中,前置摄像头拍到的物理世界图像数据已经过预处理程序,预处理执行图像数据的过滤,校正或其他预处理,所述物理世界图像数据为视觉图像数据和/或深度图像数据;
通过MR眼镜的对象检测模块真实世界图像中的对象进行AI识别和分类,并确定由MR设备观察到的场景中的真实世界的对象的位置和/或姿势;在某些真实世界中不识别视觉标签或其他标记,以标记或附加到真实对象上;对象分类器被配置为从MR设备接收图像数据并且使用已训练好的一个或多个模型数据识别红外相机捕获的真实世界对象;对象分类系统被配置为使用机器学习和推理技术来基于图像数据识别和/或分类真实世界的对象;利用各种已知的计算机对象识别技术来识别现实世界场景的图像中的对象;对象识别使用基于外观的方法,该方法将图像与已知对象的参考图像进行比较以识别对象;基于外观的方法包括边缘匹配,灰度匹配,接收场响应的直方图;对象识别使用依赖于匹配对象特征和图像特征的基于特征的方法;基于特征的方法包括姿势聚类,几何哈希,尺度不变特征变换,解释树;结合使用一种或多种对象识别方法以增强对象识别,对象检测模块被配置为执行图像数据的语义分割或语义标记,使用DeepMask和SharpMask之类的图像分割技术来识别对象,并使用MuiltiPathNet之类的图像分类技术对对象进行分类;对象检测模块被配置为从云端服务器的对象分类系统获得一个或多个模型,即将云端机器训练好的现实物体特征模型数据同步终端MR设备中,这样MR眼镜用本地较小的处理器运算量和数据库容量来执行现实世界中的对象识别和/或分类。
2.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(2)中,将用户眼睛视线坐标映射于MR眼镜的混合现实空间中或/和光学显示器坐标系中,或/和映射在一个或者多个摄像头中,映射于MR眼镜的混合现实空间中和光学显示器坐标系中被用于是计算机获取用户在虚拟世界中的注视对象,映射在一个或者多个物理摄像头坐标系中被用计算机获取用户在物理世界中的注视对象,获得用于计算机处理的注视点中,注视点呈现视觉反馈,可见注视点,及以动态光标的形式光学成像屏幕上呈现的可见的图形,或者是不呈现视觉反馈。
3.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(4)中,所述系统在目标物体位置呈现提示通知时,该通知是以下各项中的一项或多项:弹出通知,声音通知,振动,基于对象的内容共享用户界面中的通知文本或图标,社交媒体服务中的通知消息,文本消息,一旦检测到目标对象,系统就会使用户的设备发出声音或振动;用户单独配置通知的类型以接收与用户相关联的每个对象和/或对象类别;用户单独配置是否接收与用户相关联的每个对象和/或对象类别的通知,用户配置要接收的通知类型;
或使用“通知模块”对目标物体位置呈现提示通知,所述通知模块使MR眼镜系统的OS将物体识别结果与应用程序匹配,再将通知与已在OS中注册的应用程序对象进行匹配,从而将对象标识为通知的目标;OS通过将通知有效负载中包含的上下文标识符ID与系统中注册的所有对象的上下文ID进行比较,并找到具有匹配上下文ID的对象来执行此步骤;在将对象标识为通知的目标后,操作系统调用与对象的应用程序关联的特殊通知处理程序,但与应用程序的主过程分开;通知处理程序执行代码,以在系统UI中相对于对象在上下文中处理和呈现通知;
眼动光标与各个交互目标的感应区之间的接触情况的实时检测方法,包括:
客户端软件或内部系统软件在运行时加载检测眼动光标与交互目标及其感应区之间接触情况的可执行代码程序组件;通过软件程序实现眼动光标与任意交互目标感应区的接触反馈,反馈信息包括光标与目标感应区接触的起止时间、光标与各个目标感应区重叠部分的面积、光标到交互目标的几何中心距离,通过上述反馈信息检测接触情况;
所述交互目标设置感应区的设置方法为:
在常规方法中,通过步骤(3)中物体检测后绘制出的边缘框自动添加交互或碰撞属性,在某应用程序UI界面开发期间,程序员手动设置图形,将边缘框图形与注视射线相对应,形成碰撞体属性,进而使该图形成为感应区域。
4.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(5)中,所述用户的交互指令包括:眼动交互、手势识别交互、外设控制器、有声/无声语音识别、头动交互;
1)MR眼镜的眼动追踪装置捕获眼睛运动数据,检测眼睛动作,计算眼睛的瞳孔大小、虹膜图像、眼跳轨迹以及注视时长,当注视时长超过一定时长,则视为对某一位置进行了对应眼球的行为动作,对交互界面中的RGB摄像头的UI功能按钮做出了凝视对应点击操作的动作,进而开启RGB摄像头;点击操作为眼睛行为动作;
2)MR眼镜的手势识别模块检测手部做出特定的动作,手势识别装置接收到用户手部的运动信息,或识别手部特定的形状,与上、下、左、右滑动、放大、缩小、点击以及关闭控制选项相关联,进而控制系统开启RGB摄像头;
3)通过操控设备的含有无线信号传输的移动控制器,移动控制器为3自由度或6自由度,握持按键式控制器、穿戴式手套以及指套控制器,向MR眼镜发射控制信号,通过操作交互界面,点击UI按钮开启RGB摄像头,其中包括6DoF加速度传感器追踪技术和6DoF电磁追踪技术手柄;
4)通过MR眼镜的有声或无声语音识别装置接收用户发出的有声或无声语音,并通过系统解析用户的语音指令,控制设备开启RGB摄像头;
5)通过头动追踪装置选择交互界面的按钮,通过在MR眼镜的的加速度传感器、陀螺仪、磁力计计算用户头部的运动,在MR眼睛视野中央设置一个与头部相对位置固定的光标,移动头部控制光标选择位置与全息UI界面进行点击确认,进而启动RGB摄像头;
图像对焦的方法包括:
驱动前置摄像头对眼动追踪组件捕获双眼视线的注视区域和/或头动追踪组件捕获视野中心点的景象进行对焦摄像;MR眼镜系统获取到眼动追踪装置发送的检测信息,检测信息包括眼球注视位置的空间坐标变化量、晶状体厚度大小变化量、瞳孔直径变化量,其中注视点位置的空间坐标通过眼球的移动计算获得X和Y轴坐标,通过双眼视线的夹角或/和晶状体厚度获得Z轴坐标,及视觉深度,因而形成空间坐标(X,Y,Z);
利用眼睛注视点的X坐标和Y坐标选定外景照片上放大和对焦的区域;其中,至少一个摄像机取景设置在MR眼镜的正中间或者两边,摄像机所拍摄的照片为用户当前的视野画面,及上述外景照片为用户当时视野前方图像;根据(X,Y)注视点坐标获取外景照片上某一点,确定以该点为中心得目标区域,该目标区域为摄像头对焦和放大的区域;
利用眼睛注视点得Z坐标确定在外景照片上该目标区域中物体的视觉深度,进而控制摄像机对目标物体进行对焦并数码变焦放大一定的倍率,使其获得更清晰的图像,影像放大倍率以RGB摄像头默认的初始放大倍数为准,实现用户看哪里就放大和对焦哪里的效果;
所述图像参数调节的方法包括:
对此时摄像头实时拍摄的放大区域的影像进行自动参数优化,优化的参数包括曝光时间、ISO值、帧率、锐度、白平衡。
5.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(6)中,所述用户可以手动编辑边缘框大小来优化选中图像的方法,包括:
如果MR眼镜本地的对象识别过程无法确定对象;边界的尺寸可以增加预定量;MR眼镜接收的手势识别装置、和/或语音识别装置、和/或6DOF控制器手柄、和/或无声语音肌肉电探测器、和/或脑电波来执行边界框大小编辑;手势是“捏缩放”手势;MR眼镜在用户的眼睛注视的持续时间超过时间阈值时执行放大;在MR眼镜光学显示屏幕上呈现边界框和/或照片编辑的应用程序图标,点击所述应用程序图标后出现全息UI界面,通过与“放大”、“缩小”的UI功能键来编辑边界框;
可能存在多个物体,相应的被设置多个对应的边界框,可能两个以上的边界框相互重叠或者相互很靠近,这可能会干扰服务器的图像识别;因此通过用户的手动操作禁用不需要的边界框,从而不对禁用边界框中的图像内容进行识别;用户还可以通过手势或/和6DOF控制器手柄手动自由绘制多边形禁用边界框,该禁用边界框是任意的二维或三维的边界框,从而不对禁用边界框中的图像内容进行识别。
6.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(7)中,内容列表中的选项包括一个或多个文字、图片、音频、视频、3D模型/动画、应用程序,当对同一对象物体进行图像识别时,识别后的内容结果对应着多个不同的内容,所述内容包括文字、图片、音频、视频、3D模型/动画、应用程序,这些内容排列在列表中向用户展示;在内容列表中同一物体可能存在几种不同的对象映射关系;
所述映射关系被程序工程师人为的编辑对象和内容之间的映射关系;通过人工智能技术自动编辑对象和内容之间的映射关系,用户自己编辑和/或校正内容与对象映射关系。
7.如权利要求6所述的基于眼动注视点引导的图像识别方法,其特征在于,在将对象添加到内容列表之前,系统首先检查冗余;系统为用户提供用户界面以访问和编辑内容列表;用户编辑和/或校正与对象相关联的属性;系统隔离图像中的对象,而不能将其与已知对象匹配;用户手动输入对象的属性信息;该系统提供了一个用户界面,供用户访问和编辑对象列表;
系统首先基于内容项目的共享设置和/或第一用户的偏好设置来确定是否应该与第一用户共享内容项目;内容项目的作者限制该内容项目的共享;作者基于年龄,地理位置,时间来限制谁可以查看内容项;第一用户还可以基于内容项的作者来关闭通知;用户可能能够选择性地阻止所选作者的内容项目;
用户自主预先编辑目标物体和信息内容的对应关系,包括:
将在步骤(7)中标识的真实世界/虚拟世界对象添加到与用户关联的对象列表中;对象列表可以被维护在内容共享服务器上;列表存储对象的一个或多个图像和属性;系统为用户提供用户界面以访问和编辑对象列表;用户还可以编辑和/或校正与对象相关联的属性;系统隔离图像中的对象,而不能将其与已知对象匹配;用户可以手动输入对象的属性信息;该系统提供了一个用户界面,供用户访问和编辑对象列表,用户可以使用用户界面从与他/她相关联的对象列表中添加和删除对象;还可以广告运营商可以预先编辑物理世界户外广告与全息内容的映射关系。
8.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,所述的基于眼动注视点引导的图像识别方法还包括:IR相机和RGB相机混合获取实景图像,场景分析和行为分析预测用户感兴趣的目标物体并图像识别,具体包括以下步骤:
(1)通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白图像;
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置;
(3)检测场景的物体和声音,MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像进行AI图像分析,检测图像中物体的显著性,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体坐标;MR眼镜的声音装置检测环境中的声音源;
(4)检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、运动追踪装置检测身体运动、麦克风检测用户声音、脑电波检测装置探测脑电波;
(5)通过步骤(3)检测场景和S204检测用户行为两者结果的预测判断用户对目标物体的兴趣程度;如果兴趣程度等于/超过阈值时执行步骤(6);
(6)系统开启RGB彩色摄像头,RGB摄像头对兴趣物体的目标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量;
(7)MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像,物体图像为局部图像,其中用户手动编辑边缘框大小来优化选中图像;
(8)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(9)当眼动注视点或头动凝视点到达预测的交互目标位置时,MR眼镜直接呈现相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,也可以为用户自主预先编辑对应关系。
9.如权利要求8所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(3)中,所述检测图像中物体的显著性中,通过任何图像分析算法的来检测图像,所述显著性检测方法包括:
1)检测物体在图像中的位置,越靠近中心越显著;
2)检测图像中色彩对比度较高的区域;
3)检测视频中动态物体检测,并计算物体的移动速度;
4)检测物体移动的方向,是由远到近,还是由近到远;
5)计算目标物体在整幅画面中的占比;
所述检测图像中物体的显著性中,通过预先训练好的显着性预测模型预测前置摄像头拍摄的影像中的物体显著性;
用于分析用户观看活动的各种方法来确定或预测给定视频中的用户特定的兴趣点;基于用户在呈现期间与内容项的交互来确定热图数据;用户特定模型可用于预测用户可能会在用户访问的其他内容项中关注哪些兴趣点;
在前置摄像头的实时画面中提取一个或多个帧以创建附加内容;基于内容项的呈现期间的用户交互来识别有趣内容的这些部分;生成一个或多个显着性预测模型,该显着性预测模型用于预测在内容项的呈现期间用户可能感兴趣的内容;
还可以通过相关图像算法检测前置摄像头画面中的环境人物的动作、姿态、表情,判断该环境人物可能是潜在将被本用户关注的目标对象。
10.如权利要求8所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(4)中,所述通过眼动追踪装置检测眼睛运动,包括:
扫视距离超过/等于预设阈值,和/或眼睛的平滑的移动行为持续时间超过/等于预设阈值,和/或眼睛的移动速度超过/等于预设阈值,和/或眼睛突然停止无序的运动,和/或眼睛对某一点的注视时长超过/等于预设阈值,和/或眼睛在两点/两范围之间往复运动,和/或眼颤行为,和/或眼睛瞳孔直径的变化超过/等于预设阈值,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正扫视;在正常的日常活动中,可以跟踪眼睛进行自愿和非自愿活动的过程;一方面是在用户的眼睛例行执行两种类型的运动时辨别用户的意图;这需要区分用于传达意图的自愿运动和非自愿眼动;
自愿运动可以与进行正常的日常活动相关,也可以用于根据眼部信号“语言”传达有目的的意图;因此,算法“过滤器”和/或其他编程方法用于基于一只或两只眼睛的视频图像来识别意图;将算法编码为软件,固件,嵌入在基于硅的逻辑设备中或这些方法的组合;处理也可以在本地,远程执行,也可以结合包括所谓的“云计算”在内的此类方法来执行;
可能传达有目的意图的自愿运动包括扫视,这些扫视具有明确定义的角速度和弹道轮廓,基于眼睛的生理学,用于在距观察者不同距离处观察的散光运动,前庭眼运动与头部运动以及用于跟随特定对象的平滑跟踪运动相关联;根据其他因素来确定用户意图的其他信息;
跟踪的眼睛运动和几何形状用于以连续的方式辨别个体的生理和/或情绪状态;反扫视运动可能是观看令人讨厌的东西的指示;当与关于用户正在观看的真实或虚拟物体的信息结合时,辨别引起惊吓,吸引力或兴趣的物体类别的指示,这样的信息用于定制信息的后续显示;
步骤(4)中,所述通过头动追踪装置检测头部运动,包括:
检测用户转头过程中的速度、加速度、转动的角度,同时检测眼睛运动和头部运动,当人的视野范围外出现感兴趣的物体/事件时,人会下意识的转动头和眼睛寻找目标物体;
非自愿的眼球运动通常与自愿的头部运动相关;因此,在与头部运动相反的方向上反身地发生的前庭眼运动可以在自愿的头部运动期间包括在眼睛信号控制中;与眼睛信号语言结合使用的其他形式包括手势,其他身体部位的动作,语音,开关激活,面部表情;
头部位置跟踪系统包括位置和运动传感器,加速度计光源和/或其他用于获取MR眼镜的位置,方向和运动的设备通过检测面向外部的照相机中的整个场景的运动来检测,从头部位置跟踪系统接收头部位置信息;将头部位置信息提供给眼动交互意图预测模型的头部位置跟踪系统;在MR眼镜上共同形成一个惯性测量单元IMU,头部位置信息帮助确定用户的头部运动,旋转或方向;
所述通过运动追踪装置检测身体运动,包括:
检测用户的躲闪、跳跃、颤抖身体行为;在一定程度上MR眼睛的头动追踪装置代表运动追踪装置来检测身体运动;或者通过智能手表、智能手环、具有空间定位的控制器手柄任意的可穿戴智能硬件来检测身体运动;检测用户在感兴趣的关键字进入耳朵时停止工作并且以高精度将视线转向声音源的反应;通过这些身体行为,MR计算机判断用户兴趣程度;
所述通过麦克风检测用户声音,包括:
检测用户所发出的关键字语音,用于唤醒和启动兴趣程度分析,通过词语判断用户对当前视野内物体感兴趣程度的分析维度。
11.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,所述的基于眼动注视点引导的图像识别方法还包括:IR相机和RGB相机混合获取实景图像,和眼动交互意图预测用户感兴趣的目标物体并图像识别,包括以下步骤:
(1)通过MR眼镜的红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白图像;
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置;
(3)MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体坐标;
(4)将目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体;通过已训练好眼动交互意图模型预测下一时刻眼动注视点或头动凝视点的交互目标位置,如果预测的目标位置为某个目标物体的交互区域内,则预先执行步骤(5);
(5)系统开启RGB彩色摄像头,RGB摄像头对用户当前点击选中的目标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量;
(6)MR眼镜从RGB摄像头捕获彩色图像中截取已被AI算法框选的物体图像,即局部图像,其中用户手动编辑边缘框大小来优化选中图像;
(7)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(8)当眼动注视点或头动凝视点到达预测的交互目标位置时,MR眼镜直接呈现相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,或者为用户自主预先编辑对应关系。
12.如权利要求11所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(4)中,所述已训练好交互意图模型通过眼睛行为与交互目标位置之间的位置关系确定交互意图;
通过AI训练算法找出用户对某一目标进行眼动交互前一时间段内用户产生的眼睛动作/状态与交互目标位置之间的关系;
其中,被用于训练交互意图模型中眼睛动作/状态数据包括但不限于1)前庭眼运动,2)汇聚/扩散运动,3)平滑追视,4)长扫视和矫正扫视,5)瞳孔直径变化,6)注视时长;
根据诸如运动范围,速度分布,两只眼睛是否执行共轭运动以及头部或视野的运动参数来区分每种运动类型;每种类型的眼睛运动都涉及不同的神经回路;不同的眼球运动涉及不同程度的自愿与非自愿神经通路;在辨别眼睛信号的过程中,特别重要的是能够识别传达意识意图的眼睛自愿运动;
1)前庭眼眼球运动通过使眼睛移动与头部旋转相同的角度但方向相反来补偿头部运动;这具有稳定投射到眼睛中央凹区域的外部世界图像保持高分辨率的作用;具体的当用户正在注视某个物体的同时扭转头部到左/右一侧,此时眼球会向与转头方向相反的方向偏转;尽管前庭眼运动本质上是自反的,但前庭眼运动的检测可用于间接辨别头部运动的绝对位置;这是人类的主观意识才能够实现行为;
2)汇聚/扩散眼动用于独立对准每只眼的中央凹区域,以观察与观察者一定距离之外的物体;与其他眼睛运动不同的是,汇聚/扩散运动是不确定的,其中每只眼睛向不同的方向运动;汇聚运动指的是双眼相向运动汇聚至一点,双眼视线的夹角较大,扩散运动指的是双眼相反运动,双眼视线的夹角较大;通常只有在用户在主观意识层面对某个物体具备明确的观察需求时才出现汇聚/扩散眼动用,在没有目标物体的空间中,双眼很难控制双眼运动调节对焦深度;因此汇聚/扩散眼动间接的作为是人类才能够实现的主观意识行为;
3)平滑追视眼睛运动是缓慢的,用户主观意识控制,且自愿的眼睛运动;将移动目标对象的投影保持在眼睛的中央凹区域上;平滑追踪运动的整体速度通常对应于观察中的移动目标的速度;除非进行了观察者的大量专业训练,否则在没有跟踪运动目标的能力的情况下试图进行平滑跟踪的尝试只会导致观察者进行一个或多个眼跳运动;平滑追视眼动可以作为是人类的主观意识才能够实现行为;
4)扫视运动是快速运动,会突然改变眼睛的注视点;扫视是“弹道的”,即一旦开始,扫视所覆盖的方向和距离仅由扫视发射控制;即使在扫视开始和/或其执行期间目标的位置发生变化,扫视期间也无法进行中间校正;扫视运动是人体产生的最快运动,达到了高达900°/秒的角速度;扫视角大约大于20°时,通常会伴随头部运动,尽管个体之间差异很大;就速度分布而言,扫视也是“弹道”的;响应意外的刺激,扫视的起始部分大约需要200毫秒;起爆导致进入快速加速阶段,在此阶段类似于其他弹道速度曲线,峰值速度与行进距离大致成比例;扫视的运动阶段持续20到200毫秒,具体取决于所移动的总角距离;通常,只要头部保持不动,扫视镜就不会使眼睛在扭转轴上旋转;扫视角大约大于20°时,通常会伴随头部运动,尽管个体之间差异很大;通常用户通过眼睛注视点对准交互目标时,长距离扫视通常覆盖目标距离的90%,然后是10%的校正扫视;向心扫视比离心扫视更准确选中目标;下冲或过冲后进行的校正可能会出现较长或较短的延迟;校正扫视可以快速执行,也可能需要数百毫秒;视线方向落在新的目标位置上时,有一个快速减速阶段;在非常短的延迟之后,大扫视通常会伴随至少一个较小的校正扫视,以进一步接近目标位置;即使目标已经消失,也可能发生矫正扫视,从而进一步支持了眼跳运动的投射弹道性质;如果目标仍然可见,则矫正扫视的频率会更高;
这些中间的眼睛运动包括一个或多个矫正扫视,眨眼,震颤,漂移;眼颤指的是瞳孔和角膜缘可能会出现位移,当眼球运动到达目标时可能产生眼颤,其表现为阻尼振荡;这些运动的主要振荡频率通常约为20赫兹;通常可以检测到约50-60毫秒的阻尼振荡;这样就观察1-3个这样的阻尼振荡;在该时间段内会持续抑制跳音;否则,运动模糊将在观察到的场景中显而易见;眼睛的生理漂移,震颤和其他较小运动的测量用作识别设备佩戴者的生理和心理状态的组件;这些运动对于确定和监测各种病理状况以及药物和其他化合物的作用也很有价值;
构建眼动交互意图预测模型的方法,包括:
在眼动交互过程中需要确定眼睛运动是否“有意图”,并对眼睛运动进行分类;这通常与生理“非自愿”和“自愿”眼动之间的区别有关;眼睛的非自愿运动不受意识控制,因此在与眼睛交互过程中帮助不大;自愿的眼球运动在有意识的控制下,因此用于在眼球信号形成过程中传达有目的的意图;
通过其他感测的数据来通知对目的性的确定;这种感官数据的示例包括头部移动,面部移动,手部移动以及其他可量化的数据;此外,概述的上下文以及对象注视特定的上下文帮助确定目的;
为了对“有意图”眼动与“无意图”眼动进行分类,进而根据眼动交互意图进行交互预测,需要同时考虑多种措施;度量包括扫视发射延迟,峰值扫视速度,扫视所覆盖的角距离,前庭眼运动,汇聚/扩散运动,平滑追视,长扫视和矫正扫视,瞳孔直径变化,注视时长;这种分类通常是多元的;此类数据的分类方法使用:1)统计和2)神经网络方法;
统计方法包括线性分类器,二次分类器和贝叶斯统计;建立眼动关注意图模型的人工智能训练包括有标记的监督训练和无标记的无监督训练两种方式;监督学习用于机器学习;训练和验证数据集通过使设备佩戴者在执行眼信号时实时指示眼动是否“有意图”来收集;用于获取此类数据的典型且易于使用的设置涉及在进行有意图的眼动时按住计算机鼠标上的按钮;将具有已知结果的此类数据集分为用于训练的数据集和用于验证的数据集;
同样,具有正确识别结果的数据集用于神经网络或深度学习分类方法的训练和验证;训练神经网络的方法,具有大量中间层和互连关系的神经网络的应用通常称为“深度学习”;这些非常适合根据眼动模式和其他感官输入来识别用户的意图;
当使用许多人工智能AI或基于神经网络的分类方法时,通常难以确定诸如相对重要性或不同输入之间的相互作用之类的因素,或者很难插入概率信息来改善网络;在某些情况下这可能是不利的;但是,一旦经过培训,基于神经网络的实现可能会非常快,并且在存储和功耗方面都非常高效;神经网络也可以很容易地直接在固件逻辑中实现,而无需利用中央处理单元CPU资源;将训练数据输入卷积神经网络模型,通过不断迭代对卷积神经网络模型进行训练,得到性能较好、稳定性较好的卷积神经网络模型,进一步地将训练好的卷积神经网络模型确定为预测模型。
13.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,所述的基于眼动注视点引导的图像识别方法还包括:利用低分辨率和高分辨率摄像头混合获取实景图像并识别,包括以下步骤:
(1)通过MR眼镜的第一前置低分辨率摄像头实时捕获用户视觉前方实景影像;
(2)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置;
(3)MR眼镜本地处理器和本地数据库对步骤(1)中低分辨率摄像头捕获低分辨率图像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体坐标;
(4)系统在目标物体位置呈现提示通知,并且在目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体;如果用户对当前选中区域执行点击确认的交互行为,则执行步骤(6);
(5)系统接受到确认交互指令后,开启第二高分辨率摄像头,高分辨率摄像头对用户当前点击确认的目标物体位置处进行对焦、图像参数调节、放大以获得最优高清图像;
(6)MR眼镜从第二高分辨率摄像头捕获高清图像中截取已被AI算法框选的物体图像,即局部图像,其中用户手动编辑边缘框大小来优化选中图像;
(7)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(8)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序或者为用户自主预先编辑对应关系。
14.如权利要求13所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(4)中,通过MR眼镜的第一前置低分辨率摄像头实时捕获用户视觉前方实景影像;具体为前置低分辨率摄像头包括分辨率较低的彩色摄像头、较低的红外摄像头;
通过使用低分辨率摄像头和高分辨率摄像头结合方式获取图像;在通常情况下优先使用低分辨率摄像头需要长时间开启并获取场景图像,低分辨率摄像头通常使用较低的功耗;在步骤(3)-(4)中,计算机系统在低分辨率摄像头获取的图像中检测到目标物体,并且该目标物体获得用户的交互指令后开启第二高分辨率摄像头,高分辨率摄像头对用户当前点击确认的目标物体位置处进行对焦、图像参数调节、放大以获得最优高清图像;通过高低分辨率摄像头结合的方式有效的降低系统功耗。
15.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,所述的基于眼动注视点引导的图像识别方法还包括:利用在物理相机和虚拟相机混合获取真实/虚拟目标的图像并识别,包括以下步骤:
(1)通过MR眼镜的物理红外摄像头将物理世界构建三维空间,同时实时利用红外摄像头捕获实景黑白图像;
(2)通过MR眼镜的图像渲染装置GPU生成的全息影像被光学显示系统呈现,同时实时利用虚拟摄像头捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像;
(3)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置物理摄像头和虚拟摄像头的画面中、全息空间中的注视点/凝视点坐标位置;
(4)MR眼镜本地处理器和本地数据库对步骤(1)中红外摄像头捕获黑白图像和/或步骤(2)中虚拟摄像头捕获虚拟全息影像进行AI图像分析,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,记录下目标物体坐标;
(5)系统在目标物体位置呈现提示通知,并且将目标物体的边缘框范围内设置为透明交互区域,透明交互区域被设置为与眼动注视点或头动凝视点产生重叠或/和碰撞来选中当前物体;根据注视点的位置和/或深度确定用户关注的是物理世界目标还是虚拟世界目标,如果用户对当前物理世界目标交互区域执行点击确认的交互行为,则执行步骤(6),如果用户对当前虚拟世界目标交互区域执行点击确认的交互行为,则执行步骤(7);
(6)系统接受到确认交互指令后,开启RGB彩色摄像头,RGB彩色摄像头对用户当前点击确认的目标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量;
(7)系统接受到确认交互指令后,虚拟摄像头被配置为截获高分辨率的目标物体全息图像,虚拟摄像头获取与渲染装置生成的全息图质量相同的高清图像;
(8)MR眼镜从RGB摄像头和/或高清虚拟摄像头捕获彩色图像中截取注视点坐标位置的兴趣物体图像,即局部图像,其中用户手动编辑边缘框大小来优化选中图像;
(9)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(10)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,或者为用户自主预先编辑对应关系。
16.如权利要求15所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(2)中,通过在设备运行系统中设置虚拟摄像机,虚拟摄像机设置在MR眼镜的中心,及用户在佩戴状态下了眉心位置,其虚拟摄像机的视角可以拍摄真人用户视野中的虚拟全息物体;实际中,虚拟摄像机被设置为可以获取MR眼镜的图像渲染装置GPU生成的影像;附加或替换的虚拟摄像机可以控制获取虚拟图像的分辨率和清晰度,在通常情况下较低的图像质量被优先选择,当确定需要被传输至云端服务器被用于图像识别时,截选较高的图像质量,其目的在于在降低功耗的同时保证图像识别的准确性,较低图像质量有助于降低计算机功耗;
步骤(9)中,服务器识别的全息内容包括文字、图像、虚拟人物形象、游戏形象,均是以图像的形式被识别,则自动使用OCR光学字符识别技术将图片中文字识别为可编辑文字/字符。
17.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,所述的基于眼动注视点引导的图像识别方法还包括:通过检测用户的行为和生理数据计算兴趣程度,进而启动摄像头获取外景图像并识别,包括以下步骤:
(1)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置摄像头画面中和全息空间中的注视点/凝视点坐标位置;
(2)检测用户对物体可能感兴趣的行为,包括眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、 运动追踪装置检测身体运动、麦克风检测用户声音、脑电波与已经训练好的交互意图模型匹配,进而判断用户对当前注视位置的兴趣程度和,如果兴趣程度等于/超过阈值时执行步骤(3);
(3)系统开启RGB彩色高清摄像头,RGB彩色摄像头对感兴趣物体的目标物体位置处进行对焦、放大、图像参数调节、放大以获得最优图像质量;
(4)MR眼镜从RGB彩色摄像头捕获彩色图像中检测注视点坐标位置的兴趣物体图像,利用已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,并根据程序框选的图像范围截取目标物体的图像,其中用户可以手动编辑边缘框大小来优化选中图像;兴趣物体图像上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(5)MR眼镜直接呈现云端服务器传回的运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,或者为用户自主预先编辑对应关系。
18.如权利要求17所述的基于眼动注视点引导的图像识别方法,其特征在于,步骤(2)步骤(3)中,通过检测到眼睛运动、头部运动、身体运动、声音来实时分析用户当前的交互意图,和是否存在可能感兴趣的物体,及通过上述行为分析获得的兴趣程度作为启动物体检测和图像识别的条件;启动图像识别的过程中首先需要启动前置摄像头感兴趣物体的目标物体进行对焦、放大、图像参数调节、放大以获得最优图像质量;在前置物理摄像头获得的图像中,通过已经训练好的物体特征库识别图像中的至少一个物体,并自适应的框选出图像中目标物体,并根据程序框选的图像范围截取目标物体的图像;其中应注意用户当前的注视点位置坐标应该在程序框选的图像范围内,则视为有效目标图像;反之注视点不在 框选的图像范围内,则不进行下一步。
19.如权利要求1所述的基于眼动注视点引导的图像识别方法,其特征在于,所述的基于眼动注视点引导的图像识别方法还包括:利在物理相机和虚拟相机混合获取真实/虚拟目标的图像中,通过检测用户的行为和生理数据计算兴趣程度启动摄像头,再通过注视点的位置和/或深度来选择使用物理相机或虚拟相机获取图像并识别,包括以下步骤:
(1)通过MR眼镜的物理摄像头捕获实景图像;
(2)通过MR眼镜的图像渲染装置生成的全息影像被光学显示系统呈现,同时实时利用虚拟摄像头捕获图像渲染装置生成的虚拟全息影像,虚拟摄像头被配置为截获低分辨率全息图像;
(3)MR眼镜的眼动追踪装置获取用户视线注视方向或头动追踪装置获取用户视野中心凝视点,经过映射算法获取用户在一个或多个前置物理摄像头和虚拟摄像头的画面中、全息空间中的注视点/凝视点坐标位置;
(4)检测用户行为,通过眼动追踪装置检测眼睛运动、头动追踪装置检测头部运动、 运动追踪装置检测身体运动、麦克风检测用户声音综合判断用户对当前注视位置的兴趣程度,如果兴趣程度等于/超过阈值时执行步骤(5);
(5)通过眼动追踪装置检测注视点的位置和/或深度确定用户关注的是物理世界目标还是虚拟世界目标;如果用户对当前物理世界目标选中区域执行点击确认的交互行为,则执行步骤(6);如果用户对当前虚拟世界目标选中区域执行点击确认的交互行为,则执行步骤(7);
(6)系统接受到确认交互指令后,开启RGB彩色摄像头,RGB彩色摄像头对用户当前点击确认的目标物体位置处进行对焦、图像参数调节、放大以获得最优图像质量;
(7)系统接受到确认交互指令后,虚拟摄像头被配置为截获高分辨率全息图像,虚拟摄像头获取与渲染装置生成的全息图质量相同的高清图像;
(8)MR眼镜从RGB摄像头和/或高清虚拟摄像头捕获彩色图像中截取已被AI算法框选的物体图像,其中用户可以手动编辑边缘框大小来优化选中图像;
(9)物体的局部图像通过通信装置被上传至云端服务器,云端服务器对接收到的物体局部图像进行匹配识别,在数据库中检索相关内容信息;
(10)MR眼镜接收服务器的相关运算结果和内容信息,通过光学成像系统渲染呈现内容信息,其中内容信息包括文字、图片、音频、视频、应用程序,或者为用户自主预先编辑对应关系。
20.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1~19任意一项所述的基于眼动注视点引导的图像识别方法。
21.一种实施权利要求1~19任意一项所述基于眼动注视点引导的图像识别方法的MR眼镜。
22.一种应用权利要求1-19任意一项所述基于眼动注视点引导的图像识别方法的应用终端包括 AR眼镜、VR眼镜、MR眼镜、XR眼镜等HMD近眼显示设备,和智能汽车、飞机等具有驾驶舱场景的交通工具。
CN202011267174.6A 2020-11-13 2020-11-13 基于眼动注视点引导的图像识别方法、mr眼镜及介质 Active CN112507799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011267174.6A CN112507799B (zh) 2020-11-13 2020-11-13 基于眼动注视点引导的图像识别方法、mr眼镜及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011267174.6A CN112507799B (zh) 2020-11-13 2020-11-13 基于眼动注视点引导的图像识别方法、mr眼镜及介质

Publications (2)

Publication Number Publication Date
CN112507799A CN112507799A (zh) 2021-03-16
CN112507799B true CN112507799B (zh) 2023-11-24

Family

ID=74957387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011267174.6A Active CN112507799B (zh) 2020-11-13 2020-11-13 基于眼动注视点引导的图像识别方法、mr眼镜及介质

Country Status (1)

Country Link
CN (1) CN112507799B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093907B (zh) * 2021-04-03 2023-06-13 北京大学 人机交互方法、系统、设备及存储介质
CN113283329B (zh) * 2021-05-19 2024-06-07 北京京东方光电科技有限公司 视线追踪系统、眼动仪、视线追踪方法、设备及介质
CN113434620A (zh) * 2021-06-25 2021-09-24 阿波罗智联(北京)科技有限公司 显示方法、装置、设备、存储介质以及计算机程序产品
CN113325956A (zh) * 2021-06-29 2021-08-31 华南理工大学 一种基于神经网络的眼动控制系统及实现方法
CN113465611B (zh) * 2021-06-29 2024-03-26 阿波罗智联(北京)科技有限公司 导航方法、装置、电子设备及可读存储介质
CN113407035A (zh) * 2021-07-14 2021-09-17 喻海帅 一种基于mr混合现实技术的通信设施检修操作系统
CN113657126B (zh) * 2021-07-30 2024-06-04 北京百度网讯科技有限公司 翻译的方法、装置及电子设备
CN113627312A (zh) * 2021-08-04 2021-11-09 东南大学 一种通过眼动追踪来协助瘫痪失语者语言输出的系统
CN113660477A (zh) * 2021-08-16 2021-11-16 吕良方 一种vr眼镜及其图像呈现方法
CN113408511B (zh) * 2021-08-23 2021-11-12 南开大学 一种确定注视目标的方法、系统、设备及存储介质
CN113673479A (zh) * 2021-09-03 2021-11-19 济南大学 基于视觉关注点识别物体的方法
US11922606B2 (en) 2021-10-04 2024-03-05 Samsung Electronics Co., Ltd. Multipass interference correction and material recognition based on patterned illumination without frame rate loss
CN114063771A (zh) * 2021-10-14 2022-02-18 内蒙古雲图计算机软件开发有限公司 一种基于ar技术的园区场景互动展示系统
CN114047822B (zh) * 2021-11-24 2023-12-19 京东方科技集团股份有限公司 近眼显示方法及系统
CN114040184A (zh) * 2021-11-26 2022-02-11 京东方科技集团股份有限公司 图像显示方法、系统、存储介质及计算机程序产品
CN114371781A (zh) * 2021-12-31 2022-04-19 金地(集团)股份有限公司 房产营销中的用户画像生成方法和系统
EP4209865A1 (en) * 2022-01-05 2023-07-12 IDUN Technologies AG Apparatus and method for determining an intent of a user
CN114489335B (zh) * 2022-01-21 2023-12-01 上海瑞司集测科技有限公司 脑机接口的检测方法、装置、存储介质及系统
CN114578966B (zh) * 2022-03-07 2024-02-06 北京百度网讯科技有限公司 交互方法、装置、头戴显示设备、电子设备及介质
WO2023183858A1 (en) * 2022-03-22 2023-09-28 David Segal Systems and methods for augmented reality using head-based wearables to interact with objects
CN114397964B (zh) * 2022-03-25 2022-07-01 首都师范大学 一种有效注视点检测方法、装置、电子设备及存储介质
CN114816049A (zh) * 2022-03-30 2022-07-29 联想(北京)有限公司 一种增强现实的引导方法及装置、电子设备、存储介质
CN114821180B (zh) * 2022-05-06 2022-12-06 盐城工学院 一种基于软阈值惩罚机制的弱监督细粒度图像分类方法
CN114972818B (zh) * 2022-05-07 2024-05-14 浙江理工大学 一种基于深度学习与混合现实技术的目标锁定系统
CN114815262B (zh) * 2022-05-17 2023-04-07 常山县亿思达电子有限公司 一种基于双向微振扫描投射成像的隐形mr眼镜系统
CN115097903B (zh) * 2022-05-19 2024-04-05 深圳智华科技发展有限公司 Mr眼镜控制方法、装置、mr眼镜及存储介质
CN115111964A (zh) * 2022-06-02 2022-09-27 中国人民解放军东部战区总医院 一种用于单兵训练的mr全息智能头盔
CN115187307B (zh) * 2022-07-22 2024-06-07 支付宝(杭州)信息技术有限公司 虚拟世界的广告投放处理方法及装置
CN116095221B (zh) * 2022-08-10 2023-11-21 荣耀终端有限公司 一种游戏中的帧率调整方法及相关装置
CN115061576B (zh) * 2022-08-10 2023-04-07 北京微视威信息科技有限公司 用于虚拟现实场景的注视位置预测方法及虚拟现实设备
JP7502702B2 (ja) * 2022-08-23 2024-06-19 ダイキン工業株式会社 情報処理装置、情報処理システム、情報処理方法及びコンピュータプログラム
CN115129163B (zh) * 2022-08-30 2022-11-11 环球数科集团有限公司 一种虚拟人行为交互系统
WO2024063934A1 (en) * 2022-09-19 2024-03-28 Apple Inc. Gaze-based command disambiguation
CN115357053A (zh) * 2022-10-19 2022-11-18 北京亮亮视野科技有限公司 基于ar眼镜的无人机操控系统及方法
CN115793862B (zh) * 2023-01-05 2023-04-28 东云睿连(武汉)计算技术有限公司 一种图像目标隐式标注方法、系统、电子设备及存储介质
CN115797607B (zh) * 2023-02-13 2023-04-14 无锡文康科技有限公司 一种增强vr真实效果的图像优化处理方法
CN116300092B (zh) * 2023-03-09 2024-05-14 北京百度网讯科技有限公司 智能眼镜的控制方法、装置、设备以及存储介质
CN116708974B (zh) * 2023-08-01 2023-10-17 清华大学 一种头戴式主动视觉相机的通用摄像头干扰方法及系统
CN116909408B (zh) * 2023-09-13 2024-02-09 中物联讯(北京)科技有限公司 一种基于mr智能眼镜的内容交互方法
CN117130491B (zh) * 2023-10-26 2024-02-06 航天宏图信息技术股份有限公司 混合现实多组协同的方法、系统、电子设备和存储介质
CN117132624B (zh) * 2023-10-27 2024-01-30 济南作为科技有限公司 跟随摄像机遮挡检测方法、装置、设备及存储介质
CN117492573B (zh) * 2024-01-03 2024-05-03 广东工业大学 基于眼动数据的自动冻屏方法、装置、设备及存储介质
CN117689846B (zh) * 2024-02-02 2024-04-12 武汉大学 线状目标的无人机摄影重建多交向视点生成方法及装置
CN117998071B (zh) * 2024-04-07 2024-06-18 清华大学 眼动追踪光场3d显示方法、装置、电子设备及存储介质
CN118172769A (zh) * 2024-05-07 2024-06-11 煤炭科学技术研究院有限公司 一种基于双域扩散方式的不稳定水线读数方法和系统
CN118154858A (zh) * 2024-05-13 2024-06-07 齐鲁空天信息研究院 基于数字实景模型的兴趣点提取方法、装置、介质及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960937A (zh) * 2018-08-10 2018-12-07 陈涛 Ar智能眼镜的应用基于眼动追踪技术的广告推送方法
WO2018224847A2 (en) * 2017-06-09 2018-12-13 Delamont Dean Lindsay Mixed reality gaming system
CN109086726A (zh) * 2018-08-10 2018-12-25 陈涛 一种基于ar智能眼镜的局部图像识别方法及系统
CN110070624A (zh) * 2019-04-26 2019-07-30 厦门大学 一种基于vr结合眼动跟踪的城市风貌特征识别的方法
CN110945405A (zh) * 2017-05-31 2020-03-31 奇跃公司 眼睛跟踪校准技术
CN111897435A (zh) * 2020-08-06 2020-11-06 陈涛 一种人机识别的方法、识别系统、mr智能眼镜及应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013168173A1 (en) * 2012-05-11 2013-11-14 Umoove Services Ltd. Gaze-based automatic scrolling
US20170115742A1 (en) * 2015-08-01 2017-04-27 Zhou Tian Xing Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110945405A (zh) * 2017-05-31 2020-03-31 奇跃公司 眼睛跟踪校准技术
WO2018224847A2 (en) * 2017-06-09 2018-12-13 Delamont Dean Lindsay Mixed reality gaming system
CN108960937A (zh) * 2018-08-10 2018-12-07 陈涛 Ar智能眼镜的应用基于眼动追踪技术的广告推送方法
CN109086726A (zh) * 2018-08-10 2018-12-25 陈涛 一种基于ar智能眼镜的局部图像识别方法及系统
CN110070624A (zh) * 2019-04-26 2019-07-30 厦门大学 一种基于vr结合眼动跟踪的城市风貌特征识别的方法
CN111897435A (zh) * 2020-08-06 2020-11-06 陈涛 一种人机识别的方法、识别系统、mr智能眼镜及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于视觉仿生机理的成像目标检测和识别方法及感知计算;张学武;徐立中;石爱业;霍冠英;范新南;;传感技术学报(第12期);全文 *

Also Published As

Publication number Publication date
CN112507799A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112507799B (zh) 基于眼动注视点引导的图像识别方法、mr眼镜及介质
CN111949131B (zh) 一种基于眼动追踪技术的眼动交互方法、系统及设备
EP3140719B1 (en) Systems and methods for biomechanically-based eye signals for interacting with real and virtual objects
US20240061243A1 (en) Systems and methods for sign language recognition
CN112181152B (zh) 基于mr眼镜的广告推送管理方法、设备及应用
US10831268B1 (en) Systems and methods for using eye tracking to improve user interactions with objects in artificial reality
CN112034977B (zh) Mr智能眼镜内容交互、信息输入、应用推荐技术的方法
US9342610B2 (en) Portals: registered objects as virtualized, personalized displays
KR102182605B1 (ko) 시선-기반 미디어 선택 및 편집을 위한 시스템들 및 방법들
US9213405B2 (en) Comprehension and intent-based content for augmented reality displays
US20150331240A1 (en) Assisted Viewing Of Web-Based Resources
EP4161387B1 (en) Sound-based attentive state assessment
CN109145010B (zh) 信息查询方法、装置、存储介质及穿戴式设备
WO2023114079A1 (en) User interactions and eye tracking with text embedded elements
CN117980867A (zh) 基于对照明的生理响应的交互事件
CN116997880A (zh) 注意力检测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant