CN113253833A - 用于增强现实应用的系统和方法 - Google Patents

用于增强现实应用的系统和方法 Download PDF

Info

Publication number
CN113253833A
CN113253833A CN202011371517.3A CN202011371517A CN113253833A CN 113253833 A CN113253833 A CN 113253833A CN 202011371517 A CN202011371517 A CN 202011371517A CN 113253833 A CN113253833 A CN 113253833A
Authority
CN
China
Prior art keywords
video
display
overlay
augmented reality
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011371517.3A
Other languages
English (en)
Inventor
S·卡特
L·德努
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Publication of CN113253833A publication Critical patent/CN113253833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

用于增强现实应用的系统和方法。本文中示例实现描述了用于提供便于增强现实(AR)叠加的平台的系统及方法,其能涉及:稳定从第一装置接收到的视频以显示在第二装置上;以及针对在所述第二装置对经稳定的视频的一部分进行的输入,生成在所述第一装置的显示器上与所述经稳定的视频的所述一部分相对应的AR叠加。

Description

用于增强现实应用的系统和方法
技术领域
本公开总体上涉及增强现实(AR)系统,并且更具体地,涉及用于利用AR生成可用控制面板和屏幕界面。
背景技术
在相关技术的实现中,存在提供界面使得用户能够操作车辆中的仪表板或立体声系统的AR应用。在其他应用中,互联网浏览会话能够利用AR向网页添加辅助人们在互联网中导航的叠加(overlay)。
发明内容
本文描述的示例实现涉及允许流传输显示器(例如,计算机屏幕、触摸液晶显示器(LCD)、数字控制面板、器具的控制面板)的经校正的视图以及即时或自动代理添加叠加以指导人们进行处理(例如,点击或轻击屏幕上的哪个按钮、在何处输入文本等)来指导人们的叠加的AR实现。示例实现涉及登记:检测感兴趣的对象的边界,以便即使在用户移动相机时也在屏幕上适当地显示AR叠加。在另一示例实现中,标记的创建是基于下面的内容进行的,并且能够在采取动作时自动去除。在另一示例实现中,自动检测遮挡以现实方式在下方显示指令叠加。最后,自动过程允许摄取现有的视频资料以提取用于初始化登记步骤的锚图像(例如,诸如多功能装置(MFD)之类的器具上的LCD显示器的指引视频)。
在示例实现中,AR界面能够扩展到即时远程辅助任务,其中远程专家与共享来自移动装置或头戴式装置的即时流的人员联系,以诊断和修复现场问题。随着即时流传输服务的普及,即时远程辅助已成为用户解决难度越来越大的问题的方式。相关领域的工具集中于允许远程用户注释或演示解决方案,但是没有考虑到用户在跟随他们的指令中需要花费时间和精力。在用户能够完全理解指令之前,用户将常常需要重复这些指令,并且在一些情况下,他们将需要用双手来操纵物理装置,从而难以同时从移动装置流传输即时视频。为了解决这些问题,示例实现便于用于远程辅助界面的基于AR的工具,该工具能够在即时流期间自动记录用户能够异步观看的步骤。
本公开的方面涉及一种方法,该方法能够包括:稳定从第一装置接收到的视频以显示在第二装置上;以及针对在所述第二装置对经稳定的视频的一部分进行的输入,在所述第一装置的显示器上生成与所述经稳定的视频的所述一部分相对应的增强现实(AR)叠加。
本公开的方面涉及一种非暂时性计算机可读介质,其存储用于执行处理的指令,指令包括:稳定从第一装置接收到的视频以显示在第二装置上;以及针对在第二装置对经稳定的视频的一部分进行的输入,在第一装置的显示器上生成与经稳定的视频的一部分相对应的增强现实(AR)叠加。
本公开的方面涉及一种系统,该系统包括:用于稳定从第一装置接收到的视频以显示在第二装置上的装置;以及针对在第二装置对经稳定的视频的一部分进行的输入,用于在第一装置的显示器上生成与经稳定的视频的一部分相对应的增强现实(AR)叠加的装置。
附图说明
图1例示了根据示例实现的用于在屏幕或控制面板上叠加AR界面和/或注释的示例流程。
图2例示了根据示例实现的从用户装置捕获的装置面板上的示例叠加。
图3例示了根据示例实现的具有转变的3D叠加节点的示例。
图4例示了根据示例实现的经透视校正的面板。
图5例示了其中实现了手部和手指蒙板使得叠加置于手部或手指下方的叠加的示例。
图6例示了根据示例实现的AR界面的记录和重放的示例。
图7例示了根据示例实现的用于注释和记录过程的流程图。
图8例示了根据示例实现的计算装置的示例。
具体实施方式
以下详细描述提供了本申请的附图和示例实现的细节。为了清楚起见,省略了附图之间冗余元件的附图标记和描述。贯穿说明书使用的术语仅作为示例而提供,并非旨在进行限制。例如,术语“自动”的使用依据实践本申请的实现的本领域普通技术人员所期望的实现,可以涉及全自动实现或涉及用户或管理员对实现的一些方面的控制的半自动实现。选择能够由用户通过用户界面或其他输入手段来进行,或者能够通过期望的算法来实现。本文所描述的示例实现能够单独地或组合地使用,并且能够根据所期望的实现通过任何手段来实现示例实现的功能。
远程帮助客户排除诸如MFD等的高级器具的故障可能涉及多个挑战。例如,仅语音交互可能容易出错,而向客户站点派遣服务工程师可能会很长且成本高。
为了解决这种情况,许多器具制造商编写了使用指引视频。如果视频不够用,客户仍将需要服务工程师的现场帮助。在示例实现中,存在一种AR系统,该AR系统被配置为当客户在安装新MFD的驱动器时在诸如客户的计算机/智能电话屏幕之类的屏幕和控制面板上提供AR叠加,或者在操作涉及触摸按钮来配置MFD时在MFD的LCD屏幕上提供AR叠加。具体地,示例实现利用本质上是2D表面的屏幕和控制面板的表面,以提供注释和比相关技术实现更好的叠加。
在相关技术的实现中,客户安装屏幕共享软件,该软件允许远程工程师查看客户屏幕,并控制客户屏幕或者移动远程光标来指导客户。此外,用户时常只能求助于视频,即,通过用智能电话对LCD或控制面板拍摄图像并让远程工程师看到客户所见。
在这样的相关技术实现中,在个人计算机上安装屏幕共享软件的问题在于:客户已经在寻求帮助以安装其他软件,他们的公司可能不容易允许安装新软件,计算机可能无法连接到互联网,或者可能没有用于移动装置的屏幕共享应用。
此外,通过视频流,远程工程师可能会随着用户四处移动电话而变得迷失方向,并且由于限于口头指令(例如,“是,单击左下角的这个红色按钮,不,不是这个,是那个,然后同时按下所有这些按钮并按住3秒”),可能极大地削弱了沟通。
为了解决此类问题,示例实现促进了AR界面和叠加系统,该系统涉及控制面板和屏幕(例如,计算机屏幕、触摸屏、MFD上看到的常规数字控制面板、或诸如微波炉、汽车立体声系统等的器具)。仅凭借利用本文描述的示例实现的AR界面的移动装置,用户能够将移动装置相机对准他们的屏幕/LCD/面板,从而允许远程工程师交互地添加叠加指令来指导他们。
图1例示了根据示例实现的用于在屏幕或控制面板上叠加AR界面和/或注释的示例流程。当在100处,本地用户通过其用户装置连接到远程协助系统时流程开始。
在示例实现中,系统进行图像跟踪,作为检测或跟踪屏幕或控制面板的基础。在101,系统在数据库中搜索与流传输的内容匹配的锚图像。依据所期望的实现,能够自动地或手动地植入代表要检测的对象的锚图像的数据库。锚图像是经过处理以提取关键点的图像。
对于屏幕或LCD显示器来自已知装置(例如,已知MFD的LCD面板)的静态情况,参考图像会预先植入应用中,或者从在线数据库中获得参考图像并下载到应用中。例如,对于MFD,存在示出特定MFD装置的LCD控制面板的图像集,使得只要这些控制面板出现在相机的视野中,应用就自动检测并跟踪这些类型的控制面板。同样,能够为流行的标准膝上型电脑模型制作图像集。因此,如果在应用内找到锚图像或能够从在线数据库中获得锚图像,则在103处使用这种锚图像。
如果没有找到锚图像(102),则应用还支持对从未见过的对象或LCD显示器进行动态登记,在这种情况下,四边形检测器能够与AR平面检测器一起使用。具体来说,当服务工程师或本地用户点击屏幕时,应用能够被配置为在当前帧上执行矩形或四边形检测器,并测试3D空间中四个角的投影,以与已知AR平面相交。然后创建与矩形的2D点匹配的3D平面并通过AR框架在3D空间中进行跟踪,随后在104处由此选择锚图像。
一旦建立了这些参考图像,就对应用所捕获的视频帧进行透视校正,以使远程工程师看到该区域的稳定版本,使得在105创建增强现实叠加(ARO)。然后,远程助手在106处能够在流上提供注释,据此应用系统在107处确定是否存在遮挡屏幕的对象。如果存在,则在109处隐藏注释,否则在108处示出注释。
一旦应用检测到并跟踪了锚,远程工程师能够通过点击屏幕来创建叠加。标记被发送给应用,并在相应位置处在AR中显示。在示例实现中,跟踪的3D矩形使用WebView作为纹理,并且用超文本标记语言(HTML)重新创建远程工程师所创建的标记,从而允许两个用户看到的内容匹配。
依据所期望的实现,为了增强AR体验,能够遮盖叠加的标记,以便出现在显示表面上方。当装置是在交互期间客户会混淆显示表面的一些部位的触摸面板(数字触摸屏或物理按钮)时,这样的示例实现能够有所帮助。
在示例实现中,应用能够便于动态叠加,这允许服务工程师创建包含多于一个步骤的叠加(例如,“在这里填写此文本框,然后单击确定按钮”)。在这种情况下,服务工程师点击/轻击文本框,然后移至“确定”按钮并点击/轻击它。只有这样,叠加被发送给客户,作为要执行的事情的动画,示出从当前客户位置到文本框的运动(例如,弧线,然后高亮文本框的轮廓),然后另一弧线从文本框跳至确定按钮。能够对步骤进行编号,以使更明显地跟随动作顺序,并让客户重放要进行的步骤(如果叠加和鼠标位置是实时传输的,这是不可能的)。
与传统的屏幕共享不同,动态叠加能够对最终用户有用,这是因为用户可能无法在始终观看显示的同时始终跟随整个顺序。用户可能希望首先在AR中看到顺序,然后关注实际显示器并执行这些步骤。此外,一些步骤可能需要按住并保持几个按钮,而使用实时叠加再次传达这可能并不容易。凭借本文所描述的动态叠加,服务工程师能够轻松地创建一系列步骤,并在正确创建他们之后向远程客户发送。在以其他方式同步的视频协作中的这种异步类似于用户在基于文本的聊天系统中能够进行的一样:撰写并编辑文本消息而在按下“发送”之前无需提交。
在示例实现中,能够利用各种类型的叠加。例如,一些动作需要在路径上拖动手指或鼠标指针,而其他动作仅表示将手指/鼠标移动到另一位置。例如,几种类型的叠加能够描绘这些不同之处,诸如,浅色箭头与粗体箭头。依据所期望的实现,能够通过文本工具提示来增强叠加。
示例实现还能够便于当前鼠标/光标位置检测。就像人们握着孩子的手教她一样,AR叠加能够考虑当前查找器/光标位置,并向用户示出他们下一步需要去哪里。例如,在软件安装过程中,可能不清楚人们的光标需要位于哪里:一些UI元件需要首先在文本框内部点击。如果服务工程师定义了在区域内部的点击,但用户光标在该区域之外,则应用能够自动显示从当前用户鼠标位置到文本框位置的弧线,从而清楚地表明光标首先需要移动到这里。
示例实现还能够便于自动叠加。在示例实现中,能够记录在即时会话期间接收到的步骤并稍后回放。例如,如果应用检测到正在被视频的对象包含相同的锚图像,则能够自动建议回放先前记录的叠加,而不是重复呼叫服务工程师。此特征使客户自行操作装置,而无需与服务工程师进行即时沟通。
示例实现还能够检查以确定是否执行了动作。在一些情况下,可能需要按下按钮几秒钟。当工程师创建叠加时,他不需要在区域上按压所要求的时间(例如,10秒),而是能够指定持续时间。但是,用户必须按下该按钮并保持指定的时间。除了在工具提示中显示持续时间外,示例实现还能够便于对光标/指尖在指定位置处得到帮助多久而进行计数。
图2例示了根据示例实现的从用户装置捕获的装置面板上的示例叠加。如图2所示,利用实时四边形检测来跟踪由用户装置捕获的控制面板。能够根据示例实现使用框架来生成和应用3D叠加节点,并且纹理化的平面节点能够与任意视图一起使用。图3例示了根据示例实现的具有转变的3D叠加节点的示例。
对于网络通信,用户装置能够通过使用适当的库充当网络服务器和Websocket服务器。应用所捕获的帧作为图像向远程工程师发送,并且所创建的标记发送回应用并在用作纹理的网络视图中被重新创建。对于双向音频,能够在网络浏览器和应用之间利用基于WebRTC的解决方案。一旦准备好3D平面并随后由AR框架跟踪3D平面,对框架进行透视校正并发送给远程工程师。图4例示了根据示例实现的经透视校正的面板。凭借透视校正,远程工程师看到如同在应用中由最终用户捕获的、显示器的经裁剪和修正的即时相机视图。远程工程师能够创建任意叠加。
通过示例实现,能够存在一种AR系统,该AR系统在即时场景中将AR界面具体地叠加在2D表面上,并且具体地,遮挡手部并检测鼠标/手指的位置,以创建帮助引导用户的叠加。图5例示了其中实现了手部和手指蒙板(mask)使得将叠加置于手或手指的下方的叠加的示例。依据所期望的实现,也能够实现手部和手指蒙板来跟踪手,使得叠加能够置于在手部或手指下方。这种蒙板能够通过分段网络或通过使用实时跟踪手部或手指的手部跟踪模型来获得。因此,如果在图1的107处存在遮挡屏幕的对象,则在109处能够隐藏所添加的注释。
在另一示例实现中,AR远程辅助系统还能够生成系统的观看步骤。在工作环境中共享的可视化表示能够有助于解决现场的许多问题。来自专家的递增的指示需要用户完成任务,有时是艰巨的任务。在此期间,用户必须放下他们的装置或忽略其视觉输入。此外,用户可能忘记如何执行特定步骤的确切细节,需要远程专家重复他们的指令。
为了解决这种问题,示例实现能够增强AR界面,以借助即时远程辅助来便于异步教程步骤创建的功能。图6例示了根据示例实现方式的关于AR界面的记录和重放的示例。在示例实现中,在即时视频呼叫期间,来自远程专家的指令被自动地或手动地保存为他们自己的视频剪辑。然后,当本地用户需要完成该步骤时,他们能够在单独的视频播放器中观查所保存的视频剪辑以完成任务。当他们完成他们的任务时,远程专家能够在子窗口中看到他们正在观看的记录的即时视图。本地用户能够随时切换回即时相机视图。
在示例实现中,只要远程专家正在积极使用他们的键盘、鼠标或其他外围设备,就自动产生视频剪辑步骤。远程专家也能够手动地创建步骤。
图7例示了根据示例实现的用于注释和记录过程的流程图。在700处,本地用户连接到远程助手。在连接期间,可以便于多种功能。在701,本地用户可以与远程助手共享流。在这样的示例实现中,本地用户将从其移动或平视装置向远程用户流传输内容。在这种情况下,一旦远程专家开始注释用户流,则在即时视频会话继续进行的同时,在后台自动开始新的剪辑记录。系统进行记录,直至远程专家停止注释流以及达到超时为止。远程专家能够依据所期望的实现,可选地暂停用户视频,以添加更具表现力的注释。如图7所示,在704,远程助手可以观看流并且根据需要添加注释。在流期间,在707,远程助手可以暂停注释。如果注释被暂停达阈值时间段(例如,几秒钟),则在709,达到超时。在这一点上,在711,系统保存视频剪辑作为步骤。
在另一示例实现中,在702,远程助手将流共享给本地用户。有时候,例如,当本地用户试图解决软件系统的问题时,远程专家可能共享他们自己的屏幕以示出在使用他们自己的软件工具中能够如何解决特定问题。在这种情况下,远程专家主动使用他们自己的鼠标和键盘来演示系统能够记录的“步骤”,再次使用超时来确定步骤的结束。在705,远程助手通过提供注释或控制在他们屏幕上的界面或面板,开始与流进行交互。流程能够随着保存视频剪辑而继续进行,如在707向前所示。在另一示例实现中,远程专家还能够点击他们界面上的按钮以手动地产生视频剪辑。当远程用户希望使用他们自己的相机创建剪辑或加载外部剪辑时,这很有用。
在另一示例实现中,在703,本地用户可以放下用户装置以执行远程助手指示的功能。能够根据所期望的实现基于加速度计、陀螺仪或通过装置的其他硬件,来检测放下用户装置。即使用户仍试图握持装置,后台处理系统也能够检测到加速度计和陀螺仪数据中的轻微不规则性,以确定该装置正在被握持。但是,一旦用户放下装置,加速度计和陀螺仪数据变为静态,使得后台处理确定装置不再位于用户手中。这样,系统能够在示出已记录步骤的视图(当放下装置时)和即时流(当装置在用户手中时)之间自动切换。在706,一旦检测到装置被放下,应用切换到步骤视图。保持步骤视图,直到本地用户在708拿起装置为止。然后,应用在710切换回即时视图。
这些方法能够组合起来,以帮助本地用户完成艰巨的任务。例如,当与复杂界面进行交互时,远程专家能够注释用户即时流,自动创建一个剪辑。然后,当用户暂停以完成该任务时,远程专家能够在他们自己的流上注释相同或相似的界面,自动创建另一剪辑。他们还可能从处理相同问题的另一用户所记录的流中手动加载另一剪辑。
类似地,根据所期望的实现,本地用户能够利用自动或手动方法在即时视频流和回看剪辑之间进行切换。
系统默认在本地用户回看剪辑时调低他们的麦克风。还默认首先示出最近记录的剪辑。此外,用户能够使用标准的垂直滑动交互在不同的媒体剪辑之间移动,以及使用水平滑动交互在剪辑内导航。这样,本地用户能够将他们的装置从即时流无缝切换到轻量级教程回看工具。
如果用户正在从平视显示器进行流传输,则他们能够发出口头命令以在即时流和回看界面之间切换。在移动装置上,用户能够利用口头命令或按钮按下来切换界面。
通过本文所描述的示例实现,能够便于在用户能够异步地观看的即时流期间自动记录步骤的远程辅助系统。
图8例示了根据示例实现的计算装置的示例。根据所期望的实现,计算装置能够是膝上型计算机、个人计算机、移动装置、平板或其他装置的形式。计算装置800能够包括相机801、麦克风802、处理器803、存储器804、显示器805、接口(I/F)806和方位传感器807。根据所期望的实现,相机801能够包括被配置为记录任何形式的视频的任何类型的相机。根据所期望的实现,麦克风802能够涉及被配置为记录任何形式的音频的任何形式的麦克风。根据所期望的实现,显示器805能够涉及被配置为接收触摸输入以便于执行本文所述的功能的指令的触摸屏显示器,或者诸如液晶显示器(LCD)的常规显示器或任何其他显示器。根据所期望的实现,I/F 806能够包括便于将计算装置800连接到诸如服务器和任何其他装置之类的外部元件的网络接口。根据所期望的实现,处理器803能够是诸如中央处理单元(CPU)的硬件处理器、或者硬件和软件单元的组合的形式。根据所期望的实现,方位传感器807能够涉及被配置为测量诸如倾斜角、相对于x、y、z的方位、接入、加速度(例如,重力)等等的任何类型的方位测量结果的任何形式的陀螺仪和/或加速度计。根据所期望的实现,方位传感器测量结果还能够涉及重力矢量测量结果,以指示装置的重力矢量。依据所期望的实现方式,计算装置800能够用作本地用户的装置或远程助手的装置。
在示例实现中,处理器803被配置为稳定从第一装置(例如,本地用户装置)接收的视频,以显示在第二装置(例如,远程助手装置)上;并且针对在第二装置上对经稳定的视频的一部分进行的输入,例如,如图3-图5所示,在第一装置的显示器上生成与经稳定的视频的所述一部分相对应的增强现实(AR)叠加。
依据所期望的实现,处理器803能够被配置为通过识别视频中的一个或更多个锚图像来稳定从第一装置接收的视频,以显示在第二装置上;基于所识别的一个或更多个锚图像来确定2D表面的感兴趣的对象;以及如图1中所描述,基于2D表面的感兴趣的对象对视频执行透视校正,以显示在第二装置上。如本文所描述的,根据所期望的实现,感兴趣的对象能够包括2D面板表面,诸如面板显示器(例如,如在MFD上显示的)、小键盘、触摸屏、显示屏(例如,在计算机、移动装置或其他装置上的)、以及其他物理或显示界面。根据所期望的实现,锚图像能够包括按钮、刻度盘、图标或预期位于面板表面上的其他对象。
依据所期望的实现,处理器803能够被配置为将视频裁剪为感兴趣的对象,以显示在第二装置上,如图4所示。以这种方式,能够裁剪视频,使得向第二装置仅提供显示屏、面板显示器或其他感兴趣的对象。
依据所期望的实现方式,处理器803被配置为通过在数据库中搜索与视频中的一个或更多个图像匹配的一个或更多个锚图像来识别视频中的一个或更多个锚图像,如在图1的101处所描述的。根据所期望的实现,能够在存储系统、服务器等中远程地存储和访问数据库。在示例实现中,AR叠加也能够存储在数据库中,以供第一装置检索和将来重放。
处理器803被配置为通过检测从第一装置接收的视频上的四边形来识别视频中的一个或更多个锚图像;将3D平面与检测到的四边形的2D点进行匹配;跟踪匹配到所检测到的四边形的2D点的3D平面;以及如图1中所描述的,通过第二装置接收视频中一个或更多个锚图像的选择。在示例实现中,因为大多数面板并且所显示的界面倾向于呈四边形或矩形的形式,所以利用本领域已知的四边形或矩形检测器,但是,根据所期望的实现能够修改检测器。例如,在涉及圆形界面的示例实现中,作为替代,能够利用圆形表面检测器。此外,在检测到四边形或矩形之后,将3D平面映射到所检测到的四边形/矩形的2D点(例如,映射到矩形的角),使得能够根据本领域中已知的任何实现对其进行跟踪。一旦检测到面板,用户就能够选择能够实时地并入AR系统中的锚图像(例如,面板按钮、刻度盘等)。
如图1至图6中所示,能够响应于在第二装置处对经稳定的视频的一部分进行的输入,即时地进行在第一装置的显示器上与经稳定的视频的该部分相对应的AR叠加,以便于远程助手与本地用户之间的实时交互。在另一示例实现中,根据远程助手的所期望实现,能够延迟或异步地部署AR叠加的生成。远程助手能够在他们自己的装置上确认AR叠加,然后向他们的装置提供指令(例如,触摸用于确认的按钮),以向本地用户装置发送AR叠加,以进行显示。通过这种方式,远程助手能够进行AR注释或提供其他AR叠加,并且将其部署到本地用户之前对其进行预览。在示例实现中,对经稳定的视频的一部分进行的输入能够包括自由格式注释。此外,如果AR叠加涉及选择特定面板按钮或移动光标以点击特定部分,则AR叠加能够涉及用于将第一装置的光标从第一位置移动到第二位置的指示。这样的指示能够根据所期望的实现方式以任何方式实现(例如,经由跟踪路径的箭头、经由线条等)。
如图5所示,处理器803能够被配置为跟踪视频中的手部和手指中的一个或更多个;并且在第一装置的显示器上遮挡AR叠加中与手部和手指中的一个或更多个交叠的部分。能够通过任何期望的实现来实现手部和/或手指跟踪。通过这样的示例实现,能够以现实的方式在远程用户的装置上呈现AR叠加。
如图7所示,处理器803能够被配置为通过暂停第二装置上的显示器上的视频来稳定从第一装置接收的视频,以显示在第二装置上。在这样的示例实现中,远程助手能够暂停视频流以根据所期望的实现进行注释或提供其他AR叠加。此外,处理器803能够被配置为:通过如图7的707、709和711所示,针对输入中的超过超时阈值的暂停,生成具有注释的视频剪辑;以及将视频剪辑提供给第一装置的显示器上,来生成在第一装置的显示器上与经稳定的视频的一部分相对应的AR叠加。能够根据所期望的实现来设置超时。
处理器803能够被配置为,对于确定为放下的第一装置,在第一装置的显示器上重放视频剪辑;以及对于确定为在用户手中的第一装置,向第二装置提供视频进行显示,如图7的703、706、708和710所示。
按照计算机内的算法和操作的符号表示来呈现详细描述的一些部分。这些算法描述和符号表示是数据处理领域技术人员用来向本领域其它技术人员传达其创新实质的手段。算法是得到期望的最终状态或结果的一系列已定义的步骤。在示例实现中,执行步骤需要对有形数量的物理操纵以实现有形结果。
除非另外特别说明,否则从讨论中可明显看出,应理解,在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”、“显示”等术语的讨论可以包括计算机系统或其它信息处理装置的动作和过程,该动作和过程将在计算机系统的寄存器和存储器内表示为物理(电子)量的数据操纵和变换成在计算机系统的存储器或寄存器或其它信息存储、传输或显示装置内类似地呈现为物理量的其它数据。
示例性实现还可以涉及用于执行本文操作的设备。该设备可以是为所需目的而专门构造的,或者它可以包括通过一个或更多个计算机程序选择性地激活或重新配置的一个或更多个通用计算机。这样的计算机程序可以存储在计算机可读介质中,诸如计算机可读存储介质或计算机可读信号介质。计算机可读存储介质可以包括有形介质,诸如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态装置和驱动器、或者适于存储电子信息的任何其它类型的有形或非暂时性介质。计算机可读信号介质可以包括诸如载波的介质。本文呈现的算法和显示并非固有地与任何特定计算机或其它设备相关。计算机程序可以包括纯软件实现,纯软件实现包括执行期望实现的操作的指令。
根据本文的示例,各种通用系统可以与程序和模块一起使用,或者可以证明便于构造更专用设备以执行期望的方法步骤。另外,未参照任何特定编程语言描述示例性实现。将理解,可以使用各种编程语言来实现如本文所述的示例性实现的教导。编程语言的指令可以由一个或更多个处理装置(例如,中央处理单元(CPU)、处理器或控制器)执行。
如本领域中已知的,上述操作可以由硬件、软件或软件和硬件的一些组合来执行。可以使用电路和逻辑装置(硬件)来实现示例性实现的各个方面,而其它方面可以使用机器可读介质上存储的指令(软件)来实现,如果由处理器执行该指令则将使处理器执行实施本申请的实现的方法。此外,本申请的一些示例性实现可以仅在硬件中执行,而其它示例性实现可以仅在软件中执行。此外,所描述的各种功能可以在单个单元中执行,或者可以以任何数量的方式分布在多个组件上。当由软件执行时,该方法可以基于计算机可读介质上存储的指令由诸如通用计算机的处理器来执行。如果需要,指令可以以压缩和/或加密格式存储在介质上。
此外,考虑到说明书及实践本申请的教导,本申请的其它实现对于本领域技术人员而言将是显而易见的。所描述的示例实现的各个方面和/或组件可以单独使用或以任何组合来使用。旨在将说明书和示例实现仅视为示例,本申请的真实范围和精神由所附权利要求指示。

Claims (14)

1.一种用于增强现实应用的方法,该方法包括以下步骤:
稳定从第一装置接收的视频以显示在第二装置上;以及
针对在所述第二装置处对经稳定的视频的一部分进行的输入,在所述第一装置的显示器上生成与所述经稳定的视频的所述一部分相对应的增强现实AR叠加。
2.根据权利要求1所述的方法,其中,稳定从所述第一装置接收的视频以显示在所述第二装置上的步骤包括以下步骤:
识别所述视频中的一个或更多个锚图像;
基于识别出的一个或更多个锚图像来确定2D表面的感兴趣的对象;以及
基于所述2D表面的所述感兴趣的对象,对所述视频执行透视校正以显示在所述第二装置上。
3.根据权利要求2所述的方法,其中,识别所述视频中的一个或更多个锚图像的步骤包括以下步骤:在数据库中搜索与所述视频中的一个或更多个图像匹配的一个或更多个锚图像。
4.根据权利要求2所述的方法,其中,识别所述视频中的一个或更多个锚图像的步骤包括以下步骤:
在从所述第一装置接收的所述视频上检测四边形;
使3D平面匹配至所检测到的四边形的2D点;
跟踪匹配至所检测到的四边形的所述2D点的所述3D平面;以及
通过所述第二装置在所述视频中接收对所述一个或更多个锚图像的选择。
5.根据权利要求2所述的方法,该方法还包含以下步骤:将所述视频裁剪至所述感兴趣的对象以显示在所述第二装置上。
6.根据权利要求2所述的方法,其中,所述感兴趣的对象是显示屏。
7.根据权利要求1所述的方法,其中,响应于在所述第二装置处对所述经稳定的视频的所述一部分进行的输入而即时进行在所述第一装置的显示器上生成与所述经稳定的视频的所述一部分相对应的增强现实AR叠加的步骤。
8.根据权利要求1所述的方法,其中,在所述第一装置的显示器上生成与所述经稳定的视频的所述一部分相对应的增强现实AR叠加的步骤包括以下步骤:
响应所述输入,在所述第二装置的显示器上生成所述增强现实AR叠加;以及
针对接收到向所述第一装置提供所述增强现实AR叠加的指令,向所述第一装置发送所述增强现实AR叠加以进行显示。
9.根据权利要求1所述的方法,该方法还包括以下步骤:
跟踪所述视频中的手部和手指中的一个或更多个;以及
在所述第一装置的显示器上遮挡所述增强现实AR叠加的与所述手部和手指中的一个或更多个交叠的部分。
10.根据权利要求1所述的方法,其中,稳定从所述第一装置接收的视频以显示在所述第二装置上的步骤包括以下步骤:在所述第二装置上的显示器上暂停所述视频,并且
其中,所述输入包括注释。
11.根据权利要求8所述的方法,其中,在所述第一装置的显示器上生成与所述经稳定的视频的所述一部分相对应的增强现实AR叠加的步骤包括以下步骤:
对于所述输入中的超过超时阈值的暂停,生成包括注释的视频剪辑;以及
在所述第一装置的显示器上提供所述视频剪辑。
12.根据权利要求11所述的方法,该方法还包括以下步骤:
对于被确定为放下的所述第一装置,在所述第一装置的显示器上重放所述视频剪辑;以及
对于被确定为在用户手中的所述第一装置,向所述第二装置提供所述视频以进行显示。
13.根据权利要求1所述的方法,其中,所述增强现实AR叠加包括用于将所述第一装置的光标从第一位置移动到第二位置的指示。
14.根据权利要求1所述的方法,该方法还包括以下步骤:存储所述增强现实AR叠加以供由所述第一装置进行重放。
CN202011371517.3A 2020-02-10 2020-11-30 用于增强现实应用的系统和方法 Pending CN113253833A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/786,827 US11475661B2 (en) 2020-02-10 2020-02-10 Systems and methods for augmented reality application for annotations and adding interfaces to control panels and screens
US16/786,827 2020-02-10

Publications (1)

Publication Number Publication Date
CN113253833A true CN113253833A (zh) 2021-08-13

Family

ID=77178381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011371517.3A Pending CN113253833A (zh) 2020-02-10 2020-11-30 用于增强现实应用的系统和方法

Country Status (2)

Country Link
US (2) US11475661B2 (zh)
CN (1) CN113253833A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174662A (zh) * 2022-08-21 2022-10-11 中兴软件技术(南昌)有限公司 基于增强现实的监管数据显示方法及显示系统
CN115314474A (zh) * 2022-10-12 2022-11-08 中通服建设有限公司 基于ar的通信应急设备协助检修系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112424736A (zh) * 2018-07-19 2021-02-26 索美智能有限公司 机器交互
EP4031956A1 (en) * 2019-09-20 2022-07-27 InterDigital CE Patent Holdings, SAS Device and method for hand-based user interaction in vr and ar environments
US11520145B2 (en) * 2020-03-31 2022-12-06 Lenovo (Singapore) Pte. Ltd. Visual overlay of distance information in video feed
US11544343B1 (en) 2020-10-16 2023-01-03 Splunk Inc. Codeless anchor generation for detectable features in an environment
US20230116341A1 (en) * 2021-09-30 2023-04-13 Futian ZHANG Methods and apparatuses for hand gesture-based control of selection focus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150123966A1 (en) * 2013-10-03 2015-05-07 Compedia - Software And Hardware Development Limited Interactive augmented virtual reality and perceptual computing platform
CN106293052A (zh) * 2015-06-25 2017-01-04 意法半导体国际有限公司 加强型增强现实多媒体系统
US20180047192A1 (en) * 2016-08-10 2018-02-15 Zeekit Online Shopping Ltd. Processing User Selectable Product Images And Facilitating Visualization-Assisted Coordinated Product Transactions
CN109313812A (zh) * 2016-05-31 2019-02-05 微软技术许可有限责任公司 具有上下文增强的共享体验

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839227B2 (en) 2012-08-29 2020-11-17 Conduent Business Services, Llc Queue group leader identification
US9076257B2 (en) 2013-01-03 2015-07-07 Qualcomm Incorporated Rendering augmented reality based on foreground object
US9679144B2 (en) 2013-11-15 2017-06-13 Microsoft Technology Licensing, Llc Protecting privacy in web-based immersive augmented reality
US9613448B1 (en) 2014-03-14 2017-04-04 Google Inc. Augmented display of information in a device view of a display screen
US9792674B2 (en) 2016-03-10 2017-10-17 Netflix, Inc. Perspective correction for curved display screens
JP6916460B2 (ja) * 2016-08-31 2021-08-11 カシオ計算機株式会社 オブジェクト表示システム、ユーザ端末装置、オブジェクト表示方法及びプログラム
US20180290057A1 (en) 2017-04-10 2018-10-11 Brian Mullins Dynamic scaling of augmented reality-based game
JP6856590B2 (ja) * 2018-08-31 2021-04-07 ファナック株式会社 センシングシステム、作業システム、拡張現実画像の表示方法、およびプログラム
US10991067B2 (en) * 2019-09-19 2021-04-27 Zeekit Online Shopping Ltd. Virtual presentations without transformation-induced distortion of shape-sensitive areas

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150123966A1 (en) * 2013-10-03 2015-05-07 Compedia - Software And Hardware Development Limited Interactive augmented virtual reality and perceptual computing platform
CN106293052A (zh) * 2015-06-25 2017-01-04 意法半导体国际有限公司 加强型增强现实多媒体系统
CN109313812A (zh) * 2016-05-31 2019-02-05 微软技术许可有限责任公司 具有上下文增强的共享体验
US20180047192A1 (en) * 2016-08-10 2018-02-15 Zeekit Online Shopping Ltd. Processing User Selectable Product Images And Facilitating Visualization-Assisted Coordinated Product Transactions

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174662A (zh) * 2022-08-21 2022-10-11 中兴软件技术(南昌)有限公司 基于增强现实的监管数据显示方法及显示系统
CN115174662B (zh) * 2022-08-21 2024-07-23 南昌中展数智科技有限公司 基于增强现实的监管数据显示方法及显示系统
CN115314474A (zh) * 2022-10-12 2022-11-08 中通服建设有限公司 基于ar的通信应急设备协助检修系统

Also Published As

Publication number Publication date
US11922694B2 (en) 2024-03-05
JP2021128743A (ja) 2021-09-02
US20210248371A1 (en) 2021-08-12
US11475661B2 (en) 2022-10-18
US20230139977A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
US11922694B2 (en) Systems and methods for augmented reality application for annotations and adding interfaces to control panels and screens
US11277655B2 (en) Recording remote expert sessions
US12079439B2 (en) Shared augmented reality session recording and playback
CN109313812B (zh) 具有上下文增强的共享体验
US8644467B2 (en) Video conferencing system, method, and computer program storage device
US9135956B2 (en) Method and computer program product for establishing playback timing correlation between different contents to be playbacked
CN107333087B (zh) 一种基于视频会话的信息共享方法和装置
US11288871B2 (en) Web-based remote assistance system with context and content-aware 3D hand gesture visualization
EP4376423A1 (en) Virtual object interaction method and device, and storage medium and computer program product
US20150350360A1 (en) Feedback layer for native content display in virtual desktop infrastructure
Kritzler et al. Remotebob: support of on-site workers via a telepresence remote expert system
EP3449390A1 (en) Augmented media
JP5838791B2 (ja) プログラム、画像処理装置及び画像処理方法
US10445051B1 (en) Recording and replay of support sessions for computing devices
WO2023221923A1 (zh) 视频处理方法、装置、电子设备及存储介质
CN117666884A (zh) 一种交互处理方法及装置
TWI624782B (zh) 立體場景中超連結編輯方法與系統
US20210248787A1 (en) Automatic segmentation for screen-based tutorials using ar image anchors
JP7571435B2 (ja) 制御パネル及び画面に注釈及びインターフェースを追加する拡張現実アプリケーションのための方法
US20140178035A1 (en) Communicating with digital media interaction bundles
US20170069354A1 (en) Method, system and apparatus for generating a position marker in video images
CN113012214A (zh) 用于设置虚拟对象的空间位置的方法和电子设备
JP2005266471A (ja) ポインティング機能付画像投影方法、装置、およびプログラム
CN117412017A (zh) 针对虚拟拍摄系统的屏幕模型创建方法、装置及移动终端
CN116909459A (zh) 基于web端的应用截屏方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination