CN113778221A - 增强现实系统 - Google Patents
增强现实系统 Download PDFInfo
- Publication number
- CN113778221A CN113778221A CN202110627513.5A CN202110627513A CN113778221A CN 113778221 A CN113778221 A CN 113778221A CN 202110627513 A CN202110627513 A CN 202110627513A CN 113778221 A CN113778221 A CN 113778221A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- sensed data
- sensed
- positioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/012—Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
- G06T2207/10021—Stereoscopic video; Stereoscopic image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
本发明提供了一种增强现实(AR)系统,该AR系统包括一个或多个传感器、存储装置、一个或多个通信模块以及一个或多个处理器。该一个或多个传感器生成表示该AR系统所处的环境的至少一部分的感测数据。该一个或多个通信模块传输将被用于确定AR系统的位置和取向的定位数据。该一个或多个处理器被布置为:获取表示该AR系统所处的环境的感测数据;处理该感测数据以识别表示冗余信息的该感测数据的第一部分;导出定位数据,其中该定位数据从该感测数据导出,并且该第一部分在该定位数据的导出期间被模糊;以及使用该一个或多个通信模块传输该定位数据的至少一部分。
Description
背景技术
技术领域
本公开涉及增强现实(AR)系统。本发明与用于确定AR系统的位置和取向的数据的安全性具有特定但非排他性的相关性。
相关技术说明
AR设备向用户提供体验,其中现实世界环境的表示由计算机生成的感知信息增强。为了准确地向用户提供这些体验,确定AR设备的位置和取向,使得计算机生成的感知信息可无缝地集成到现实世界的表示中。AR的替代术语是“混合现实”,其是指现实世界和虚拟世界的融合。
通过计算机生成的感知信息来增强现实世界环境可包括使用涵盖一种或多种感官模态的感知信息,包括,例如,视觉信息(呈图像形式,其在一些情况下可为文本或简单图标)、听觉信息(呈音频形式)、触觉信息(呈触摸形式)、体感信息(与神经系统相关)和嗅觉信息(与嗅觉相关)。
将感官信息叠加到现实世界(或“物理”)环境上可构建性地(通过向自然环境做出添加)或破坏性地(通过从自然环境进行减除或遮蔽自然环境)完成。AR以此改变用户对其所在现实世界环境的感知,而虚拟现实(VR)用完全模拟的(即,计算机生成的)环境替换用户所在现实世界环境。
AR设备包括,例如,支持AR的智能手机、支持AR的移动计算机(诸如平板电脑),以及包括AR眼镜的AR头戴设备。AR设备相对于其所在的环境的位置和取向通常基于由AR设备收集的或通过定位过程与AR设备相关联的传感器数据来确定。
发明内容
根据本公开的第一方面,提供了一种增强现实AR系统,该增强现实AR系统包括:一个或多个传感器,该一个或多个传感器被布置为生成表示AR系统所处的环境的至少一部分的感测数据;存储装置,该存储装置用于存储由一个或多个传感器生成的感测数据;一个或多个通信模块,该一个或多个通信模块用于传输将用于确定AR系统的位置和取向的定位数据;和一个或多个处理器,该一个或多个处理器被布置为:获取表示AR系统所处的环境的感测数据;处理感测数据以识别感测数据的表示冗余信息的第一部分;导出用于确定AR系统的位置和取向的定位数据,其中该定位数据是从感测数据导出的,并且第一部分在定位数据的导出期间被模糊;以及使用一个或多个通信模块传输定位数据的至少一部分。
根据本公开的第二方面,提供了一种用于增强现实AR系统的计算机实现的数据处理方法,该方法包括:获取表示AR系统所处的环境的感测数据;处理感测数据以识别感测数据的表示冗余信息的第一部分;导出用于确定AR系统的位置和取向的定位数据,其中该定位数据是从感测数据导出的,并且第一部分在定位数据的导出期间被模糊;以及传输定位数据的至少一部分。
根据本公开的第三方面,提供了一种非暂态计算机可读存储介质,其包括计算机可读指令,该计算机可读指令在由至少一个处理器执行时使得该至少一个处理器:获取表示增强现实AR系统所处的环境的感测数据;处理感测数据以识别感测数据的表示冗余信息的第一部分;导出用于确定AR系统的位置和取向的定位数据,其中该定位数据是从感测数据导出的,并且第一部分在定位数据的导出期间被模糊;以及传输定位数据的至少一部分。
附图说明
图1是根据示例的AR系统的示意图。
图2示出了一流程图,该流程图示出了根据示例的用于增强现实系统的数据处理的计算机实现的方法。
图3示意性地示出了实现根据示例的方法的增强现实系统的示例。
图4示意性地示出了实现根据示例的方法的增强现实系统的示例。
图5示意性地示出了实现根据示例的方法的增强现实系统的示例。
图6示意性地示出了根据示例的包括计算机可读指令的非暂态计算机可读存储介质。
具体实施方式
参考附图,根据示例的系统和方法的细节将从以下描述中变得明显。在本说明书中,出于解释的目的,阐述了某些示例的许多具体细节。本说明书中对“示例”或类似语言的引用意指结合该示例描述的特定特征、结构或特性包括在至少该一个示例中,但不一定包括在其他示例中。还应当注意,示意性地描述了某些示例,其中省略了某些特征并且/或者必须简化了某些特征,以便于解释和理解示例所基于的概念。
本文描述了与增强现实(AR)系统背景下的数据处理相关的系统和方法。AR系统向用户提供增强现实体验,其中可包括感知信息的虚拟对象用于增强现实世界环境的表示或感知。现实世界环境的表示可包括起源于传感器的数据,其也可被称为感测数据,对应于一种或多种感官模态,例如视觉(呈图像数据的形式)、听觉(呈音频数据的形式)、触觉(呈触觉数据的形式)、神经(呈体感数据的形式)和嗅觉(呈嗅觉数据的形式)。
感测数据可表示可由传感器测量的物理量。传感器可以是被配置为测量物理量(诸如光、深度、运动、声音等)并将其转换为信号(例如电信号)的设备。传感器的示例包括图像传感器、触觉传感器、运动传感器、深度传感器、麦克风、声音导航和测距(Sonar)设备、光检测和测距(LiDAR)设备、无线电方位检测和测距(RADAR)、全球定位系统GPS传感器以及包括在惯性测量单元(IMU)中的传感器,诸如加速度计、陀螺仪,以及在一些情况下的磁力仪。例如,图像传感器可将光转换成数字信号。图像传感器包括在可见光谱中操作的图像传感器,但附加地或另选地,可包括在可见光谱之外(例如红外光谱)操作的图像传感器。因此,与由传感器捕获的图像相关联的感测数据可包括表示由传感器捕获的图像的图像数据。然而,在其他示例中,感测数据可附加地或另选地包括表示声音的音频数据(例如,可由麦克风测量),或者表示可由对应类型的传感器测量的不同物理量(例如,触觉、体感或嗅觉数据)的另一种类型的起源于传感器的数据。在一些情况下,感测数据可以是直接从传感器(例如,传感器数据)输出的源数据或“原始数据”。在此类情况下,感测数据可例如通过数据的直接传输或通过从存储数据的中间存储装置读取数据而从传感器获取。在其他情况下,感测数据可以被预处理:例如,在感测数据已经由传感器获取之后并且在感测数据被处理器处理之前,可以对感测数据施加进一步的处理。在一些示例中,感测数据包括由传感器输出的处理版本的传感器数据。例如,原始感官输入可被处理以将低级信息转换成更高级信息(例如,从图像中提取形状以用于对象识别)。
为了提供AR体验,AR系统在现实世界环境内的位置和取向由定位过程确定。确定AR系统的位置和取向允许准确地将虚拟对象集成到现实世界的表示中,使得AR系统的用户体验到现实世界和虚拟增强的沉浸式融合。AR系统的位置和取向可统称为“地理姿态(geopose)”或“地理锚定姿态(geographically anchored pose)”,其表示AR系统的空间位置和AR系统的取向或“姿态”,该取向或姿态根据坐标系指定俯仰、翻滚和偏航。
为了确定AR系统的位置和取向,可处理定位数据以确定AR系统在环境内的相对位置。定位数据可从感测数据导出,该感测数据提供表示AR系统所处的环境的信息和/或与AR系统的取向和/或运动相关的信息。例如,可选择由AR系统包括的图像传感器生成的图像数据的部分,将其包括在定位数据中。另选地或除此之外,可处理图像数据以识别一组特征点并构建特征描述符,这些特征描述符编码与特征点相关的信息,从而使特征点能够被区分。这些特征点和描述符用于识别环境内的对象和结构,使得可以确定AR系统的相对位置。定位数据可从由不同传感器生成的多种类型的感测数据导出。例如,表示一组特征点和描述符的图像数据或数据可与在定位期间从惯性测量单元生成的运动数据结合使用,以在AR系统移动通过现实世界环境时准确地识别和跟踪AR系统的位置和取向。另选地或除此之外,图像数据可由深度传感器生成的或来源于LiDAR、RADAR和其他输出装置的深度信息补充,以识别由图像数据表示的图像中的对象的相对位置。
随着AR服务和系统变得越来越普遍,期望AR体验跨多种设备类型、操作系统以及随时间推移而持续。为此,AR体验可被存储,并且某些AR功能可由远程系统实现,诸如由一个或多个远程计算设备实现的AR云。AR云可包括或实现例如呈点云形式的现实世界的实时空间(即,“三维”或“3D”)地图。可由AR云执行的一个此类AR功能是定位。在这种情况下,被布置为向用户提供AR体验的AR系统向AR云提供定位数据,并且AR云基于定位数据和现实世界的实时空间地图来确定AR系统的位置和取向。在其他示例中,AR云可包括或实现现实世界环境的特定部分的实时空间地图。然后可由AR云向AR系统提供表示AR系统相对于环境的位置和取向的位置数据(或“地理姿态数据”)。
尽管一些AR系统能够在不使用远程系统的情况下执行定位,例如,被布置为执行即时定位与地图构建(SLAM)的AR系统可能能够提供AR体验而无需将数据传输到AR云,但执行AR设备的定位可能需要巨大算力。定位对于在AR系统上执行的AR应用程序是一个挑战,该AR系统是移动计算设备,诸如通用智能手机和通用平板计算设备,其具有相对少量的可用计算资源和/或电量。
这样,远离AR系统执行某些AR功能可允许将由AR系统执行的数据存储和处理保持到必要的最小值,从而允许AR系统具有对于AR系统的长时间使用和/或日常使用而言实用且有利的尺寸、重量和形状因数。
在远程计算设备(例如,实现AR云的一个或多个服务器)中执行AR系统的定位还可允许在使用多个AR系统提供AR体验时确定多个AR系统在环境中的相对位置并使它们关联。
本文所述的某些示例涉及AR系统,该AR系统被布置为向一个或多个外部计算设备提供定位数据以确定AR系统的位置和取向。定位数据是从由AR系统的传感器生成的感测数据导出的,并且当导出定位数据时,感测数据的表示冗余信息的部分被模糊。冗余信息包括在确定AR系统的位置和取向时不使用的信息,例如敏感信息。以这样的方式模糊数据的第一部分,使得传输到一个或多个远程计算设备的定位数据可能不用于确定由一个或多个传感器捕获的冗余信息。例如,模糊第一部分可包括修改第一部分,或者在一些情况下,当导出定位数据时,排除或“移除”第一部分。在任一种情况下,完成模糊第一部分使得不可能例如通过对定位数据进行反向工程来从定位数据确定冗余信息。
图1示出了AR系统100的示例,该AR系统可体现为单个设备,诸如支持AR的智能手机或AR头戴设备。另选地,AR系统100可由多个设备来实现,该多个设备可经由有线或无线装置通信地耦接。例如,AR设备(诸如移动计算机或支持AR的智能手机)与一个或多个AR配件(诸如AR头戴设备)通信。
AR系统100包括一个或多个传感器102,该一个或多个传感器被布置为生成感测数据,该感测数据表示AR系统100所处的环境的至少一部分。一个或多个传感器102包括用于生成图像数据的一个或多个相机,该图像数据表示落入该一个或多个相机的视场内的环境的一部分。该视场可在竖直和/或水平方向上界定,这取决于相机的数量和位置。例如,相机可被布置为面向与用户头部面向的方向基本上相同的方向,例如在用户佩戴AR头戴设备的情况下,一个或多个相机的视场可包括用户视野的全部或部分。另选地,视场可包括较宽区域,例如完全围绕用户。相机可包括立体相机,AR系统可使用立体匹配从立体相机导出深度信息,该深度信息指示到环境中的对象的距离。另选地或除此之外,传感器102可包括例如用于生成深度信息的深度传感器、红外相机、声纳收发器、LiDAR系统、RADAR系统等。
传感器102还可包括用于确定AR系统100的用户的位置和/或取向(统称为位置或姿态)的位置传感器。该位置传感器可包括全球定位系统(GPS)模块,以及例如包括在IMU中的一个或多个加速度计、一个或多个陀螺仪和/或用于确定取向的霍尔效应磁力仪(电子罗盘)。
AR系统100包括存储装置104,该存储装置用于存储由一个或多个传感器102生成的感测数据106。存储装置104可体现为非易失性存储装置和/或易失性存储装置的任何合适的组合。例如,存储装置104可包括一个或多个固态驱动器(SSD),以及非易失性随机存取存储器(NVRAM)和/或易失性随机存取存储器(RAM),例如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)。可包括其他类型的存储器,诸如可移除存储装置同步DRAM等。
AR系统100还包括一个或多个通信模块108,该一个或多个通信模块用于传输将用于AR系统100的定位的定位数据110。例如,通信模块108可将定位数据110传输到实现AR云的一个或多个远程计算设备,该AR云提供定位功能以识别AR系统100在环境内的位置和取向。另选地,远程计算设备可将定位数据110转发到实现AR云的另外的一个或多个远程计算设备。
通信模块108可被布置为通过任何合适的无线通信类型传输定位数据110。例如,通信模块108可使用红外线、蜂窝频率无线电波或任何其他合适的无线通信类型中的任一种。另选地或除此之外,通信模块108可被布置为通过有线连接传输数据。
AR系统100包括一个或多个处理器112。处理器112可包括各种处理单元,包括中央处理单元(CPU)、图形处理单元(GPU)和/或用于高效地执行神经网络操作的专用神经处理单元(NPU)。根据本公开,神经网络可用于某些任务,包括对象检测,如将在下文更详细地描述。一个或多个处理器112可包括其他专用处理单元,诸如专用集成电路(ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)。
存储装置104保持呈程序代码114形式的机器可读指令,该程序代码在由一个或多个处理器112执行时,使得AR系统100执行下文所述的方法。存储装置104还被布置为存储用于执行所述方法的另外的数据。该示例中的另外的数据包括由一个或多个传感器102生成的感测数据106。
应当理解,AR系统100可包括图1中未示出的其他部件,例如用于向AR系统100的用户提供AR体验的用户界面。用户界面可包括输入设备和输出设备的任何合适的组合。输入设备包括例如用于接收用户输入的触摸屏界面、用于接收用户输入的可致动按钮、传感器(诸如运动传感器)或适于感测用户输入的麦克风。输出设备可包括显示器(诸如触摸屏显示器)、扬声器、触觉反馈设备等。
图2示出了根据本公开的由AR系统100执行的方法200的示例。应当理解,虽然相对于AR系统100描述了方法200,但是相同的方法200可以由任何合适的AR系统执行,该AR系统被布置为向用户提供AR体验,并且通过将定位数据110传输到一个或多个远程计算设备来执行定位,以用于确定AR系统的位置和取向,例如,通过将由AR系统100生成的定位数据与包括在AR云中的数据相关联。
在第一框202处,AR系统100获取表示AR系统100所处的环境的感测数据106。获取感测数据106可以包括访问存储感测数据106的存储装置104的一个或多个部分。在一些示例中,感测数据106由一个或多个传感器102生成并直接存储在存储装置104上。另选地或除此之外,感测数据106的至少一部分可由一个或多个传感器102生成并在存储在存储装置104上之前进行处理。例如,由图像传感器生成的数据可表示光强度值,该光强度值基于在图像传感器所包括的多个像素传感器处捕获的光生成。可处理该数据以生成表示环境的图像的图像数据。另选地,感测数据106可直接从一个或多个传感器102流出。
在框204处,AR系统100处理感测数据106以识别感测数据106的表示冗余信息的第一部分。当使用一个或多个传感器102生成感测数据106时,可以收集与环境相关的冗余信息。冗余信息包括不用于确定AR系统100的位置和取向的信息。冗余信息可包括与一个或多个动态对象相关的信息,例如位于环境中并移动通过环境的对象。另选地或除此之外,例如,在感测数据106包括表示环境的图像的图像数据的情况下,冗余信息可涉及敏感信息,敏感信息可包括人的表示、人的特定部位(诸如他们的面部、他们的衣服、所述人佩戴的身份证)、环境中的对象(例如信用卡)、在数字显示器(诸如计算机监视器或电视单元)上显示的敏感信息、诸如印刷在纸张上的文本的信息等。在这些情况下,处理感测数据106以识别感测数据106的表示冗余信息的第一部分包括识别图像数据的表示环境的图像中的一个或多个对象的部分。在感测数据106包括由AR系统100中的麦克风生成的音频数据的情况下,冗余信息可包括环境中的一个或多个人的语音,例如当读出信用卡详情时等等。如果由传感器(诸如深度传感器、声纳、RADAR、LiDAR等)生成的感测数据106表示的深度或位置信息与环境中动态的对象相关或者所述对象在环境内的布置和位置是机密的,则该深度或位置信息本质上可能是冗余的。
被认为是敏感信息的内容可根据AR系统100正被使用的环境和正被处理的感测数据106的类型而发生变化。例如,在AR系统100正在制造背景中使用以帮助设计和/或构建产品的情况下,AR系统100正在操作的环境中的对象可具有机密性质,例如与商业机密、未发布产品和机密知识产权相关。在高安全性环境中,诸如军队或政府建筑物或设施,可将更高程度的敏感度分配给原本不被认为是敏感的对象。
处理感测数据106以识别感测数据106的表示冗余信息的第一部分可包括使用一个或多个对象识别(或“对象检测”、“对象辨识”、“对象分类器”、“图像分割”)算法。这些算法被配置为检测现实世界环境中特定类别的对象的实例,例如由感测数据106表示的其图像/音频表示,以及感测数据内冗余信息的位置,例如图像中对象的实例的位置。所使用的一个或多个对象识别算法可被实现用于AR系统100中的其他目的。例如,还可在其他过程中使用一个或多个对象识别算法来理解AR系统100所处的环境。在这种情况下,这些过程的输出可用于本文所述的方法200,这允许在基本上不增加由AR系统100执行的处理量的情况下执行方法200。
在预先确定的类别是人脸的情况下,对象识别算法可用于检测由感测数据中包括的图像数据表示的图像中人脸的存在。在一些情况下,可使用一个或多个对象识别算法来识别对象的特定实例。例如,该实例可以是特定的人脸。此类对象识别的其他示例包括识别或检测表情(例如,面部表情)、手势(例如,手部手势)、音频(例如,识别音频环境中的一个或多个特定声音)、热能标记(例如,识别诸如红外表示或“热图”中的面部的对象)的实例。因此,在示例中,被检测到的“对象”的类型可对应于现实世界环境的表示的类型。例如,对于现实世界环境的视觉或图像表示,对象识别可涉及识别特定制品、表情、手势等,而对于现实世界环境的音频表示,对象识别可涉及识别特定声音或声源。在一些示例中,对象识别可涉及检测所识别的对象的运动。例如,除识别特定类型的对象(例如,现实世界环境的音频/视觉表示中的汽车)的实例之外,对象识别还可检测或确定对象(例如,所识别的汽车)的实例的运动。
在示例中,处理感测数据106以识别感测数据的表示冗余信息的第一部分可包括实现支持向量机(SVM)或神经网络以执行对象识别,但也可存在其他类型的对象识别方法。
神经网络通常包括形成定向加权图的若干互连神经元,其中该图的顶点(对应于神经元)或边缘(对应于连接)分别与权重相关联。权重可在神经网络的整个训练过程中针对特定目的进行调整,从而改变各个神经元的输出并因此改变神经网络整体的输出。在卷积神经网络(CNN)中,完全连接的层通常连接到一层中的每个神经元到另一层中的每个神经元。因此,作为对象分类过程的一部分,完全连接的层可用于识别输入的总体特征,诸如特定类别的对象或属于特定类别的特定实例是否存在于输入(例如,图像、视频、声音)中。
神经网络可被训练以通过处理感测数据来执行对象检测、图像分割、声音/语音识别等,例如以确定由感测数据表示的现实世界环境中是否存在预先确定的对象类别的对象。以这种方式训练神经网络可生成与至少一些层(诸如神经网络的除输入层和输出层之外的层)相关联的一个或多个内核。因此,训练的输出可以是与预定神经网络架构相关联的多个内核(例如,不同内核与多层神经网络架构的相应的不同层相关联)。内核数据可被视为对应于权重数据,该权重数据表示要应用于图像数据的权重,因为内核的每个元素可被视为分别对应于权重。这些权重中的每一个权重可乘以图像块的对应像素值,以如上所述地将内核与图像块进行卷积。
内核可允许识别到神经网络的输入的特征。例如,就图像数据而言,一些内核可用于识别由图像数据表示的图像中的边缘,并且其他内核可用于识别图像中的水平或竖直特征(尽管这不是限制性的,并且其他内核也是可能的)。训练内核以识别的精确特征可取决于训练神经网络以检测的图像特性,诸如对象的类别。内核可具有任何尺寸。内核有时可被称为“滤波器内核”或“滤波器”。卷积通常涉及乘法运算和加法运算,有时称为乘法-累加(或“MAC”)运算。因此,被配置为实现神经网络的神经网络加速器可包括被配置为执行这些操作的乘法器-累加器(MAC)单元。
在训练阶段之后,神经网络(其可被称为经训练的神经网络)可用于例如在输入图像中检测预先确定的对象类别的对象的存在。该过程可被称为“分类”或“推断”。分类通常涉及在训练阶段期间获取的内核与起源于传感器的输入的部分(例如,输入到神经网络的图像的图像块)的卷积,以生成特征图。然后可使用至少一个完全连接的层来处理特征图,例如以对对象进行分类;但也可执行其他类型的处理。
在使用区域卷积神经网络(R-CNN)生成边界框(例如识别图像中检测到的对象的位置)的情况下,处理可首先包括使用CNN层,其次是区域方案网络(RPN)。在CNN用于执行图像分割的示例中,诸如使用完全卷积神经网络(FCN),处理可包括使用CNN,其次是去卷积层(即转置卷积),之后是上采样。
返回图2的方法200,在第三框206处,AR系统100导出定位数据110以用于确定AR系统100的位置和取向。定位数据110从感测数据106导出,并且第一部分在定位数据的导出期间被模糊。可以多种方式模糊感测数据106的第一部分,例如,可以在定位数据110的导出期间修改由感测数据106的第一部分表示的值。在其他示例中,定位数据110可以从感测数据106的第二部分导出,该第二部分不同于感测数据106的第一部分,并且模糊第一部分可以包括从定位数据110的导出中排除第一部分。模糊数据的第一部分以使得其不包括冗余信息并且不可能确定冗余信息的方式执行。
在一个示例中,定位数据110包括从感测数据106导出的表示环境的至少一部分的图像数据。在这种情况下,导出定位数据110可以包括修改感测数据106中包括的图像数据。例如,可以使用与图像中的一个或多个对象相关联的一个或多个分割掩模来识别感测数据106的第一部分,然后可以修改第一部分,使得其不再表示冗余信息。在该背景下的修改可涉及修改由第一部分表示的像素强度值。另选地或除此之外,修改可包括在导出定位数据106时移除或删除第一部分。可以基于上述对象识别方法生成一个或多个分割掩模。一个或多个分割掩模界定图像中的一个或多个对象的表示,并且识别图像数据的表示这些对象的部分。另选地,在定位数据110包括从感测数据中包括的图像数据导出的图像数据的情况下,导出定位数据可以包括将感测数据的第二部分选择为定位数据110,其不包括第一部分。
在第四框208处,AR系统100使用例如一个或多个通信模块108将定位数据110的至少一部分传输到包括或实现AR云的一个或多个远程计算设备,以用于执行AR系统100的定位。由于感测数据106的第一部分在定位数据110的导出期间被模糊,因此可以防止冗余信息(诸如敏感信息)被传输到一个或多个远程计算设备。这样,在冗余信息包括敏感信息的情况下,方法200可防止定位数据110用于确定关于AR系统110所在的环境的敏感信息。在一些情况下,某些实体可能拦截从AR系统100到一个或多个远程计算设备的通信,在这种情况下,可能被拦截的任何通信不包括可用于确定敏感信息的数据。在一些情况下,包括或实现AR云的一个或多个计算设备可由多个服务提供方提供和/或管理,因此限制对可用于确定敏感信息的数据的访问是期望的。
图3示出了具有获取的感测数据302的AR系统100,该感测数据包括表示环境的图像的图像数据。AR系统100处理图像数据以识别图像中由感测数据302的第一部分表示的两个对象304和306。AR系统100生成与两个对象304和306相关联的分割掩模308和310。在这种情况下,分割掩模308和310表示包括对象304和306的图像的部分。AR系统100从感测数据302导出包括图像数据的定位数据312。在定位数据312中排除感测数据302的第一部分,该第一部分是表示一个或多个对象304的图像数据。然而,应当理解,在一些示例中,可在定位数据312中提供补充数据,该补充数据表示图像中对象304和306所处的部分。例如,可以提供标签,指示图像的这些部分受到限制并且因此未示出。
在一些情况下,在传输定位数据312之后,可生成并传输进一步的定位数据。在这种情况下,当一个或多个对象304和306是在所捕获的图像数据的帧之间移动的动态对象时,后续的定位数据可以包括表示图像的这些部分的图像数据,使得仍然可以基于环境的这些区域执行准确的定位。通过在定位数据312中排除表示冗余信息的数据,可以减少传输的数据量,从而允许AR系统100与一个或多个远程计算设备314之间更快的通信,并且还提高确定AR设备100的位置和取向的效率,因为使用AR云处理的与定位无关数据更少。
虽然在该示例中,分割掩模308和310表示包括检测到的对象304和306中的每一者的边界框,但是在其他示例中,分割掩模308和310表示与检测到的对象304和306具有相同尺寸和形状的图像的部分。在一些情况下,识别感测数据302的一部分对于移除冗余信息可能是足够的,该部分表示与检测到的对象具有相同尺寸和形状的图像的部分。在其他情况下,对象本身的形状和尺寸本质上可能是敏感的,因此通过识别包括和模糊对象304和306的形状的数据的部分,与对象304和306的尺寸和形状相关的信息可以不包括在定位数据312中。虽然在本示例中边界框已经用于表示分割掩模308和310,但是应当理解,可以使用分割掩模308和310的其他形状,包括规则和不规则多边形、弯曲形状和任何其他合适的形状。在一些情况下,所使用的一个或多个分割掩模308和310的尺寸和形状可以取决于已经在图像中检测到的对象304和306的类别。在图像中捕获的动态对象还可影响确定位置和取向(或“地理姿态确定”)的准确性,因此通过排除表示这些对象的数据,可提高地理姿态确定的准确性。
AR系统100传输定位数据312的至少一部分以供实现AR云314的一个或多个远程计算设备314接收。一个或多个远程计算设备314包括表示现实世界环境(包括AR系统100所处的环境)的实时空间地图的点云316。该点云316与定位数据312一起使用以确定AR系统100的位置和取向。AR系统然后可从一个或多个远程计算设备314接收表示AR系统100的位置和取向的位置数据318。
在一些示例中,定位数据312包括元数据,该元数据识别图像的表示图像中的一个或多个对象304和306的部分。通过在定位数据内识别图像的表示图像中的一个或多个对象304和306的部分,可以通知一个或多个远程计算设备314包括在定位数据中的不被处理的图像数据的部分。因此,远程计算设备314可避免在尝试处理数据的这些部分时浪费计算资源,并且/或者可使用该信息来确保数据的这些部分不影响AR系统100的位置和取向的确定结果。
如上所述,定位数据110可另选地或除此之外包括除图像数据之外的其他数据。图4示出了一示例,在该示例中,AR系统100获取感测数据402,该感测数据包括表示环境的图像的图像数据。AR系统100处理图像数据以识别由感测数据402的第一部分表示的一个或多个对象404和406。AR系统100导出定位数据408,该定位数据包括表示使用图像数据生成的一组一个或多个特征点的数据。然后传输表示一个或多个特征点的至少一部分的定位数据408的至少一部分。特征点可包括例如图像中的边缘、拐角、团块、脊和其他相关特征。从图像生成特征点可包括使用一种或多种特征检测算法,例如,尺度不变特征转换(SIFT)、加速分段测试特征(FAST)、局部二元模式(LBP)和其他已知的特征检测算法。在一些示例中,特征点与相应的特征描述符相关联,并且所述特征描述符可包括在定位数据408中。
尽管特征点和描述符不包括表示环境的图像的图像数据,但在一些情况下,可以例如通过特征反转过程来处理表示特征点和描述符的数据以识别冗余信息。在这种情况下,提供不包括表示与冗余信息相关联的特征点的数据的定位数据408可抑制或阻止包括冗余信息的原始图像的重建。
在一些示例中,导出定位数据408可以包括处理不包括感测数据402的第一部分的感测数据402的第二部分,以生成一组一个或多个特征点。另选地,可以通过以下方式导出定位数据408:处理感测数据402以生成一组一个或多个特征点,包括使用感测数据402的第一部分,并且随后从对应于感测数据402的第一部分的一组一个或多个特征点中移除表示某些特征点的数据。在任一种情况下,如上所述,可以生成一个或多个分割掩模,以识别感测数据402的第一部分。
图5示出了一个示例,在该示例中AR系统100获取感测数据502,该感测数据包括表示环境的图像的图像数据。AR系统100处理图像数据以识别由感测数据502的第一部分表示的一个或多个对象504和506。AR系统导出定位数据508,该定位数据包括表示点云510的数据。点云510是环境的3D表示,呈多个点的形式。然后将包括点云510的定位数据508的至少一部分传输到一个或多个远程计算设备314以确定AR系统100的位置和取向。在这种情况下,导出定位数据508可以包括从感测数据502的不包括第一部分的第二部分生成表示点云510的数据。另选地,导出定位数据508可以包括使用感测数据502的第一部分和第二部分两者从感测数据502生成点云510,并且随后移除表示基于第一部分生成的点云510中的点的数据。
在一些示例中,传输的定位数据312、408和508可包括上述数据的组合。例如,定位数据可包括图像数据、特征点和描述符和/或点云510的组合。
感测数据106可以包括不同类型的数据的其他组合,诸如图像数据和深度数据,图像数据和深度数据由深度传感器(诸如声纳收发器)、RADAR系统或LiDAR系统生成并且表示一个或多个对象在环境中的相对位置的。在这种情况下,处理感测数据106可以包括:处理图像数据以识别图像中的一个或多个对象;以及识别感测数据106的第一部分,该第一部分包括与一个或多个对象相关联的图像数据和深度数据。AR系统100可以导出定位数据,该定位数据包括深度数据以及图像数据、表示特征点和描述符的数据和/或表示点云的数据中的任何一者,当导出定位数据110时,感测数据的第一部分被模糊。例如,表示检测到的一个或多个对象的深度的深度数据可以不包括在定位数据110中。
如上所述,感测数据106可以包括表示从环境捕获的声音的音频数据。在这种情况下,该方法可以包括处理感测数据106以识别感测数据106的第一部分,该第一部分表示语音或由环境中的一个或多个制品(诸如机器)发出的声音。然后可导出包括音频数据的定位数据110,其中感测数据的第一部分被模糊,诸如通过从与感测数据106的第一部分不同的感测数据106的第二部分导出定位数据110,或者通过先从所有感测数据106导出定位数据并且随后移除从第一部分导出的定位数据110的部分。
图6示出了包括计算机可读指令606至612的非暂态计算机可读存储介质602,当计算机可读指令由一个或多个处理器604执行时,使得一个或多个处理器604执行如上所述并且在图6的框606至612中示出的方法。上文相对于图1至图5所述的方法200的示例和变型也适用于包括在计算机可读存储介质602上的计算机可读指令606至612。
还设想了其他示例,其中本地执行地理姿态确定的AR系统可偶尔地或周期性地将定位数据110传输到一个或多个远程计算设备,以便验证地理姿态确定的准确性,并且在一些情况下,随后校正和/或重新同步AR系统的地理姿态确定。在这些情况下,可应用方法200,使得传输的定位数据110不包括表示冗余信息或可用于确定冗余信息的数据。
应当理解,相对于任何一个示例所述的任何特征可单独使用,或与所述的其他特征结合使用,任何特征也可与任何其他示例的一个或多个特征或任何其他示例的任何组合结合使用。此外,在不脱离所附权利要求的范围的情况下,也可采用上文未描述的等同物和改型。
Claims (12)
1.一种增强现实AR系统,包括:
一个或多个传感器,所述一个或多个传感器被布置为生成表示所述AR系统所处的环境的至少一部分的感测数据;
存储装置,所述存储装置用于存储由所述一个或多个传感器生成的感测数据;
一个或多个通信模块,所述一个或多个通信模块用于传输将被用于确定所述AR系统的位置和取向的定位数据;和
一个或多个处理器,所述一个或多个处理器被布置为:
获取表示所述AR系统所处的环境的感测数据;
处理所述感测数据以识别所述感测数据的表示冗余信息的第一部分;
导出用于确定所述AR系统的位置和取向的定位数据,其中所述定位数据是从所述感测数据导出的,并且所述第一部分在所述定位数据的所述导出期间被模糊;以及
使用所述一个或多个通信模块传输所述定位数据的至少一部分。
2.根据权利要求1所述的AR系统,其中所述定位数据是从所述感测数据的第二部分导出的,所述第二部分是与所述第一部分不同的部分,并且模糊所述感测数据的所述第一部分包括在所述定位数据的所述导出期间排除感测数据的所述第一部分。
3.根据权利要求1所述的AR系统,其中所述一个或多个处理器被布置为接收位置数据,所述位置数据表示所述AR系统相对于所述环境的位置和取向。
4.根据权利要求1所述的AR系统,其中所述一个或多个传感器包括以下中的任一者:
图像传感器;
麦克风;
深度传感器;
声纳收发器;
光检测和测距LiDAR传感器;以及
无线电方位角方向和测距RADAR传感器。
5.根据权利要求1所述的AR系统,其中所述感测数据包括表示所述环境的图像的图像数据,并且处理所述感测数据以识别感测数据的所述第一部分包括识别所述图像数据的表示所述图像中的一个或多个对象的部分,并且
任选地,其中传输的所述定位数据的所述至少一部分包括元数据,所述元数据识别所述图像的表示所述一个或多个对象的所述部分,并且
任选地,其中使用所述一个或多个通信模块传输的所述定位数据的所述至少一部分包括以下中的任一者:
表示使用所述图像数据生成的一组一个或多个特征点的数据;和
表示使用所述图像数据生成的点云的数据。
6.根据权利要求5所述的AR系统,其中处理所述感测数据以识别感测数据的所述第一部分包括处理所述图像数据以生成与所述图像中的所述一个或多个对象相关联的一个或多个分割掩模,所述一个或多个分割掩模识别所述感测数据的所述第一部分,并且
任选地,其中通过使用神经网络处理所述图像数据以识别所述环境的所述图像中的所述一个或多个对象从而生成所述一个或多个分割掩模,并且
任选地,其中所述分割掩模表示包括所述图像中的所述一个或多个对象的所述图像的部分。
7.一种用于增强现实AR系统的计算机实现的数据处理方法,所述方法包括:
获取表示AR系统所处的环境的感测数据;
处理所述感测数据以识别所述感测数据的表示冗余信息的第一部分;
导出用于确定所述AR系统的位置和取向的定位数据,其中所述定位数据是从所述感测数据导出的,并且所述第一部分在所述定位数据的所述导出期间被模糊;以及
传输所述定位数据的至少一部分。
8.根据权利要求7所述的计算机实现的方法,其中所述定位数据是从所述感测数据的第二部分导出的,所述第二部分是与所述第一部分不同的部分,并且模糊感测数据的所述第一部分包括在所述定位数据的所述导出期间排除感测数据的所述第一部分。
9.根据权利要求7所述的计算机实现的方法,包括接收位置数据,所述位置数据表示所述AR系统相对于所述环境的位置和取向。
10.根据权利要求7所述的计算机实现的方法,其中所述感测数据包括表示所述环境的图像的图像数据,并且处理所述感测数据以识别感测数据的所述第一部分包括识别所述图像数据的表示所述图像中的一个或多个对象的部分,并且其中
任选地,传输的所述定位数据的所述至少一部分包括元数据,所述元数据识别所述图像的表示所述一个或多个对象的所述部分,
任选地,其中传输的所述定位数据的所述至少一部分包括以下中的任一者:
表示使用所述图像数据生成的特征点的数据;和
表示使用所述图像数据生成的点云的数据。
11.根据权利要求10所述的计算机实现的方法,其中处理所述感测数据以识别感测数据的所述第一部分包括处理所述图像数据以生成与所述图像中的所述一个或多个对象相关联的一个或多个分割掩模,所述一个或多个分割掩模识别所述感测数据的所述第一部分,并且其中
任选地,通过使用神经网络处理所述图像数据以识别所述环境的所述图像中的所述一个或多个对象从而生成所述一个或多个分割掩模,
任选地,所述一个或多个分割掩模表示包括所述一个或多个对象的所述图像的部分。
12.一种非暂态计算机可读存储介质,包括计算机可读指令,所述计算机可读指令在由至少一个处理器执行时使得所述至少一个处理器:
获取表示增强现实AR系统所处的环境的感测数据;
处理所述感测数据以识别所述感测数据的表示冗余信息的第一部分;
导出用于确定所述AR系统的位置和取向的定位数据,其中所述定位数据是从所述感测数据导出的,并且所述第一部分在所述定位数据的所述导出期间被模糊;以及
传输所述定位数据的至少一部分。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/897,596 | 2020-06-10 | ||
US16/897,596 US11436804B2 (en) | 2020-06-10 | 2020-06-10 | Augmented reality system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113778221A true CN113778221A (zh) | 2021-12-10 |
Family
ID=78825835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110627513.5A Pending CN113778221A (zh) | 2020-06-10 | 2021-06-04 | 增强现实系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11436804B2 (zh) |
CN (1) | CN113778221A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220318551A1 (en) * | 2021-03-31 | 2022-10-06 | Arm Limited | Systems, devices, and/or processes for dynamic surface marking |
US11588994B2 (en) * | 2021-07-26 | 2023-02-21 | SmartSens Technology (HK) Co., Ltd | Image sensor with embedded neural processing unit |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109945844B (zh) * | 2014-05-05 | 2021-03-12 | 赫克斯冈技术中心 | 测量子系统和测量系统 |
US10719727B2 (en) * | 2014-10-01 | 2020-07-21 | Apple Inc. | Method and system for determining at least one property related to at least part of a real environment |
US10553026B2 (en) * | 2017-07-20 | 2020-02-04 | Robert Bosch Gmbh | Dense visual SLAM with probabilistic surfel map |
US10817050B2 (en) * | 2019-01-25 | 2020-10-27 | Dell Products, L.P. | Backchannel resilience for virtual, augmented, or mixed reality (xR) applications in connectivity-constrained environments |
US10922831B2 (en) * | 2019-02-20 | 2021-02-16 | Dell Products, L.P. | Systems and methods for handling multiple simultaneous localization and mapping (SLAM) sources and algorithms in virtual, augmented, and mixed reality (xR) applications |
US10909764B2 (en) * | 2019-06-25 | 2021-02-02 | 8th Wall Inc. | Providing augmented reality target images in a web browser |
-
2020
- 2020-06-10 US US16/897,596 patent/US11436804B2/en active Active
-
2021
- 2021-06-04 CN CN202110627513.5A patent/CN113778221A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11436804B2 (en) | 2022-09-06 |
US20210390777A1 (en) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997787B2 (en) | 3D hand shape and pose estimation | |
US11270515B2 (en) | Virtual keyboard | |
JP6364049B2 (ja) | 点群データに基づく車両輪郭検出方法、装置、記憶媒体およびコンピュータプログラム | |
US11798278B2 (en) | Method, apparatus, and storage medium for classifying multimedia resource | |
CN108229353B (zh) | 人体图像的分类方法和装置、电子设备、存储介质、程序 | |
US11335022B2 (en) | 3D reconstruction using wide-angle imaging devices | |
US11094074B2 (en) | Identification of transparent objects from image discrepancies | |
US11941796B2 (en) | Evaluation system, evaluation device, evaluation method, evaluation program, and recording medium | |
CN113778221A (zh) | 增强现实系统 | |
CN112528974B (zh) | 测距方法、装置、电子设备及可读存储介质 | |
JP2021174553A (ja) | ディープラーニング基盤の仮想イメージ生成方法及びシステム | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN109785439A (zh) | 人脸素描图像生成方法及相关产品 | |
EP3309713B1 (en) | Method and device for interacting with virtual objects | |
WO2023003642A1 (en) | Adaptive bounding for three-dimensional morphable models | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN113343951A (zh) | 人脸识别对抗样本生成方法及相关设备 | |
CN113139992A (zh) | 多分辨率体素网格化 | |
CN112101185A (zh) | 一种训练皱纹检测模型的方法、电子设备及存储介质 | |
CN111797869A (zh) | 模型训练方法、装置、存储介质及电子设备 | |
CN113095347A (zh) | 基于深度学习的标记识别方法和训练方法及其系统和电子设备 | |
CN111797656A (zh) | 人脸关键点检测方法、装置、存储介质及电子设备 | |
JP7479507B2 (ja) | 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム | |
CN117501208A (zh) | 利用步态印迹模仿的ar数据模拟 | |
WO2024091741A1 (en) | Depth estimation using image and sparse depth inputs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |