CN117808954A - 用于对象发现的具有球面自动编码器的系统和方法 - Google Patents
用于对象发现的具有球面自动编码器的系统和方法 Download PDFInfo
- Publication number
- CN117808954A CN117808954A CN202311294260.XA CN202311294260A CN117808954A CN 117808954 A CN117808954 A CN 117808954A CN 202311294260 A CN202311294260 A CN 202311294260A CN 117808954 A CN117808954 A CN 117808954A
- Authority
- CN
- China
- Prior art keywords
- source image
- data
- image
- spherical
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000006870 function Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 48
- 230000011218 segmentation Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000001994 activation Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Molecular Biology (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
计算机实现的系统和方法涉及对象发现。该系统和方法包括接收源图像并通过将源图像的每个像素与预定相位值相关联来生成输入数据。编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。至少基于径向分量来生成重建图像。重建图像是源图像的重建。
Description
技术领域
本公开大体上涉及数字图像处理,并且更具体地涉及用于对象发现的与以对象为中心的表示相关联的机器学习系统。
背景技术
目前,大多数关于对象发现的机器学习工作集中在基于时隙(slot)的方法上,这种方法分离了单独对象的潜在表示。然而,这些基于时隙的系统倾向于要求所涉及的架构具有迭代过程和复杂的训练方案以实现对象特征到时隙中的良好分离。此外,存在复杂的自动编码器,它使用复杂的值激活来学习以对象为中心的表示。然而,复杂的自动编码器在其所能表示的对象数量上受到限制。
发明内容
以下是下面详细描述的特定实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述,并且对这些方面的描述并不旨在限制本公开的范围。实际上,本公开可以包括下面可能没有明确阐述的各种方面。
根据至少一个方面,一种计算机实现的方法涉及对象发现。该方法包括接收源图像。该方法包括通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据。该方法包括经由编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。该方法包括经由解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。该方法包括至少基于径向分量来生成重建图像。重建图像是源图像的重建。
根据至少一个方面,一种系统包括处理器和存储器。存储器与处理器进行数据通信。存储器具有计算机可读数据,所述计算机可读数据包括存储在其上的指令,所述指令当被处理器执行时,使处理器执行一种方法。该方法包括接收源图像。该方法包括通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据。该方法包括经由编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。该方法包括经由解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。该方法包括至少基于径向分量来生成重建图像。重建图像是源图像的重建。
根据至少一个方面,一种非暂时性计算机可读介质具有计算机可读数据,所述计算机可读数据包括存储在其上的指令,所述指令在被处理器执行时使处理器执行一种方法。该方法包括接收源图像。该方法包括通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据。该方法包括经由编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。该方法包括经由解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。该方法包括至少基于径向分量来生成重建图像。重建图像是源图像的重建。
本发明的这些和其他特征、方面和优点将在下面根据附图的详细描述中进行讨论,在所有附图中,相同的符号表示相似或相似的部分。
附图说明
图1是根据本公开的示例实施例的包括用于对象发现的球面自动编码器的系统的示例的图。
图2是根据本公开的示例实施例的球面自动编码网络的示例的图。
图3是根据本公开的示例实施例的包括球面自动编码器的系统的示例的图。
图4是根据本公开的示例实施例的关于移动机器技术的图3的系统的图。
图5是根据本公开的示例实施例的关于安全技术的图3的系统的图。
图6是根据本公开的示例实施例的关于成像技术的图3的系统的图。
具体实施方式
本文描述的实施例已经通过示例的方式示出和描述,并且它们的许多优点将通过前面的描述而被理解,并且显而易见的是,在不脱离所公开的主题的情况下或者在不牺牲其一个或多个优点的情况下,可以对组件的形式、构造和布置进行各种改变。实际上,这些实施例的描述形式仅仅是说明性的。这些实施例易于进行各种修改和替代形式,并且以下权利要求旨在包含和包括这些改变,并且不限于所公开的具体形式,而是覆盖落入本公开的精神和范围内的所有修改、等同物和替代物。
图1示出了执行数字图像处理的系统100。系统100包括球面自动编码器130。球面自动编码器130被配置成经由使用球面坐标的激活来学习以对象为中心的表示。在这方面,系统100被配置成接收输入图像(例如,源图像202)并经由球面自动编码器130生成输出图像(例如,重建图像228)。输出图像是输入图像的重建版本。此外,系统100被配置成生成输入图像(例如,源图像202)中的对象的对象分割掩模230。
系统100至少包括具有至少一个处理设备的处理系统110。例如,处理系统110至少包括电子处理器、中央处理单元(CPU)、图形处理单元(GPU)、微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、任何合适的处理技术、或其任何数量和组合。处理系统110可操作以提供如本文所述的功能。
系统100包括存储器系统120,其可操作地连接到处理系统110。在示例实施例中,存储器系统120包括至少一个非暂时性计算机可读存储介质,其被配置成存储各种数据并提供对各种数据的访问,以使得至少处理系统110能够执行如本文所公开的操作和功能。在示例实施例中,存储器系统120包括单个存储器设备或多个存储器设备。存储器系统120可以包括电的、电子的、磁的、光的、半导体的、电磁的、或可与系统100一起操作的任何合适的存储技术。例如,在示例实施例中,存储器系统120包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁盘驱动器、存储卡、光存储设备、磁存储设备、存储器模块、任何合适类型的存储器设备、或其任何数量和组合。关于处理系统110和/或系统100的其他组件,存储器系统120是本地的、远程的、或其组合(例如,部分本地和部分远程)。例如,存储器系统120可以至少包括基于云的存储系统(例如,基于云的数据库系统),其远离处理系统110和/或系统100的其他组件。
存储器系统120至少包括存储在其上的球面自动编码器130和机器学习数据140。存储器系统120还可以包括也可以存储在其上的计算机视觉应用150和其他相关数据160。球面自动编码器130包括具有指令的计算机可读数据,所述指令当由处理系统110执行时,配置成至少训练(或训练和使用)球面自动编码网络200。球面自动编码器130还被配置成在另一系统(例如,图3)中部署和使用。计算机可读数据可以包括指令、代码、例程、各种相关数据、任何软件技术、或其任何数量和组合。
球面自动编码器130包括球面自动编码网络200(图2)。球面自动编码网络200包括至少一个人工神经网络模型和/或任何合适的机器学习模型,其被配置成执行如本文所讨论的球面自动编码过程。例如,球面自动编码网络200包括卷积自动编码器208和卷积层224。卷积自动编码器208包括卷积编码器210(具有fenc的编码功能)和卷积解码器214(具有fdec的解码功能)。此外,球面自动编码网络200被配置成包括对象分割器226。球面自动编码网络200被配置成接收输入图像(例如源图像202)作为输入。源图像202是直接或间接从传感器系统170的一个或多个传感器获得的数字图像。在接收到源图像202时,球面自动编码网络200被配置成生成球面重建数据218。利用球面重建数据218,球面自动编码网络200被配置成生成重建图像228、对象分割掩模230、或重建图像228和对象分割掩模230两者。
此外,机器学习数据140包括与球面自动编码器130的训练、部署或使用相关的任何数据。例如,机器学习数据140包括训练数据、各种图像、各种损失数据、对象分割掩模数据、与球面自动编码器130相关的任何数据、或其任何数量和组合。此外,计算机视觉应用150被配置成将球面自动编码器130的输出(例如,对象分割掩模230和/或重建图像228)应用于计算机视觉技术。计算机视觉应用150被配置成基于对象分割掩模230来执行对象分类、对象识别、对象跟踪、任何计算机视觉任务、或其任何数量和组合。此外,计算机视觉应用150可以将重建图像228与源图像202进行比较,以确定由球面自动编码网络200生成的输出的质量。同时,其他相关数据160提供各种数据(例如,操作系统等),其使得系统100能够执行如本文讨论的功能。
系统100被配置成包括至少一个传感器系统170。传感器系统170包括一个或多个传感器。例如,传感器系统170包括图像传感器、相机、雷达传感器、光检测和测距(LIDAR)传感器、热传感器、超声传感器、红外传感器、运动传感器、音频传感器(例如,麦克风)、任何合适的传感器、或其任何数量和组合。传感器系统170可操作以与系统100的一个或多个其他组件(例如,处理系统110和存储器系统120)通信。例如,传感器系统170可以提供传感器数据,其然后被处理系统110用来基于传感器数据生成数字图像。在这方面,处理系统110被配置成直接或间接地从传感器系统170的一个或多个传感器获得作为数字图像的传感器数据。传感器系统170是本地的、远程的、或其组合(例如,部分本地和部分远程)。在接收到传感器数据时,处理系统110被配置成结合球面自动编码器130、机器学习数据140、计算机视觉应用150、其他相关数据160、或其任何数量和组合来处理该传感器数据(例如,数字图像)。
此外,系统100可以包括至少一个其他组件。例如,如图1所示,存储器系统120还被配置成存储其他相关数据160,其涉及与一个或多个组件(例如,传感器系统170、I/O设备180和其他功能模块190)相关的系统100的操作。此外,系统100被配置成包括涉及系统100的一个或多个I/O设备180(例如,显示设备、键盘设备、扬声器设备等)。此外,系统100包括其他功能模块190,例如帮助或有助于系统100的功能的任何适当的硬件、软件或其组合。例如,其他功能模块190包括通信技术(例如,有线通信技术、无线通信技术或其组合),其使得系统100的组件能够如本文所述那样彼此通信。
如上所述,系统100可操作以执行如本文所述的数字图像处理,用于经由使用球面坐标的激活的对象发现。系统100被配置成使用球面坐标来表示向量。在这方面,在如图2中所讨论的此过程期间,系统100被配置成至少根据等式1、等式2和等式3将球面坐标数据转换为笛卡尔坐标数据。
此外,系统100被配置成至少根据等式4、等式5、等式6和等式7将笛卡尔坐标数据转换为球面坐标数据。如果系统100确定则系统100确定该变换不是唯一的,并且y可以任何选择。在这种情况下,例如,系统100将y设置为零(即,y=0)。
对于特殊情况,如果xk+1,…,xn=0,则可经由等式7确定。
图2是示出根据示例实施例的球面自动编码网络200的图。如图2所示,球面自动编码网络200包括卷积编码器210(具有fenc的编码功能)、卷积解码器214(具有fdec的解码功能)、卷积层224(具有sigmoid激活功能fout)和对象分割器226。处理系统110被配置成直接或间接地从传感器接收输入图像(例如,源图像202)。更具体地,给定源图像202(即,高度h、宽度w和通道c的图像),处理系统110将每个像素与固定相位值204相关联,以创建用于球面自动编码网络200的球面输入206。例如,固定相位值204可以包括球面自动编码网络200接收输入数据,其包括的球面输入206。处理系统110将该球面输入206应用于卷积自动编码器208以生成球面重建数据218/>如等
式8所示。
为了训练球面自动编码网络200,处理系统110提取球面重建数据218的径向坐标220/>径向坐标也可以称为径向分量。处理系统110将具有sigmoid激活函数fout的1×1卷积层224应用于所提取的径向坐标220/>以经由等式9生成结果/>在这种情况下,结果/>指的是重建图像228。重建图像228是源图像202的重建版本。处理系统110使用均方误差(MSE)函数将结果/>(例如,重建图像228)与输入图像r(例如,源图像202)进行比较,以经由等式10计算损失/>处理系统110基于该损失计算来生成损失数据,并基于损失数据来更新至少自动编码网络200的参数。
此外,处理系统110使用球面重建数据218的相位分量222/>经由对象分割器226为输入图像r的对象创建像素精确的分割掩模230。相位分量222也可以被称为角分量或角坐标。相位分量222提供对象归属信息。作为示例,例如,对象分割器226被配置成标识特定相位分量222/>的主导相位,并将拥有该主导相位的一组像素标识为属于源图像202中的同一对象。对象分割器226被配置成为被标识为属于对象的一组像素生成对象分割掩模,使得对象分割掩模对应于源图像202的该对象。
此外,关于逐层操作,给定对笛卡尔坐标x1,…,xn中的层的输入处理系统110将层的权重(表示为w)单独应用于n个维度中的每一个,以经由等式11获得中间表示z(或潜在表示数据212)。利用该公式化,球面自动编码网络200可以包括并使用现有深度学习框架中的任何标准神经网络层,并且权重的维数仅取决于所应用的层的类型。例如,对于全连接层,球面自动编码网络200被配置成使得满足/>其中f表示特征维度。接下来,处理系统110将潜在表示数据212(z)变换成球面坐标,并经由等式12和等式13对每个所得维度施加单独的偏置。
r′=rz+br [12]
对于i∈[1,n-1] [13]
偏置的维数取决于所应用的层的类型。例如,对于全连接层,所有的偏置都是处理系统110还经由等式14在输入向量的径向坐标上应用权重,以生成所得表示处理系统110在应用非线性之前将所得表示/>与先前计算的径向坐标r'组合,以经由批量归一化(例如,BatchNorm函数)和作为等式15中所示的激活函数的校正线性单元(ReLU)来创建层的最终径向输出(即,r")。基于以上,处理系统110以球面坐标生成层的最终输出。在这方面,球面重建数据218或最终输出包括以下值:/>
球面自动编码网络200可以容易地应用于单通道图像(例如,灰度图像)。在该设置中,处理系统110使用作为重建图像228的输出向量的径向分量和一个或多个相位/>来表示一个或多个对象身份。然而,对高维输入执行相同的过程可能会导致微不足道的结果。作为非限制性示例,例如,当图像包括红色对象和蓝色对象时,则球面重建过程偏向于将小的径向分量分配给对于相应对象无效的颜色通道。由于具有小径向分量的值的相位值将被屏蔽,因此这然后将导致基于对象的重建颜色值而不是其分配的相位值来分离对象。幸运的是,球面自动编码器130通过使用跨通道的相位值的加权平均来为每个像素创建最终的对象分离相位/>从而解决了该问题。球面自动编码器130被配置成提供这作为技术解决方案,因为机器学习模型(例如,卷积自动编码器208)跨信道分配相似的相位。在这种情况下,每个像素的最终对象分离相位/>用等式16表示,其中∈=1e-8,如果rc<0.1,则wc=10·rc,并且如果rc≥0.1,则wc=1。
如上所述,在被训练之后,球面自动编码器130被配置成生成重建图像数据和对象身份数据,其可以在各种下游任务中使用,例如计算机视觉应用和/或其他合适的应用。例如,图3、图4、图5和图6示出了实现球面自动编码器130的各种应用的非限制性示例。更具体地,图3提供了针对图4、图5和图6的基础。尽管图4、图5和图6示出了涉及图3的系统300的一个或多个方面的各种应用的非限制性示例,但是系统300也可以被用于其他应用中,例如制造机器、机器人、个人助理技术等。
图3是包括训练的球面自动编码器130的系统300的图。系统300被配置成还至少包括传感器系统310、控制系统320和致动器系统330。系统300被配置成使得控制系统320基于来自传感器系统310的传感器数据来控制致动器系统330。更具体地,传感器系统310包括一个或多个传感器和/或对应的设备以生成传感器数据。例如,传感器系统310包括图像传感器、相机、雷达传感器、光检测和测距(LIDAR)传感器、热传感器、超声传感器、红外传感器、运动传感器、基于卫星的导航传感器(例如,全球定位系统(GPS)传感器)、光学传感器、音频传感器、任何合适的传感器、或其任何数量和组合。在从环境获得检测时,传感器系统310可操作以经由输入/输出(I/O)系统370和/或包括通信技术的其他功能模块350与控制系统320通信。
控制系统320被配置成直接或间接地从传感器系统310的一个或多个传感器获得传感器数据。在这方面,传感器数据可以包括来自单个传感器的传感器数据或来自多个传感器的传感器融合数据。在接收到至少包括传感器数据的输入时,控制系统320可操作以经由处理系统340处理传感器数据。在这方面,处理系统340包括至少一个处理器。例如,处理系统340包括电子处理器、中央处理单元(CPU)、图形处理单元(GPU)、微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、处理电路、任何合适的处理技术、或其任何组合。在处理至少该传感器数据时,处理系统340被配置成提取、生成和/或获得用于球面自动编码器130的适当输入数据(例如,数字图像数据)。另外,处理系统340可操作以经由球面自动编码器130基于与存储器系统360的通信来生成输出数据(例如,球面重建数据218、重建图像228、对象分割掩模230、或其任何数量和组合)。此外,处理系统340可操作以基于来自球面自动编码器130和/或计算机视觉应用150的输出数据向致动器系统330提供致动器控制数据。
存储器系统360是计算机或电子存储系统,其被配置成存储各种数据并提供对各种数据的访问,以至少实现如本文公开的操作和功能。存储器系统360包括单个设备或多个设备。存储器系统360包括电的、电子的、磁的、光的、半导体的、电磁的、任何合适的存储器技术或其任何组合。例如,存储器系统360可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁盘驱动器、存储卡、光存储设备、磁存储设备、存储器模块、任何合适类型的存储器设备、或其任何数量和组合。在示例实施例中,关于控制系统320和/或处理系统340,存储器系统360是本地的、远程的、或其组合(例如,部分本地和部分远程)。例如,存储器系统360可以至少包括基于云的存储系统(例如,基于云的数据库系统),其远离处理系统340和/或控制系统320的其他组件。
存储器系统360至少包括经由处理系统340执行的球面自动编码器130。球面自动编码器130被配置成接收或获得数字图像(例如,源图像202)。在这方面,球面自动编码器130经由处理系统340被配置成基于源图像202生成输出数据(例如,球面重建数据218、重建图像228、对象分割掩模230、或其任何数量和组合)。
另外,存储器系统360包括计算机视觉应用150。计算机视觉应用150被配置成将球面自动编码器130的输出(例如,对象分割掩模230和/或重建图像228)应用于计算机视觉技术。计算机视觉应用150可以基于对象分割掩模230来执行对象分类、对象识别、对象跟踪等。此外,存储器系统360还被配置成存储其他相关数据380,其涉及系统300相对于一个或多个组件(例如,传感器系统310、致动器系统330等)的操作。
此外,如图3所示,系统300包括有助于控制系统320相对于传感器系统310和致动器系统330的操作的其他组件。例如,如图3所示,控制系统320包括I/O系统370,其包括用于与系统300相关的一个或多个I/O设备的一个或多个接口。例如,I/O系统370提供到传感器系统310的至少一个接口和到致动器系统330的至少一个接口。此外,控制系统320被配置成提供其他功能模块350,例如任何适当的硬件技术、软件技术或其任何组合,其辅助和/或有助于系统300的功能发挥。例如,其他功能模块350包括操作系统和通信技术,其使得系统300的组件能够如本文所述那样彼此通信。至少利用图3的示例中讨论的配置,系统300可应用于各种技术中。
图4是根据示例实施例的关于移动机器技术400的系统300的图。作为非限制性示例,移动机器技术400包括至少部分自主的车辆或机器人。在图4中,移动机器技术400是至少部分自主的车辆,其包括传感器系统310。传感器系统310包括光学传感器、图像传感器、视频传感器、超声传感器、位置传感器(例如,GPS传感器)、雷达传感器、LIDAR传感器、任何合适的传感器、或其任何数量和组合。一个或多个传感器可以相对于车辆集成。传感器系统310被配置成向控制系统320提供传感器数据。
控制系统320被配置成获得图像数据,其基于来自传感器系统310的传感器数据或传感器融合数据。此外,控制系统320被配置成预处理传感器数据以向球面自动编码器130提供适当形式的输入数据(例如,数字图像数据)。在这方面,球面自动编码器130有利地被配置成生成用于对象发现的对象分割掩模。
此外,控制系统320被配置成根据计算机视觉应用150生成致动器控制数据,其至少基于球面自动编码器130的输出数据。由于球面自动编码器130能够向计算机视觉应用150提供像素精确的对象分割掩模,因此控制系统320被配置成生成致动器控制数据,其允许更安全和更精确地控制车辆的致动器系统330,这是通过能够以像素级处的精度来标识和跟踪图像/视频数据中的对象。致动器系统330可包括制动系统、推进系统、发动机、传动系统、转向系统、或车辆的致动器的任何数量和组合。致动器系统330被配置成控制车辆,使得车辆遵循道路规则并且至少基于由球面自动编码器130和计算机视觉应用150确定的对象检测、对象识别和/或对象跟踪来避免碰撞。
图5是根据示例实施例的关于安全技术500的系统300的图。作为非限制性示例,安全技术500至少包括监视系统、控制访问系统、监控系统、或任何合适类型的安全装置。例如,作为一个示例,图5涉及安全技术500,其被配置成物理地控制门502的锁的锁定状态和解锁状态,并且在显示器504上显示增强图像/视频。传感器系统310至少包括被配置成提供图像/视频数据的图像传感器。
控制系统320被配置成从传感器系统310获得图像/视频数据。控制系统320还被配置成经由球面自动编码器130基于从传感器系统310获得的图像/视频数据来生成用于对象发现的像素精确的对象分割掩模。在这方面,球面自动编码器130被配置成检测和标识图像/视频数据中的一个或多个对象。另外,控制系统320被配置成生成致动器控制数据,所述致动器控制数据允许通过基于具有逐像素精度的对象分割掩模来检测和标识图像/视频数据中的对象从而更安全且更精确地控制致动器系统330。控制系统320被配置成经由显示器504显示与图像/视频数据中标识的对象相关的任何数据。
图6是根据示例实施例的关于成像技术600的系统300的图。作为非限制性示例,成像技术600包括磁共振成像(MRI)装置、x射线成像装置、超声装置、医学成像装置、或任何合适类型的成像装置。在图6中,传感器系统310包括至少一个成像传感器。控制系统320被配置成从传感器系统310获得图像数据。控制系统320还被配置成经由球面自动编码器130所提供的对象分割掩模来发现图像/视频数据中的对象。此外,控制系统320被配置成提供更精确的医疗信息,因为由球面自动编码器130发现的对象提供了逐像素的精度。此外,控制系统320被配置成在显示器602上显示与图像/视频数据中所发现的对象相关的任何相关数据。
如本公开所述,球面自动编码器130提供了若干优点和益处。例如,球面自动编码器130被配置成经由无监督的训练过程来学习对象表示。此外,球面自动编码器130可以应用于单通道图像(例如,灰度图像)或多通道图像(例如,RGB彩色图像等)。球面自动编码器130可以应用于更高维的输入。作为优点,球面自动编码器130利用并表示使用球面坐标的激活。在这方面,球面自动编码器130被配置成使用多维角度来表示对象。此外,球面自动编码器130被配置成生成对象分割掩模,这在以像素级处的精度来定位图像中的对象和对象的边界(线、曲线等)方面是有利的。
此外,球面自动编码器130通过提供具有架构的球面自动编码网络200而优于基于时隙的方法,所述架构比基于时隙的架构更不复杂且涉及更少。此外,球面自动编码器130通过具有表示比复杂自动编码器更多数量的对象的能力而克服了复杂自动编码器的限制。球面自动编码器130提供与分布式以对象为中心的表示相关联的球面自动编码网络200。总的来说,球面自动编码器130提供了球面自动编码网络200和以有效和高效的方式执行重建和对象发现的对应过程。
也就是说,以上描述旨在是说明性的,而不是限制性的,并且是在特定应用及其要求的上下文中提供的。本领域技术人员可以从前面的描述中理解到,本发明可以以各种形式实现,并且各种实施例可以单独或组合地实现。因此,虽然已经结合本发明的特定示例描述了本发明的实施例,但是在不脱离所描述的实施例的精神和范围的情况下,本文定义的一般原理可以应用于其他实施例和应用,并且本发明的实施例和/或方法的真实范围不限于所示出和描述的实施例,因为在研究附图、说明书和所附权利要求之后,各种修改对于本领域技术人员将变得显而易见。附加地或替代地,组件和功能可以以不同于各种所描述的实施例的方式来分离或组合,并且可以使用不同的术语来描述。这些和其他变化、修改、添加和改进可以落在如所附权利要求中限定的本公开的范围内。
Claims (20)
1.一种用于对象发现的计算机实现的方法,所述计算机实现的方法包括:
接收从至少一个传感器获得的源图像;
通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据;
经由编码器对输入数据进行编码以生成球面坐标中的潜在表示数据;
经由解码器解码所述潜在表示数据以生成源图像的球面重建数据,所述球面重建数据包括径向分量和多个相位分量;和
至少基于所述径向分量来生成重建图像,所述重建图像是源图像的重建。
2.根据权利要求1所述的计算机实现的方法,还包括:
基于所述多个相位分量来生成多个对象掩模,所述多个对象掩模包括基于第一相位分量的第一对象掩模和基于第二相位分量的第二对象掩模,
其中所述第一对象掩模对应于在所述源图像中显示的第一对象,并且所述第二对象掩模对应于在所述源图像中显示的第二对象。
3.根据权利要求1所述的计算机实现的方法,其中:
所述径向分量对应于所述源图像的特征信息,并且
所述多个相位分量对应于所述源图像的对象归属信息,所述对象归属信息将一组像素与在所述源图像中显示的对应对象相关联。
4.根据权利要求1所述的计算机实现的方法,其中,通过将具有sigmoid激活函数的卷积层应用于所述径向分量来生成所述重建图像。
5.根据权利要求1所述的计算机实现的方法,还包括:
基于所述源图像和所述重建图像之间的比较来生成损失数据;和
基于所述损失数据来更新自动编码器的参数数据,
其中所述自动编码器包括所述编码器和所述解码器。
6.根据权利要求5所述的计算机实现的方法,其中,基于所述源图像和所述重建图像之间的均方误差来生成所述损失数据。
7.根据权利要求1所述的计算机实现的方法,还包括:
通过使用与所述源图像相关联的通道上的多个相位分量的加权平均来为所述源图像的每个像素生成对象分离相位数据,
其中所述通道包括红色通道、绿色通道和蓝色通道。
8.一种系统,包括:
处理器;和
与所述处理器进行数据通信的存储器,所述存储器具有计算机可读数据,所述计算机可读数据包括存储在其上的指令,所述指令在由所述处理器执行时使所述处理器执行一种方法,所述方法包括:
接收从至少一个传感器获得的源图像;
通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据;
经由编码器对输入数据进行编码以生成球面坐标中的潜在表示数据;
经由解码器解码所述潜在表示数据以生成源图像的球面重建数据,所述球面重建数据包括径向分量和多个相位分量;和
至少基于所述径向分量来生成重建图像,所述重建图像是源图像的重建。
9.根据权利要求8所述的系统,还包括:
基于所述多个相位分量来生成多个对象掩模,所述多个对象掩模包括基于第一相位分量的第一对象掩模和基于第二相位分量的第二对象掩模,
其中所述第一对象掩模对应于在所述源图像中显示的第一对象,并且所述第二对象掩模对应于在所述源图像中显示的第二对象。
10.根据权利要求8所述的系统,其中:
所述径向分量对应于所述源图像的特征信息,并且
所述多个相位分量对应于所述源图像的对象归属信息,所述对象归属信息将一组像素与在所述源图像中显示的对应对象相关联。
11.根据权利要求8所述的系统,其中,通过将具有sigmoid激活函数的卷积层应用于所述径向分量来生成所述重建图像。
12.根据权利要求8所述的系统,还包括:
基于所述源图像和所述重建图像之间的比较来生成损失数据;和
基于所述损失数据来更新自动编码器的参数数据,
其中所述自动编码器包括所述编码器和所述解码器。
13.根据权利要求12所述的系统,其中,基于所述源图像和所述重建图像之间的均方误差来生成所述损失数据。
14.根据权利要求8所述的系统,还包括:
通过使用与所述源图像相关联的通道上的多个相位分量的加权平均来为所述源图像的每个像素生成对象分离相位数据,
其中所述通道包括红色通道、绿色通道和蓝色通道。
15.一种具有计算机可读数据的非暂时性计算机可读介质,所述计算机可读数据包括存储在其上的指令,所述指令在由处理器执行时使所述处理器执行一种方法,所述方法包括:
接收从至少一个传感器获得的源图像;
通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据;
经由编码器对输入数据进行编码以生成球面坐标中的潜在表示数据;
经由解码器解码所述潜在表示数据以生成源图像的球面重建数据,所述球面重建数据包括径向分量和多个相位分量;和
至少基于所述径向分量来生成重建图像,所述重建图像是源图像的重建。
16.根据权利要求15所述的非暂时性计算机可读介质,还包括:
基于所述多个相位分量来生成多个对象掩模,所述多个对象掩模包括基于第一相位分量的第一对象掩模和基于第二相位分量的第二对象掩模,
其中所述第一对象掩模对应于在所述源图像中显示的第一对象,并且所述第二对象掩模对应于在所述源图像中显示的第二对象。
17.根据权利要求15所述的非暂时性计算机可读介质,其中:
所述径向分量对应于所述源图像的特征信息,并且
所述多个相位分量对应于所述源图像的对象归属信息,所述对象归属信息将一组像素与在所述源图像中显示的对应对象相关联。
18.根据权利要求15所述的非暂时性计算机可读介质,其中,通过将具有sigmoid激活函数的卷积层应用于所述径向分量来生成所述重建图像。
19.根据权利要求15所述的非暂时性计算机可读介质,还包括:
基于所述源图像和所述重建图像之间的比较来生成损失数据;和
基于所述损失数据来更新自动编码器的参数数据,
其中所述自动编码器包括所述编码器和所述解码器。
20.根据权利要求15所述的非暂时性计算机可读介质,还包括:
通过使用与所述源图像相关联的通道上的多个相位分量的加权平均来为所述源图像的每个像素生成对象分离相位数据,
其中所述通道包括红色通道、绿色通道和蓝色通道。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/957,156 US20240127393A1 (en) | 2022-09-30 | 2022-09-30 | System and method with spherical autoencoder for object discovery |
US17/957156 | 2022-09-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117808954A true CN117808954A (zh) | 2024-04-02 |
Family
ID=90246575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311294260.XA Pending CN117808954A (zh) | 2022-09-30 | 2023-10-08 | 用于对象发现的具有球面自动编码器的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240127393A1 (zh) |
JP (1) | JP2024052634A (zh) |
CN (1) | CN117808954A (zh) |
DE (1) | DE102023209442A1 (zh) |
-
2022
- 2022-09-30 US US17/957,156 patent/US20240127393A1/en active Pending
-
2023
- 2023-09-27 DE DE102023209442.8A patent/DE102023209442A1/de active Pending
- 2023-09-29 JP JP2023170122A patent/JP2024052634A/ja active Pending
- 2023-10-08 CN CN202311294260.XA patent/CN117808954A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240127393A1 (en) | 2024-04-18 |
JP2024052634A (ja) | 2024-04-11 |
DE102023209442A1 (de) | 2024-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033003B (zh) | 图像分割方法和图像处理装置 | |
US10740897B2 (en) | Method and device for three-dimensional feature-embedded image object component-level semantic segmentation | |
US11422546B2 (en) | Multi-modal sensor data fusion for perception systems | |
US11734918B2 (en) | Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus | |
EP3769265A1 (en) | Localisation, mapping and network training | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
CN113474815A (zh) | 使用图像处理的场景表示 | |
CN114898313B (zh) | 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质 | |
CN111340785B (zh) | 模型训练方法、产品表面缺陷检测方法和存储介质 | |
CN114022560A (zh) | 标定方法及相关装置、设备 | |
WO2020156836A1 (en) | Dense 6-dof pose object detector | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
Kurdthongmee et al. | A yolo detector providing fast and accurate pupil center estimation using regions surrounding a pupil | |
CN113628334A (zh) | 视觉slam方法、装置、终端设备及存储介质 | |
CN115775214B (zh) | 一种基于多阶段分形组合的点云补全方法及系统 | |
KR20210018114A (ko) | 교차 도메인 메트릭 학습 시스템 및 방법 | |
CN112712556A (zh) | 用于训练神经卷积网络的方法、用于确定定位位姿的方法、设备和存储介质 | |
CN117808954A (zh) | 用于对象发现的具有球面自动编码器的系统和方法 | |
CN113436266B (zh) | 图像处理系统、图像处理方法、训练神经网络的方法和执行该方法的记录介质 | |
CN116823929A (zh) | 基于视觉图像与点云地图的跨模态匹配定位方法及系统 | |
WO2022175057A1 (en) | Apparatus, system and method for translating sensor label data between sensor domains | |
US20220326386A1 (en) | Computer-implemented method and system for generating synthetic sensor data, and training method | |
Sun et al. | TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion Odometry Estimation | |
CN113888498A (zh) | 图像异常检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |