CN115605862A - 训练用于3d模型数据库查询的可微分渲染器和神经网络 - Google Patents

训练用于3d模型数据库查询的可微分渲染器和神经网络 Download PDF

Info

Publication number
CN115605862A
CN115605862A CN202080098810.9A CN202080098810A CN115605862A CN 115605862 A CN115605862 A CN 115605862A CN 202080098810 A CN202080098810 A CN 202080098810A CN 115605862 A CN115605862 A CN 115605862A
Authority
CN
China
Prior art keywords
model
images
differentiable
loss function
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080098810.9A
Other languages
English (en)
Inventor
本杰明·普兰谢
拉贾特·维克拉姆·辛格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SIEMENS INDUSTRY SOFTWARE Ltd
Original Assignee
SIEMENS INDUSTRY SOFTWARE Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SIEMENS INDUSTRY SOFTWARE Ltd filed Critical SIEMENS INDUSTRY SOFTWARE Ltd
Publication of CN115605862A publication Critical patent/CN115605862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

用于可训练以学习用于对象识别的3D模型数据库的优化查询的可微分网络的系统和方法包括:通过从相异的第二对象的第一对象的3D模型生成2D图像,同时通过第一三重损失函数的梯度下降来优化用于产生2D图像的渲染参数,来训练被配置为可微分渲染器的第一可微分网络。图像之间的视觉变化被最大化。通过生成2D图像的可搜索特征向量来训练被配置为由回归函数定义的卷积神经网络的第二可微分网络。使用通过第二三重损失函数的梯度下降确定的优化神经网络参数来确定特征向量,以实现与第一对象的输入图像的高相关性和与第二对象的图像的低相关性。

Description

训练用于3D模型数据库查询的可微分渲染器和神经网络
技术领域
本申请涉及应用于支持设计和数字孪生的3D虚拟模型的机器学习。更尤其是,本申请涉及训练用于改进3D模型查询的可微分渲染器和神经网络。
背景技术
在工业应用中(例如,设计、制造、数字孪生),对象或系统实体被建模为3D虚拟表示(例如,CAD模型)以分析对象的3D方面(例如,工程分析、模拟和测试、数字双胞胎、产品寿命管理、新物体/系统的设计、自动化制造、系统性能等)。对这种模型的访问需要对存储在数据库储存库中的大数据库文件进行查询,近年来其复杂性、数量和大小已经激增,从而扩大了计算机系统的有效查询和处理能力的限制。为了说明所需的工作量的大小,复杂对象的3D模型被表示为表示3D空间中对象的表面的(例如,数千个)3D点和向量的长列表。因此,可以理解,在寻求适当匹配时将给定3D模型与数据库档案中已知3D模型进行比较的任务将有多复杂,甚至不考虑对象配对的不同视点(旋转)的复杂性增加。
因此,常规方法在进行比较时依赖于对来自3D模型的2D平移的视觉分析。基于视觉相似性查询3D模型的任务仍然具有挑战性,因为它需要将3D数据分解成相关的2D视图并适当地比较这些视图的能力。现有的解决方案通过从查询的3D模型生成一组固定的视图,然后将这些视图的特征与从相同视点渲染的已知3D模型的图像中提取的特征的数据库进行比较来解决该问题。卷积神经网络(CNN)可以被训练以从视图中提取有意义的和有区别的特征。然后,可以将表示已知图像的特征向量与它们的标签(例如,它们表示的对象的类别)一起存储,使得CNN可以从所查询对象中提取新图像的相应向量,并将它们与所存储的进行比较以进行检索。这种方法的有效性取决于用于渲染3D CAD建模对象的2D视图的预定义视点和参数(例如,照明)的选择。实际上,被渲染的2D视图的视点通常是任意选择的,例如通过对目标对象周围的3D空间中的等距位置进行取样。该选择不考虑目标对象的特性(例如,对于呈现多个对称性的对象,系统可能被欺骗为在选择中选择错误的对称性)。
一些解决方案应用3D到3D比较,而没有用于比较的中间2D渲染。这种方法将3D模型表示为顶点的网格(即,它们的表面在3D空间中被分解成大量三角形)。然而,由于相似对象的网格可以具有不同的分辨率、网格元素形状和/或不同数目的网格元素和顶点,因此不能容易地比较这种表示。
发明内容
公开了用于可微分网络的流水线的方法和系统,可微分网络被训练以学习用于检索用于对象识别的3D模型的优化数据库查询。一种特别的改进涉及训练可微分网络以从目标对象的3D模型自动提取关键特征,该目标对象的3D模型可用于查询表示已知对象和实体的虚拟3D模型的复杂数据库,具有与由基于视觉的特征索引的已知3D模型匹配的强可能性。不依赖于用于训练网络以渲染目标对象并提取特征的手动定义的渲染参数,而是针对综合可训练的解决方案来设计流水线,该解决方案自动回归最佳渲染参数(例如视点)以将3D模型渲染为2D渲染,同时还优化网络参数以从被渲染图像中提取区别性特征。一旦流水线被训练,已知对象的3D模型数据库可以由训练的流水线根据区别性特征来索引,使得流水线能够通过最匹配的3D模型的有效查询和检索来对目标对象执行将来的对象识别操作。
一方面,可微分网络的系统可被训练以学习用于检索被用于对象识别的3D模型的优化数据库查询。该系统包括端到端可微分流水线,该流水线包括第一可微分网络和第二可微分网络,第一可微分网络被配置为可微分渲染器,可微分渲染器被训练以从第一对象的第一3D模型生成第一组2D图像并且从第二对象的第二3D模型生成第二组2D图像。第一组2D图像是根据用于产生2D图像的优化渲染参数来渲染的,通过优化的第一三重损失函数的梯度下降来确定优化的渲染参数(i)使针对第一3D模型产生的N个图像之间的视觉变化最大化以及(ii)使针对第一模型产生的N个图像与针对第二模型产生的N个图像之间的视觉差异最大化。第二可微分网络被配置为由回归函数定义的卷积神经网络并且被训练以生成第一组2D图像的可搜索特征,特征被配置为根据优化的神经网络参数从第一组2D图像中提取的特征向量,优化的神经网络参数通过优化的第二三重损失函数的梯度下降来确定,以实现与第一组2D图像的输入图像的高相关性和与第二组2D图像的图像的低相关性。
在一方面,一种用于训练可微分网络的流水线以学习用于检索被用于对象识别的3D模型的优化数据库查询的方法包括:通过从第一对象的第一3D模型生成第一组2D图像并且从第二对象的第二3D模型生成第二组2D图像,训练被配置为可微分渲染器的第一可微分网络,第一组2D图像是根据用于产生2D图像的优化渲染参数来渲染的,通过优化的第一三重损失函数的梯度下降来确定渲染参数(i)使针对第一3D模型产生的N个图像之间的视觉变化最大化以及(ii)使针对第一模型产生的N个图像与针对第二模型产生的N个图像之间的视觉差异最大化。该方法还包括通过生成第一组2D图像的可搜索特征,训练被配置为由回归函数定义的卷积神经网络的第二可微分网络,特征被配置为根据优化的神经网络参数从第一组2D图像中提取的特征向量,优化的神经网络参数通过优化的第二三重损失函数的梯度下降来确定,以实现与第一组2D图像的输入图像的高相关性和与第二组2D图像的图像的低相关性。
附图说明
参考以下附图描述本实施例的非限制性和非穷举性实施例,其中除非另有说明,否则在所有附图中相同的附图标记表示相同的元件。
图1示出了根据本公开的实施例的用于使用可微分渲染来增强3D模型检索的对象识别的系统的示例。
图2示出了根据本公开的实施例的从3D模型提取可微分特征向量的可微分网络流水线训练操作的示例。
图3示出了根据本公开的实施例的在渲染目标对象时减少不确定性的示例视点取样。
图4示出了其中可以实现本公开的实施例的计算环境的示例。
具体实施方式
对存储在数据库中的3D模型的访问已经成为许多工业环境中更普遍的任务。以下实施例给出了一些这样的具体实例。新对象和系统的设计者和工程师可以使用CAD软件来草拟和定义新对象,可能需要访问现有的CAD模型作为组件/部件的模板(例如,重新使用现有/标准阀、螺杆等设计新马达)。现有的目标对象的CAD模型也可以用于系统设计的虚拟测试。在自动化制造环境中,3D模型也越来越多地在物体本身的制造期间使用,例如用于输入到3D打印机或向机器人提供它们操纵所制造对象及其部件所需的信息(例如,大多数教导机器人如何抓取特定对象的算法都依赖于3D模型来训练它们)。
当需要访问3D模型数据库时,存在目标对象的3D模型可用并可用于查询数据库以找到最佳匹配的情况。下面是这种查询的几个例子。在工程师或操作员具有需要替换的故障部件或组件(例如,需要备件)但该部件不可识别的工业设置中,这种部件可由3D扫描仪扫描以获得对象的粗略3D模型(例如,使用智能电话扫描应用程序)。该模型然后可以用于查询被标记3D模型的数据库,以便识别它。在其他情况下,低质量的CAD模型或3D扫描(例如,噪声扫描)可用于目标对象,而具有更准确和详细版本的质量更好的3D模型可在3D模型数据库中获得,这可以被查询以搜索并匹配到低质量模型。还可能出现3D模型的比较,以识别数据库中的复制或伪造3D模型。例如,表示完全相同的对象的3D模型可以具有完全不同的结构(例如,表面3D点的不同取样);因此,基于模型的外观而不是基于精确点的匹配来比较模型的解决方案将是有用的。
公开了方法和系统,用于使用通过可微分渲染器的3D渲染的新颖特征分解,以及通过神经网络的特征提取,在档案数据库中的3D模型的查询和检索的效率和准确性方面的显著改进,以使得数据库的索引搜索能够找到最佳分类匹配。所公开的框架解决了关于具有特征对称性的对象的适当视点具有不确定性的中间2D渲染的技术问题,这导致从档案中检索匹配较差的3D模型。代替由首先渲染3D模型的2D视图然后将这些图像处理成用于识别的区别性特征向量组成的传统两步法,训练端到端可微分流水线以直接使用对象的3D模型来提取一组区别性特征向量。根据对象的3D模型,可微分渲染器从各种关键视点并利用各种关键渲染参数生成表示对象的图像集。渲染器优化渲染参数和区别性视点,以获得最佳捕获对象几何形状的图像集。通过执行回归以从被渲染图像中确定一组提取的特征向量来联合地训练卷积神经网络(CNN)。这些向量被存储在索引特征向量的数据库中。在训练流水线之后,通过提取目标对象的特征向量并根据整个向量集上的聚集特征比较从数据库中检索视觉上类似于目标对象的3D模型,能够对目标对象执行对象识别。
图1示出了根据本公开的实施例的用于使用可微分渲染来增强3D模型检索的对象识别的系统的示例。在一个实施例中,计算机视觉系统包括由网络130互连的计算设备110和3D模型的数据储存库150。数据储存库可以被配置为数据库,该数据库针对对象的每个3D模型存储被配置为表示3D空间中对象的表面的(例如,数千个)点和向量的长列表的虚拟表示。计算设备110包括处理器115和其上存储有各种计算机应用、模块或可执行程序的存储器111(例如,非暂时性计算机可读介质)。CNN模块120和可微分渲染器模块122一起被训练为从3D模型提取特征的可微分网络流水线。查询模块124对从经训练流水线提取的特征进行操作,并将特征与链接到3D模型的数据储存库的基于特征的索引进行匹配,以预测目标对象的分类。
用户可以使用GUI 116选择要识别的目标对象的3D模型,由此将该选择输入为路径或上传。然后,可将目标对象的3D模型发送到可微分渲染器122或可应用的基于云的可微分渲染器142。在一个实施例中,可微分渲染器在本地被实现为渲染器122。在另一实施例中,该实现使用基于云的渲染器142。在另一实施例中,渲染器模块122被实现为与基于云的渲染器142连接的本地客户端。在一个实施例中,本地CNN模块120是在计算设备110上本地操作的独立CNN模块。在另一实施例中,CNN被部署为基于云的CNN 140。在另一实施例中,CNN模块120是用于与基于云的CNN 140接口以进行训练和训练后操作的本地客户端。这里,由可区分渲染器和CNN形成的可微分网络将被描述为渲染器122和CNN120的本地部署,然而,所描述的配置和操作也适用于涉及渲染器142和CNN 140的替换实施例。根据所公开的实施例,对由可微分渲染器122和CNN 120形成的网络的训练使得能够更高效且相关地检索用于识别目标对象的强匹配3D模型。
网络130(例如,局域网(LAN)、广域网(WAN)或基于因特网的网络)将计算设备110连接到3D模型150的数据储存库,数据储存库将由经训练的可微分网络索引以用于在对象识别操作期间改进3D模型的搜索和检索。
在所公开的实施例的一个方面中,可导出三元组损失函数来训练由可微分渲染器122和CNN 120形成的可微分流水线。根据该方法,CNN 120被训练为从图像x中提取相关特征,并在低维数d的嵌入空间中将它们编码为低维数特征向量
Figure BDA0003854493770000061
其中,
Figure BDA0003854493770000062
(例如,将图像映射到对象实例被很好地分离的描述符空间)。然后可以将表示已知图像xs的特征向量zs与其标签ys一起存储(即,用于对象检索任务的对象类),使得给定新的图像,CNN 120可用于提取其对应的向量并将其与所存储的向量进行比较以用于识别。
因此,为了学习区别性特征,将三元组损失函数应用于CNN 120的训练,CNN应用回归函数,其被记为:
Figure BDA0003854493770000071
其中θT表示CNN的可训练参数。三元组被定义为(xb,x+,x-),其中xb是来自训练数据集
Figure BDA0003854493770000075
的输入图像,用作表示特定类别cb和视点(例如,由四元数qb定义)的绑定锚定,x+是在标签方面与xb相似的正图像(相似的类别c+=cb和/或姿态q+≈qb),x-是具有不同内容的负样本(不同的类别c-和姿态q-)。这里表示为
Figure BDA0003854493770000076
的三元组损失函数被设计迫使网络根据以下表达式提取与xb和x+相似的特征以及与xb和x-不相似的特征:
Figure BDA0003854493770000072
其中
Figure BDA0003854493770000073
这里,∈是设置相似与不相似样本对之间的距离的最小比率的余量。一旦被训练,CNN回归函数
Figure BDA0003854493770000074
被用于计算
Figure BDA0003854493770000077
的子集的特征向量。然后,这些向量被用作索引模型标签的关键字,并形成链接到已知3D模型150的数据储存库的特征描述符数据库。通过使用训练的网络来计算每个被渲染的3D模型的特征描述符,然后通过应用最近邻搜索算法在数据库中找到其最近的特征描述符作为用于分类的最佳预测的指示符,来完成未知对象的识别。
图2示出了根据本公开的实施例的从3D模型提取可微分特征向量的可微分网络流水线训练操作的示例。可微分流水线200包括用于可微分渲染器122的第一网络G和作为CNN120的神经网络的第二网络T。在一个实施例中,使用不同模型的配对来训练流水线200,渲染该配对中每个模型的图像230,根据学习可微分网络G和T的参数的三重损失函数从图像中提取特征向量Z。一旦被训练,数据库150的所有存档的3D模型通过流水线200运行以生成整个数据库的索引,其中每个模型根据与每个模型相关联的特征向量被索引。
在一个实施例中,如图2中的训练流程图所示,流水线200接收用于由可微分渲染器122渲染的3D模型210,为每个3D模型返回一组N个被渲染图像230。对于图2所示的简化示例,为第一模型mA渲染两个图像xA1,xA2(N=2),这两个图像具有不同的姿态PA1和PA2。同样,来自不同类别的第二模型mB的两个图像xB1,xB2也用两个不同的姿态PB1和PB2被渲染。根据本公开的实施例,可以扩展N的设置以捕获更多姿态(例如,N=3至100)。可微分渲染器122的功能性可以被表示为函数:
Figure BDA0003854493770000081
其将3D模型m作为输入,并返回一组被渲染图像230,诸如从各种关键视点并以各种关键渲染参数θG(照明条件、材料属性等)表示类别cm的对象的N个图像
Figure BDA0003854493770000082
在一个实施例中,可微分渲染器122包括可微分网络(即,完全由可微分操作组成),其通过反向传播的梯度下降来更新渲染参数θG。形成具有可微分渲染器122和CNN 120(可微分端对端)的流水线的优点在于,两者可一起被训练为用于使用梯度下降来优化组合的可微分流水线的参数(或权重)的单个可训练解决方案。CNN120可以由回归函数:
Figure BDA0003854493770000083
表示,其获取被渲染图像230,例如一组N个图像Xm,并返回一组特征250,例如N个特征向量
Figure BDA0003854493770000084
特征向量表示的一个优点是捕获了对象的独特特征(即,所提取的特征具有与输入图像的高相关性和与不同对象的图像的低相关性),这使得能够改进系统在运行时的搜索和匹配。处理特征向量的另一个优点是表示对象的数据的压缩维数。例如,对象可以具有尺寸为300×400的矩阵表示,而特征向量可以仅为1×100。注意,CNN 120可以逐个图像地提取特征向量,或者它可以一次提取所有特征向量,从而有可能在不同向量之间聚集信息并传递信息(例如,批量标准化、注意机制、递归体系结构等)。
训练流水线200,使得给定新的3D模型mr,提取相关特征Zmr,然后与已知3D模型的特征数据库进行比较,以搜索最相似的特征。在该流水线训练中,渲染模块122的目的是提取高度区别的3D对象的2D视图。例如,图3示出了用于基于视图的3D对象检索的智能视点取样的重要性。假设两个被渲染视图用于表示给定的3D对象。如取样A所示,对象310被渲染为来自视点311的图像313,以及来自视点312的图像322。这里,视点被较差地采样(即,视点311和312两者都位于对象310的公共轴上,并且所得到的图像313,314为不确定性留下空间(例如,从两个图像313、314错误地假设它们表示球形对象)。使用智能取样方法,例如取样B,其中视点311和322比311和312更多样化,结果是图像对313和324形式的更明确的“形状描述”。关于影响一组图像中对象外观的参数,相同的推理可被应用于其他渲染参数,包括但不限于照明条件、材料属性、相机参数等。因此,渲染器122被训练为优化其渲染参数θG的集合(即,N个不同的视点、N个照明条件等),以便获得最佳捕获对象的几何和视觉特性的图像X的集合(例如,选择没有面向3D数据集中公共的对称轴的视点,选择各种光条件以投射不同的阴影并突出不同的表面特性等)。
回到图2,现在针对其中N个样本图像被渲染的一般化示例来描述可微分端到端训练。在每次训练迭代中,从来自储存库150的已知和建模对象的池中随机选择两个不同的对象,并且将它们各自的分别与对象A和对象B相关的3D模型mA和mB馈送到可微分渲染器122。给定其渲染参数θG的当前值,渲染器122生成两组N个图像XA和XB,其中:
Figure BDA0003854493770000091
Figure BDA0003854493770000092
(用于它们各自的对象)
将这两组图像传递到CNN 120,该CNN分别输出特征向量ZA和ZB,其中:
Figure BDA0003854493770000093
并且ZB类似地定义。
CNN 120输出层的损失函数计算损耗值,然后该损耗值通过流水线反向传播,以根据如下的梯度下降计算来更新参数θT和θG。CNN 120的三元组损失函数是通过扩展等式(1)导出,以公式化依赖于渲染器122和CNN 120两者,具有两组输入图像,并且应用于CNN 120的训练的三元组损失函数
Figure BDA0003854493770000101
其中针对以下函数寻求最小损失:
Figure BDA0003854493770000102
其中∈=2arccos|qA·qB|具有四元数的视点,其从θG获得。应用等式(2)于图2中的设置,锚定图像231对应于
Figure BDA0003854493770000103
相似的模型图像
Figure BDA0003854493770000104
对应于图像x_A1,并且不同的图像
Figure BDA0003854493770000105
对应于图像x_B1或x_B2。损失函数
Figure BDA0003854493770000106
的目的是最大化同一对象所有视图的特征向量之间的相似性(高相关性),同时最大化与来自不同对象的所有特征向量的不相似性(低相关性)。在一个实施例中,通过计算第二损耗值同时反转模型mA和mB的作用,对这些三重损耗值中的每一个执行反向传播,可以使损耗更加对称。例如,在等式(2)如果模型mA和mB颠倒,而不是图像
Figure BDA0003854493770000107
作为用于比较的锚定图像,则XB组的图像之一可以表示该锚。计算两个损失值的组合使得训练更稳健,因为它约束网络200以立即仅将第一模型mA的特征向量和第二模型mB的特征向量拉到一起。对于附加的稳健性,可以通过允许四个图像中的每一个用作锚来计算和反向传播附加的损耗值,如图2所示的情况,对于N=2给出四个损耗值。
利用损失函数
Figure BDA0003854493770000108
训练CNN 120以查看视觉变化并将同一模型的不同视角的图像映射到相似的特征向量,同时还确保来自不同模型的图像的特征向量被很好地推开。CNN120的任务是学习“同一模型不同视角图像”和“不同模型图像”之间的区别,在前一种情况下返回类似的描述符,在后一种情况下返回不同的描述符。CNN 120的损失函数
Figure BDA0003854493770000109
的训练不同于渲染器122的训练,使得CNN 120理解每个模型的外观,并且不同的图像实际上包含类似的特征。
将不同的损失函数应用于渲染器122的函数G,其目标是针对不同对象渲染高度相异的图像,但在同一对象的图像之间也尽可能相异(例如,使用视点差异)。在一个方面,渲染器122和CNN 120的作用是对立的,但是互补的。该组被渲染图像捕获模型的整体外观,而不是从相同视点表示模型,而是从最突出显示模型外观变化的有意义选择的视点来表示模型。渲染器122的参数(例如,视点列表、照明条件等)应当被优化以最大化从每个对象渲染的图像集内的视觉变化,从而最佳地捕捉对象的整体外观而不仅仅是特定外观,例如从一侧。
根据以下关系计算渲染器122的损失函数
Figure BDA0003854493770000111
Figure BDA0003854493770000112
其中
Figure BDA0003854493770000113
并且
Figure BDA0003854493770000114
定义函数
Figure BDA0003854493770000115
以优化G,以最大化其从每个模型(例如,为了实现图3的取样B中所示的情况)生成的N个图像中的视觉变化(即,最不相似的)。另外,定义函数
Figure BDA0003854493770000116
以优化函数G,以最大化模型A的N个图像和模型B的N个图像之间的视觉差异。等式3的三重损失函数
Figure BDA0003854493770000117
依赖于CNN 120(等式3a,3b)的回归函数
Figure BDA0003854493770000118
由于需要强距离度量来比较图像的原因,这实际上是
Figure BDA0003854493770000119
被训练的目的,因为它被优化以从图像中提取语义丰富的特征,摆脱像素值的局限。通过计算由
Figure BDA00038544937700001110
提取的特征向量之间的距离而不是直接计算图像之间的距离,渲染器122可以生成语义上不同而不仅仅是像素方面不同的图像。在一个方面中,当
Figure BDA00038544937700001111
被用于计算渲染器122的函数
Figure BDA00038544937700001112
的损失时,在训练函数
Figure BDA00038544937700001113
的同时冻结
Figure BDA00038544937700001114
的参数(即,
Figure BDA00038544937700001115
的冻结参数不受该损失计算的结果的影响)。
嵌入250表示在嵌入空间(较低维空间)中由CNN 120针对四个被渲染图像230中的每一个导出的特征向量Z,嵌入空间在图2中表示为具有三维的空间(出于说明的目的,此实例中的特征向量具有三维),因此每一向量可表示为3D空间中的点。尺寸比例表示所表示特征或特性的数量。然而,对于现实世界应用,这样的特征的数量可以远大于3。特征向量251、252与类似于目标模型的模型mA的被渲染图像相关联;特征向量253与模型mB的被渲染图像相关联,与目标模型不同。如所展示的,训练目标是导出网络参数,该网络参数在嵌入空间中拉近相似的特征向量,同时进一步推开不同模型的特征向量。例如,一个特征向量可以表示锚定向量,诸如用于与四个图像输入230的锚定图像231相关联的特征向量251,其他向量与该锚定图像进行比较。拉/推距离是上述三元组损失函数的结果。公式化三重损失函数以将语义相似图像251、252的特征向量拉到一起(即,这迫使CNN 120提取彼此接近的特征向量以最小化三重损失等式中的分母)。三重损失公式还将不同样本的特征向量253从锚定特征向量251推开。在流水线中反向传播该三元组损失基本上教导网络参数将类似内容的特征拉在一起并将不同内容的特征推开。
在流水线200的训练阶段之后,已知3D模型通过经训练流水线被馈送,并且对于每个已知3D模型,特征向量被提取然后被用作密钥来生成具有特征描述符的模型标签(例如,mA、mB)的索引并且形成链接到已知3D模型150的数据储存库的特征描述符数据库。
在基于推断的预测过程中,经训练流水线200被用于从已知数据库检索视觉上类似于给定3D模型的3D模型。如前,新的3D模型可以涉及新的未知对象,其中3D模型可以从新对象的3D扫描获得。需要数据库查询的新3D模型的另一实例可包括需要由更详细且准确的模型替换的粗略3D模型。给定新的3D模型,使用经训练流水线来获得对应于为该模型被渲染的N个图像的新3D模型的一组特征向量Z。Z中的每个向量可以与链接到已知3D模型150的数据储存库的特征描述符数据库的特征描述符进行比较。可以使用查询模块124通过在整个集合上聚集结果(例如,通过对最近邻中最存在的对象类进行计数)来实现预测,查询模块124识别数据库中最相似的3D模型。例如,对于N个特征向量中的每一个,查询模块124用特征向量查询数据库以找到最近邻、检索最近邻和相应的标签(例如,模型ID,诸如mA)。查询模块124可以聚集来自数据库的所有结果,以返回最相似的模型ID作为分类的预测,例如在N个查询的结果中最频繁出现的模型。
图4示出了其中可以实现本公开的实施例的计算环境的示例。计算环境400包括计算机系统410,其可包括诸如系统总线421等通信机制或用于在计算机系统410内传送信息的其它通信机制。计算机系统410还包括与系统总线421联接用于处理信息的一个或多个处理器420。在一个实施例中,计算环境400对应于用于执行上述实施例的系统,其中计算机系统410涉及下面更详细描述的计算机。
处理器420可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)或本领域已知的任何其他处理器。更一般而言,这里描述的处理器是用于执行存储在计算机可读介质上的机器可读指令的设备,用于执行任务,并且可以包括硬件和固件中的任何一个或它们的组合。处理器还可以包括存储可执行用于执行任务的机器可读指令的存储器。处理器通过操纵、分析、修改、转换或传输由可执行程序或信息设备使用的信息和/或通过将信息路由到输出设备来对信息起作用。处理器可以使用或包括例如计算机、控制器或微处理器的能力,并且使用可执行指令来调节以执行不由通用计算机执行的专用函数。处理器可包括任何类型的合适的处理单元,包括但不限于中央处理单元、微处理器、精简指令集计算机(RISC)微处理器、复杂指令集计算机(CISC)微处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、数字信号处理器(DSP)等。此外,处理器420可以具有任何合适的微架构设计,其包括任何数目的组成组件,例如寄存器、多路复用器、算术逻辑单元、用于控制对高速缓冲存储器的读取/写入操作的高速缓冲存储器控制器、分支预测器等。处理器的微体系结构设计能够支持多种指令集中的任何指令集。处理器可以与能够在其间进行交互和/或通信的任何其它处理器联接(电联接和/或包括可执行组件)。用户接口处理器或生成器是已知的元件,包括用于生成显示图像或其部分的电子电路或软件或两者的组合。用户接口包括使用户能够与处理器或其它设备交互的一个或多个显示图像。
系统总线421可以包括系统总线、存储器总线、地址总线或消息总线中的至少一个,并且可以允许计算机系统410的多种组件之间的信息交换(例如,数据(包括计算机可执行代码)、信令等)。系统总线421可以包括但不限于存储器总线或存储器控制器、外围总线、加速图形端口等。系统总线421可与任何合适的总线体系结构相关联,包括但不限于工业标准体系结构(ISA)、微通道体系结构(MCA)、增强型ISA(EISA)、视频电子标准协会(VESA)体系结构、加速图形端口(AGP)体系结构、外围组件互连(PCI)体系结构、快速PCI体系结构、个人计算机存储器卡国际协会(PCMCIA)体系结构、通用串行总线(USB)体系结构等。
继续参考图4,计算机系统410还可以包括联接到系统总线421的系统存储器430,用于存储信息和要由处理器420执行的指令。系统存储器430可以包括易失性和/或非易失性存储器形式的计算机可读存储介质,例如只读存储器(ROM)431和/或随机存取存储器(RAM)432。RAM 432可以包括其它动态存储设备(例如,动态RAM、静态RAM和同步DRAM)。ROM431可以包括其它静态存储设备(例如,可编程ROM、可擦除PROM和电可擦除PROM)。此外,系统存储器430可用于在处理器420执行指令期间存储临时变量或其它中间信息。基本输入/输出系统433(BIOS)包含有助于诸如在启动期间在计算机系统410内的元件之间传递信息的基本例程,它可以存储在ROM 431中。RAM 432可包含可由处理器420立即访问和/或当前正由处理器420操作的数据和/或程序模块。系统存储器430还可以包括例如操作系统434、应用程序模块435和其它程序模块436。应用程序模块435可以包括针对图1描述的上述模块,并且还可以包括用于开发应用程序的用户门户,允许输入参数并在必要时进行修改。
操作系统434可以被加载到存储器430中,并且可以提供在计算机系统410上执行的其他应用软件与计算机系统410的硬件资源之间的接口。更具体地,操作系统434可包括一组计算机可执行指令,用于管理计算机系统410的硬件资源并向其它应用程序提供公共服务(例如,管理各种应用程序之间的存储器分配)。在某些示例实施例中,操作系统434可以控制被描绘为存储在数据存储440中的一个或多个程序模块的执行。操作系统434可包括现在已知或将来可开发的任何操作系统,包括但不限于任何服务器操作系统、任何主机操作系统、或任何其它专有或非专有操作系统。
计算机系统410还可以包括联接到系统总线421的盘/介质控制器443,以控制用于存储信息和指令的一个或多个存储设备,诸如磁硬盘441和/或可移动介质驱动器442(例如,软盘驱动器、光盘驱动器、磁带驱动器、闪存驱动器和/或固态驱动器)。可以使用适当的设备接口将存储设备440添加到计算机系统410。(例如,小型计算机系统接口(SCSI)、集成设备电子器件(IDE)、通用串行总线(USB)或火线)。存储设备441,442可以在计算机系统410的外部。
计算机系统410可以包括用户输入/输出接口模块460以处理来自用户输入设备461的用户输入,用户输入设备461可以包括诸如键盘、触摸屏、输入板和/或定点设备的一个或多个设备,用于与计算机用户交互并向处理器420提供信息。用户接口模块460还处理到用户显示设备462的系统输出(例如,经由交互式GUI显示)。
计算机系统410可以响应于处理器420执行包含在诸如系统存储器430的存储器中的一个或多个指令的一个或多个序列来执行本公开实施例的处理步骤的一部分或全部。这样的指令可以从存储器440的另一计算机可读介质(例如磁硬盘441或可移动介质驱动器442)读入系统存储器430。磁硬盘441和/或可移动介质驱动器442可以包含本公开的实施例所使用的一个或多个数据存储和数据文件。数据存储440可包括但不限于数据库(例如,关系型、面向对象的等)、文件系统、平面文件、其中数据存储在计算机网络的多于一个节点上的分布式数据存储、对等网络数据存储等。数据存储内容和数据文件可以被加密以提高安全性。处理器420还可以用在多处理装置中,以执行包含在系统存储器430中的一个或多个指令序列。在替换实施例中,硬连线电路可以代替软件指令或与软件指令结合使用。因此,实施例不限于硬件电路和软件的任何特定组合。
如上,计算机系统410可以包括至少一个计算机可读介质或存储器,用于保存根据本公开的实施例编程的指令,并且用于包含数据结构、表、记录或这里描述的其它数据。这里使用的术语“计算机可读介质”是指参与向处理器420提供指令以供执行的任何介质。计算机可读介质可以采用许多形式,包括但不限于非暂时性、非易失性介质、易失性介质和传输介质。非易失性介质的非限制性示例包括光盘、固态驱动器、磁盘和磁光盘,诸如磁硬盘441或可移动介质驱动器442。易失性介质的非限制性示例包括动态存储器,诸如系统存储器430。传输介质的非限制性示例包括同轴电缆、铜线和光纤,包括构成系统总线421的导线。传输介质也可以采用声波或光波的形式,例如在无线电波和红外数据通信期间产生的声波或光波。
用于执行本公开的操作的计算机可读介质指令可以是汇编指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任何组合编写的源代码或目标代码,编程语言包括诸如Smalltalk、C++等的面向对象的编程语言,以及诸如“C”编程语言或类似编程语言的常规过程编程语言。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包,部分在用户的计算机上执行,部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者连接到外部计算机(例如,通过使用因特网服务提供商的因特网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本公开的各方面。
在此参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述本公开的各方面。应当理解,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读介质指令来实现。
计算环境400还可包括使用到诸如远程计算设备473等一个或多个远程计算机的逻辑连接在联网环境中操作的计算机系统410。网络接口470可以实现例如经由网络471与其他远程设备473或系统和/或存储设备441,442的通信。远程计算设备473可以是个人计算机(笔记本或台式机)、移动设备、服务器、路由器、网络PC、对等设备或其它公共网络节点,并且通常包括以上相对于计算机系统410描述的许多或所有元件。当在联网环境中使用时,计算机系统410可以包括调制解调器472,用于在诸如因特网的网络471上建立通信。调制解调器472可经由用户网络接口470或经由另一适当机制连接到系统总线421。
网络471可以是本领域中通常已知的任何网络或系统,包括因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、直接连接或一系列连接、蜂窝电话网络,或能够促进计算机系统410与其它计算机(例如,远程计算设备473)之间的通信的任何其它网络或介质。网络471可以是有线的、无线的或其组合。有线连接可以使用以太网、通用串行总线(USB)、RJ-6或本领域公知的任何其它有线连接来实现。无线连接可以使用Wi-Fi、WiMAX和蓝牙、红外、蜂窝网络、卫星或本领域公知的任何其它无线连接方法来实现。另外,若干网络可单独工作或彼此通信以促进网络471中的通信。
应当理解,在图4中描述为存储在系统存储器430中的程序模块、应用程序、计算机可执行指令、代码等仅仅是说明性的而不是穷举性的,并且描述为由任何特定模块支持的处理可以可替换地分布在多个模块上或者由不同的模块执行。此外,可以提供各种程序模块、脚本、插件、应用编程接口(API),或在计算机系统410、远程设备473上本地托管的和/或在可经由一个或多个网络471访问的其它计算设备上托管的任何其它合适的计算机可执行代码,以支持由图4中描绘的程序模块、应用或计算机可执行代码提供的功能和/或附加或替换功能。此外,功能可以被不同地模块化,使得描述为由图4中描绘的程序模块集合共同支持的处理可以由更少或更多数量的模块来执行,或者描述为由任何特定模块支持的功能可以至少部分地由另一模块来支持。此外,支持这里描述的功能的程序模块可形成可根据诸如客户机-服务器模型、对等模型等任何合适的计算模型在任何数量的系统或设备上执行的一个或多个应用程序的一部分。此外,被描述为由图4中描绘的任何程序模块支持的任何功能可以至少部分地以硬件和/或固件在任何数量的设备上实现。
还应当理解,在不脱离本公开的范围的情况下,计算机系统410可以包括所描述或描绘的之外的替代和/或附加硬件、软件或固件组件。更具体地,应当理解,被描绘为形成计算机系统410的一部分的软件、固件或硬件组件仅仅是说明性的,并且在各种实施例中可以不存在某些组件或者可以提供附加组件。虽然已将各种说明性程序模块描绘和描述为存储在系统存储器430中的软件模块,但应了解,描述为由程序模块支持的功能性可由硬件、软件和/或固件的任何组合来启用。应进一步了解,在各种实施例中,上述模块中的每一者可表示所支持功能的逻辑分区。该逻辑分区是为了便于解释功能而描绘的,并且可以不代表用于实现该功能的软件、硬件和/或固件的结构。因此,应了解,在各种实施例中,描述为由特定模块提供的功能性可至少部分地由一个或一个以上其它模块提供。此外,在某些实施例中可不存在一个或一个以上所描绘的模块,而在其它实施例中,可存在未描绘的额外模块且可支持功能性和/或额外功能性的至少一部分。此外,虽然某些模块可被描绘和描述为另一模块的子模块,但在某些实施例中,此类模块可被提供为独立模块或其他模块的子模块。
虽然已经描述了本公开的特定实施例,但是本领域的普通技术人员将认识到,在本公开的范围内存在许多其它修改和替换实施例。例如,关于特定设备或组件描述的任何功能和/或处理能力可以由任何其他设备或组件来执行。此外,虽然已经根据本公开的实施例描述了各种说明性实现和架构,但是本领域普通技术人员将理解,对本文描述的说明性实现和架构的许多其他修改也在本公开的范围内。另外,应了解,本文中描述为基于另一操作、元件、组件、数据等的任何操作,元件、组件、数据等可另外基于一个或一个以上其它操作、元件、组件、数据等。因此,短语“基于”或其变体应被解释为“至少部分地基于”。
图中的流程图和框图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定逻辑函数的一个或多个可执行指令。在一些可替换的实施方式中,方框中指出的函数可以不按附图中指出的顺序发生。例如,根据所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还将注意到,框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定函数或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。

Claims (12)

1.一种可训练以学习用于对象识别的3D模型数据库的优化查询的可微分网络的系统,所述系统包括:
处理器;以及
其上存储有由所述处理器执行的模块的非暂时性存储器,所述模块包括:
对象的多个3D模型的虚拟表示数据的数据库,所述数据被配置为表示3D空间中的所述对象的表面的点和向量的列表;
端到端可微分流水线,包括第一可微分网络和第二可微分网络,
其中,所述第一可微分网络被配置为可微分渲染器,所述可微分渲染器被训练以从第一对象的第一3D模型生成第一组2D图像并且从第二对象的第二3D模型生成第二组2D图像,所述第一组2D图像是根据用于产生2D图像的优化渲染参数来渲染的,通过优化的第一三重损失函数的梯度下降来确定的所述渲染参数(i)使针对所述第一3D模型产生的N个图像之间的视觉变化最大化,以及(ii)使针对第一模型产生的N个图像与针对第二模型产生的N个图像之间的视觉差异最大化;以及
其中,所述第二可微分网络被配置为卷积神经网络,所述卷积神经网络由回归函数定义并且被训练以生成所述第一组2D图像的可搜索特征,所述特征被配置为根据优化的神经网络参数从所述第一组2D图像中提取的特征向量,所述优化的神经网络参数通过优化的第二三重损失函数的梯度下降来确定,以实现与所述第一组2D图像的输入图像的高相关性和与所述第二组2D图像的图像的低相关性。
2.根据权利要求1所述的系统,其中,所述第一三重损失函数依赖于由所述第二三重损失函数提取的所述特征向量之间的距离。
3.根据权利要求1所述的系统,其中,所述第一三重损失函数依赖于由所述第二三重损失函数提取的所述特征向量之间的计算距离。
4.根据权利要求1所述的系统,其中,所述第一三重损失函数被优化成通过根据外观变化来表示有意义地选择的视点来捕捉所述第一对象和所述第二对象的整体外观。
5.根据权利要求1所述的系统,还包括已知3D模型的数据储存库,其中,在训练之后,经训练的流水线被用于接收每个已知3D模型,确定与每个已知3D模型相关联的特征向量,并生成所述已知3D模型的具有特征描述符的模型标签的索引,以形成与所述已知3D模型的数据储存库链接的特征描述符数据库。
6.根据权利要求5所述的系统,其中,所述经训练的流水线被配置为接收未知目标对象的新3D模型,并且产生所述新3D模型的特征向量;
所述系统还包括:
查询模块,被配置成:
将每个所述特征向量与所述特征描述符数据库的所述特征描述符进行比较;
找到特征描述符的最近邻,
检索最近邻和对应的模型标签,以及
返回所述未知目标对象的与所述最近邻的其中一个最近邻的所述模型标签对应的分类的预测。
7.一种用于训练可微分网络的流水线以学习用于对象识别的3D模型数据库的优化查询的方法,所述方法包括:
通过从第一对象的第一3D模型生成第一组2D图像和从第二对象的第二3D模型生成第二组2D图像来训练被配置为可微分渲染器的第一可微分网络,所述第一组2D图像是根据用于产生2D图像的优化渲染参数来渲染的,通过优化的第一三重损失函数的梯度下降确定的所述渲染参数(i)使针对所述第一3D模型产生的N个图像之间的视觉变化最大化,以及(ii)使针对第一模型产生的N个图像与针对第二模型产生的N个图像之间的视觉差异最大化;以及
通过生成所述第一组2D图像的可搜索特征来训练被配置为由回归函数定义的卷积神经网络的第二可微分网络,所述特征被配置为根据优化的神经网络参数从所述第一组2D图像中提取的特征向量,所述优化的神经网络参数通过优化的第二三重损失函数的梯度下降来确定,以实现与所述第一组2D图像的输入图像的高相关性和与所述第二组2D图像的图像的低相关性。
8.根据权利要求7所述的方法,其中,所述第一三重损失函数依赖于由所述第二三重损失函数提取的所述特征向量之间的距离。
9.根据权利要求7所述的方法,其中,所述第一三重损失函数依赖于由所述第二三重损失函数提取的所述特征向量之间的计算距离。
10.根据权利要求7所述的方法,其中,所述第一三重损失函数被优化以通过根据外观变化来表示有意义地选择的视点来捕捉所述第一对象和所述第二对象的整体外观。
11.根据权利要求7所述的方法,还包括:在训练之后,使用经训练的流水线来接收每个已知3D模型,确定与每个已知3D模型相关联的特征向量,并且生成所述已知3D模型的具有特征描述符的模型标签的索引,以形成与所述已知3D模型的数据储存库链接的特征描述符数据库。
12.根据权利要求11所述的方法,还包括:
通过所述经训练的流水线来接收未知目标对象的新3D模型;
生成所述新3D模型的特征向量;
将每个特征向量与所述特征描述符数据库的所述特征描述符进行比较;
寻找特征描述符的最近邻;
检索最近邻和对应的模型标签;以及
返回所述未知目标对象的与所述最近邻中的其中一个最近邻的所述模型标签对应的分类的预测。
CN202080098810.9A 2020-03-04 2020-08-28 训练用于3d模型数据库查询的可微分渲染器和神经网络 Pending CN115605862A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062984888P 2020-03-04 2020-03-04
US62/984,888 2020-03-04
PCT/US2020/048309 WO2021178000A1 (en) 2020-03-04 2020-08-28 Training of differentiable renderer and neural network for query of 3d model database

Publications (1)

Publication Number Publication Date
CN115605862A true CN115605862A (zh) 2023-01-13

Family

ID=72474374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080098810.9A Pending CN115605862A (zh) 2020-03-04 2020-08-28 训练用于3d模型数据库查询的可微分渲染器和神经网络

Country Status (4)

Country Link
US (1) US11809484B2 (zh)
EP (1) EP4097604A1 (zh)
CN (1) CN115605862A (zh)
WO (1) WO2021178000A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230143808A1 (en) * 2020-03-27 2023-05-11 Nec Corporation Similarity degree calculator, authorization system, similarity degree calculation method, similarity degree calculation program, and method for generating similarity degree calculation program
CN115329118B (zh) * 2022-10-14 2023-02-28 山东省凯麟环保设备股份有限公司 一种面向垃圾图像的图像相似性检索方法及系统
CN115510089B (zh) * 2022-11-15 2023-03-10 以萨技术股份有限公司 一种向量特征比对方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087985A1 (en) * 2017-09-06 2019-03-21 Nvidia Corporation Differentiable rendering pipeline for inverse graphics
US20190147642A1 (en) * 2017-11-15 2019-05-16 Google Llc Learning to reconstruct 3d shapes by rendering many 3d views
WO2019203851A1 (en) * 2018-04-20 2019-10-24 Hewlett-Packard Development Company, L.P. Three-dimensional shape classification and retrieval using convolutional neural networks and majority vote
WO2019213857A1 (en) * 2018-05-09 2019-11-14 Hewlett-Packard Development Company, L.P. 3-dimensional model identification
CN110851566A (zh) * 2019-11-04 2020-02-28 沈阳雅译网络技术有限公司 一种改进的可微分网络结构搜索的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361505B2 (en) * 2019-06-06 2022-06-14 Qualcomm Technologies, Inc. Model retrieval for objects in images using field descriptors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087985A1 (en) * 2017-09-06 2019-03-21 Nvidia Corporation Differentiable rendering pipeline for inverse graphics
US20190147642A1 (en) * 2017-11-15 2019-05-16 Google Llc Learning to reconstruct 3d shapes by rendering many 3d views
WO2019203851A1 (en) * 2018-04-20 2019-10-24 Hewlett-Packard Development Company, L.P. Three-dimensional shape classification and retrieval using convolutional neural networks and majority vote
WO2019213857A1 (en) * 2018-05-09 2019-11-14 Hewlett-Packard Development Company, L.P. 3-dimensional model identification
CN110851566A (zh) * 2019-11-04 2020-02-28 沈阳雅译网络技术有限公司 一种改进的可微分网络结构搜索的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EMAN AHMED ET AL.: "A survey on Deep Learning Advances on Different 3D Data Representations", ARXIV.ORG, 4 August 2018 (2018-08-04), pages 1 - 35 *

Also Published As

Publication number Publication date
EP4097604A1 (en) 2022-12-07
US20230111048A1 (en) 2023-04-13
WO2021178000A1 (en) 2021-09-10
US11809484B2 (en) 2023-11-07

Similar Documents

Publication Publication Date Title
US11610384B2 (en) Zero-shot object detection
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
Novotny et al. Semi-convolutional operators for instance segmentation
Rocco et al. Ncnet: Neighbourhood consensus networks for estimating image correspondences
US20220156554A1 (en) Lightweight Decompositional Convolution Neural Network
Snavely et al. Skeletal graphs for efficient structure from motion
Dimitrov et al. Vision-based material recognition for automated monitoring of construction progress and generating building information modeling from unordered site image collections
US20170161590A1 (en) Recognition of a 3d modeled object from a 2d image
Zhang et al. Panorama: a data system for unbounded vocabulary querying over video
CN115605862A (zh) 训练用于3d模型数据库查询的可微分渲染器和神经网络
WO2019080908A1 (zh) 实现图像识别的图像处理方法及装置、电子设备
Xu et al. Task-aware meta-learning paradigm for universal structural damage segmentation using limited images
CN108229347A (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
JP6469890B2 (ja) 高速直交射影
Shen et al. Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network
CN114638960A (zh) 模型的训练方法、图像描述生成方法和装置、设备、介质
Liu et al. Progressive neighbor consistency mining for correspondence pruning
Phalak et al. Scan2plan: Efficient floorplan generation from 3d scans of indoor scenes
CN114565807A (zh) 训练目标图像检索模型的方法和装置
EP4285281A1 (en) Annotation-efficient image anomaly detection
Xu et al. Graphical modeling for multi-source domain adaptation
CN110489613B (zh) 协同可视数据推荐方法及装置
Cao et al. Parallel K nearest neighbor matching for 3D reconstruction
Sarker et al. Enhanced visible–infrared person re-identification based on cross-attention multiscale residual vision transformer
US20220222852A1 (en) Methods and systems for generating end-to-end model to estimate 3-dimensional(3-d) pose of object

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination