CN116362966A - 图像处理方法和装置 - Google Patents
图像处理方法和装置 Download PDFInfo
- Publication number
- CN116362966A CN116362966A CN202210797838.2A CN202210797838A CN116362966A CN 116362966 A CN116362966 A CN 116362966A CN 202210797838 A CN202210797838 A CN 202210797838A CN 116362966 A CN116362966 A CN 116362966A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- neural network
- input image
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 description 30
- 230000015654 memory Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 13
- 238000010606 normalization Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
- G06T17/205—Re-meshing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2004—Aligning objects, relative positioning of parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2012—Colour editing, changing, or manipulating; Use of colour codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2021—Shape modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2024—Style variation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
提供一种图像处理方法。该方法包括:通过实现第一神经网络根据第一输入图像产生对应于规范空间的外观信息,所述规范空间由包括多个规则网格的立方体定义;通过实现第二神经网络根据第二输入图像产生对应于标准空间的几何信息;基于所产生的几何信息对多个规则网格进行变形;通过将外观信息应用于经变形的多个规则网格来产生标准化图像信息;以及基于标准化图像信息来产生输出图像。
Description
相关申请的交叉引用
本申请要求于2021年12月28日在韩国知识产权局递交的韩国专利申请No.10-2021-0189898的权益,其全部公开内容通过引用合并于此以用于所有目的。
技术领域
以下描述涉及图像处理方法和装置。
背景技术
近来,已经提供了实现包括例如虚拟现实(VR)、增强现实(AR)或混合现实(MR)的技术的电子设备。在这些技术中,AR可以是结合并显示与现实世界环境相关联的虚拟对象或信息的技术。AR可以通过将外部视图与虚拟图像相结合来向用户提供新的体验,并且可以成为一种更有效并更真实地传递信息的方法。
另外,鉴于神经网络技术在图像处理领域的发展,通过应用神经网络来提供AR可能是有益的。
发明内容
提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征,也不意在帮助确定所请求保护的主题的范围。
在一般方面,一种实现神经网络的由处理器实现的图像处理方法包括:通过实现第一神经网络根据第一输入图像产生对应于标准空间的外观信息,所述标准空间包括多个规则网格;通过实现第二神经网络根据第二输入图像产生对应于标准空间的几何信息;基于所产生的几何信息对多个规则网格进行变形;通过将外观信息应用于经变形的多个规则网格来产生标准化图像信息;以及基于标准化图像信息产生输出图像。
标准空间可以是由包括多个规则网格的立方体定义的规范空间。
外观信息可以包括特征信息、颜色信息和纹理信息中的任何一种。
几何信息可以包括比例信息、偏移信息和深度信息中的任何一种。
对多个规则网格进行变形可以包括:基于比例信息对与多个规则网格中的每一个相对应的坐标进行变形;以及基于偏移信息和深度信息中的任何一种来移动经变形的坐标。
标准空间可以包括通过立方体形式表示的空间,所述立方体形式包括基于单点透视的五个面。
第一输入图像可以与第二输入图像相似。
第一输入图像可以与第二输入图像不同。
该方法还可以包括接收视点信息,其中,产生输出图像包括产生与所接收的视点信息相对应的输出图像。
产生与视点信息相对应的输出图像可以包括:通过将第三输入图像应用于第四神经网络来产生视点信息;以及通过将所产生的视点信息和对应于第一输入图像的图像信息应用于第三神经网络来产生输出图像。
神经网络可以包括第一神经网络、第二神经网络和第三神经网络中的任何一种,并且第三神经网络被训练以产生输出图像。
神经网络可以被配置为被训练以产生第一输入图像基于第三输入图像的视点信息而被变形的图像。
神经网络可以包括经训练的神经网络,所述经训练的神经网络被配置为减小损失函数,其中,损失函数是基于第三输入图像与输出图像之间的差异而确定的,所述输出图像是通过将视点信息和对应于第一输入图像的图像信息应用于第三神经网络而产生的,所述视点信息是通过实现第四神经网络根据第三输入图像而产生的。
第二神经网络可以被配置为基于偏移归一化损失函数和深度归一化损失函数中的任何一种被训练。
将对应于第一输入图像的图像信息应用于第三神经网络包括:将图像信息转换为二维2D图像;以及将2D图像应用于第三神经网络。
产生输出图像可以包括:产生第三输入图像的第一视点信息;基于第二视点信息对第三输入图像的第一视点信息进行变形;以及通过将图像信息和经变形的第一视点信息应用于第三神经网络来产生输出图像。
输出图像包括:第一输入图像的几何信息基于第二输入图像的几何信息之一而被变形的图像、以及第一输入图像的外观信息基于第二输入图像的外观信息而被变形的图像。
产生标准化图像信息可以包括:基于多个规则网格和第二输入图像的外观信息来产生标准化图像信息,所述多个规则网格基于第一输入图像的几何信息而被变形。
在一般方面,一种电子设备包括一个或多个处理器,该一个或多个处理器被配置为:通过实现第一神经网络根据第一输入图像产生对应于标准空间的外观信息,所述标准空间由包括多个规则网格的立方体定义;通过实现第二神经网络根据第二输入图像产生对应于标准空间的几何信息;基于所产生的几何信息对多个规则网格进行变形;通过将外观信息应用于经变形的多个规则网格来产生标准化图像信息;以及基于标准化图像信息产生输出图像。
在一般方面,一种电子设备包括一个或多个处理器,该一个或多个处理器被配置为:通过将输入图像应用于第一神经网络来产生与第一标准空间中的多个网格相对应的外观信息;通过将输入图像应用于第二神经网络来产生与多个网格中的每一个相对应的几何信息;通过基于所产生的几何信息对与多个网格中的每一个相对应的坐标进行变形来产生第二标准空间;通过将外观信息应用于第二标准空间来产生标准化图像信息;将标准化信息转换为二维(2D)图像,并将2D图像应用于第三神经网络,以及通过将2D图像应用于第三神经网络来产生输出图像。
第三神经网络可以被配置为被训练以产生输出图像。
标准空间可以包括将可变形场景与单个视点的空间对齐的空间。
其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。
附图说明
图1示出了根据一个或多个实施例的产生图像的示例方法。
图2示出了根据一个或多个实施例的示例标准空间。
图3示出了根据一个或多个实施例的对规则网格进行变形的示例方法。
图4示出了根据一个或多个实施例的训练神经网络的示例方法。
图5示出了根据一个或多个实施例的对转换了视点信息的图像进行处理的示例方法。
图6示出了根据一个或多个实施例的对转换了外观信息或几何信息的图像进行处理的示例方法。
图7示出了根据一个或多个实施例的产生图像的示例方法。
图8示出了根据一个或多个实施例的示例电子设备。
在整个附图和详细描述中,除非另有描述或提供,否则相同的附图标记应被理解为指代相同的元件、特征以及结构。附图可以不按比例绘制,并且为了清楚、说明和方便,可以扩大附图中元件的相对尺寸、比例和描绘。
具体实施方式
提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或系统的全面理解。然而,在理解了本申请的公开之后,本文中描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如,本文中描述的操作顺序仅仅是示例,并且不限于在本文中阐述的那些操作顺序,而是可以在理解本申请的公开之后明显改变,除了必须以一定顺序进行的操作之外。另外,在理解了本申请的公开内容之后,为了更加清楚和简洁,可以省略对已知的特征的描述,注意,省略特征及其描述也不旨在承认它们是一般知识。
本文描述的特征可以以不同形式来实施,并且不被解释为限于本文描述的示例。相反,提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或系统的许多可行方式中的一些,在理解本申请的公开之后这些方式将显而易见。
本文中使用的术语仅仅是为了描述具体示例的目的,而不是为了限制示例。本文中使用的单数形式“一”、“一个”和“该”意在还包括复数形式,除非上下文另外明确指出。如本文中所使用的,术语“和/或”包括关联列出的项目中的任何一个和任何两个或更多个的任何组合。如本文所用,术语“包括”、“包含”和“具有”表示存在所阐述的特征、数目、操作、元件、组件和/或其组合,但并不排除存在或添加一个或多个其他特征、数目、操作、元件、组件和/或其组合。在本文中,关于示例或实施例(例如,关于示例或实施例可以包括或实现什么)的术语“可以”的使用意味着存在至少一个示例或实施例,其中这样的特征是被包括或实现的,而所有示例不限于此。
虽然本文中使用了“第一”或“第二”的术语来描述各构件、组件、区域、层或部,但是这些构件、组件、区域、层或部不应被这些术语限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分加以区分。因此,在不脱离示例的教导的情况下,本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。
贯穿说明书,当诸如层、区域或基板之类的元件被描述为在另一元件“上”、“连接到”或“耦接到”另一元件时,它可以直接在该另一元件“上”、“连接到”或“耦接到”该另一元件,或者可以存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在另一元件上”、“直接连接到”或“直接耦接到”另一元件时,可以不存在介于其间的其他元件。同样,也应与上文描述的那样来解释例如“在……之间”和“直接在……之间”以及“与……相邻”和“与…紧邻”的表述。
除非另外定义,否则本文使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员在理解本公开之后对本公开的理解一致的通常所理解的相同的含义。诸如在常用词典中定义的术语应被解释为具有与其在相关技术和本公开的上下文中的含义一致的含义,而不应被解释为理想的或过于正式的含义,除非本文明确如此定义。
此外,在示例实施例的描述中,当认为在理解本申请的公开内容之后对由此为已知的结构或功能的详细描述可能导致示例实施例的模糊解释时,将省略这样的描述。在下文中,将参考附图来详细描述示例,并且附图中相同的附图标记始终表示相同的元件。
图1示出了根据一个或多个实施例的产生图像的示例方法。
图1示出了输入图像#1 110、输入图像#2 160、第一神经网络130、第二神经网络150、外观信息131、几何信息151、标准化图像信息140、第三神经网络170、输出图像180和第四神经网络190。
在非限制性示例中,输入图像#1可以与输入图像#2相同。在示例中,可以将相同的输入图像应用于第一神经网络130和第二神经网络150。在输入图像#1与输入图像#2不同的示例中,在下文中参考图6提供了描述。在应用第三输入图像#3的示例中,第三输入图像可以包括应用于第四神经网络190的图像。在本文中,注意,关于示例或实施例(例如,关于示例或实施例可以包括或实现什么)的术语“可以”的使用意味着存在至少一个示例或实施例,其中这样的特征是被包括或实现的,而所有示例和实施例不限于此。
在示例中,图8所示的处理器810可以通过将输入图像#1(例如,输入图像#1 110)应用于第一神经网络130来产生外观信息131。处理器810可以通过实现第一神经网络130根据输入图像#1 110产生对应于标准空间的外观信息131。
标准空间可以包括将可变形场景与单个视点(viewpoint)的空间对齐的空间。可以假设标准空间中的变量在所有环境条件和/或变化中都不会变形。与标准空间相对应的外观信息131和几何信息151可以各自独立于变形。标准空间可以包括多个规则网格。在示例中,多个网格可以各自对应于一个像素。在另一示例中,网格可以包括多个像素。规则网格可以包括具有相同形状和/或尺寸的网格。
可以基于透视图产生立方体。透视图可以包括使用地平线上的随着距离增加而变小的消失点来表示透视图的视图。立方体可以包括以这样的形式表示的空间,即该形式包括基于单点透视图的五个面。单点透视图可以是一种表示与来自观察者的眼睛的视图相同的透视图的方法,并且可以包括投影图,该投影图仅包括地平线上的一个消失点。针对面向前方的方向,立方体可以包括作为前面的面的第一侧面、作为左侧面的第二侧面、作为右侧面的第三侧面、作为上侧面的第四侧面、以及作为下侧面的第五侧面,并且每一个侧面可以包括多个规则网格。在下文中将参考图2详细描述立方体。
场景可以包括多个对象(例如但不限于家具、人、车辆、树木、建筑物、窗户、家用电器等)。输入图像可以包括场景。场景可以由立方体表示。场景可以以包括多个规则网格的单点透视图来表示。因此,可以在由包括多个规则网格的透视图表示的空间中表示场景。由透视图表示的空间可以由五个侧面来表示。因此,输入图像可以被划分为五个面,并且每一个侧面可以包括多个规则网格。
第一神经网络130可以包括产生外观信息131的神经网络。第一神经网络130可以包括多个卷积层和/或多个池化层。在示例中,第一神经网络130可以包括仅作为示例的生成对抗网络(GAN)、大规模GAN、残差神经网络(ResNet)和/或非常深度卷积网络(VGGNet)。上述第一神经网络130仅是示例,并且不限于此。
外观信息131可以包括与图像中可视觉识别的特征相关联的信息。外观信息131可以包括与图像中包括的内容的外观相关联的信息。外观信息131可以包括特征信息、颜色信息和纹理信息中的任何一种。
特征信息可以包括设置的网格的特征信息。例如,特征信息可以包括通过对像素值的卷积运算而计算的值。
颜色信息可以包括设置的网格的颜色信息。例如,颜色信息可以包括与设置的网格的颜色相关联的信息。在另一示例中,颜色信息可以包括作为对象的材料成分的与视点或照明无关的材料的独特颜色信息。可以基于特征信息产生颜色信息。处理器810可以通过将特征信息应用于产生颜色信息的神经网络来产生颜色信息。处理器810可以通过实现第一神经网络130来产生颜色信息,并且可以不必使用特征信息来产生颜色信息。
纹理信息可以包括应用于表面以用于视觉细节的信息。纹理可以包括纹理的视觉表示。可以基于特征信息来产生纹理信息。处理器可以通过将特征信息应用于产生纹理信息的神经网络来产生纹理信息。处理器810可以通过实现第一神经网络130来产生纹理信息,并且可以不必使用特征信息来产生纹理信息。
与标准空间相对应的外观信息可以包括当将场景变形为标准空间以成为标准时的外观信息。例如,与标准空间相对应的外观信息可以包括对于材料而言是独特的与视点或照明无关的视觉信息。标准空间中的特征信息可以包括当将场景变形为标准空间以成为标准时的特征信息。标准空间中的颜色信息可以包括当将场景变形为标准空间以成为标准时的颜色信息。标准空间中的纹理信息可以包括当将场景变形为标准空间以成为标准时的纹理信息。
处理器810可以通过将输入图像#1 110应用于第二神经网络150来产生几何信息151。处理器810可以通过实现第二神经网络150根据输入图像#1 110产生与标准空间中的多个规则网格中的每一个相对应的几何信息151。
作为非限制性示例,第二神经网络150可以包括产生几何信息的神经网络。第二神经网络150可以包括多个卷积层和/或多个池化层。在示例中,第二神经网络150可以包括U-net(或用于生物特征图像分割的卷积网络)。上述第二神经网络150仅是示例,并且不限于此。
几何信息151可以包括与距离、形状、尺寸和/或相对位置相关联的空间的特征信息。几何信息151可以包括比例(scale)信息、偏移信息和深度信息中的任何一种。
比例信息可以包括调整场景的尺寸以将输入图像(或场景)变形为标准空间以成为标准的信息。在示例中,标准空间中的对象A和场景中的相同对象A可以基于一天中的时间而在尺寸上变化。因此,调整输入图像的尺寸以将场景中存在的对象的尺寸转换为标准空间中存在的对象的尺寸可能是有益的。因此,处理器810可以使用比例信息将场景转换为标准空间。
偏移信息可以包括移动场景的一个位置(例如,像素的位置、网格中的点的位置等)以将场景变形为标准空间以成为标准的信息。在示例中,即使对于标准空间和场景中的相同对象,在基于一天中的时间的坐标系中的位置也可能不同。因此,调整对象的位置以将场景中存在的对象转换为标准空间中存在的对象可能是有益的。处理器810可以基于偏移信息将场景的一个位置(或坐标)移动到标准空间。
深度信息可以包括与二维(2D)图像的设置像素的深度相关联的信息,以根据2D图像获得三维(3D)空间信息。在示例中,深度信息可以表示为x坐标和y坐标处的深度值。在另一示例中,深度信息可以包括定义2D规则网格上描绘的对象的点云的信息。
与标准空间相对应的几何信息151可以包括当将场景变形为标准空间以成为标准时的几何信息。与标准空间相对应的几何信息可以包括几何变化。与标准空间相对应的几何信息可以包括当将场景变形为标准空间以成为标准时的比例变化量。标准空间中的偏移信息可以包括当将场景变形为标准空间以成为基础时网格(或像素)的位置的变化量。标准空间中的深度信息可以包括当将场景变形为标准空间以成为标准时的深度信息。
处理器810可以基于外观信息131和几何信息151来产生标准化图像信息140。标准化图像信息140可以包括基于几何信息151而产生的图像信息,以将输入图像与标准空间对齐。因此,标准化图像信息140可以包括与和标准空间对齐的预测空间相关联的信息,在该标准空间上输入图像是标准的。
处理器810可以基于几何信息151对多个规则网格中的每一个进行变形。
处理器810可以产生标准化图像信息140。处理器810可以基于比例信息改变第一标准空间中的多个规则网格的尺寸,从而产生第二标准空间。处理器810可以基于比例信息对与标准空间中的多个规则网格中的每一个相对应的坐标进行变形。例如,标准空间中的网格坐标可以是(x,y,z),并且比例信息可以是(sx,sy,sz)。在示例中,处理器810可以将比例信息乘以坐标。因此,经变形的坐标可以是(sxx,syy,szz)。
处理器810可以基于偏移信息和深度信息中的任何一种来移动经变形的坐标(例如,sxx,syy,szz)。
处理器810可以使用偏移信息来移动经变形的坐标。例如,处理器810可以使用偏移信息(Δx,Δy,Δz)将偏移量添加到经变形的坐标。在示例中,经移动的坐标可以是(sxx+Δx,syy+Δy,szz+Δz)。
处理器810可以基于深度信息来移动经变形的坐标。在示例中,深度信息可以对应于空间坐标系中的z轴。在示例中,当与设置的规则网格相对应的深度信息是d时,基于该深度信息的经变形的坐标可以是(sxx,syy,szd)。
处理器810可以基于偏移信息和深度信息来移动经变形的坐标。例如,深度信息可以是d,偏移信息可以是(Δx,Δy)。在示例中,经变形的坐标可以是(sxx+Δx,syy+Δy,szd)。
处理器810可以通过将外观信息131应用于多个变形的规则网格来产生标准化图像信息140。
在示例中,处理器810可以基于标准化图像信息来产生输出图像。处理器810可以通过将标准化图像信息140应用于第三神经网络170来产生输出图像。第三神经网络170可以包括被训练以产生输出图像的神经网络。第三神经网络170可以包括被训练以重构图像的神经网络。例如,第三神经网络170可以包括GAN。
处理器810可以将图像信息转换为2D图像。处理器810可以通过以2D投影图像信息来产生2D图像。由于图像信息可能包括3D空间信息,因此处理器可以以2D投影图像信息。处理器810可以将2D图像应用于第三神经网络170。处理器810可以通过将2D图像应用于第三神经网络170来产生输出图像180。
处理器810可以接收视点信息。视点信息可以包括基于标准空间中的视点与输入图像(或场景)中的视点之间的差异而确定的信息。在示例中,输入图像的视点可以包括从标准空间中的视点沿x轴方向旋转30度(°)的时间点。处理器810可以基于视点信息产生输出图像180,该输出图像18变形到对输入图像进行变形的时间点。处理器810可以通过将输入图像#2 160(或第三输入图像)应用于第四神经网络190来产生视点信息。
处理器810可以产生对应于视点信息的输出图像180。在示例中,时间点信息和标准化图像信息140可以通过实现第四神经网络190来产生。处理器810可以通过将时间点信息和标准化图像信息140应用于第三神经网络170来产生输出图像180,该时间点信息和该标准化图像信息140通过实现第四神经网络190来产生。
输出图像180可以包括从输入图像#1 110变形为输入图像#2 160的视点信息的图像。在示例中,输入图像#1 110的视点和输入图像#2160的视点可以在x轴方向上变化30°。在示例中,当输入图像#1 110在沿x轴方向旋转30°时被观察时,处理器810可以产生输出图像180。
当视点被变形时,输入图像中未包括的其他信息可能是有益的。在示例中,当视点被变形时,场景可能被变形,因此背景或场景中存在的对象可能被变形。因此,处理器810可以通过第三神经网络170产生由于视点变形而未包括在输入图像中的图像信息,使得在输出图像中不存在空区域。
在非限制性示例中,第一输入图像110和第二输入图像160可以是不同的图像。当第一输入图像110与第二输入图像160不同时,第一输入图像110的几何信息可以变形为第二输入图像160的几何信息。另外,第一输入图像110的外观信息可以变形为第二输入图像160的外观信息。参考图6详细描述了基于第二输入图像160对第一输入图像110的外观信息和/或几何信息进行变形的示例。
图2示出了根据一个或多个实施例的示例标准空间。
图2示出了立方体200、图示201和多个面(或侧面)210、211、230、231、250、251、270、271、290和291。
标准空间可以包括将可变形场景与单个视点的空间对齐(align)的空间。假设标准空间中的变量在所有环境条件和/或变化中都不会变形。
标准空间可以包括多个规则网格。在示例中,多个网格可以各自对应于一个像素。规则网格可以包括具有相同形状和/或尺寸的网格。
可以基于透视图来产生立方体200。透视图可以包括使用地平线上的随着距离增加而变小的消失点来表示透视图的视图。立方体200可以包括以这样的形式表示的空间,即该形式包括基于单点透视图的五个面。单点透视图可以是一种表示与来自观察者的眼睛的视图相同的透视图的方法,并且可以包括投影图,该投影图仅包括地平线上的一个消失点。
针对面向前方的方向,立方体200可以包括作为立方体200的前面的面的第一侧面210、作为立方体200的左侧面的第二侧面230、作为立方体200的右侧面的第三侧面250、作为立方体200的上侧面的第四侧面270、以及作为立方体200的下侧面的第五侧面290,并且每一个侧面可以包括多个规则网格。
当展开立方体200的每一个侧面时,可以展开五个侧面。图示201示出了展开立方体的五个侧面的示例,即第一侧面211、第二侧面231、第三侧面251、第四侧面271和第五侧面291。图示201的每一个侧面可以对应于立方体200的相应侧面。图示201的每一个侧面可以包括多个规则网格,并且多个规则网格可以各自对应于一个像素。在示例中,规则网格中可以存在多个像素。
场景可以包括多个对象(例如,家具、人、车辆、树木、建筑物、窗户、家用电器等)。在示例中,场景可以包括室内场景和/或室外场景。输入图像可以包括场景。场景可以表示为立方体。场景可以以包括多个规则网格的单点透视图来表示。因此,可以在由包括多个规则网格的透视图表示的空间中表示场景。由透视图表示的空间可以由五个侧面来表示。因此,输入图像可以被划分为五个面,并且每一个侧面可以包括多个规则网格。
处理器810可以通过将场景定义为立方体形式的标准空间,来将场景变形为包括场景的各种形式的输入图像。
图3示出了根据一个或多个实施例的对规则网格进行变形的示例方法。
图3示出了第一侧面300、规则网格220、几何信息集(例如,比例信息320、偏移信息330、深度信息340、以及偏移和深度信息350)、标准化图像信息301、变形的第一侧面390、基于偏移信息的变形的示例中的坐标360、基于深度信息的变形的示例中的坐标370、基于偏移信息和深度信息的变形的示例中的坐标380。
处理器810可以产生标准化图像信息301。处理器810可以基于比例信息320对标准空间中的多个规则网格的尺寸进行变形。处理器810可以基于比例信息320将与多个规则网格中的每一个相对应的坐标变形到标准空间中。在示例中,第一侧面300中的规则网格220可以是单点坐标(x,y,z),而比例信息320可以是(sx,sy,sz)。在示例中,处理器810可以将比例信息320乘以规则网格220中的单点坐标(x,y,z)。因此经变形的坐标可以是(sxx,syy,szz)。
处理器810可以基于偏移信息和深度信息中的任何一种来移动经变形的坐标(例如,(sxx,syy,szz))。
处理器810可以基于偏移信息330来移动经变形的坐标。在示例中,处理器810可以基于偏移信息330(Δx,Δy,Δz)将偏移量添加到经变形的坐标。在示例中,基于偏移信息而变形的坐标360可以是(sxx+Δx,syy+Δy,szz+Δz)。
处理器810可以使用深度信息340来移动经变形的坐标。在示例中,深度信息340可以对应于空间坐标系中的z轴。在示例中,当与规则网格220相对应的深度信息是d时,基于该深度信息的变形的示例中的坐标370可以是(sxx,syy,szd)。
处理器810可以基于偏移信息和深度信息350来移动经变形的坐标。在示例中,深度信息是d,偏移信息可以是(Δx,Δy)。在示例中,基于偏移信息和深度信息的变换的示例中的坐标380可以是(sxx+Δx,syy+Δy,szd)。
图4示出了根据一个或多个实施例的训练神经网络的示例方法。
图4示出了第一输入图像#1 410、标准空间430、标准空间转换模块或设备450、第三神经网络470、输出图像490、第二输入图像#2420、第四神经网络440、以及损失函数480。
在示例中,神经网络可以包括第一神经网络、第二神经网络和第三神经网络470中的任何一种。神经网络可以在推理过程中包括第一神经网络、第二神经网络和第三神经网络470。在另一示例中,神经网络可以在学习(或训练)过程中包括第一神经网络、第二神经网络、第三神经网络和第四神经网络440。因此,第四神经网络440也可以在学习过程中一起被训练。
神经网络可以包括被训练以产生输入图像#1 410基于输入图像#2420的视点信息而被变形的图像的神经网络。处理器810可以通过实现第四神经网络440来产生输入图像#2420的视点信息。输入图像#1410和输入图像#2 420中的每一个可以是视频中包括的帧。在示例中,当输入图像#1 410是帧#1时,输入图像#2 420可以是帧#2,该帧#2是帧#1的下一帧。
神经网络可以包括例如基于损失函数被训练的神经网络。神经网络可以在减小损失函数的方向上更新神经网络的参数。可以基于基本事实(ground truth)数据与神经网络的输出数据之间的差异来确定损失函数。处理器可以在减小损失函数的方向上更新神经网络的参数。
可以基于输出图像490与输入图像#2 420之间的差异来确定损失函数480。可以基于输出图像490与输入图像#2 420之间的差异来确定损失函数480,该输出图像490通过将视点信息和对应于输入图像#1 410的图像信息应用于第三神经网络470来产生,该视点信息根据输入图像#2 420使用第四神经网络440来产生。在非限制性示例中,输入图像#2 420可以是基本事实数据。因此,处理器810可以允许神经网络执行自监督学习。
处理器810在神经网络学习过程中可以将输入图像#1 410表示为由立方体定义的标准空间。处理器810可以通过实现标准空间转换模块450将标准空间转换为标准化图像信息。处理器810可以将与标准化图像信息和输入图像#2 420相对应的视点信息应用于第三神经网络470。标准空间转换模块或设备450可以包括基于几何信息对多个规则网格进行变形的模块或设备。处理器810可以通过实施第三神经网络470来产生输出图像490。处理器810可以基于输出图像490与输入图像#2 420之间的差异来计算损失函数480。处理器810可以基于损失函数480在损失函数480被减小的方向上更新神经网络的参数。
可以基于偏移归一化损失函数和深度归一化损失函数中的任何一种来训练神经网络(例如,第一神经网络、第二神经网络和第三神经网络470)。偏移归一化损失函数可以包括用于训练神经网络(例如,第一神经网络、第二神经网络和第三神经网络470)使得输出偏移信息不会过拟合的损失函数。偏移归一化损失函数可以包括用于训练神经网络(或第二神经网络)使得每个轴的偏移值之和Σ(Δx2+Δy2+Δz2)被最小化的损失函数。因此,处理器810可以在偏移归一化损失函数被最小化的方向上更新神经网络(或第二神经网络)的参数。因此,处理器810甚至可以根据各种视点获得针对相同场景或失真场景的标准化图像信息。
深度归一化损失函数可以包括用于确保输出深度信息不会过拟合的损失函数。深度归一化损失函数可以包括用于训练神经网络(或第二神经网络)以使得输出深度信息不会过拟合的损失函数。深度归一化损失函数可以学习损失函数以最小化Σ(d-1)2。因此,处理器810可以在最小化深度归一化损失函数的方向上更新神经网络(或第二神经网络)的参数。因此,处理器810甚至可以根据各种视点获得针对相同场景或失真场景的标准化图像信息,并且Σ(d-1)2可以包括深度信息,其中1为标准。因此,当d变得更接近1时,产生标准化图像信息的概率可以增加。
神经网络可以包括偏移归一化层和深度归一化层中的任何一种。第二神经网络可以包括偏移归一化层和深度归一化层中的任何一种。归一化层可以包括解决神经网络的过拟合问题并增加神经网络的可学习性的层。
偏移归一化层可以包括训练神经网络使得当第二神经网络的输出数据是偏移信息时输出偏移信息不会过拟合的层。在示例中,处理器810可以使用Σ(Δx2+Δy2+Δz2),它是每个轴的用于偏移归一化的偏移值之和。因此,处理器810可以降低通过第二神经网络产生远大于或远小于正常偏移值的偏移值的概率。
深度归一化层可以包括确保当第二神经网络的输出数据是深度信息时输出深度信息不会过拟合的层。在示例中,处理器可以使用Σ(d-1)2对深度信息进行归一化。因此,处理器可以通过第二神经网络降低产生远大于或远小于正常深度值的深度值的概率。
图5示出了根据一个或多个实施例的对转换了视点信息的图像进行处理的示例方法。
参考图5,示出了输入图像510、标准空间530、标准空间转换模块或设备550、第三神经网络570、视点被变形的输出图像590、视点信息520、第四神经网络图540和视点变形560。
可能期望将输入图像转换为期望视点的图像。在示例中,当通过用户正穿戴的可穿戴设备显示的屏幕改变时,可能期望经改变的屏幕在用户正观看的方向上对齐。因此,处理器810可以通过实现神经网络来转换期望视点(例如,用户当前正在观看的方向上的视点)的输入图像。
处理器810可以将输入图像510表示为标准空间530,并且可以基于标准空间转换模块或设备550来产生标准化图像信息。
处理器810可以向第四神经网络540提供输入图像510。处理器810可以通过实现第四神经网络540来产生输入图像510的视点信息。
处理器810可以接收视点信息520。在示例中,视点信息520可以包括要改变的目标视点信息。处理器810可以基于输入图像510的视点信息被接收的视点信息520来执行视点变形560。
处理器810可以通过将变形的视点信息和标准化图像信息应用于第三神经网络570,来产生视点被变形的输出图像590。视点被变形的输出图像590可以包括视点基于视点信息520而被变形的输出图像。
图6示出了根据一个或多个实施例的对转换了外观信息或几何信息的图像进行处理的示例方法。
参考图6,示出了第一输入图像610、第二输入图像620、外观信息#1 611、几何信息#1 612、外观信息#2 621、几何信息#2 622、标准空间转换模块或设备650、以及几何信息或外观信息被变形的输出图像690。
在示例中,第一输入图像610的几何信息可以被变形为第二输入图像620的几何信息,该第二输入图像620可以是与第一输入图像610不同的图像。在示例中,第一输入图像610的外观信息可以被改变为第二输入图像620的外观信息。处理器810可以产生已经改变了第一输入图像610的外观信息或几何信息的图像。
处理器810可以通过将第一输入图像610应用于第一神经网络130来产生外观信息#1 611。处理器810可以通过将第二输入图像应用于第二神经网络150来产生几何信息#2622。处理器可以基于第二输入图像620的几何信息#2 622对多个规则网格进行变形。处理器810可以基于标准空间转换模块或设备650对多个规则网格进行变形,并且可以通过将第一输入图像610的外观信息#1 611应用于经变形的多个规则网格来产生标准化图像信息。因此,标准化图像信息可以包括基于第一输入图像610的外观信息#1 611和第二输入图像620的几何信息#2 622而产生的图像信息。处理器810可以通过将对应的图像信息应用于第三神经网络来产生第一输入图像610的几何信息被变形的输出图像690。
处理器810可以通过将第一输入图像610应用于第二神经网络150来产生几何信息#1 612。处理器810可以通过将第二输入图像620应用于第一神经网络130来产生外观信息#2 621。处理器810可以基于第一输入图像610的几何信息#1 612对多个规则网格进行变形。处理器810可以使用标准空间转换模块650对多个规则网格进行变形,并且可以通过将第二输入图像620的外观信息#2 621应用于经变形的多个规则网格来产生标准化图像信息。因此,标准化图像信息可以包括基于第一输入图像610的几何信息#1 612和第二输入图像620的外观信息#2 621而产生的图像信息。处理器810可以通过将对应的图像信息应用于第三神经网络来产生第一输入图像610的外观信息被变形的输出图像690。
图7示出了根据一个或多个实施例的产生图像的示例方法。图7中的操作可以按照所示的顺序和方式来执行,然而在不脱离所描述的说明性示例的精神和范围的情况下,可以改变一些操作的顺序,或者省略一些操作。图7所示的许多操作可以并行或同时执行。图7的一个或多个块和这些块的组合可以通过执行指定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现。除了下面对图7的描述之外,图1至图6的描述也适用于图7,并且通过引用并入本文。因此,这里可以不再重复以上描述。
在操作710,电子设备(例如,图8的电子设备800)可以通过实现第一神经网络根据第一输入图像产生对应于标准空间的外观信息,该标准空间由包括多个规则网格的立方体来定义。
外观信息可以包括但不限于特征信息、颜色信息和纹理信息中的任何一种。
在操作720,电子设备800可以通过实现第二神经网络根据第二输入图像产生对应于标准空间的几何信息。
几何信息可以包括比例信息、以及偏移信息和深度信息中的任何一种。
在操作730,电子设备800可以基于几何信息对多个规则网格进行变形。
电子设备800可以基于比例信息对与多个规则网格中的每一个相对应的坐标进行变形。电子设备800可以基于偏移信息和深度信息中的任何一种来移动经变形的坐标。
在操作740,电子设备800可以通过将外观信息应用于多个经变形的规则网格来产生标准化图像信息。
在操作750,电子设备800可以基于标准化图像信息来产生输出图像。
电子设备800可以将图像信息转换为2D图像,并将2D图像应用于第三神经网络。
电子设备800可以产生输入图像的第一视点信息,并且基于第二视点信息对视点信息进行变形。电子设备800可以通过将图像信息和经变形的第一视点信息应用于第三神经网络来产生输出图像。
电子设备800可以基于第一输入图像的几何信息来产生经变形的多个规则网格并且基于第二输入图像的外观信息来产生标准化图像信息。
电子设备800可以接收视点信息,并产生与视点信息相对应的输出图像。
电子设备800可以通过将第三输入图像应用于第四神经网络来产生视点信息。电子设备800可以通过将与第一输入图像相对应的图像信息和视点信息应用于第三神经网络来产生输出图像。第三输入图像可以是应用于第四神经网络的输入图像,并且可以包括与第一图像相同的图像,或者可以应用与第一输入图像和/或第二输入图像不同的图像。
图8示出了根据一个或多个实施例的示例电子设备800。
参考图8,电子设备800可以包括一个或多个处理器810、一个或多个存储器820、以及通信接口830。存储器820、处理器810和通信接口830可以通过通信总线840彼此连接。
存储器820可以存储上述处理器810的处理过程中所产生的各种信息。此外,存储器820可以存储各种数据和程序。存储器820可以包括易失性存储器或非易失性存储器。存储器820可以包括用于存储各种数据的诸如硬盘之类的大容量存储介质。
处理器810可以是硬件实现的装置,该装置具有被物理地构造成执行期望操作的电路。在示例中,期望的操作可以包括程序中的指令或代码。硬件实现的装置可以包括但不限于例如微处理器、中央处理单元(CPU)、图形处理单元(GPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和神经处理单元(NPU)。
处理器810可以执行程序并控制电子设备800。由处理器810执行的程序的代码可以存储在存储器820中。
神经网络可以响应于输入数据而输出由内部参数计算的值。在这里,神经网络的至少一部分可以实现为软件、包括神经处理器的硬件、或其组合。例如,神经网络可以对应于深度神经网络(DNN),深度神经网络(DNN)包括完全连接网络、深度卷积神经网络(DCNN)和递归神经网络(RNN)。DNN可以包括多个层。多个层可以包括输入层、至少一个隐藏层、以及输出层。可以基于深度学习通过映射具有非线性关系的输入数据和输出数据来训练神经网络以执行所提供的操作。深度学习可以是一种用于解决由大型数据集引起的问题的机器学习方案。深度学习可以是神经网络的优化过程,该优化过程在寻找能量最小化的点时使用准备好的训练数据来训练神经网络。
电子设备800、主机处理器110、处理器810、存储器820、通信接口830、以及本文中和关于图1至图8描述的其他装置、单元、模块、设备和其他组件由硬件组件来实现。在适当的情况下可以用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、产生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请所述的操作的任何其他电子组件。在其他示例中,用于执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件(例如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其他设备或设备的组合)来实现。在示例中,处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件,例如,操作系统(OS)和在OS上运行的一个或多个软件应用,以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见,在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”,但是在其他示例中可以使用多个处理器或计算机,或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如,单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现,并且一个或多个其他硬件组件可以由一个或多个其他处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同的处理配置中的任一种或多种,所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、和多指令多数据(MIMD)多处理。
执行本申请中描述以及在图1至图8中示出的操作的方法由计算硬件执行,例如,由执行指令或软件的如上所述地实现的一个或多个处理器或计算机执行,以执行本申请中所描述的通过这些方法执行的操作。例如,单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器执行,并且一个或多个其他操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行,例如,作为处理器实现的方法的相应操作。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合,用于单独或共同指示或配置一个或多个处理器或计算机以作为机器或专用计算机操作从而执行由上述硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码,例如由编译器产生的机器代码。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级的代码。可以基于附图中所示出的框图和流程图以及说明书中的对应的描述(其公开了用于执行由硬件组件执行的操作和如上所述的方法的算法),使用任何编程语言来编写指令或软件。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储设备、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(例如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及被如下配置的任何其它装置:以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并且向一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构,使得一个或多个处理器或计算机可以执行该指令。在示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得一个或多个处理器或计算机以分布方式存储、访问和执行指令和软件以及任何相关联的数据、数据文件和数据结构。
尽管本公开包括特定示例,但是在理解了本申请的公开内容之后将显而易见的是,在不脱离权利要求及其等同物的精神和范围的情况下,可以对这些示例进行形式和细节上的各种改变。本文描述的示例应仅被认为是描述性的,而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充,则可以实现合适的结果。因此,本公开的范围不是由详细描述来限定,而是由权利要求及其等同物来限定,并且在权利要求及其等同物的范围内的所有变化都被解释为包括在本公开中。
Claims (23)
1.一种实现神经网络的由处理器实现的图像处理方法,所述方法包括:
通过实现第一神经网络根据第一输入图像产生对应于标准空间的外观信息,所述标准空间包括多个规则网格;
通过实现第二神经网络根据第二输入图像产生对应于所述标准空间的几何信息;
基于所产生的几何信息对所述多个规则网格进行变形;
通过将所述外观信息应用于经变形的多个规则网格来产生标准化图像信息;以及
基于所述标准化图像信息来产生输出图像。
2.根据权利要求1所述的方法,其中,所述标准空间是由包括所述多个规则网格的立方体定义的规范空间。
3.根据权利要求1所述的方法,其中,所述外观信息包括特征信息、颜色信息和纹理信息中的任何一种。
4.根据权利要求1所述的方法,其中,所述几何信息包括比例信息、偏移信息和深度信息中的任何一种。
5.根据权利要求1所述的方法,其中,对所述多个规则网格进行变形包括:
基于比例信息对与所述多个规则网格中的每一个相对应的坐标进行变形;以及
基于偏移信息和深度信息中的任何一种来移动经变形的坐标。
6.根据权利要求1所述的方法,其中,所述标准空间包括通过立方体形式表示的空间,所述立方体形式包括基于单点透视的五个面。
7.根据权利要求1所述的方法,其中,所述第一输入图像与所述第二输入图像相似。
8.根据权利要求1所述的方法,其中,所述第一输入图像与所述第二输入图像不同。
9.根据权利要求1所述的方法,还包括:
接收视点信息,
其中,产生所述输出图像包括产生与所接收的视点信息相对应的输出图像。
10.根据权利要求9所述的方法,其中,产生与所述视点信息相对应的所述输出图像包括:
通过将第三输入图像应用于第四神经网络来产生所述视点信息;以及
通过将所产生的视点信息和对应于所述第一输入图像的图像信息应用于第三神经网络来产生输出图像。
11.根据权利要求1所述的方法,其中,所述神经网络包括所述第一神经网络、所述第二神经网络和第三神经网络中的任何一种,并且所述第三神经网络被训练以产生所述输出图像。
12.根据权利要求1所述的方法,其中,所述神经网络被配置为被训练以产生所述第一输入图像基于第三输入图像的视点信息而被变形的图像。
13.根据权利要求1所述的方法,其中,所述神经网络包括经训练的神经网络,所述经训练的神经网络被配置为减小损失函数,
其中,所述损失函数是基于第三输入图像与所述输出图像之间的差异而确定的,所述输出图像是通过将视点信息和对应于所述第一输入图像的图像信息应用于第三神经网络而产生的,所述视点信息是通过实现第四神经网络根据所述第三输入图像而产生的。
14.根据权利要求1所述的方法,其中,所述第二神经网络被配置为基于偏移归一化损失函数和深度归一化损失函数中的任何一种被训练。
15.根据权利要求10所述的方法,其中,将对应于所述第一输入图像的图像信息应用于所述第三神经网络包括:
将所述图像信息转换为二维2D图像;以及
将所述2D图像应用于所述第三神经网络。
16.根据权利要求1所述的方法,其中,产生所述输出图像包括:
产生第三输入图像的第一视点信息;
基于第二视点信息对所述第三输入图像的第一视点信息进行变形;以及
通过将图像信息和经变形的第一视点信息应用于第三神经网络来产生所述输出图像。
17.根据权利要求1所述的方法,其中,所述输出图像包括:所述第一输入图像的几何信息基于所述第二输入图像的几何信息之一而被变形的图像、以及所述第一输入图像的外观信息基于所述第二输入图像的外观信息而被变形的图像。
18.根据权利要求1所述的方法,其中,产生所述标准化图像信息包括:
基于所述多个规则网格和所述第二输入图像的外观信息来产生所述标准化图像信息,所述多个规则网格基于所述第一输入图像的几何信息而被变形。
19.一种存储指令的非暂时性计算机可读存储介质,所述指令在由处理器执行时使所述处理器执行根据权利要求1所述的图像处理方法。
20.一种电子设备,包括:
一个或多个处理器,被配置为:
通过实现第一神经网络根据第一输入图像产生对应于标准空间的外观信息,所述标准空间由包括多个规则网格的立方体定义;
通过实现第二神经网络根据第二输入图像产生对应于所述标准空间的几何信息;
基于所产生的几何信息对所述多个规则网格进行变形;
通过将所述外观信息应用于经变形的多个规则网格来产生标准化图像信息;以及
基于所述标准化图像信息来产生输出图像。
21.一种电子设备,包括:
一个或多个处理器,被配置为:
通过将输入图像应用于第一神经网络来产生与第一标准空间中的多个网格相对应的外观信息;
通过将所述输入图像应用于第二神经网络来产生与所述多个网格中的每一个相对应的几何信息;
通过基于所产生的几何信息对与所述多个网格中的每一个相对应的坐标进行变形来产生第二标准空间;
通过将所述外观信息应用于所述第二标准空间来产生标准化图像信息;
将所述标准化信息转换为二维2D图像,并将所述2D图像应用于第三神经网络;以及
通过将所述2D图像应用于所述第三神经网络来产生输出图像。
22.根据权利要求21所述的电子设备,其中,所述第三神经网络被配置为被训练以产生所述输出图像。
23.根据权利要求21所述的电子设备,其中,所述标准空间包括将可变形场景与单个视点的空间对齐的空间。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0189898 | 2021-12-28 | ||
KR1020210189898A KR20230100205A (ko) | 2021-12-28 | 2021-12-28 | 영상 처리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116362966A true CN116362966A (zh) | 2023-06-30 |
Family
ID=83457429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210797838.2A Pending CN116362966A (zh) | 2021-12-28 | 2022-07-06 | 图像处理方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12086940B2 (zh) |
EP (1) | EP4207089A1 (zh) |
JP (1) | JP2023098597A (zh) |
KR (1) | KR20230100205A (zh) |
CN (1) | CN116362966A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102610505B1 (ko) * | 2023-08-08 | 2023-12-06 | 주식회사 에이오팜 | 인공지능 기반의 농산물 외부 결함 측정 장치, 방법및 프로그램 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100327103B1 (ko) | 1998-06-03 | 2002-09-17 | 한국전자통신연구원 | 사용자의조력및물체추적에의한영상객체분할방법 |
KR100468843B1 (ko) | 2001-11-02 | 2005-01-29 | 삼성전자주식회사 | 동영상 데이터에서 장면전환을 자동검출하는 방법 및 그장치 |
KR100450823B1 (ko) | 2001-11-27 | 2004-10-01 | 삼성전자주식회사 | 깊이 이미지 기반 3차원 물체의 표현을 위한 노드 구조 |
US7295220B2 (en) | 2004-05-28 | 2007-11-13 | National University Of Singapore | Interactive system and method |
KR100799990B1 (ko) | 2006-06-30 | 2008-01-31 | 연세대학교 산학협력단 | 2차원 영상의 3차원 영상 변환 장치 및 방법 |
KR100788704B1 (ko) | 2006-11-15 | 2007-12-26 | 삼성전자주식회사 | 영상 변환 방법 및 그 장치 |
US8254680B2 (en) | 2007-01-24 | 2012-08-28 | Samsung Electronics Co., Ltd. | Apparatus and method of segmenting an image in an image coding and/or decoding system |
US8705892B2 (en) | 2010-10-26 | 2014-04-22 | 3Ditize Sl | Generating three-dimensional virtual tours from two-dimensional images |
GB2512621A (en) | 2013-04-04 | 2014-10-08 | Sony Corp | A method and apparatus |
US10482574B2 (en) | 2016-07-06 | 2019-11-19 | Gopro, Inc. | Systems and methods for multi-resolution image stitching |
KR101963200B1 (ko) | 2017-03-09 | 2019-03-28 | 경희대학교 산학협력단 | 영상 콘텐츠 자동 인식기술을 이용한 실시간 영상변환 시스템 및 방법 |
US10706699B1 (en) * | 2017-05-18 | 2020-07-07 | Alarm.Com Incorporated | Projector assisted monitoring system |
US10909746B1 (en) * | 2018-06-22 | 2021-02-02 | Imbellus, Inc. | Systems and methods for asset generation in immersive cognitive assessments |
US11823421B2 (en) | 2019-03-14 | 2023-11-21 | Nokia Technologies Oy | Signalling of metadata for volumetric video |
US10692277B1 (en) | 2019-03-21 | 2020-06-23 | Adobe Inc. | Dynamically estimating lighting parameters for positions within augmented-reality scenes using a neural network |
US11270415B2 (en) * | 2019-08-22 | 2022-03-08 | Adobe Inc. | Image inpainting with geometric and photometric transformations |
CN110531860B (zh) * | 2019-09-02 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的动画形象驱动方法和装置 |
CN113469180A (zh) * | 2020-03-31 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 医学图像的处理方法和系统、数据处理方法 |
US20210350620A1 (en) * | 2020-05-07 | 2021-11-11 | Imperial College Innovations Limited | Generative geometric neural networks for 3d shape modelling |
KR20220126063A (ko) | 2021-03-08 | 2022-09-15 | 삼성전자주식회사 | 재구성된 이미지를 생성하는 이미지 처리 방법 및 장치 |
-
2021
- 2021-12-28 KR KR1020210189898A patent/KR20230100205A/ko unknown
-
2022
- 2022-06-06 US US17/832,847 patent/US12086940B2/en active Active
- 2022-07-06 CN CN202210797838.2A patent/CN116362966A/zh active Pending
- 2022-09-02 EP EP22193592.7A patent/EP4207089A1/en active Pending
- 2022-10-06 JP JP2022161314A patent/JP2023098597A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US12086940B2 (en) | 2024-09-10 |
EP4207089A1 (en) | 2023-07-05 |
KR20230100205A (ko) | 2023-07-05 |
JP2023098597A (ja) | 2023-07-10 |
US20230206562A1 (en) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020200811B2 (en) | Direct meshing from multiview input using deep learning | |
CN110084874B (zh) | 对于三维模型的图像风格迁移 | |
CN110168477B (zh) | 用于长方体检测的深度学习系统 | |
CN112465938A (zh) | 三维3d渲染方法和装置 | |
JP7386812B2 (ja) | 照明推定 | |
Panek et al. | Meshloc: Mesh-based visual localization | |
CN109685095B (zh) | 根据3d布置类型对2d图像进行分类 | |
EP4057231A1 (en) | Method and apparatus with image processing and reconstructed image generation | |
US11605200B2 (en) | System for optimizing a 3D mesh | |
Wei et al. | Joint bilateral propagation upsampling for unstructured multi-view stereo | |
CN116362966A (zh) | 图像处理方法和装置 | |
CN115953464A (zh) | 全局定位方法和装置 | |
CN117593431A (zh) | 用于表示渲染场景的方法和设备 | |
KR20200083130A (ko) | 3차원 지형 데이터를 생성 장치 및 방법 | |
KR102083558B1 (ko) | 복셀리곤을 이용한 3차원 객체 모델링 방법 및 프로그램 | |
KR102056985B1 (ko) | 가상 현실 인터랙션 방법 및 그 장치 | |
CN116228850A (zh) | 物体姿态估计方法、装置、电子设备及可读存储介质 | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 | |
KR102587233B1 (ko) | 소수의 협소화각 rgbd 영상으로부터 360 rgbd 영상 합성 | |
CN117853632A (zh) | 基于视图增强的用于神经渲染的方法和装置 | |
Chen et al. | A Real-Time and Globally Consistent Meshing Reconstruction Without GPU | |
Liu et al. | A Light Multi-View Stereo Method with Patch-Uncertainty Awareness | |
Xu et al. | Three-dimensional reconstruction of industrial parts from a single image | |
Jafari | Multi-view depth estimation and plane-sweeping rednering on graphic processor unit | |
CN116883595A (zh) | 三维场景建模方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |