CN117441195A - 纹理补全 - Google Patents
纹理补全 Download PDFInfo
- Publication number
- CN117441195A CN117441195A CN202180097514.1A CN202180097514A CN117441195A CN 117441195 A CN117441195 A CN 117441195A CN 202180097514 A CN202180097514 A CN 202180097514A CN 117441195 A CN117441195 A CN 117441195A
- Authority
- CN
- China
- Prior art keywords
- texture
- image
- texture map
- model
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000295 complement effect Effects 0.000 title description 9
- 238000012549 training Methods 0.000 claims description 104
- 238000000034 method Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 8
- 238000009877 rendering Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000010339 dilation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
根据本公开的实现,提供了一种用于补全对象的纹理的解决方案。在该解决方案中,根据纹理生成模型,从对象的部分纹理图生成对象的完整纹理图。根据纹理判别模型,确定关于完整纹理图中至少一个块是否包括所推断的纹理的第一预测。第二图像是基于完整纹理图生成的。根据图像判别模型,确定关于第一图像和第二图像是否是所生成的图像的第二预测。基于第一预测和第二预测,训练纹理生成模型、纹理判别模型和图像判别模型。
Description
背景技术
在计算机视觉领域,人脸分析和数字化已经成为最受欢迎的话题之一。由于面部本身或其他对象的遮挡,大多数面部图像不能表示面部的全视图。事实上,自遮挡在面部图像中无处不在,导致面部图像中出现不可见的纹理。因此,需要面部纹理补全来推断不可见的面部纹理并恢复全脸外观。面部纹理补全具有广泛的应用,例如三维(3D)化身创建、3D变形模型(3DMM)构建和面部图像操控,以及诸如面部识别的高级别视觉任务。
发明内容
根据本公开的实现,提供了一种用于补全对象(例如,面部)的纹理的解决方案。在该解决方案中,根据纹理生成模型,从对象的部分纹理图生成对象的完整纹理图。部分纹理图包括对象的第一图像中的可见纹理,并且完整纹理图包括可见纹理和所推断的纹理。在纹理空间中,根据纹理判别模型,确定关于完整纹理图中的至少一个块是否包括所推断的纹理的第一预测。在图像空间中,根据图像判别模型,确定关于对象的第一图像和第二图像是否是所生成的图像的第二预测,第二图像是基于完整纹理图生成的。然后,基于第一预测和第二预测,训练纹理生成模型、纹理判别模型和图像判别模型。以此方式,经训练的纹理生成模型可以生成具有高保真度的完整纹理。
本发明内容将以简化的形式介绍概念的选择,这些概念将在下面的具体实现中进一步描述。本发明内容不旨在识别本公开的关键特征或基本特征,也不旨在用于限制本公开的范围。
附图说明
图1示出了其中可以实现本公开的各种实现的计算设备的框图;
图2示出了根据本公开的一些实现的用于纹理补全的示例训练架构的框图;
图3示出了根据本公开的一些实现的示例部分纹理图;
图4示出了根据本公开的一些实现的示例有效块和示例无效块;
图5示出了根据本公开的一些实现的示例空间变化标签;
图6示出了根据本公开的实现的方法的流程图;以及
图7示出了根据本公开的实现的另一种方法的流程图。
在附图中,相同或相似的附图标记指代相同或相似的元素。
具体实现
现在将参考一些示例实现来描述本公开的原理。应当理解,描述这些实现仅仅是为了说明的目的,并且帮助本领域技术人员更好地理解并因此实现本公开,而不暗示对本文公开的主题的范围的任何限制。
如本文所使用的,术语“包括”及其变体应理解为开放术语,意思是“包括但不限于”。术语“基于”应理解为“至少部分基于”。术语“实现”和“一个实现”应理解为“至少一个实现”。术语“另一个实现”应理解为“至少一个其他实现”。术语“第一”、“第二”等可指代不同或相同的对象。以下可以包括其他明确或隐含的定义。
如本文所使用的,“机器学习模型”是指人工智能模型,也可以称为“学习模型”、“学习网络”、“网络模型”或“模型”。这些术语在下文中可互换使用。深度学习模型是一个示例机器学习模型,其示例包括“神经网络”。机器学习模型的参数集是基于训练数据通过模型的训练阶段确定的。经训练的机器学习模型使用经训练的参数集将所接收的输入映射到对应的输出。因此,机器学习模型的训练过程可以被认为是从训练数据中学习输入和输出之间的映射或关联。
如本文所使用的,术语“纹理”是指图像上对象的外观,而不是反照率或本征图像。例如,面部纹理是指图像上的面部外观。因此,术语“纹理图”是指图像中对象的纹理表示。例如,纹理图可以被实现为UV图。
如上所简要提及的,需要面部纹理补全来推断不可见的面部纹理并恢复全脸外观。然而,由于难以收集具有完整纹理的训练图像,因此学习面部纹理补全并不简单。对于单个图像,通过手动标记或绘画获取完整纹理是不可行的。使用多视图图像获取高分辨率和高质量纹理也不是一项微不足道的任务,这需要复杂的面部图像捕获和处理管道。在一些常规方法中,使用被放置在受控环境中的特殊设备(诸如多视图数字单镜头反光相机捕获系统或3D扫描系统)来捕获训练图像。大多数来自常规方法的图像不是不公开可用的。因此,使用具有完整纹理的训练图像的传统纹理补全解决方案无法有效地学习面部纹理补全。
鉴于上述情况,希望避免收集具有完整纹理的训练图像,并使用在无约束设置中捕获的大量面部图像来训练纹理完成模型。尽管这样的期望解决方案将消除获取完整纹理的需要,但它为学习纹理补全模型提出了新的挑战。也就是说,对于每个训练图像,没有相同面部的图像可以被用于监督。其他对象的纹理补全也存在相似的问题。
根据本公开的实现,提出了一种用于补全对象的纹理的解决方案,例如人脸、人体。在该解决方案中,训练包括纹理生成模型、纹理判别模型和图像判别模型的生成对抗网络(GAN)以学习纹理补全。具体地,根据纹理生成模型,从对象的部分纹理图生成对象的完整纹理图。部分纹理图包括对象的第一图像中的可见纹理,并且完整纹理图包括可见纹理和所推断的纹理。在纹理空间中,根据纹理判别模型,确定关于完整纹理图中的至少一个块是否包括所推断的纹理的第一预测。在图像空间中,根据图像判别模型,确定关于对象的第一图像和第二图像是否是所生成的图像的第二预测,然后基于第一预测和第二预测,训练纹理生成模型、纹理判别模型和图像判别模型。
通过使用纹理空间和图像空间中的两个判别模型,可以无监督地学习不具有任何完整纹理的纹理补全。纹理空间中的纹理判别模型有助于学习纹理细节,而图像空间中的图像判别模型有助于学习对象的结构。以此方式,经训练的纹理生成模型可以生成具有高保真度的完整纹理。
本公开的实施例将在下面参考图1至6进行详细讨论。应当理解,尽管本公开包括关于人脸纹理补全的详细描述,但本公开的实施例不限于人脸纹理补全。而是,本公开的实施例适用于共享相似结构拓扑的对象的纹理补全。更具体地说,此类对象的纹理图应具有相同的UV拓扑,并且纹理图中的相同位置应具有相似的语义。此类对象的示例包括但不限于诸如人脸、人体、面部或某种动物(例如猫)的躯体。
示例环境
图1示出了可以执行本公开的多个实现的计算设备100的框图。应当理解,图1所示的计算设备100仅是示例性的,而不暗示对本公开的功能和实现的范围的任何限制。根据图1,计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150和一个或多个输出设备160。
在一些实现中,计算设备100可以实现为各种用户终端或具有计算能力的服务终端,服务终端可以是各种服务提供商提供的服务器、大型计算设备等。用户终端例如是任何类型的移动终端、固定终端或便携式终端,包括手机、站点、单元、设备、多媒体计算机、多媒体平板、因特网节点、通信器、台式计算机、膝上型计算机、笔记本电脑、上网本计算机、平板电脑、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/视频、定位设备、电视接收机、无线电广播接收机、电子书设备、游戏设备或由这些设备的附件和外围设备组成的任何其它组合或这些设备的任何其它组合。还可以预测计算设备100可以支持任何类型的用户专用接口(诸如“可穿戴”电路等)。
处理单元110可以是物理或虚拟处理器,并且可以基于存储在存储器120中的程序执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以增强计算设备100的并行处理能力。处理单元110也可以称为中央处理器(CPU)、微处理器、控制器和微控制器。
计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可达到的介质,包括但不限于易失性和非易失性介质、可移除和不可移除介质。存储器120可以是易失性存储器(例如,寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(诸如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其任意组合。存储器120可以包括训练模块122,其被配置为执行本文所描述的各种实现的功能。训练模块122可以被处理单元110访问和操作以执行对应的功能。
存储设备130可以是可移除或不可移除介质,并且可以包括机器可读介质,其可以用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括可移除/不可移除存储介质、易失性/非易失性存储介质。虽然图1中未示出,但是可以提供用于从可移除和非易失性磁盘读取或写入的磁盘驱动器和用于从可移除和非易失性光盘读取或写入的光盘驱动器。在这种情况下,每个驱动器可以通过一个或多个数据介质接口连接到总线(未示出)。
通信单元140通过通信介质实现与另一个计算设备的通信,另外,计算设备100的组件的功能可以由单个计算集群或多个计算机器实现,并且这些计算机器可以通过通信连接进行通信。因此,计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或另外的通用网络节点的逻辑连接在联网环境中运行。
输入设备150可以是一个或多个各种输入设备,诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备160可以是一个或多个输出设备,例如,显示器、扬声器和打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)通信,其中外部设备,例如存储设备、显示设备等,与使用户能够与计算设备100交互的一个或多个设备通信,或者与使计算设备100能够与一个或多个其他计算设备通信的任何设备(诸如网卡、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口(未示出)来执行。
在一些实现中,除了被集成在单独的设备上之外,计算设备100的一些或所有相应的组件也可以以云计算架构的形式被设置。在云计算架构中,这些组件可以被远程布置,并且可以协作以实现本公开所描述的功能。在一些实现中,云计算提供计算、软件、数据访问和存储服务,而无需告知终端用户提供此类服务的系统或硬件的物理位置或配置。在各种实现中,云计算使用合适的协议经由广域网(诸如因特网)提供服务。例如,云计算提供商可以经由广域网提供通过网络浏览器或任何其他计算组件访问的应用。云计算架构的软件或组件以及相应的数据可以被存储在远程位置的服务器上。云计算环境中的计算资源可以在远程数据中心合并或传播。云计算基础设施可以经由共享数据中心提供服务,即使它们被示为用户的单个接入点。因此,本文描述的组件和功能可以使用云计算架构从远程位置的服务提供商提供。备选地,组件和功能也可以从传统服务器提供,或者它们可以直接或以其他方式安装在客户端设备上。
根据本公开的各种实现,计算设备100可以训练用于纹理补全的GAN。如图1所示,计算设备100可以经由输入设备150接收包括多个训练图像的训练集170,例如如图1所示的训练图像171、172和173。训练图像171、172和173中的每一个训练图像包括人脸。如图1所示,由于自遮挡或面部的姿势,训练图像171、172和173中的面部不是以全视图呈现的。应当理解,训练集170中的训练图像的数目和面部的姿势是为了说明的目的而示出的,而不限制保护范围。
计算设备110通过使用训练集170训练用于纹理补全的GAN 180。GAN 180包括纹理生成(TG)模型181、纹理判别(TD)模型182和图像判别(ID)模型183。TG模型181被配置为从对象的部分纹理图生成对象(例如人脸)的完整纹理图。完整纹理图包括在训练图像中所推断的不可见的纹理。TD模型182是纹理空间中的判别器,用于判别训练图像中所推断的纹理和可见纹理。ID模型183是图像空间中的判别器,用于判别训练图像和从完整纹理图生成的图像。包括TD模型182和ID模型183两者的GAN180也被称为双空间判别生成对抗网络(DSD-GAN)。
训练后,经训练的TG模型181可以由计算设备100输出。备选地或附加地,经训练的TG模型181可以由计算设备100用于生成目标对象的完整纹理图。例如,如图1所示,将对应于面部图像191的部分纹理图192输入到经训练的TG模型181中。经训练的TG模型181生成面部图像191中的面部的完整纹理图193。
示例训练架构
图2示出了根据本公开的一些实现的用于纹理补全的示例训练架构200。在示例训练架构200中,训练图像171被用作示例来说明如何训练TG模型181、TD模型182和ID模型183。在下文中,训练图像171中包含的面部也被称为“参考面部”。
部分纹理图
为了获取训练图像171中的可见纹理并生成训练数据,从训练图像171中生成训练图像171中参考面部的部分纹理图210。部分纹理图210包括训练图像171中参考面部的可见纹理。部分纹理图210缺少在训练图像171中不可见的参考面部的纹理,如一些黑色区域所示。缺少纹理的部分纹理图的黑色区域也被称为“孔”。
为了更好地理解部分纹理图,现在参考图3。图3示出了根据本公开的一些实现的另一示例部分纹理图。具体地,图3示出了对应于训练图像172的部分纹理图320和对应于训练图像173的部分纹理图330。部分纹理图320包括训练图像172中面部的可见纹理,并且缺少训练图像172中不可见的面部的纹理。类似地,部分纹理图330包括训练图像173中面部的可见纹理,并且缺少训练图像173中不可见的面部的纹理。
现在回到参考图2。在一些实现中,转换器201可以被包括在示例架构200中,以从训练图像170生成部分纹理图210。作为示例,转换器201可以被实现为包括三个步骤的自动化管线。在三维(3D)面部重建的第一步骤中,任何合适的3D面部重建算法可以被用于从训练图像171重建3D面部。3D面部重建的结果可以包括面部形状、面部姿势、面部纹理、照明参数、相机参数等。
为了进一步提高不同训练图像的部分纹理图之间对齐的准确度,随后进行3D几何细化的第二步骤。在第二步骤中,通过使用光度损失、3DMM参数的正则化和感知距离损失来细化3D面部重建的结果。此外,采用面部解析算法来解析面部边界。这对于避免在纹理空间中出现面部边界周围的背景像素(即非面部像素)非常重要。然后,基于重建的3D面部和相机参数确定部分纹理图的初始版本。
部分纹理图的初始版本可以是粗糙的,可以包括孤立的小孔,例如鼻子周围。在数据清洗的第三步骤中,部分纹理图的初始版本可以通过使用任何合适的形态学操作来简化。像这样,孤立的小孔可以被移除。然后,在纹理空间中引入的背景像素可以通过使用在第二步骤期间生成的面部解析信息来移除。如果背景像素过多,训练图像将被丢弃。如果背景像素的数目低于阈值,则获取部分纹理图的最终版本。
应当理解,以上关于转换器201所描述的步骤和操作仅仅是示例。转换器201可以用任何合适的步骤和操作来实现。
备选地,在一些其它实现中,可以不包括这样的转换器,而是训练集170可以包括分别对应于训练图像171、172和173的部分纹理图210、320和330。
纹理生成模型
根据TG模型181从部分纹理图210生成训练图像171中参考面部的完整纹理图220。完整纹理图220包括训练图像171中的可见纹理和由TG模型181所推断的纹理两者。
除了部分纹理图210之外,对应于部分纹理图210的可见性掩码可以被输入到TG模型181。备选地,可见性掩码可以由基于部分纹理图210的TG模型181导出。可见性掩码指示部分纹理图210中的有效像素和无效像素。有效像素是指包括来自训练图像171的可见纹理的像素,并且无效像素是指缺乏来自训练图像171的可见纹理的像素。例如,有效像素和无效像素可以分别用1和0指示。
TG模型181可以通过任何合适的网络结构来实现。作为示例,TG模型181可以包括下采样层、残差块和上采样层。在一些实现中,可以在残差块之间添加扩张卷积以扩大感受野。扩张卷积是通过在核元素之间插入孔来扩展卷积核的一种卷积。在这样的实现中,扩张卷积可以促进高分辨率图像的生成。
对于TG模型181的输入,部分纹理图210可以用噪声进行预处理。在示例中,部分纹理图210可以与具有高斯随机噪声图像的噪声纹理级联,其中噪声仅存在于部分纹理图210的无效像素中。然后,级联的部分纹理图210和噪声纹理被水平翻转,并与原始部分纹理图210级联,以施加弱对称一致性。在该示例中,噪声与部分纹理图210结合作为另一个通道,而不改变部分纹理图210的RGB值。备选地,在另一个示例中,噪声纹理可以被添加到部分纹理图210,使得基于噪声纹理改变每个无效像素的RGB值。在该示例中,噪声与部分纹理图210结合,而不改变部分纹理图210的通道数目。应当理解,上述预处理部分纹理图210的示例是为了说明的目的而给出的,而不限制保护范围。部分纹理图210可以用任何合适的方式进行预处理。
在下文中,部分纹理图210被表示为Tinc,可见性掩码被表示为Mtex,并且完整纹理图220被表示为Tpred。纹理生成模型181的输出被用于计算针对有效像素的自重建损失,如下等式(1)所示:
其中(i,j)表示完整纹理图中的像素,⊙是Hadamard乘积。
应当理解,以上关于部分纹理图210的网络结构和处理仅仅是示例,本公开的保护范围不限于此。
纹理判别模型
完整纹理图220的后续处理包括纹理空间中的处理和图像空间中的处理。在纹理空间中,块选择器203被用于选择完整纹理图220中的至少一个块。如本文所使用的,纹理图中的块是指包括纹理图的多个像素的区域。所选择的至少一个块将用于TD模型182。
为此,从完整纹理图220确定多个候选块。在一些实现中,完整纹理图220可以被划分为多个候选块。由此,多个候选块的候选块彼此不重叠。
在一些实现中,多个候选块可以由具有步幅stridec和裁剪大小widthc的滑动裁剪窗口来定义。由此,多个候选块的一些候选块彼此重叠。裁剪大小widthc,即候选块的大小,可以依赖于完整纹理图220的宽度widthI来优化。如果裁剪大小widthc太小,则TD模型182不太可能捕获重要的纹理模式,而大的裁剪大小widthc将导致较少的候选块。作为示例,步幅stridec可以被设置为widthI/32,并且裁剪大小widthc可以被设置为stridec×2。应当理解,上述步幅和裁剪大小的值仅用于说明目的,而不限制保护范围。
从多个候选块中选择要被用于TD模型182的至少一个块。在一些实现中,针对多个候选块中的每一块,确定有效像素的数目与多个像素的数目的比率。该比率可以通过使用可见性掩码Mtex来计算。如果比率超过第一阈值,则候选块被分类为有效块,这意味着块的大多数纹理在训练图像171中可见。如果比率低于第二阈值,则候选块被分类为无效块,这意味着块的大多数纹理由TG模型181推断。如果比率在第一阈值和第二阈值之间,则候选块被分类为剩余块。作为示例,第一阈值可以是0.9并且第二阈值可以是0.65。应当理解,第一阈值和第二阈值的上述值仅用于说明,而不限制保护范围。
被分类为有效块或无效块的候选块被选择用于输入到TD模型182中。图2示出了覆盖在完整纹理图220上的有效块和无效块的一些示例。现在参考图4。图4示出了根据本公开的一些实现的示例有效块和无效块。仅出于说明的目的,示例有效块和无效块被示出覆盖在部分纹理图410、420、430和440上。然而,应当理解,有效块和无效块是从完整纹理图中选择的。
现在参考图2。所选择的块,可以包括有效块和无效块,被输入到TD模型182中。由此,有效块可以被分配1的标签,无效块可以被分配0的标签。TD模型182确定关于所选择的块中的每个块是否包括所推断的纹理的预测(也称为“第一预测”)。换句话说,TD模型182确定关于所选择的块中每个块是无效块还是有效块的预测。无效块可以被认为是假块,并且有效块可以被认为是真块。然后,对抗损失261被计算为以下等式(2):
其中DT(·)表示TD模型182,Cval表示有效块,Chol表示无效块,并且z表示与部分纹理图210的无效像素串联或添加到无效像素的随机噪声,如上所述。
鉴于面部纹理具有规范结构,在完整纹理图220中,纹理模式和块的位置之间存在很强的关系。例如,胡须只存在于嘴巴和下巴周围,而脸颊通常具有均匀的纹理。因此,在一些实现中,块的位置信息可以与块的纹理信息相结合。像这样,可以学习语义正确的纹理。
具体地,完整纹理图220中每个所选择的块的位置可以基于纹理判别模型182的中间层的输出来预测。完整纹理图220中每个所选择的块的位置和实际位置之间的差异可以被确定以训练TG模型181、TD模型182和ID模型183。
在这样的实现中,TD模型182可以被实现为条件鉴别器,并通过回归完整纹理图220中所选择的块的坐标来训练。例如,可以在TD模型182中卷积层的末尾添加子分支作为回归器,诸如辅助分类器GAN(AC-GAN)。由此,位置回归损失262被计算为以下等式(3):
其中Reg(C)表示预测坐标,posC表示所选择的块C的归一化坐标,并且K是所选择的块的总数目。
在这样的实现中,除了等式(2)表达的对抗损失261之外,还使用等式(3)表达的位置回归损失262。利用对抗损失261,TD模型182可以关注块的局部纹理。利用位置回归损失262,TD模型182可以学习纹理的全局一致性。以此方式,可以在纹理空间中学习结构信息,这有助于高保真度的纹理的生成。
图像判别模型
现在描述图像空间中的完整纹理图220的处理。在图像空间中,完整纹理图220被输入到绘制202以生成参考面部的新图像。在下文中,新图像被称为预测图像230。应当理解,虽然仅描述了一个预测图像,但绘制202可以生成参考面部的多个预测图像。绘制202可以以任何合适的方式实现。例如,绘制202可以被实现为可微分网格绘制器。
如图2所示,姿势选择器204可以被用于为预测图像230中的参考面部选择目标姿势。在一些实现中,姿势选择器204可以随机选择目标姿势,并确保目标姿势不同于训练图像171中的原始姿势。
在一些实现中,姿势选择器204可以基于训练集170中面部的姿势的分布来确定目标姿势。例如,姿势选择器204可以计算多个训练图像171、172和173中面部的姿势的分布。基于所计算的分布随机选择目标姿势。姿势选择器204可以基于所计算的分布随机选择目标姿势但确保目标姿势不同于训练图像171中的原始姿势。
在这样的实现中,预测图像中的目标姿势可以具有与训练图像中的姿势相同的分布。以此方式,确保ID模型183对纹理而不是对姿势敏感。这对于训练集中面部的姿势不均匀分布的情况很重要。例如,某个训练集可能偏向于正面脸部。在这种情况下,如果不考虑分布,ID模型183将基于其间的不同分布将所生成的图像与训练图像区分开来。
关于目标姿势的信息从姿势选择器204输入到绘制202。像这样,所预测的图像230由绘制202基于目标姿势和完整纹理图220被绘制。
继续图2,将边界掩码应用于训练图像171以产生掩蔽的训练图像240。边界掩码指示训练图像171中面部的边界。在掩蔽的训练图像240中,表示参考面部的像素保持不变,而表示背景的像素被掩蔽。
将所预测的图像230和掩蔽的训练图像240输入到ID模型183中。ID模型183确定关于掩蔽训练图像240和预测图像230是否是所生成的图像的预测。换句话说,ID模型183确定关于训练图像171和所预测的图像230中的每一个是真图像还是假图像的预测(也称为“第二预测”)。然后,基于ID模型183的预测确定图像空间中的对抗损失263。
在一些实现中,预测可以按照图块来确定。图块的大小反映ID模型183的感受野大小,并被选择为足够大以捕获面部的结构信息。ID模型183可以预测是否生成了掩蔽的训练图像240中的第一组图块和所预测的图像230中的第二组图块。为了计算对抗损失263,确定对应于第一组图块的第一组标签。由于训练图像171是未经处理的数据,第一组标签中的每个标签指示第一组图块的相应的图块不是所生成的图块,即真图块。因此,对掩蔽的训练图像240使用统一的标签。
与掩蔽的训练图像240不同,所预测的图像230包括有效像素和所预测的像素。有效像素包括来自训练图像171的可见纹理,并且所预测的像素包括来自完整纹理图220的所推断的纹理。通常,在所预测的图像230中,所预测的像素的数目与像素的总数目相比较小。换句话说,有效像素(可以被认为是真像素)和所预测的像素(可以被认为是假像素)高度不平衡。由此,基于训练图像171中第二组图块的纹理的可见性确定对应于第二组图块的第二组标签。因此,空间变化的标签被用于所预测的图像230。
在一些实现中,基于有效像素的数目可以确定所预测的图像230的空间变化的标签。对于第二组图块的给定图块,确定给定图块中有效像素放入数目与给定图块中像素的数目的比率。如果比率超过阈值(例如0.9),则可以将给定图块视为真图块而不是所生成的图块。由此,将第一标签分配给给定图块。如果比率低于阈值,则可以将给定图块视为假图块,即所生成的图块。相应地,将与第一标签不同的第二标签分配给给定图块。例如,第一标签可以具有值1,第二标签可以具有值0。
在一些实现中,所预测的图像230的空间变化的标签可以通过使用可见性掩码Mtex来确定。具体地,对应于所预测的图像230的所绘制的可见性掩码Mimg被确定为如下等式(4):
Mimg=DR(Mtex,p) (4)
其中DR(·)表示绘制202,p表示由姿势选择器204选择的目标姿势。
重新调整所绘制的可见性掩码Mimg的大小以形成标签图。标签图指示对应于第二组图块的第二组标签。为了获取标签图,对所绘制的可见性掩码Mimg执行与第二组图块相关联的卷积运算。例如,对所绘制的可见性掩码Mimg执行跟随步幅采样的低通滤波。为了反映ID模型183的感受野大小,使用与ID模型183的卷积核的相同的数目和大小进行低通滤波。结果,获取包括多个元素的未经处理的标签图。未经处理的标签图中的元素对应于卷积核感知的所预测的图像230中的图块。因此,元素的值可以被认为是对应的图块中像素的值的加权平均。然后,将标签1分配给具有高于阈值(例如0.9)的值的元素以指示真图块。将标签0分配给具有低于阈值的值的元素以指示假图块。像这样,未经处理的标签图被二值化为所预测的图像230的标签图。
在这样的实现中,对抗损失263被计算为以下等式(5)和(6):
Ipred=DR(Tpred,p) (6)
其中DI(·)表示ID模型183,Igt表示真知图像,即掩蔽的训练图像240,Iimg表示标签图,即空间变化的标签,Ipred表示所预测的图像230,并且Tpred表示完整纹理图220。
为了更好地理解空间变化的标签,现在参考图5。图5示出了由绘制202生成的所预测的图像511和所预测的图像521。所预测的图像511和521中的黑色区域表示这些区域的纹理在对应的训练图像中是不可见的,并且这些区域是基于所推断的纹理从完整的纹理图生成的。图5示出了对应于所预测的图像511的所绘制的可见性掩码512和对应于所预测的图像521的所绘制的可见性掩码522。所绘制的可见性掩码512和522是通过使用等式(4)生成的。所预测的图像511的标签图513可以通过对所绘制的可见性掩码512执行卷积运算来生成。类似地,可以通过对所绘制的可见性掩码522执行卷积运算来生成用于所预测的图像521的标签图523。
假设所预测的图像511和521各自具有448×448的分辨率,并且ID模型183输出14×14预测。由此,每个预测的感受野大小为286×286,其大到足以捕获面部的结构信息。在这种情况下,标签图513包括与所预测的图像511中的14×14图块对应的14×14标签。类似地,标签图523包括与所预测的图像521中的14×14图块对应的14×14标签。以黑色显示的标签指示假图块,并且以白色显示的标签指示真图块。
在这样的实现中,通过空间变化的标签,包括可见纹理的图块和缺少可见纹理的图块可以彼此区分开来。以此方式,ID模型183可以更专注于缺少可见纹理的图块,这可以促进高保真度的纹理的生成。
示例总损失
现在参考图2。TG模型181、TD模型182和ID模型183基于纹理空间中的对抗损失261、回归损失262、图像空间中的对抗损失263和自构建损失(未示出)进行训练。TG模型181的总损失可以被定义为以下等式(7),TD模型182和ID模型183的总损失/>可以被定义为以下等式(8):
其中,表示由等式(5)表达的TG模型181的图像空间中的对抗损失,/>表示由等式(5)表达的TD模型182和ID模型183的图像空间中的对抗损失,/>表示由等式(2)表达的TG模型181的纹理空间中的对抗损失,/>表示由等式(2)表达的TD模型182和ID模型183的纹理空间中的对抗损失,/>表示由等式(3)表达的回归损失,并且/>表示由等式(1)表达的自构建损失,wimg、wloc、wcoord和wrec表示对应损失的权重。
通过纹理空间和图像空间中的两个判别模型的使用,可以无监督地学习没有任何完整纹理的纹理补全。详细的纹理模式可以通过纹理空间中的纹理判别模型学习,而不同光照条件引起的一般面部结构、核心语义组件和整体颜色梯度可以通过图像空间中的图像判别模型学习。以此方式,经训练的纹理生成模型可以生成具有高保真度的完整纹理。
示例方法和实现
图6示出了根据本公开的实现的方法600的流程图。方法600可以由计算设备100实现,例如可以在计算设备100的存储器120中的训练模块122处实现。
如图6所示,在框610,根据纹理生成模型,从对象的部分纹理图生成对象的完整纹理图。部分纹理图包括对象的第一图像中的可见纹理,并且完整纹理图包括可见纹理和所推断的纹理。在框620,计算设备100根据纹理判别模型,确定关于完整纹理图中的至少一个块是否包括所推断的纹理的第一预测。在框630,计算设备100根据图像判别模型,确定关于对象的第一图像和第二图像是否是所生成的图像的第二预测。第二图像是基于完整纹理图生成的。在框640,计算设备100基于第一预测和第二预测,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,训练纹理生成模型、纹理判别模型和图像判别模型包括:基于纹理判别模型的中间层的输出,预测完整纹理图中的至少一个块的位置;以及还基于完整纹理图中的至少一个块的所预测的位置和实际位置之间的差异,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,方法600还包括:从完整纹理图确定多个块,多个块中的每个块包括完整纹理图的多个像素;针对多个块中的每个块,确定有效像素的数目与多个像素的数目的第一比率,有效像素包括第一图像中的可见纹理;以及基于针对多个块所确定的相应的第一比率,从多个块选择至少一个块,针对所选择的至少一个块而确定的第一比率超过第一阈值或低于第二阈值,并且第一阈值超过第二阈值。
在一些实现中,确定第二预测包括:通过根据图像判别模型预测第一图像中的第一组图块和第二图像中的第二组图块是否是所生成的图块,确定第二预测。训练纹理生成模型、纹理判别模型和图像判别模型包括:确定与第一组图块对应的第一组标签,第一组标签中的每个标签指示第一组图块中的相应的图块不是所生成的图块;基于第二组图块的纹理在第一图像中的可见性,确定与第二组图块对应的第二组标签;以及基于第二预测、第一组标签和第二组标签,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,确定与第二组图块对应的第二组标签包括:生成指示第二图像中的有效像素和无效像素的可见性掩码,有效像素包括第一图像中的可见纹理,并且无效像素包括来自完整纹理图的所推断的纹理;以及通过对可见性掩码执行与第二组图块相关联的卷积运算,确定第二组标签。
在一些实现中,确定与第二组图块对应的第二组标签包括:针对第二组图块中的给定图块,确定给定图块中有效像素的数目与给定图块中像素的数目的第二比率,有效像素包括第一图像中的可见纹理;如果确定第二比率超过阈值,向给定图块分配第一标签,第一标签指示给定图块不是所生成的图块;以及如果确定第二比率低于阈值,向给定图块分配第二标签,第二标签指示给定图块是所生成的图块。
在一些实现中,方法600还包括:基于包括第一图像的多个训练图像中对象的姿势的分布,确定对象的目标姿势;以及基于完整纹理图和目标姿势,生成第二图像。
在一些实现中,对象包括人脸。
图7示出了根据本公开的实现的方法700的流程图。方法700可以由计算设备100或另一个计算设备实现。方法700在推理阶段期间被执行。
如图7所示,在框710,计算设备获取另一对象的部分纹理图,部分纹理图包括另一对象的第三图像中的可见纹理。该部分纹理图可以是通过任何合适的方法生成的。备选地,该部分纹理图可以由计算设备如上关于图2的转换器201生成的。例如,对应于面部图像191的部分纹理图192可以从面部图像191生成。
在框720,计算设备根据纹理生成模型从部分纹理图生成另一对象的完整纹理图。纹理生成模型由如上的方法600进行训练。完整纹理图包括第三图像中的可见纹理和由纹理生成模型所推断的纹理。例如,将部分纹理图192输入到经训练的TG模型181并且经训练的TG模型181从部分纹理图192生成面部图像191中的面部的完整纹理图193。
在一些实现中,方法700还包括确定另外的对象的目标姿势;以及基于完整纹理图和目标姿势生成另外的对象的第四图像。目标姿势不同于第三图像中另外的对象的姿势。例如,可以确定面部图像191中面部的新姿势。可以基于新姿势和完整纹理图193生成面部的新面部图像。
下面列出了本公开的一些示例实现。
在第一方面,本公开提供了一种计算机实现的方法。该方法包括:根据纹理生成模型,从对象的部分纹理图生成对象的完整纹理图,部分纹理图包括对象的第一图像中的可见纹理,并且完整纹理图包括可见纹理和所推断的纹理;根据纹理判别模型,确定关于完整纹理图中的至少一个块是否包括所推断的纹理的第一预测;根据图像判别模型,确定关于对象的第一图像和第二图像是否是所生成的图像的第二预测,第二图像是基于完整纹理图生成的;以及基于第一预测和第二预测,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,训练纹理生成模型、纹理判别模型和图像判别模型包括:基于纹理判别模型的中间层的输出,预测完整纹理图中的至少一个块的位置;以及还基于完整纹理图中的至少一个块的所预测的位置和实际位置之间的差异,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,方法还包括:从完整纹理图确定多个块,多个块中的每个块包括完整纹理图的多个像素;针对多个块中的每个块,确定有效像素的数目与多个像素的数目的第一比率,有效像素包括第一图像中的可见纹理;以及基于针对多个块所确定的相应的第一比率,从多个块选择至少一个块,针对所选择的至少一个块而确定的第一比率超过第一阈值或低于第二阈值,并且第一阈值超过第二阈值。
在一些实现中,确定第二预测包括:通过根据图像判别模型预测第一图像中的第一组图块和第二图像中的第二组图块是否是所生成的图块,确定第二预测。训练纹理生成模型,纹理判别模型和图像辨识模型包括:确定与第一组图块对应的第一组标签,第一组标签中的每个标签指示第一组图块中的相应的图块不是所生成的图块;基于第二组图块的纹理在第一图像中的可见性,确定与第二组图块对应的第二组标签;以及基于第二预测、第一组标签和第二组标签,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,确定与第二组图块对应的第二组标签包括:生成指示第二图像中的有效像素和无效像素的可见性掩码,有效像素包括第一图像中的可见纹理,并且无效像素包括来自完整纹理图的所推断的纹理;以及通过对可见性掩码执行与第二组图块相关联的卷积运算,确定第二组标签。
在一些实现中,确定与第二组图块对应的第二组标签包括:针对第二组图块中的给定图块,确定给定图块中有效像素的数目与给定图块中像素的数目的第二比率,有效像素包括第一图像中的可见纹理;如果确定第二比率超过阈值,向给定图块分配第一标签,第一标签指示给定图块不是所生成的图块;以及如果确定第二比率低于阈值,向给定图块分配第二标签,第二标签指示给定图块是所生成的图块。
在一些实现中,方法还包括:基于包括第一图像的多个训练图像中对象的姿势的分布,确定对象的目标姿势;以及基于完整纹理图和目标姿势,生成第二图像。
在一些实现中,对象包括人脸。
在第二方面,本公开提供了一种计算机实现的方法,该方法包括:获取另一对象的部分纹理图,部分纹理图包括另一对象的第三图像中的可见纹理;以及根据纹理生成模型从部分纹理图生成另一对象的完整纹理图,纹理生成模型是通过根据第一方面的方法训练的,并且完整纹理图包括所推断的纹理和第三图像中的可见纹理。
在一些实现中,该方法还包括:确定另一对象的目标姿势;以及基于完整纹理图和目标姿势生成另一对象的第四图像,另一对象的目标姿势不同于第三图像中另一对象的姿势。
在第三方面,本公开提供了一种电子设备,设备包括处理单元;以及存储器,耦合到处理单元并且具有存储在其上的指令,指令在由处理单元执行时使设备执行动作,动作包括:根据纹理生成模型从对象的部分纹理图生成对象的完整纹理图,部分纹理图包括对象的第一图像中的可见纹理,并且完整纹理图包括可见纹理和所推断的纹理;根据纹理判别模型确定关于完整纹理图中的至少一个块是否包括所推断的纹理的第一预测;根据图像判别模型确定关于对象的第一图像和第二图像是否是所生成的图像的第二预测,第二图像是基于完整纹理图生成的;以及基于第一预测和第二预测,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,训练纹理生成模型、纹理判别模型和图像判别模型包括:基于纹理判别模型的中间层的输出,预测完整纹理图中的至少一个块的位置;以及还基于完整纹理图中的至少一个块的所预测的位置和实际位置之间的差异,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,动作还包括:从完整纹理图确定多个块,多个块中的每个块包括完整纹理图的多个像素;针对多个块中的每个块,确定有效像素的数目与多个像素的数目的第一比率,有效像素包括第一图像中的可见纹理;以及基于针对多个块所确定的相应的第一比率,从多个块选择至少一个块,针对所选择的至少一个块而确定的第一比率超过第一阈值或低于第二阈值,并且第一阈值超过第二阈值。
在一些实现中,确定第二预测包括:通过根据图像判别模型预测第一图像中的第一组图块和第二图像中的第二组图块是否是所生成的图块,确定第二预测。训练纹理生成模型,纹理判别模型和图像辨识模型包括:确定与第一组图块对应的第一组标签,第一组标签中的每个标签指示第一组图块中的相应的图块不是所生成的图块;基于第二组图块的纹理在第一图像中的可见性,确定与第二组图块对应的第二组标签;以及基于第二预测、第一组标签和第二组标签,训练纹理生成模型、纹理判别模型和图像判别模型。
在一些实现中,确定与第二组图块对应的第二组标签包括:生成指示第二图像中的有效像素和无效像素的可见性掩码,有效像素包括第一图像中的可见纹理,并且无效像素包括来自完整纹理图的所推断的纹理;以及通过对可见性掩码执行与第二组图块相关联的卷积运算,确定第二组标签。
在一些实现中,确定与第二组图块对应的第二组标签包括:针对第二组图块中的给定图块,确定给定图块中有效像素的数目与给定图块中像素的数目的第二比率,有效像素包括第一图像中的可见纹理;如果确定第二比率超过阈值,向给定图块分配第一标签,第一标签指示给定图块不是所生成的图块;以及如果确定第二比率低于阈值,向给定图块分配第二标签,第二标签指示给定图块是所生成的图块。
在一些实现中,动作还包括:基于包括第一图像的多个训练图像中对象的姿势的分布,确定对象的目标姿势;以及基于完整纹理图和目标姿势,生成第二图像。
在一些实现中,对象包括人脸。
在第四方面,本公开提供了一种电子设备,所述设备包括处理单元;以及存储器,耦合到所述处理单元并且具有存储在其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:获取另一对象的部分纹理图,所述部分纹理图包括所述另一对象的第三图像中的可见纹理;以及根据纹理生成模型从所述部分纹理图生成所述另一对象的完整纹理图,所述纹理生成模型是通过根据第一方面所述的方法训练的,并且所述完整纹理图包括所推断的纹理和所述第三图像中的所述可见纹理。
在一些实现中,该方法还包括:确定另一对象的目标姿势;以及基于完整纹理图和目标姿势生成另一对象的第四图像。另一对象的目标姿势不同于第三图像中另一对象的姿势。
在第五方面,本公开提供了一种计算机程序产品,该计算机程序产品被有形地存储在计算机存储介质上,并包括机器可执行指令,当由设备执行时,该指令使设备执行第一方面的方法。
在第六方面,本公开提供了一种计算机程序产品,该计算机程序产品被有形地存储在非瞬态计算机存储介质上,并包括机器可执行指令,当由设备执行时,该指令使设备执行第二方面的方法。
在第七方面,本公开提供了一种计算机可读介质,其上存储有机器可执行指令,当由设备执行时,该指令使设备执行第一方面的方法的一个或多个实现。
在第八方面,本公开提供了一种计算机可读介质,其上存储有机器可执行指令,当由设备执行时,使设备执行第二方面的方法的一个或多个实现。
这里描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。
用于执行本公开的方法的程序代码可以用一种或多种编程语言的任意组合编写。程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,当由处理器或控制器执行时,程序代码使得流程图和/或框图中特定的功能/操作得以实现。程序代码可以全部或部分地在机器上执行,部分地在机器上作为独立软件包执行,部分地在远程机器上执行,或者完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是任何有形介质,该有形介质可以包含或存储用于由指令执行系统、装置或设备使用或与之结合使用的程序。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子、磁、光、电磁、红外或半导体的系统、装置或设备,或前述的任何合适的组合。机器可读存储介质的更具体的示例将包括具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或上述任何适当的组合。
此外,虽然以特定顺序描绘了操作,但这不应被理解为要求以所示的特定顺序或顺序执行此类操作,或者要求执行所有所示的操作以实现期望的结果。在某些情况下,多任务和并行处理可以是有利的。同样,虽然上述讨论中包含了几个具体的实现细节,但这些不应被解释为对本公开的范围的限制,而应被理解为对可以特定于具体实现的特征的描述。在单独实现的上下文中描述的某些特征也可以组合在单个实现中实现。相反,在单个实现中描述的各种特征也可以单独地或以任何合适的子组合在多个实现中实现。
尽管已经用特定于结构特征和/或方法动作的语言描述了该主题,但是应当理解,所附权利要求中特定的主题不一定限于上述特定特征或动作。相反,上述特定特征和动作是作为实现权利要求的示例形式公开的。
Claims (15)
1.一种计算机实现的方法,包括:
根据纹理生成模型,从对象的部分纹理图生成所述对象的完整纹理图,所述部分纹理图包括所述对象的第一图像中的可见纹理,并且所述完整纹理图包括所述可见纹理和所推断的纹理;
根据纹理判别模型,确定关于所述完整纹理图中的至少一个块是否包括所推断的纹理的第一预测;
根据图像判别模型,确定关于所述对象的所述第一图像和第二图像是否是所生成的图像的第二预测,所述第二图像是基于所述完整纹理图生成的;以及
基于所述第一预测和所述第二预测,训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型。
2.根据权利要求1所述的方法,其中训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型包括:
基于所述纹理判别模型的中间层的输出,预测所述完整纹理图中的所述至少一个块的位置;以及
还基于所述完整纹理图中的所述至少一个块的所预测的所述位置和实际位置之间的差异,训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型。
3.根据权利要求1所述的方法,还包括:
从所述完整纹理图确定多个块,所述多个块中的每个块包括所述完整纹理图的多个像素;
针对所述多个块中的每个块,确定有效像素的数目与所述多个像素的数目的第一比率,有效像素包括所述第一图像中的可见纹理;以及
基于针对所述多个块所确定的相应的第一比率,从所述多个块选择所述至少一个块,针对所选择的所述至少一个块而确定的所述第一比率超过第一阈值或低于第二阈值,并且所述第一阈值超过所述第二阈值。
4.根据权利要求1所述的方法,
其中确定所述第二预测包括:
通过根据所述图像判别模型预测所述第一图像中的第一组图块和所述第二图像中的第二组图块是否是所生成的图块,确定所述第二预测,以及
其中训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型包括:
确定与所述第一组图块对应的第一组标签,所述第一组标签中的每个标签指示所述第一组图块中的相应的图块不是所生成的图块;
基于所述第二组图块的纹理在所述第一图像中的可见性,确定与所述第二组图块对应的第二组标签;以及
基于所述第二预测、所述第一组标签和所述第二组标签,训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型。
5.根据权利要求4所述的方法,其中确定与所述第二组图块对应的所述第二组标签包括:
生成指示所述第二图像中的有效像素和无效像素的可见性掩码,有效像素包括所述第一图像中的可见纹理,并且无效像素包括来自所述完整纹理图的所推断的纹理;以及
通过对所述可见性掩码执行与所述第二组图块相关联的卷积运算,确定所述第二组标签。
6.根据权利要求4所述的方法,其中确定与所述第二组图块对应的所述第二组标签包括:
针对所述第二组图块中的给定图块,确定所述给定图块中有效像素的数目与所述给定图块中像素的数目的第二比率,有效像素包括所述第一图像中的可见纹理;
如果确定所述第二比率超过阈值,向所述给定图块分配第一标签,所述第一标签指示所述给定图块不是所生成的图块;以及
如果确定所述第二比率低于所述阈值,向所述给定图块分配第二标签,所述第二标签指示所述给定图块是所生成的图块。
7.根据权利要求1所述的方法,还包括:
基于包括所述第一图像的多个训练图像中对象的姿势的分布,确定所述对象的目标姿势;以及
基于所述完整纹理图和所述目标姿势,生成所述第二图像。
8.一种计算机实现的方法,包括:
获取另一对象的部分纹理图,所述部分纹理图包括所述另一对象的第三图像中的可见纹理;以及
根据纹理生成模型从所述部分纹理图生成所述另一对象的完整纹理图,所述纹理生成模型是通过根据权利要求1至7中任一项所述的方法训练的,并且所述完整纹理图包括所推断的纹理和所述第三图像中的所述可见纹理。
9.一种电子设备,包括:
处理单元;以及
存储器,耦合到所述处理单元并且具有存储在其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
根据纹理生成模型从对象的部分纹理图生成所述对象的完整纹理图,所述部分纹理图包括所述对象的第一图像中的可见纹理,并且所述完整纹理图包括所述可见纹理和所推断的纹理;
根据纹理判别模型确定关于所述完整纹理图中的至少一个块是否包括所推断的纹理的第一预测;
根据图像判别模型确定关于所述对象的所述第一图像和第二图像是否是所生成的图像的第二预测,所述第二图像是基于所述完整纹理图生成的;以及
基于所述第一预测和所述第二预测,训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型。
10.根据权利要求9所述的设备,其中训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型包括:
基于所述纹理判别模型的中间层的输出,预测所述完整纹理图中的所述至少一个块的位置;以及
还基于所述完整纹理图中的所述至少一个块的所预测的所述位置和实际位置之间的差异,训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型。
11.根据权利要求9所述的装置,其中所述动作还包括:
从所述完整纹理图确定多个块,所述多个块中的每个块包括所述完整纹理图的多个像素;
针对所述多个块中的每个块,确定有效像素的数目与所述多个像素的数目的第一比率,有效像素包括所述第一图像中的可见纹理;以及
基于针对所述多个块所确定的相应的第一比率,从所述多个块选择所述至少一个块,针对所选择的所述至少一个块而确定的所述第一比率超过第一阈值或低于第二阈值,并且所述第一阈值超过所述第二阈值。
12.根据权利要求9所述的设备,其中所述动作还包括:
基于包括所述第一图像的多个训练图像中对象的姿势的分布,确定所述对象的目标姿势;以及
基于所述完整纹理图和所述目标姿势,生成所述第二图像。
13.一种电子设备,包括:
处理单元;以及
存储器,耦合到所述处理单元并且具有存储在其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
获取另一对象的部分纹理图,所述部分纹理图包括所述另一对象的第三图像中的可见纹理;以及
根据纹理生成模型从所述部分纹理图生成所述另一对象的完整纹理图,所述纹理生成模型是通过根据权利要求1至7中任一项所述的方法训练的,并且所述完整纹理图包括所推断的纹理和所述第三图像中的所述可见纹理。
14.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机存储介质上并且包括计算机可执行指令,所述计算机可执行指令在由设备执行时使所述设备执行动作,所述动作包括:
根据纹理生成模型从对象的部分纹理图生成所述对象的完整纹理图,所述部分纹理图包括所述对象的第一图像中的可见纹理,并且所述完整纹理图包括所述可见纹理和所推断的纹理;
根据纹理判别模型确定关于所述完整纹理图中的至少一个块是否包括所推断的纹理的第一预测;
根据图像判别模型确定关于所述对象的所述第一图像和第二图像是否是所生成的图像的第二预测,所述第二图像是基于所述完整纹理图生成的;以及
基于所述第一预测和所述第二预测,训练所述纹理生成模型、所述纹理判别模型和所述图像判别模型。
15.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机存储介质上并且包括计算机可执行指令,所述可执行指令在由设备执行时使得所述设备执行动作,所述动作包括:
获取另一对象的部分纹理图,所述部分纹理图包括所述另一对象的第三图像中的可见纹理;以及
根据纹理生成模型从所述部分纹理图生成所述另一对象的完整纹理图,所述纹理生成模型是通过根据权利要求1至7中任一项所述的方法训练的,并且所述完整纹理图包括所述第三图像中的所述可见纹理和所推断的纹理。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/090047 WO2022226744A1 (en) | 2021-04-26 | 2021-04-26 | Texture completion |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117441195A true CN117441195A (zh) | 2024-01-23 |
Family
ID=83847624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180097514.1A Pending CN117441195A (zh) | 2021-04-26 | 2021-04-26 | 纹理补全 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240161382A1 (zh) |
EP (1) | EP4330932A1 (zh) |
CN (1) | CN117441195A (zh) |
WO (1) | WO2022226744A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937409A (zh) * | 2022-10-19 | 2023-04-07 | 中国人民解放军军事科学院国防科技创新研究院 | 反视觉智能的对抗攻击纹理生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018102700A1 (en) * | 2016-12-01 | 2018-06-07 | Pinscreen, Inc. | Photorealistic facial texture inference using deep neural networks |
CN110378230B (zh) * | 2019-06-19 | 2024-03-05 | 平安科技(深圳)有限公司 | 失踪人脸识别方法、装置、计算机设备和存储介质 |
CN111881926A (zh) * | 2020-08-24 | 2020-11-03 | Oppo广东移动通信有限公司 | 图像生成、图像生成模型的训练方法、装置、设备及介质 |
-
2021
- 2021-04-26 CN CN202180097514.1A patent/CN117441195A/zh active Pending
- 2021-04-26 WO PCT/CN2021/090047 patent/WO2022226744A1/en active Application Filing
- 2021-04-26 EP EP21938235.5A patent/EP4330932A1/en active Pending
- 2021-04-26 US US18/279,717 patent/US20240161382A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022226744A1 (en) | 2022-11-03 |
EP4330932A1 (en) | 2024-03-06 |
US20240161382A1 (en) | 2024-05-16 |
WO2022226744A8 (en) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832069B2 (en) | Living body detection method, electronic device and computer readable medium | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111738243B (zh) | 人脸图像的选择方法、装置、设备及存储介质 | |
KR20200118076A (ko) | 생체 검출 방법 및 장치, 전자 기기 및 저장 매체 | |
CN112419170A (zh) | 遮挡检测模型的训练方法及人脸图像的美化处理方法 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN107959798B (zh) | 视频数据实时处理方法及装置、计算设备 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
WO2023069445A1 (en) | User input based distraction removal in media items | |
CN117252947A (zh) | 图像处理方法、装置、计算机、存储介质及程序产品 | |
CN114677737A (zh) | 生物信息识别方法、装置、设备及介质 | |
CN117441195A (zh) | 纹理补全 | |
CN117786058A (zh) | 一种多模态大模型知识迁移框架的构建方法 | |
CN116739901A (zh) | 一种视频超分处理方法、装置、电子设备及存储介质 | |
CN114463346B (zh) | 一种基于移动端的复杂环境快速舌分割装置 | |
KR20230150378A (ko) | 미디어 아이템에서 객체 세그먼트화 및 제거 | |
Liu et al. | DH-GAN: Image manipulation localization via a dual homology-aware generative adversarial network | |
CN115311723A (zh) | 活体检测方法、装置及计算机可读存储介质 | |
CN118097521B (zh) | 对象识别方法、装置、设备、介质及程序产品 | |
CN118071867B (zh) | 将文本数据转换为图像数据的方法和装置 | |
Messina et al. | An optimized pipeline for image-based localization in museums from egocentric images | |
CN117671473B (zh) | 基于注意力和多尺度特征融合的水下目标检测模型及方法 | |
CN113128253B (zh) | 一种三维人脸模型的重建方法及装置 | |
CN115115540B (zh) | 基于光照信息引导的无监督低光图像增强方法及装置 | |
CN118379586B (zh) | 关键点预测模型的训练方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |