CN117456102A - 一种编码器的训练方法和相关装置 - Google Patents
一种编码器的训练方法和相关装置 Download PDFInfo
- Publication number
- CN117456102A CN117456102A CN202311524813.6A CN202311524813A CN117456102A CN 117456102 A CN117456102 A CN 117456102A CN 202311524813 A CN202311524813 A CN 202311524813A CN 117456102 A CN117456102 A CN 117456102A
- Authority
- CN
- China
- Prior art keywords
- pixel
- sample
- pixel point
- image
- projection image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 title claims abstract description 94
- 239000013598 vector Substances 0.000 claims abstract description 246
- 238000000605 extraction Methods 0.000 claims description 131
- 238000004590 computer program Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 16
- 238000009792 diffusion process Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 22
- 230000008569 process Effects 0.000 abstract description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 17
- 230000008447 perception Effects 0.000 abstract description 6
- 230000003190 augmentative effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000070023 Phoenicopterus roseus Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种编码器的训练方法和相关装置,可应用于云技术、人工智能、智慧交通、辅助驾驶、数字人、虚拟人、游戏、虚拟现实、扩展现实等场景。在提取三面体样本包括的各个投影平面的像素点的图像特征后,通过初始编码器将属于不同投影图像的像素点的图像特征在物理意义上对齐,得到三维模型样本的表面上各个位置的子特征向量。根据各个位置的子特征向量,得到三面体样本的第一特征向量。由此,在初始训练编码器的过程中,通过将属于不同投影图像的像素点的图像特征在物理意义上对齐,不仅没有引入噪声,还实现了不同投影平面的特征之间的感知,提高了通过编码器特征提取得到的第一特征向量的准确性,进而提高后续三维重建的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种编码器的训练方法和相关装置。
背景技术
在3D计算机图形和图像处理领域,位于空间中的三维模型分别向三个互相垂直的平面进行投影,得到三个投影图像,从而得到该三维模型对应的三面体(triplane)。三面体可以表示三维模型的表面的形状,通过三面体可以更容易地进行渲染、纹理映射、碰撞检测和其他图形处理操作。
相关技术中,通过训练得到的编码器,对三面体的特征提取。但是特征提取得到的特征向量的准确性较低。
发明内容
为了解决上述技术问题,本申请提供了一种编码器的训练方法和相关装置,用于提高通过编码器特征提取得到的特征向量的准确性。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种编码器的训练方法,所述方法包括:
获取三维模型样本对应的三面体样本,所述三面体样本为所述三维模型样本分别在三个平面上的投影图像,所述三个平面在空间中相互垂直;
提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述第一像素点表征所述三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,所述第二像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述第三像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述目标表面位置为所述三维模型样本的表面上的一个位置;
根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量;
根据所述子特征向量,确定针对所述三面体样本的第一特征向量;
通过解码器对所述第一特征向量进行解码,得到第一预测三面体;
根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器。
另一方面,本申请实施例提供一种编码器的训练装置,所述装置包括:获取单元、提取单元、第一确定单元、第二确定单元、第三确定单元、解码单元和调参单元;
所述获取单元,用于获取三维模型样本对应的三面体样本,所述三面体样本为所述三维模型样本分别在三个平面上的投影图像,所述三个平面在空间中相互垂直;
所述提取单元,用于提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
所述第一确定单元,用于根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述第一像素点表征所述三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,所述第二像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述第三像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述目标表面位置为所述三维模型样本的表面上的一个位置;
所述第二确定单元,用于根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量;
所述第三确定单元,用于根据所述子特征向量,确定针对所述三面体样本的第一特征向量;
所述解码单元,用于通过解码器对所述第一特征向量进行解码,得到第一预测三面体;
所述调参单元,用于所述根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,获取三维模型样本对应的三面体样本,三面体样本是三维模型样本分别在三个互相垂直的平面上的投影图像,通过三个投影图像能够描述三维模型样本的表面形状。提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定第一像素点、第二像素点和第三像素点。其中,三个像素点分别属于三个投影平面,而且三个像素点分别表征三维模型样本的表面上的三个位置,这三个位置分别与三维模型样本的表面上的目标表面位置之间的距离均小于预设距离阈值,说明三个像素点分别表征的三维模型样本的表面上的三个位置相距较近。根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,确定针对目标表面位置的子特征向量,由于子特征向量是根据根据物理意义上相距较近的三个图像特征确定的,故根据子特征向量得到的针对三面体样本的第一特征向量尽可能对齐了三个投影图像的图像特征,提高了第一特征向量的准确性。通过解码器对该第一特征向量进行解码,得到第一预测三面体,根据第一预测三面体和三面体样本之间的差异,调整初始编码器的参数,得到编码器,使得编码器确定的三个像素点越来越准确,即对三个投影图像的图像特征对齐的更准确,从而子特征向量和第一特征向量更为准确,提高了通过编码器特征提取得到的第一特征向量的准确性。
由此,在提取各个投影平面的像素点的图像特征后,通过编码器将像素点的图像特征在物理意义上对齐,得到三维模型样本的表面上各个位置的子特征向量,从而得到三面体样本的第一特征向量。在训练编码器的过程中,没有引入噪声的同时,实现了不同投影平面的特征之间的感知,提高了通过编码器特征提取得到的第一特征向量的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种三面体的示意图;
图2为本申请实施例提供的一种三面体的实体图;
图3为本申请实施例提供的一种特征提取的示意图;
图4为本申请实施例提供的一种编码器的训练方法的应用场景示意图;
图5为本申请实施例提供的一种编码器的训练方法的流程示意图;
图6为本申请实施例提供的一种三面体样本的示意图;
图7为本申请实施例提供的一种特征提取的示意图;
图8为本申请实施例提供的一种编码器和解码器的示意图;
图9为本申请实施例提供的一种特征提取模型的训练方法的示意图;
图10为本申请实施例提供的一种建立三维模型的示意图;
图11为本申请实施例提供的一种编码器的训练装置的结构示意图;
图12为本申请实施例提供的服务器的结构示意图;
图13为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,该图为本申请实施例提供的一种三面体的示意图。如图1中(A)图和(B)图均为一个三面体的示意图,不同之处在于三维模型在空间中的位置不同。以图1中(B)图为例,位于空间中的三维模型分别向三个互相垂直的平面进行投影,得到三个投影图像。参见图2,该图为本申请实施例提供的一种三面体的实体图。图2所示的三面体对应于图1中(B)图所示的三面体,三个相互垂直的平面分别为平面xoy、平面yoz和平面xoz。
相关技术中,通过训练得到的编码器,能够对三面体的特征提取。但是特征提取得到的特征向量的准确率较低。经过研究发现,编码器采用全卷积的方式进行特征提取,全卷积的方式不会考虑不同投影图像之间的相互关系,即默认不同投影图像的图像特征之间是对齐的,但是三面体的三个投影图像的图像特征相互依赖,其在物理意义上并不是对齐的,从而导致通过全卷积的方式进行特征提取,得到的特征向量的准确性较低。
继续参见图2,三维模型在平面xoz中的投影图像的位置位于x轴第2个格子和z轴第2个格子,三维模型在平面xoy中的投影图像的位置位于x轴第2个格子和y轴第3个格子,三维模型在平面yoz中的投影图像的位置位于y轴第4个格子和z轴第4个格子。
由此可见,三个投影图像在三个平面的位置不同,从而三个投影图像的图像特征在空间位置上面并不是一一对齐的,即三个投影图像的图像特征在物理意义上并不是对齐的,可能会存在较大跨度的信息联系。若直接使用全卷积的方式会忽视距离较远的特征之间的关系,从而导致特征提取的效果较差。
参见图3,该图为本申请实施例提供的一种特征提取的示意图。三个投影图像分别对应的特征会叠在一起。以卷积核的大小为3*3*3为例,在采样的过程中,由于跨度较大,导致不是每次采样都能采集到所有投影图像的特征,如针对平面yoz的采样采集不到投影图像。而且三个投影图像的图像特征在物理意义上并不是对齐的。由此,根据错位的特征对模型进行训练,相当于在训练过程中引入了噪声,从而不能正确训练模型,进而导致通过模型特征提取得到的特征向量的准确性较低。
基于此,本申请实施例提供一种编码器的训练方法和相关装置,在提取各个投影平面的像素点的图像特征后,通过编码器将像素点的图像特征在物理意义上对齐,得到三维模型样本的表面上各个位置的子特征向量,从而得到三面体样本的第一特征向量。在训练编码器的过程中,没有引入噪声的同时,实现了不同投影平面的特征之间的感知,提高了通过编码器特征提取得到的第一特征向量的准确性。
本申请提供的编码器的训练方法可以应用于各种场景,包括但不限于云技术、人工智能、数字人、虚拟人、游戏、虚拟现实(Virtual Reality,VR)、增强现实(AugmentedReality,AR)、扩展现实(Extended Reality,XR)、混合现实(Mixed Reality,MR)等。尤其是,可以广泛应用在三面体(triplane)相关的三维空间(Three Dimensions,3D)重建、3D检索、3D生成等场景。例如,在游戏中,可以针对英雄角色、非玩家角色(non-playercharacter,NPC)、物体、场景等三维模型生成中有广泛应用前景。
本申请提供的编码器的训练方法可以应用于具有编码器的训练能力的计算机设备,如终端设备、服务器。其中,终端设备具体可以为台式计算机、笔记本电脑、手机、平板电脑、物联网设备、VR设备、AR设备、XR设备、MR设备和便携式可穿戴设备等,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等,智能车载设备可以车载导航终端和车载电脑等,便携式可穿戴设备可为智能手表、智能手环、头戴设备等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为了便于理解本申请实施例提供的编码器的训练方法,下面以该编码器的训练方法的执行主体为服务器为例,对该编码器的训练方法的应用场景进行示例性介绍。
参见图4,该图为本申请实施例提供的一种编码器的训练方法的应用场景示意图。如图4所示,该应用场景中包括服务器400,服务器400可以是独立的、用于训练编码器的服务器,当完成编码器的训练后,可以将训练得到的编码器部署在产品对应的服务器或终端设备上,以便提供编码服务;服务器400也可以是提供为各种产品提供对应服务的服务器,提供的服务例如可以包括对三面体进行特征提取。下面以服务器400训练编码器为例进行说明。
服务器400获取三维模型样本对应的三面体样本。如图4所示,以前述图1中(A)图所示的正方体为三维模型样本,三面体样本是三维模型样本分别在三个互相垂直的平面上的投影图像,通过三个投影图像能够描述三维模型样本的表面形状。
服务器400提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。如图4所示,位于平面xoz的投影图像为第一投影图像,位于平面yoz的投影图像为第二投影图像,位于平面xoy的投影图像为第三投影图像,以第一投影图像中第5行第4列的像素点为例,其不仅具有图像特征,还具有像素位置。
服务器400根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定第一像素点、第二像素点和第三像素点。其中,三个像素点分别属于三个投影平面,而且三个像素点分别表征三维模型样本的表面上的三个位置,这三个位置分别与三维模型样本的表面上的目标表面位置之间的距离均小于预设距离阈值,说明三个像素点分别表征的三维模型样本的表面上的三个位置相距较近。如图4所示,由于三维模型样本位于三面体的空间中心,故三个其在三个投影面的位置相同,不会产生差异,即第一像素点为第一投影图像中第3行第3列的像素点,第二像素点为第二投影图像中第3行第3列的像素点,第三像素点为第三投影图像中第3行第3列的像素点。
服务器400根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,确定针对目标表面位置的子特征向量。由于子特征向量是根据根据物理意义上相距较近的三个图像特征确定的,故根据子特征向量得到的针对三面体样本的第一特征向量尽可能对齐了三个投影图像的图像特征,提高了第一特征向量的准确性。
服务器400通过解码器对该第一特征向量进行解码,得到第一预测三面体,根据第一预测三面体和三面体样本之间的差异,调整初始编码器的参数,得到编码器,使得编码器确定的三个像素点越来越准确,即对三个投影图像的图像特征对齐的更准确,从而子特征向量和第一特征向量更为准确,提高了通过编码器特征提取得到的第一特征向量的准确性。
由此,在提取各个投影平面的像素点的图像特征后,通过编码器将像素点的图像特征在物理意义上对齐,得到三维模型样本的表面上各个位置的子特征向量,从而得到三面体样本的第一特征向量。在训练编码器的过程中,没有引入噪声的同时,实现了不同投影平面的特征之间的感知,提高了通过编码器特征提取得到的第一特征向量的准确性。
本申请实施例所提供的编码器的训练方法可以由服务器执行。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的编码器的训练方法,或者由终端设备和服务器共同执行本申请实施例所提供的编码器的训练方法,本实施例对此不做限定。
下面通过方法实施例对本申请提供的编码器的训练方法进行详细介绍。
参见图5,该图为本申请实施例提供的一种编码器的训练方法的流程示意图。为了便于描述,下述实施例仍以该编码器的训练方法的执行主体为服务器为例进行介绍。如图5所示,该编码器的训练方法包括S501-S507。
S501:获取三维模型样本对应的三面体样本。
三维模型样本是用于训练初始编码器的样本数据,其本质是三维模型。三面体是三维模型分别在三个平面上的投影图像,三个平面在空间中相互垂直。三面体表示三维模型的表面的形状,通过三面体可以更容易地进行渲染、纹理映射、碰撞检测和其他图形处理操作。
三面体样本是三维模型样本对应的三面体,即三维模型样本分别在三个相互垂直的平面上的投影图像,每个平面对应一个投影图像,分别是第一投影图像、第二投影图像和第三投影图像。
参见图6,该图为本申请实施例提供的一种三面体样本的示意图。可以理解的是,该三面体样本是简化后的,如将图1中(B)图简化为图2。在图6中,三维模型样本为长方体,该长方体在平面xoz对应的投影图像为第一投影图像,在平面yoz对应第二投影图像,平面xoy对应第三投影图像。
本申请实施例不具体限定获取三面体样本的方式,例如,可以采用如一个用于高分辨率三维形状合成的混合表示方法(Deep Marching Tetrahedra,DMTet)等基于渲染的方式对每一个三维模型样本进行三面体重建。又如,可以采用如有向距离场(SignedDistance Field,SDF)等基于3D模型的方式对每一个三维模型样本进行三面体重建,从而获得各种三维模型对应的三面体,如图1中(A)图和(B)图所示。
S502:提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。
像素点是指投影图像中的最小单位,如分辨率为256×256的图像,其包括256×256的像素点。图像特征是一幅图像区别于另一幅图像最基本的特征,表征图像的特点。像素点的图像特征也能够表征该像素点的特点。
像素位置用于标识像素点在投影图像中的位置。例如,像素点在投影图像中按照矩阵的形式进行排列,可以通过第几行第几列描述像素点在投影图像的像素位置。又如,可以以一个像素点为基准,确定其他像素点与该像素点的相对位置,作为各个像素点在对应投影图像的像素位置。
本申请实施例不具体限定提取各个像素点的图像特征和像素位置的方式,本领域技术人员可以根据实际需要进行设置。例如,通过后续的初始编码器或其他独立的模型对各个投影图像进行特征提取,得到各个像素点的图像特征和像素位置。
S503:根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点。
由前述可知,相关技术中的编码器在特征提取过程中,没有考虑各个平面之间相互依赖的关系,即各个投影图像的像素点的图像特征之间具有关联关系,不是独立的。继续参见图1中(B)图,每个格子表示一个像素点,该三维模型在三个平面上的位置不同,如其在平面xoz上的像素位置为第2行第2列,在平面yoz上的像素位置为第4行第4列等。由于三个投影平面的像素位置存在错位的问题,若将其直接通过全卷积的方式训练编码器,由于全卷积的方式会忽略距离较远的像素点之间的关系,从而根据错位的图像特征对模型进行训练,相当于在训练过程中引入了噪声,从而不能正确训练模型,进而导致通过模型特征提取得到的特征向量的准确性较低。
基于此,本申请实施例在训练的过程中,会训练编码器基于像素位置尽量对齐像素点的图像特征,即虽然不同投影图像的像素点存在错位,但是训练初始编码器尽可能找到三维模型样本在表面上的一个位置在三个平面的投影点的像素位置,从而避免在训练过程中引入了噪声,提高编码器特征提取得到的特征向量的准确性。
具体地,根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点。
可以理解的是,每个平面的每个像素点均是通过三维模型样本投影得到的,即每个像素点与三维模型样本的表面的一个位置具有对应关系。以三维模型样本在表面上的一个位置为目标表面位置为例,第一像素点表征三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,第二像素点表征三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,第三像素点表征三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值。也就是说,第一像素点、第二像素点和第三像素点分别对应的三维模型样本的表面的一个位置与目标表面位置距离较近,即第一像素点、第二像素点和第三像素点分别对应的三维模型样本的表面上的三个位置距离较近。
本申请实施例不具体限定确定目标表面位置的方式,本领域技术人员可以根据实际需要进行设置。例如,可以将三维模型样本的表面上的任意一个位置作为目标表面位置,从而基于目标表面位置确定第一像素点、第二像素点和第三像素点。又如,可以从第一投影图像中任意确定一个像素点为第一像素点,基于第一像素点确定第二像素点和第三像素点,进而基于第一像素点、第二像素点和第三像素点确定目标表面位置。需要说明的是,在本申请实施例中,以目标表面位置为基准是为了更好地描述三个像素点分别对应的三维模型样本的表面上的三个位置距离较近,也不必非要确定一个目标表面位置。
S504:根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,确定针对目标表面位置的子特征向量。
由于第一像素点、第二像素点和第三像素点分别对应的三维模型样本的表面上的三个位置距离较近,故根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,确定的针对目标表面位置的子特征向量的准确性更高。
本申请实施例不具体限定确定针对目标表面位置的子特征向量的方式。例如,通过对第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征进行加权求和的方式,得到针对目标表面位置的子特征向量。又如,通过卷积核分别与第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征进行计算,得到针对目标表面位置的子特征向量。
S505:根据子特征向量,确定针对三面体样本的第一特征向量。
第一特征向量是三面体样本通过初始编码器得到的特征向量,相比于后续该三面体样本通过训练好的编码器得到的第三特征向量,第一特征向量的准确性小于或等于第三特征向量。
通过重复执行S503和S504,可以得到三维模型样本的表面的各个位置分别对应的子特征向量,从而根据三维模型样本的表面的各个位置分别对应的子特征向量,确定针对三面体样本的第一特征向量。由于子特征向量是根据根据物理意义上相距较近的三个图像特征确定的,故根据子特征向量得到的针对三面体样本的第一特征向量尽可能对齐了三个投影图像的图像特征,提高了第一特征向量的准确性。
作为一种可能的实现方式,S502-S505的每一个步骤可以通过不同模型实现,也可以通过初始编码器中的不同子模块实现,以编码器为神经网络模型为例,编码器可以包括多个层,一个子模块可以对应神经网络中的一层或多层,从而训练一个编码器可以直接得到较为准确的特征向量,方便快捷。
S506:通过解码器对第一特征向量进行解码,得到第一预测三面体。
解码器可以将特征向量还原为三面体,例如,通过解码器对第一特征向量进行解码,得到第一预测三面体。其中,第一预测三面体是三面体样本通过初始编码器编码后,再通过解码器解码得到的三面体。
本申请实施例不具体限定解码器的结构,例如,该解码器可以编码器的参数的反函数,这样编码器和解码器二者结构相似,参数相反,降低模型设计的复杂难度。
由于初始编码器能够基于像素位置,将位于三个投影图像的三个像素点的图像特征尽可能对齐,从而得到的针对三面体样本的第一特征向量的准确性较高,从而解码器对准确性较高的第一特征向量进行解码后,得到的第一预测三面体的准确性也较高。
S507:根据三面体样本和第一预测三面体之间的差异,调整初始编码器的参数,得到编码器。
由于初始编码器的训练目标是,使其输出的特征向量尽可能准确描述三面体样本,即三面体样本和第一预测三面体之间的差异。故基于三面体样本和第一预测三面体之间的差异,调整初始编码器的参数,通过不断训练,可以得到效果较好的编码器,即使得编码器确定的位于三个像素点越来越准确,即对三个投影图像的图像特征对齐的更准确,从而子特征向量和第一特征向量更为准确,提高了通过编码器特征提取得到的第一特征向量的准确性。
作为一种可能的实现方式,可以通过人工智能技术训练得到编码器。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述计算机视觉技术、自然语言处理技术等方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,通用视觉变形器骨干网络(swin-transformer)、图片分类网络(Vision Transformer,ViT),稀释视觉变形器(Vision Transformer,V-MOE),屏蔽自动编码器(masked autoencoder,MAE)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical CharacterRecognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学、数学和人工智能领域模型训练的重要技术。其中,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,预训练模型(Pre-training model,PTM),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(Parameter Efficient Fine-tuning,PEFT)、提示学习(prompt-tuning)等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(如ELMO、BERT、GPT等)、视觉模型(如swin-transformer、ViT、V-MOE等)、语音模型(如VALL-E)、多模态模型(如ViBERT、CLIP、Flamingo、Gato等)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(Artificial Intelligence Generated Content,AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
在本申请实施例提供的编码器的训练方法中,编码器可以是基于预训练模型得到的模型,也可以是变分自动编码器(Variational Autoencoder,VAE)中的编码器、三维空间自主卷积(3D aware convolution)模型与变形器(transformer)的结合模型等。
由上述技术方案可以看出,获取三维模型样本对应的三面体样本,三面体样本是三维模型样本分别在三个互相垂直的平面上的投影图像,通过三个投影图像能够描述三维模型样本的表面形状。提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定第一像素点、第二像素点和第三像素点。其中,三个像素点分别属于三个投影平面,而且三个像素点分别表征三维模型样本的表面上的三个位置,这三个位置分别与三维模型样本的表面上的目标表面位置之间的距离均小于预设距离阈值,说明三个像素点分别表征的三维模型样本的表面上的三个位置相距较近。根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,确定针对目标表面位置的子特征向量,由于子特征向量是根据根据物理意义上相距较近的三个图像特征确定的,故根据子特征向量得到的针对三面体样本的第一特征向量尽可能对齐了三个投影图像的图像特征,提高了第一特征向量的准确性。通过解码器对该第一特征向量进行解码,得到第一预测三面体,根据第一预测三面体和三面体样本之间的差异,调整初始编码器的参数,得到编码器,使得编码器确定的三个像素点越来越准确,即对三个投影图像的图像特征对齐的更准确,从而子特征向量和第一特征向量更为准确,提高了通过编码器特征提取得到的第一特征向量的准确性。
由此,在提取各个投影平面的像素点的图像特征后,通过编码器将像素点的图像特征在物理意义上对齐,得到三维模型样本的表面上各个位置的子特征向量,从而得到三面体样本的第一特征向量。在训练编码器的过程中,没有引入噪声的同时,实现了不同投影平面的特征之间的感知,提高了通过编码器特征提取得到的第一特征向量的准确性。
作为一种可能的实现方式,S502、S503、S504和S505可以通过不同模型实现,也可以通过初始编码器中的不同子模块实现,下面以初始编码器包括特征提取子模块和特征索引子模块,S502-S505均通过初始编码器实现为例进行说明。
首先,通过初始编码器中的特征提取子模块执行S502,即通过特征提取子模块提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。
然后,通过初始编码器中的特征索引子模块执行S503和S504。针对S503,即根据各个像素点在对应投影图像中的像素位置,通过特征索引子模块,从像素点集合中确定属于确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,其中,像素点集合包括各个投影图像中各个像素点。也就是说,该特征索引模块是从特征提取子模块提取的所有像素点中确定第一像素点、第二像素点和第三像素点。相关技术中,一般采用卷积模型实现图像特征的对齐,但是卷积模型由于卷积核的限制,一般只能搜索局部像素点,而本申请实施例的特征索引模块能搜索全局像素点,扩大了索引视野,提高了图像特征对齐的准确性,进而提高了后续第一特征向量的准确性。
针对S504,即根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,通过特征索引子模块确定针对目标表面位置的子特征向量。
最后,通过初始编码器中的特征提取子模块和特征索引子模块配合,多次执行S502-S504,得到三维模型样本的表面上各个位置的子特征向量,进而根据各个子特征向量,得到针对三面体样本的第一特征向量。
作为一种可能的实现方式,第一特征向量的维度可以小于预设维度阈值,即通过初始编码器不仅实现了针对三面体样本的特征提取,还实现了对特征向量维度的压缩。本申请实施例不具体限定预设维度阈值,本领域技术人员可以根据实际需要进行设置。例如,可以通过设置预设维度阈值使得第一特征向量的维度为1024维。由此,通过压缩特征向量的维度,不仅可以有效保留针对三面体样本的原始信息,实现了高效、有意义的对三面体样本的表达,还降低了时间的消耗,提高了网络的训练和推理速度。。
本申请实施例不具体限定特征提取子模块和特征索引子模块,本领域技术人员可以根据实际需要进行设置。下面以特征提取子模块为3D aware convolution模型、特征索引子模块为transformer为例进行说明。
相关技术中,特征提取子模块一般采用VAE中的编码器或矢量量化变分自动编码器(Vector Quantized Variational Autoencoder,VQ-VAE)中的编码器,但是VAE和VQ-VAE的本质都是基于卷积的形式实现特征提取,即二者属于前述所述的卷积模型。由前述可知,由于卷积核的限制,一般只能搜索局部像素点,从而导致无法对齐位于三个投影图像的三个像素点的图像特征。
此外,相关技术中还会采用transformer实现特征提取,虽然通过transformer可以从根本上让每一个特征都关注到整体每一个空间位置的特征,提升信息交流的效果。但是会导致模型速度大大降低。
基于此,本申请实施例提出了采用3D aware convolution模型实现特征提取,通过transformer实现三个像素点的图像特征的对齐,从而不仅实现了三个像素点的图像特征的对齐,还提高了训练速度和推理速度,缩短模型训练的时间消耗,下面结合图7进行说明。
参见图7,该图为本申请实施例提供的一种特征提取的示意图。在图7中,通过三面体样本表达在3D空间中三维模型。
首先,根据位于三维空间的各个投影图像,通过特征提取子模块分别进行特征提取,得到位于二维平面的扩散投影图像。
其中,扩散投影图像包括各个投影图像中各个像素点的图像特征,即包括第一投影图像中各个像素点的图像特征、第二投影图像中各个像素点的图像特征和第三投影图像中各个像素点的图像特征。
继续参见图7,特征提取后的每个投影平面均包括10*10的像素点,图7中每个格子代表一个像素点的图像特征,三个投影图像拼接在一起得到扩散投影图像,使得扩散投影图像包括各个投影图像中各个像素点的图像特征,相当于前述所述的像素点集合。
然后,根据各个像素点在对应投影图像中的像素位置,通过特征索引子模块,从扩散投影图像中,将第一投影图像中第i行第j列的像素点确定为第一像素点,将第二投影图像中第i行的像素点确定为第二像素点,将第三投影图像中第j列的像素点确定为第三像素点。
由前述可知,3D空间对应的三个平面之间互相依赖,不是简单的拼接关系。例如,平面xoz的特征点(即像素点对应的图像特征)对应于另外两个平面的两条线。总而言之,三个投影图像中其中一个投影图像的平面特征本质是3D空间中一条直线的投影,因此一个投影图像与另外两个投影图像中的直线投影特征存在关联性。
基于此,为了实现图像特征的对齐,本申请实施例通过隐向量来协调三个投影图像中的像素点的特征,即引入3D感知卷积处理展开的2D投影图像,同时考虑到三个平面的三维固有对应关系,使隐向量在三维空间中具有全局一致性,从而获得更高质量的子特征向量并实现语义编辑。
具体地,根据各个像素点在对应投影图像中的像素位置,通过特征索引子模块,从扩散投影图像中,将第一投影图像中第i行第j列的像素点确定为第一像素点,将第二投影图像中第i行的像素点确定为第二像素点,将第三投影图像中第j列的像素点确定为第三像素点。
继续参见图7,第一像素点为第一投影图像(即平面xoz)中5行第4列,然后第二像素点为第二投影图像(即平面yoz)中第5行的像素点,第三像素点为第三投影图像(即平面yox)中第4列的像素点。
由此,相比于仅采用transformer得到编码器,采用3D aware convolution模型实现特征提取,特征的维度被压缩,如将三平面(3,32,256,256)压缩为1024维,再通过transformer实现三个像素点的图像特征的对齐,从而不仅实现了三个像素点的图像特征的对齐,还提高了训练速度和推理速度,缩短模型训练的时间消耗。而且,通过将一个投影图像与另外两个投影图像中的直线投影特征存在关联性进行关联,即实现特征对齐,从而隐式地将三平面特征推导解码器可识别的共享潜在空间,不仅准确性高,还易于训练。
其中,三平面(3,32,256,256)中3表示三维,32表示向量维度,256和256表示分辨率为256*256。
本申请实施例不具体限定解码器的结构。由于已经通过训练好的将三平面特征推导解码器可识别的共享潜在空间,故可以采用任意结构的解码器。作为一种可能的实现方式,解码器的结构可以是transformer与3D aware convolution模型结合的方式,使得编码器和解码器可以一起训练。
参见图8,该图为本申请实施例提供的一种编码器和解码器的示意图。在图8中,编码器的结构可以是3D aware convolution模型与transformer结合,解码器的结构可以是transformer与3D aware convolution模型结合,从而可以在训练编码器的同时训练解码器。
故此,在基于三面体样本和第一预测三面体之间的差异,调整初始编码器的参数的过程中,还可以调整初始解码器的参数。具体地,在S504中,可以先通过初始解码器对第一特征向量进行解码,得到第一预测三面体,相比于解码器,初始解码器的解码效果较差。然后,根据三面体样本和第一预测三面体之间的差异,调整初始编码器的参数的同时,调整初始解码器的参数,从而分别得到编码器和解码器。
由此,通过同时训练得到编码器和解码器,使得编码器和解码器二者结构相似,参数相反,不仅降低模型设计的复杂难度,还提高了解码器解码的准确性,即解码器解码得到的预测三面体的准确性更高,从而基于准确性更高的预测三面体进行三维重建得到的三维模型的准确性更高。
在实际应用中,会基于三面体进行三维重建,但是如基于渲染的方式、基于3D模型的方式等创建三面体的方式一般较慢,从而三维重建的速度较慢。而且,在实际应用中,若用户想要实现三维重建,用户很难提供较为专业的三面体。基于此,可以训练一个特征提取模型,使其可以将与用户输入的描述数据,如对三维模型的文字描述、三维模型的图像等,通过特征提取转换为针对三面体样本的特征向量。下面对该特征提取模型的训练过程进行说明,具体参见S901-S904。
参见图9,该图为本申请实施例提供的一种特征提取模型的训练方法的示意图。
S901:获取三维模型样本对应的描述样本。
描述样本是用于描述三维模型、且训练特征提取模型的数据,可以是文本类型、图像类型、语音类型等,相比于三面体更易于用户获取的数据均可以,本申请对此不做具体限定。
S902:通过初始特征提取模型对描述样本进行特征提取,得到描述样本对应的第二特征向量。
初始特征提取模型是还未训练完成的特征提取模型。第二特征向量为通过初始特征提取模型对描述样本进行特征提取得到的特征向量。例如,将描述样本输入至初始特征提取模型中,初始特征提取模型对描述样本进行特征提取,得到描述样本对应的第二特征向量。
S903:通过编码器对三面体样本进行特征提取,得到针对三面体样本对应的第三特征向量。
该三面体样本与描述样本具有对应关系,二者均是描述同一三维模型的数据,只不过形式不一样。第三特征向量是通过编码器对三面体样本进行特征提取得到的特征向量。例如,将三面体样本输入至训练好的编码器中,通过编码器进行编码,得到针对三面体样本对应的第三特征向量。
S904:根据第二特征向量和第三特征向量之间的差异,调整初始特征提取模型的参数,得到特征提取模型。
由前述可知,初始特征提取模型的训练目标是,能够模拟编码器的输出,即第二特征向量应该与第三特征向量接近,其才能够得到较好的模拟效果。基于此,可以根据第二特征向量和第三特征向量之间的差异,调整初始特征提取模型的参数,得到特征提取模型。
由此,特征提取模型不仅可以对更简单描述三维模型的数据,通过特征提取输出该数据对应的三面体的特征向量,从而更有利于模型的应用。具体参见S905-S908。
S905:获取待识别描述样本。
该待识别描述样本与描述样本的类型相同,如描述样本为文本类型,则待识别描述样本也为文本类型。
S906:通过特征提取模型对待识别描述样本进行特征提取,得到第四特征向量。
第四特征向量是特征提取模型对待识别描述样本进行特征提取得到的特征向量。
S907:根据解码器对第四特征向量进行解码,得到第二预测三面体。
由于第四特征向量相当于是对描述样本对应的三维模型对应的三面体的特征向量,故通过解码器可以对其进行解码,即根据解码器对第四特征向量进行解码,得到第二预测三面体。
S908:根据第二预测三面体进行三维重建,得到待识别描述样本对应的三维模型。
由此,若用户想要实现三维重建,可以通过输入待识别描述数据,如对三维模型的文字描述、三维模型的图像等,通过特征提取转换为针对三面体样本的特征向量,然后通过解码器进行解码得到预测三面体,从而实现三维重建,得到待识别描述样本对应的三维模型。不仅快速地实现了三维重建,还降低了三维重建的难度。
本申请实施例不具体限定对初始特征提取模型的训练方式,下面以两种方式为例进行说明。
方式一:模拟预设概率的方式。
若编码器输出的特征向量符合一种概率分布,如高斯分布等,可以将该种概率分布作为预设概率分布,然后通过模拟预设概率分布的方式,训练初始特征提取模型模拟编码器的输出。
具体地,获取随机噪声,根据随机噪声和描述样本,通过初始特征提取模型进行多次去噪,得到描述样本对应的第二特征向量。调整初始特征提取模型的参数,使得第二特征向量的分布符合预设概率分布,得到特征提取模型。
以描述样本为图像为例,可以在描述样本上增加随机噪声,然后通过初始特征提取模型进行多次去噪,使得描述样本对应的第二特征向量的概率分布符合预设概率分布,从而第二特征向量与第三特征向量越来越相似,进而特征提取模型对编码器的模拟更为准确。
作为一种可能的实现方式,描述样本可以尽可能包括更多的细节,继续以描述样本为图像为例,描述样本可以均为三维模型的正面图像,相比于其他面图像,正面图像具有脸部细节,从而特征提取模型能够学习到更多关于三维模型的特征。
由此,相比于一模一样的模拟编码器输出的方式,即初始特征提取模型建立描述样本与第三特征向量之间的映射关系,使得训练得到的特征提取模型能够输出与第三特征向量一模一样的输出。通过多次去噪的方式,得到的特征向量能够保留更多的细节描述,即除了特征向量的概率分布符合预设概率分布后,该特征向量还具有更多的表达,而不是简单的一模一样的模拟编码器输出,从而基于特征提取模型得到的特征向量建立的三维模型更为逼真,用户体验感更高。
方式二:增加输入的方式。
由于一模一样的模拟编码器输出的方式不能模拟出更多的细节,故可以通过增加输入数据增加细节。具体地,获取三维模型样本对应的描述样本集合,该描述样本集合包括多个描述样本,不同的描述样本从不同角度对三维模型样本进行描述,如三维模型的正面图像、背面图像、左侧图像和右侧图像等。然后,通过初始特征提取模型对多个描述样本进行特征提取,得到描述样本对应的第二特征向量。最后,根据第二特征向量和第三特征向量之间的差异,调整初始特征提取模型的参数,得到特征提取模型。
由此,通过增加针对同一三维模型的多个描述样本,且不同的描述样本从不同角度对三维模型样本进行描述,使得特征提取模型可以学习更多该三维模型的细节,提高特征提取模型的准确性。
本申请实施例不具体限定S503的具体实现方式,即根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点的具体实现方式,下面通过两种方式具体进行说明。
方式一:空间一点确定三个像素点。
首先,通过初始编码器确定目标表面位置,然后根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定目标表面位置在第一投影图像对应的第一像素点、在第二投影图像对应的第二像素点,以及在第三投影图像对应的第三像素点。最后可以遍历三维模型样本包括的各个位置,得到各个位置对应的三个像素点,进而根据各个位置对应的三个像素点的图像特征,确定各个位置对应的子特征向量,并根据各个位置对应的子特征向量,确定针对三面体样本的第一特征向量。
其中,第一像素点表征三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,第二像素点表征三维模型样本的表面上的位置与第一表面位置之间的距离小于预设距离阈值,第三像素点表征三维模型样本的表面上的位置与第一表面位置之间的距离小于预设距离阈值。
由此,通过初始编码器可以先从三维模型中确定出目标表面位置,再从三维模型对应的三面体样本包括的三个投影图像中,确定该目标表面位置分别对应的投影点,得到第一像素点、第二像素点和第三像素点。
作为一种可能的实现方式,第一像素点就是目标表面位置在第一投影图像的投影点,第二像素点就是目标表面位置在第二投影图像的投影点,第三像素点就是目标表面位置在第三投影图像的投影点。
方式二:一个像素点确定两个像素点。
首先,通过初始编码器,从第一投影图像中确定第一像素点。然后,根据第一像素点的像素位置,通过初始编码器从第二投影图像中确定第二像素点,以及从第三投影图像中确定第三像素点。最后,可以遍历各个投影图像包括的各个像素点,得到针对所述三面体样本的各个位置对应的子特征向量,并根据各个位置对应的子特征向量,确定针对三面体样本的第一特征向量。
其中,第一像素点表征三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,第二像素点表征三维模型样本的表面上的位置与第一表面位置之间的距离小于预设距离阈值,第三像素点表征三维模型样本的表面上的位置与第一表面位置之间的距离小于预设距离阈值。
由此,通过初始编码器可以先从一个投影图像中确定出一个像素点,然后基于该像素点去另外两个投影图像中找到具有对应关系的两个像素点,如前述图7对应的实施例。
为了便于进一步理解本申请实施例提供的技术方案,下面以本申请实施例提供的编码器的训练方法的执行主体为服务器为例,对该编码器的训练方法进行整体示例性介绍。
参见图10,该图为本申请实施例提供的一种建立三维模型的示意图。
下面先对编码器和解码器的训练过程进行说明。
编码器和解码器包括特征提取子模块和特征索引子模块,二者结构对称。
S1:获取三维模型样本对应的三面体样本。
S2:通过特征提取子模块提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。
S3:根据各个像素点在对应投影图像中的像素位置,通过特征索引子模块,从像素点集合中确定属于确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点。
其中,像素点集合包括各个投影图像中各个像素点。通过特征索引子模块使得三个像素点在三维空间中尽可能对齐为一个点,或者说三个像素点为来自三维模型同一位置的投影点。
具体地,可以根据位于三维空间的各个投影图像,通过特征提取子模块分别进行特征提取,得到位于二维平面的扩散投影图像,根据各个像素点在对应投影图像中的像素位置,通过特征索引子模块,从扩散投影图像中,将第一投影图像中第i行第j列的像素点确定为第一像素点,将第二投影图像中第i行的像素点确定为第二像素点,将第三投影图像中第j列的像素点确定为第三像素点。
S4:根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,通过特征索引子模块确定针对目标表面位置的子特征向量。
S5:通过初始编码模块,确定针对三维模型样本的表面上各个位置的子特征向量,并根据各个子特征向量,得到针对三面体样本的第一特征向量。
S6:通过初始解码器对第一特征向量进行解码,得到第一预测三面体。
S7:根据三面体样本和第一预测三面体之间的差异,调整初始编码器的参数,得到编码器,以及根据三面体样本和第一预测三面体之间的差异,调整初始解码器的参数,得到解码器。
需要说明的是,在该实施例中,编码器中的特征提取子模块为3d awareconvolution模型,特征索引子模块为transformer。训练完成的编码器不仅能够对三面体进行特征提取,还可以对输出的特征向量的维度进行压缩,压缩至1024维度,以及强制压缩后的特征向量的分布满足高斯分布。
然后对特征提取模型的训练过程进行说明。
S8:获取三维模型样本对应的描述样本。
在图10中,该描述样本为三维模型的正面图像,由于正面图像包括了较多细节,故可以生成更加逼真的三维模型。
S9:获取随机噪声,并根据随机噪声和描述样本,通过初始特征提取模型进行多次去噪,得到描述样本对应的第二特征向量。
S10:通过编码器对三面体样本进行特征提取,得到针对三面体样本对应的第三特征向量。
作为一种可能的实现方式,在训练过程中,可以基于同一三维模型生成三面体样本和描述样本,以便可以正确训练特征提取模型。
S11:调整初始特征提取模型的参数,使得第二特征向量的分布符合高斯分布,得到特征提取模型。
最后对建立三维模型的过程进行说明。
S12:获取待识别描述样本。
该待识别描述样本最好也为想要建立的三维模型的正面图像。例如,想要建立一个人物的三维模型,可以将该人物的正面照片作为待识别描述样本。
S13:通过特征提取模型对待识别描述样本进行特征提取,得到第四特征向量。
S14:根据解码器对第四特征向量进行解码,得到第二预测三面体。
S15:根据第二预测三面体进行三维重建,得到待识别描述样本对应的三维模型。
作为一种可能的实现方式,可以将第二预测三面体输入至一个用于高分辨率三维形状合成的混合表示方法(deep marching tetrahedron,DMTet)或者一种用于三维体数据的表面重建算法(deep marching cube)等三维重建模型,三维重建模型基于第二预测三面体进行三维重建,得到三维模型。
由此,由于三面体的三个投影图像包括的像素点之间的图像特征并不是在空间位置上面一一对齐的,直接使用普通卷积会忽视距离较远的特征之间的关系导致特征提取效果较差。在实施例中采用3d aware convolution模型和transformer结合构成编码器,既可以提升不同投影图像包括的像素点之间特征信息交流的效果,从而提高后续三维重建的效果,还可以保证模型的速度。3D aware convolution模型和transformer结合的编码器,不仅考虑的不同投影图像包括的像素点之间的物理意义,也考虑了任意一个投影图像对其他两个投影图像的影响,同时也兼顾了网络的训练和推理速度。可以广泛的用在triplane相关的3D重建、3D检索、3D生成等应用场景中,具有广泛的应用前景。
此外,由于特征提取模型可以有效的把高分辨率的triplane表达(3,32,256,256)压缩编码到1024维度的向量,并且可以有效的保留原始triplane信息。对3D物体表达的压缩效率极高,在3D物体的生成中也可以起到加速3D生成模型训练,以及约束压缩得到的向量的分布的目的。
针对上文描述的编码器的训练方法,本申请还提供了对应的编码器的训练装置,以使上述编码器的训练方法在实际中得以应用及实现。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
参见图11,该图为本申请实施例提供的一种编码器的训练装置的结构示意图。如图11所示,该编码器的训练装置1100包括:获取单元1101、提取单元1102、第一确定单元1103、第二确定单元1104、第三确定单元1105、解码单元1106和调参单元1107;
所述获取单元1101,用于获取三维模型样本对应的三面体样本,所述三面体样本为所述三维模型样本分别在三个平面上的投影图像,所述三个平面在空间中相互垂直;
所述提取单元1102,用于提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
所述第一确定单元1103,用于根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述第一像素点表征所述三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,所述第二像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述第三像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述目标表面位置为所述三维模型样本的表面上的一个位置;
所述第二确定单元1104,用于根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量;
所述第三确定单元1105,用于根据所述子特征向量,确定针对所述三面体样本的第一特征向量;
所述解码单元1106,用于通过解码器对所述第一特征向量进行解码,得到第一预测三面体;
所述调参单元1107,用于所述根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器。
由上述技术方案可以看出,获取三维模型样本对应的三面体样本,三面体样本是三维模型样本分别在三个互相垂直的平面上的投影图像,通过三个投影图像能够描述三维模型样本的表面形状。提取各个投影图像中各个像素点的图像特征,以及各个像素点在对应投影图像中的像素位置。根据各个像素点在对应投影图像中的像素位置,通过初始编码器确定第一像素点、第二像素点和第三像素点。其中,三个像素点分别属于三个投影平面,而且三个像素点分别表征三维模型样本的表面上的三个位置,这三个位置分别与三维模型样本的表面上的目标表面位置之间的距离均小于预设距离阈值,说明三个像素点分别表征的三维模型样本的表面上的三个位置相距较近。根据第一像素点的图像特征、第二像素点的图像特征和第三像素点的图像特征,确定针对目标表面位置的子特征向量,由于子特征向量是根据根据物理意义上相距较近的三个图像特征确定的,故根据子特征向量得到的针对三面体样本的第一特征向量尽可能对齐了三个投影图像的图像特征,提高了第一特征向量的准确性。通过解码器对该第一特征向量进行解码,得到第一预测三面体,根据第一预测三面体和三面体样本之间的差异,调整初始编码器的参数,得到编码器,使得编码器确定的三个像素点越来越准确,即对三个投影图像的图像特征对齐的更准确,从而子特征向量和第一特征向量更为准确,提高了通过编码器特征提取得到的第一特征向量的准确性。
由此,在提取各个投影平面的像素点的图像特征后,通过编码器将像素点的图像特征在物理意义上对齐,得到三维模型样本的表面上各个位置的子特征向量,从而得到三面体样本的第一特征向量。在训练编码器的过程中,没有引入噪声的同时,实现了不同投影平面的特征之间的感知,提高了通过编码器特征提取得到的第一特征向量的准确性。
作为一种可能的实现方式,所述初始编码器包括特征提取子模块和特征索引子模块;所述获取单元1101,具体用于通过所述特征提取子模块提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
所述第一确定单元1103,具体用于根据所述各个像素点在对应投影图像中的像素位置,通过所述特征索引子模块,从像素点集合中确定属于确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述像素点集合包括各个所述投影图像中各个像素点;
所述第二确定单元1104,具体用于根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,通过所述特征索引子模块确定针对所述目标表面位置的子特征向量;
所述第三确定单元1105,具体用于:
通过所述初始编码模块,确定针对所述三维模型样本的表面上各个位置的子特征向量;
根据各个所述子特征向量,得到针对所述三面体样本的第一特征向量。
作为一种可能的实现方式,所述第一特征向量的维度小于预设维度阈值。
作为一种可能的实现方式,所述提取单元1102,用于根据位于三维空间的各个所述投影图像,通过所述特征提取子模块分别进行特征提取,得到位于二维平面的扩散投影图像,所述扩散投影图像包括各个所述投影图像中各个像素点的图像特征;
所述第一确定单元1103,具体用于根据所述各个像素点在对应投影图像中的像素位置,通过所述特征索引子模块,从所述扩散投影图像中,将所述第一投影图像中第i行第j列的像素点确定为所述第一像素点,将所述第二投影图像中第i行的像素点确定为所述第二像素点,将所述第三投影图像中第j列的像素点确定为所述第三像素点,i为大于1的整数,j为大于1的整数。
作为一种可能的实现方式,所述编码器的训练装置1100还包括特征提取模型训练单元,用于:
获取所述三维模型样本对应的描述样本;
通过初始特征提取模型对所述描述样本进行特征提取,得到所述描述样本对应的第二特征向量;
通过所述编码器对所述三面体样本进行特征提取,得到针对所述三面体样本对应的第三特征向量;
根据所述第二特征向量和所述第三特征向量之间的差异,调整所述初始特征提取模型的参数,得到特征提取模型。
作为一种可能的实现方式,所述第三特征向量的分布符合预设概率分布,所述编码器的训练装置1100还包括特征提取模型训练单元,用于:
获取随机噪声;
根据所述随机噪声和所述描述样本,通过所述初始特征提取模型进行多次去噪,得到所述描述样本对应的第二特征向量;
调整所述初始特征提取模型的参数,使得所述第二特征向量的分布符合所述预设概率分布,得到特征提取模型。
作为一种可能的实现方式,所述编码器的训练装置1100还包括特征提取模型训练单元,用于:
获取所述三维模型样本对应的描述样本集合,所述描述样本集合包括多个描述样本,不同的描述样本从不同角度对所述三维模型样本进行描述;
通过初始特征提取模型对所述多个描述样本进行特征提取,得到所述描述样本对应的第二特征向量。
作为一种可能的实现方式,所述编码器的训练装置1100还包括应用单元,用于:
获取待识别描述样本;
通过所述特征提取模型对所述待识别描述样本进行特征提取,得到第四特征向量;
根据所述解码器对所述第四特征向量进行解码,得到第二预测三面体;
根据所述第二预测三面体进行三维重建,得到所述待识别描述样本对应的三维模型。
作为一种可能的实现方式,所述解码单元1106,具体用于通过初始解码器对所述第一特征向量进行解码,得到第一预测三面体;
所述调参单元1107,具体用于根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器,以及根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始解码器的参数,得到所述解码器。
作为一种可能的实现方式,所述第一确定单元1103,具体用于:
通过初始编码器确定所述目标表面位置;
根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定所述目标表面位置在所述第一投影图像对应的第一像素点、在所述第二投影图像对应的第二像素点,以及在所述第三投影图像对应的第三像素点;
所述第三确定单元1105,具体用于:
遍历所述三维模型样本包括的各个位置,得到所述各个位置对应的子特征向量;
根据所述各个位置对应的子特征向量,确定针对所述三面体样本的第一特征向量。
作为一种可能的实现方式,所述第一确定单元1103,具体用于:
通过初始编码器,从所述第一投影图像中确定第一像素点;
根据所述第一像素点的像素位置,通过所述初始编码器从所述第二投影图像中确定第二像素点,以及从所述第三投影图像中确定第三像素点;
所述第三确定单元1105,具体用于:
遍历所述各个投影图像包括的各个像素点,得到针对所述三面体样本的各个位置对应的子特征向量;
根据所述各个位置对应的子特征向量,确定针对所述三面体样本的第一特征向量。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,该计算机设备可以为服务器或者终端设备,前述所述的编码器的训练装置可以内置于服务器或终端设备中,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中,图12所示为服务器的结构示意图,图13所示为终端设备的结构示意图。
参见图12,该图为本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1422,如中央处理器(Central Processing Units,CPU),存储器1432,一个或一个以上应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取三维模型样本对应的三面体样本,所述三面体样本为所述三维模型样本分别在三个平面上的投影图像,所述三个平面在空间中相互垂直;
提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述第一像素点表征所述三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,所述第二像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述第三像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述目标表面位置为所述三维模型样本的表面上的一个位置;
根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量;
根据所述子特征向量,确定针对所述三面体样本的第一特征向量;
通过解码器对所述第一特征向量进行解码,得到第一预测三面体;
根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器。
可选的,CPU 1422还可以执行本申请实施例中编码器的训练方法任一具体实现方式的方法步骤。
参见图13,该图为本申请实施例提供的一种终端设备的结构示意图。以该终端设备是智能手机为例进行说明,图13示出的是该智能手机的部分结构的框图,该智能手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图13中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图13对智能手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现智能手机的各种功能应用以及数据处理。
输入单元1530可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作,并根据预先设定的程式驱动相应的连接装置。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。
智能手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一智能手机,或者将音频数据输出至存储器1520以便进一步处理。
处理器1580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行智能手机的各种功能和处理数据。可选的,处理器1580可包括一个或多个处理单元。
智能手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该智能手机所包括的存储器1520可以存储计算机程序,并将所述计算机程序传输给所述处理器。
该智能手机所包括的处理器1580可以根据所述计算机程序中的指令执行上述实施例提供的编码器的训练方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的编码器的训练方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的编码器的训练方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-Only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (15)
1.一种编码器的训练方法,其特征在于,所述方法包括:
获取三维模型样本对应的三面体样本,所述三面体样本为所述三维模型样本分别在三个平面上的投影图像,所述三个平面在空间中相互垂直;
提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述第一像素点表征所述三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,所述第二像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述第三像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述目标表面位置为所述三维模型样本的表面上的一个位置;
根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量;
根据所述子特征向量,确定针对所述三面体样本的第一特征向量;
通过解码器对所述第一特征向量进行解码,得到第一预测三面体;
根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器。
2.根据权利要求1所述的方法,其特征在于,所述初始编码器包括特征提取子模块和特征索引子模块;所述提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置,包括:
通过所述特征提取子模块提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
所述根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,包括:
根据所述各个像素点在对应投影图像中的像素位置,通过所述特征索引子模块,从像素点集合中确定属于确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述像素点集合包括各个所述投影图像中各个像素点;
所述根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量,包括:
根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,通过所述特征索引子模块确定针对所述目标表面位置的子特征向量;
根据所述子特征向量,确定针对所述三面体样本的第一特征向量,包括:
通过所述初始编码模块,确定针对所述三维模型样本的表面上各个位置的子特征向量;
根据各个所述子特征向量,得到针对所述三面体样本的第一特征向量。
3.根据权利要求2所述的方法,其特征在于,所述第一特征向量的维度小于预设维度阈值。
4.根据权利要求3所述的方法,其特征在于,所述通过所述特征提取子模块提取各个所述投影图像中各个像素点的图像特征,包括:
根据位于三维空间的各个所述投影图像,通过所述特征提取子模块分别进行特征提取,得到位于二维平面的扩散投影图像,所述扩散投影图像包括各个所述投影图像中各个像素点的图像特征;
所述根据所述各个像素点在对应投影图像中的像素位置,通过所述特征索引子模块,从像素点集合中确定属于确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,包括:
根据所述各个像素点在对应投影图像中的像素位置,通过所述特征索引子模块,从所述扩散投影图像中,将所述第一投影图像中第i行第j列的像素点确定为所述第一像素点,将所述第二投影图像中第i行的像素点确定为所述第二像素点,将所述第三投影图像中第j列的像素点确定为所述第三像素点,i为大于1的整数,j为大于1的整数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述三维模型样本对应的描述样本;
通过初始特征提取模型对所述描述样本进行特征提取,得到所述描述样本对应的第二特征向量;
通过所述编码器对所述三面体样本进行特征提取,得到针对所述三面体样本对应的第三特征向量;
根据所述第二特征向量和所述第三特征向量之间的差异,调整所述初始特征提取模型的参数,得到特征提取模型。
6.根据权利要求5所述的方法,其特征在于,所述第三特征向量的分布符合预设概率分布,所述通过初始特征提取模型对所述描述样本进行特征提取,得到所述描述样本对应的第二特征向量,包括:
获取随机噪声;
根据所述随机噪声和所述描述样本,通过所述初始特征提取模型进行多次去噪,得到所述描述样本对应的第二特征向量;
所述根据所述第二特征向量和所述第三特征向量之间的差异,调整所述初始特征提取模型的参数,得到特征提取模型,包括:
调整所述初始特征提取模型的参数,使得所述第二特征向量的分布符合所述预设概率分布,得到特征提取模型。
7.根据权利要求5所述的方法,其特征在于,所述获取所述三维模型样本对应的描述样本,包括:
获取所述三维模型样本对应的描述样本集合,所述描述样本集合包括多个描述样本,不同的描述样本从不同角度对所述三维模型样本进行描述;
所述通过初始特征提取模型对所述描述样本进行特征提取,得到所述描述样本对应的第二特征向量,包括:
通过初始特征提取模型对所述多个描述样本进行特征提取,得到所述描述样本对应的第二特征向量。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取待识别描述样本;
通过所述特征提取模型对所述待识别描述样本进行特征提取,得到第四特征向量;
根据所述解码器对所述第四特征向量进行解码,得到第二预测三面体;
根据所述第二预测三面体进行三维重建,得到所述待识别描述样本对应的三维模型。
9.根据权利要求1所述的方法,其特征在于,所述通过解码器对所述第一特征向量进行解码,得到第一预测三面体,包括:
通过初始解码器对所述第一特征向量进行解码,得到第一预测三面体;
所述根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器,包括:
根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器,以及根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始解码器的参数,得到所述解码器。
10.根据权利要求1所述的方法,其特征在于,所述根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,包括:
通过初始编码器确定所述目标表面位置;
根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定所述目标表面位置在所述第一投影图像对应的第一像素点、在所述第二投影图像对应的第二像素点,以及在所述第三投影图像对应的第三像素点;
所述根据所述子特征向量,确定针对所述三面体样本的第一特征向量,包括:
遍历所述三维模型样本包括的各个位置,得到所述各个位置对应的子特征向量;
根据所述各个位置对应的子特征向量,确定针对所述三面体样本的第一特征向量。
11.根据权利要求1所述的方法,其特征在于,所述根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,包括:
通过初始编码器,从所述第一投影图像中确定第一像素点;
根据所述第一像素点的像素位置,通过所述初始编码器从所述第二投影图像中确定第二像素点,以及从所述第三投影图像中确定第三像素点;
所述根据所述子特征向量,确定针对所述三面体样本的第一特征向量,包括:
遍历所述各个投影图像包括的各个像素点,得到针对所述三面体样本的各个位置对应的子特征向量;
根据所述各个位置对应的子特征向量,确定针对所述三面体样本的第一特征向量。
12.一种编码器的训练装置,其特征在于,所述装置包括:获取单元、提取单元、第一确定单元、第二确定单元、第三确定单元、解码单元和调参单元;
所述获取单元,用于获取三维模型样本对应的三面体样本,所述三面体样本为所述三维模型样本分别在三个平面上的投影图像,所述三个平面在空间中相互垂直;
所述提取单元,用于提取各个所述投影图像中各个像素点的图像特征,以及所述各个像素点在对应投影图像中的像素位置;
所述第一确定单元,用于根据所述各个像素点在对应投影图像中的像素位置,通过初始编码器确定属于第一投影图像的第一像素点、属于第二投影图像的第二像素点,以及属于第三投影图像的第三像素点,所述第一像素点表征所述三维模型样本的表面上的位置与目标表面位置之间的距离小于预设距离阈值,所述第二像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述第三像素点表征所述三维模型样本的表面上的位置与所述目标表面位置之间的距离小于所述预设距离阈值,所述目标表面位置为所述三维模型样本的表面上的一个位置;
所述第二确定单元,用于根据所述第一像素点的图像特征、所述第二像素点的图像特征和所述第三像素点的图像特征,确定针对所述目标表面位置的子特征向量;
所述第三确定单元,用于根据所述子特征向量,确定针对所述三面体样本的第一特征向量;
所述解码单元,用于通过解码器对所述第一特征向量进行解码,得到第一预测三面体;
所述调参单元,用于所述根据所述三面体样本和所述第一预测三面体之间的差异,调整所述初始编码器的参数,得到编码器。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序执行权利要求1-11中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-11中任意一项所述的方法。
15.一种包括计算机程序的计算机程序产品,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-11中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311524813.6A CN117456102A (zh) | 2023-11-15 | 2023-11-15 | 一种编码器的训练方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311524813.6A CN117456102A (zh) | 2023-11-15 | 2023-11-15 | 一种编码器的训练方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117456102A true CN117456102A (zh) | 2024-01-26 |
Family
ID=89587299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311524813.6A Pending CN117456102A (zh) | 2023-11-15 | 2023-11-15 | 一种编码器的训练方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456102A (zh) |
-
2023
- 2023-11-15 CN CN202311524813.6A patent/CN117456102A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215927B (zh) | 人脸视频的合成方法、装置、设备及介质 | |
CN111626218B (zh) | 基于人工智能的图像生成方法、装置、设备及存储介质 | |
JP2022515620A (ja) | 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム | |
KR20210123399A (ko) | 인공 지능에 기초한 애니메이션 이미지 구동 방법, 및 관련 디바이스 | |
CN115205949B (zh) | 图像生成方法以及相关设备 | |
CN110599395A (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN112734910B (zh) | 基于rgb单图实时人脸三维图像重建方法、装置及电子设备 | |
CN111209811B (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
CN113392270A (zh) | 视频处理方法、装置、计算机设备以及存储介质 | |
CN113705316A (zh) | 获取虚拟图像的方法、装置、设备及存储介质 | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
CN116665695B (zh) | 虚拟对象口型驱动方法、相关装置和介质 | |
CN114972010A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
US20240037898A1 (en) | Method for predicting reconstructabilit, computer device and storage medium | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN113515994A (zh) | 视频特征提取方法、装置、设备以及存储介质 | |
CN113822114A (zh) | 一种图像处理方法、相关设备及计算机可读存储介质 | |
CN111447379B (zh) | 生成信息的方法和装置 | |
CN115775300A (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
CN117456102A (zh) | 一种编码器的训练方法和相关装置 | |
CN117808934A (zh) | 一种数据处理方法及相关设备 | |
KR20230141429A (ko) | 이미지 프로세싱 방법 및 장치, 컴퓨터 디바이스, 컴퓨터-판독가능 저장 매체, 및 컴퓨터 프로그램 제품 | |
CN116029912A (zh) | 图像处理模型的训练、图像处理方法、装置、设备及介质 | |
CN112508772B (zh) | 图像生成方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |