CN114565941A - 纹理生成方法、装置、设备及计算机可读存储介质 - Google Patents
纹理生成方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114565941A CN114565941A CN202210179195.5A CN202210179195A CN114565941A CN 114565941 A CN114565941 A CN 114565941A CN 202210179195 A CN202210179195 A CN 202210179195A CN 114565941 A CN114565941 A CN 114565941A
- Authority
- CN
- China
- Prior art keywords
- feature map
- texture
- image
- scale
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 238000005070 sampling Methods 0.000 claims description 103
- 230000004927 fusion Effects 0.000 claims description 69
- 238000007499 fusion processing Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 44
- 238000009877 rendering Methods 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种纹理生成方法、装置、设备及计算机可读存储介质;方法包括:获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图。
Description
技术领域
本公开涉及纹理生成技术,尤其涉及一种纹理生成方法、装置、设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其中,三维物体重建(3D object reconstruction)是人工智能的重要分支,在实际的工程应用中,需要生成纹理数据,以对特定的三维模型进行重建。传统技术中基于单一图像难以得到准确的纹理特征。
发明内容
本公开实施例提供一种纹理生成方法、装置、设备及计算机可读存储介质,能够提升纹理特征图中纹理参数的真实性。
本公开实施例的技术方案是这样实现的:
本公开实施例提供一种纹理生成方法,包括:
获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
在一些实施例中,所述基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图,包括:
对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征;所述输入特征图包括所述查询特征图、所述键特征图和所述值特征图;
将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征;
融合每一所述尺度对应的输出特征,得到所述目标纹理特征图。
在一些实施例中,所述对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征,包括:
对所述输入特征图进行多次下采样处理,得到预设尺度对应的输入特征;
对所述预设尺度对应的输入特征,进行多次上采样处理,得到多个尺度对应的输入特征;所述下采样处理的次数和所述上采样处理的次数相同。
在一些实施例中,所述将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征,包括:
针对每一所述尺度,融合所述查询特征图和所述查询特征图的位置编码,得到第一输入特征;
融合所述键特征图和所述键特征图的位置编码,得到第二输入特征;
基于所述第一输入特征、所述第二输入特征和所述值特征图得到中间特征图;
基于所述中间特征图和残差网络确定所述尺度对应的输出特征。
在一些实施例中,所述融合每一所述尺度对应的输出特征,得到所述目标纹理特征图,包括:
融合每一所述尺度对应的输出特征,得到多尺度输出特征;
基于所述多尺度输出特征,确定所述目标纹理特征图。
在一些实施例中,所述融合每一所述尺度对应的输出特征,得到多尺度输出特征,包括:
按照所述多个尺度中最大尺度至最小尺度的顺序,依次对每一所述尺度对应的输出特征进行下采样融合处理,得到每一所述尺度对应的下采样融合特征;所述下采样融合处理用于融合所述尺度对应的输出特征和上一个下采样融合处理得到的下采样融合特征,得到下采样中间特征,并对所述下采样中间特征进行下采样处理,得到所述尺度对应的下采样融合特征;
按照所述多个尺度中最小尺度至最大尺度的顺序,依次对每一所述尺度对应的输出特征进行上采样融合处理,得到每一所述尺度对应的上采样融合特征;所述上采样融合处理用于对上一个上采样融合处理得到的上采样融合特征进行上采样处理,得到上采样中间特征,并融合所述上采样中间特征和所述尺度对应的输出特征,得到所述尺度对应的上采样融合特征;
其中,所述最小尺度的上采样融合处理用于对所述最小尺度对应的下采样融合特征进行上采样处理,并融合所述最小尺度对应的输出特征,得到所述最小尺度对应的上采样融合特征;所述最大尺度对应的上采样融合特征为所述多尺度输出特征。
在一些实施例中,在所述多尺度输出特征包括像素特征图的情况下,所述值特征图包括所述待转换图像的原始像素特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:
将所述像素特征图作为所述目标纹理特征图。
在一些实施例中,在所述多尺度输出特征包括纹理流特征图的情况下,所述值特征图包括所述待转换图像的像素分布特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:
基于所述纹理流特征图和所述待转换图像,生成所述目标纹理特征图。
在一些实施例中,在所述多尺度输出特征包括像素特征图、纹理流特征图和置信度特征图的情况下,所述值特征图包括所述待转换图像的原始像素特征和像素分布特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:
基于所述置信度特征图,确定所述纹理空间中每一所述待查询像素点的置信度信息;所述置信度信息包括所述待查询像素点对应所述像素特征图的第一置信度和对应所述纹理流特征图的第二置信度;
基于每一所述待查询像素点的所述第一置信度和所述第二置信度,融合所述像素特征图和所述纹理流特征图,得到所述目标纹理特征图。
在一些实施例中,所述基于每一所述待查询像素点的所述第一置信度和所述第二置信度,融合所述像素特征图和所述纹理流特征图,得到所述目标纹理特征图,包括:
基于所述像素特征图确定每一所述待查询像素点对应的第一纹理参数;
基于所述纹理流特征图和所述待转换图像,确定每一所述待查询像素点对应的第二纹理参数;
针对每一所述待查询像素点,分别基于所述第一置信度和所述第二置信度,对所述第一纹理参数和所述第二纹理参数进行加权融合,得到所述待查询像素点对应的纹理参数。
在一些实施例中,上述实施例提供的纹理生成方法由已训练的纹理生成模型实现,所述纹理生成模型的训练过程包括:
获取样本图像,将所述样本图像输入至待训练的纹理生成模型,得到所述样本图像对应的预测纹理图像;
对所述样本图像对应的预测纹理图像进行渲染,得到所述样本图像对应的预测渲染图像;
基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值;
根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,所述待训练的纹理生成模型的损失值包括第一损失值;
所述基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值,包括:基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征;基于所述第一人物特征和所述第二人物特征之间的特征距离确定所述第一损失值;
所述根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型,包括:至少基于所述第一损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,所述待训练的纹理生成模型的损失值包括第二损失值;
所述基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值,包括:基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征;获取所述样本图像对应的第一分割结果;所述第一分割结果用于表征所述样本图像中每一人体部位的第一分布信息;获取所述预测渲染图像对应的第二分割结果;所述第二分割结果用于表征所述预测渲染图像中每一所述人体部位的第二分布信息;针对每一所述人体部位,基于所述人体部位的第一部位特征和第二部位特征之间的特征距离确定所述人体部位对应的部位损失值;所述第一部位特征基于所述第一人物特征和所述人体部位的第一分部信息确定,所述第二部位特征基于所述第二人物特征和所述人体部位的第二分部信息确定;基于每一所述人体部位对应的部位损失值,确定所述第二损失值;
所述根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型,包括:至少基于所述第二损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,所述待训练的纹理生成模型的损失值包括第三损失值;所述方法还包括:获取所述预测纹理图像中目标人体部位对应的部位纹理图像;获取所述目标人体部位对应的标准纹理图像;所述标准纹理图像为不同人物在所述目标人体部位下的部位纹理图像的融合图像;基于所述部位纹理图像和所述标准纹理图像之间的结构相似性指数,确定所述第三损失值;
所述根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型,包括:至少基于所述第三损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
本公开实施例提供一种纹理生成装置,所述装置包括:
获取模块,用于获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
生成模块,用于基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
本公开实施例提供一种纹理生成设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本公开实施例提供的纹理生成方法。
本公开实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本公开实施例提供的纹理生成方法。
本公开实施例具有以下有益效果:
在本公开实施例中,由于采用注意力机制,在基于所述查询特征图、所述键特征图和所述值特征图获取目标纹理特征图的过程中,该目标纹理特征图中的每一待查询像素点的纹理参数能够考虑到待转换图像的全局信息,进而可以提升纹理特征图中纹理参数的真实性,为后续渲染相应的三维网络提供纹理基础。
附图说明
图1A是本公开实施例提供的纹理生成方法的一个可选的流程示意图;
图1B是本公开实施例提供的注意力机制的一个可选的特征关系示意图;
图2A是本公开实施例提供的纹理生成方法的一个可选的流程示意图;
图2B是本公开实施例提供的一个可选的注意力模块的结构示意图;
图3是本公开实施例提供的纹理生成方法的一个可选的流程示意图;
图4是本公开实施例提供的纹理生成方法的一个可选的流程示意图;
图5是本申请实施例提供的纹理生成模型的训练方法的一个可选的流程示意图;
图6是本申请实施例提供的第一损失值获取方法的一个可选的流程示意图;
图7是本申请实施例提供的第二损失值获取方法的一个可选的流程示意图;
图8是本申请实施例提供的第三损失值获取方法的一个可选的流程示意图;
图9是本申请实施例提供的纹理生成模型的训练方法的另一个可选的流程示意图;
图10是本公开实施例提供的基于CNN的纹理生成方法示意图;
图11是本公开实施例提供的纹理生成模型的模型架构示意图;
图12是本公开实施例提供的不同纹理特征图的渲染结果示意图;
图13是本公开实施例提供的不同损失函数的渲染结果示意图;
图14为本公开实施例提供的一种纹理生成装置的组成结构示意图;
图15为本公开实施例提供的一种纹理生成设备的硬件实体示意图。
具体实施方式
下面将通过实施例并结合附图具体地对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
需要说明的是:在本公开实例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述目标的顺序或先后次序。另外,本公开实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
参见图1A,图1A是本公开实施例提供的纹理生成方法的一个可选的流程示意图,将结合图1A示出的步骤进行说明。
S101、获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定。
在一些实施例中,该查询特征图包括纹理空间中的多个待查询像素点,其中,每一个待查询像素点均对应待渲染的三维人体网格中的一个顶点。请参阅图1B,图1B是本公开实施例提供的注意力机制的一个可选的特征关系示意图。对于图1B中的查询特征图11的待查询像素点,以图中星号标记的待查询像素点O1为例,该待查询像素点O1与三维人体网格16中的一个顶点O2对应。
在一些实施例中,可以通过二维语义分割模型对待转换图像进行语义分割,以得到用于表征所述待转换图像的语义特征的键特征图。如图1B中的键特征图12所示,该键特征图12中已包括待转换图像中各个区域(像素点)的语义特征,示例性的,图1B中的键特征图12已经将待转换图像分割为头部、躯干、上臂、手臂、大腿和小腿等语义部位。
需要说明的是,基于该查询特征图和该键特征图,可以得到每一待查询像素点对应的注意力特征图。如图1B中的注意力特征图13所示,以上述待查询像素点O1为例,在经过对该查询特征图和该键特征图之间的关联(Correlation)操作之后,可以得到如注意力特征图13所示的注意力分布情况,由于该待查询像素点O1位于三维人体网格中的手臂部分,因此,得到的注意力特征图13中的注意力特征也主要分布在键特征图中语义特征为“手臂”的区域。
在一些实施例中,该值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数。请参阅图1B,以值特征图14为待转换图像为例,基于该注意力特征图13中每一像素点对应的权重和值特征图14中每一像素点的像素值,可以得到该待查询像素点O1对应的目标像素值,并将该目标像素值作为目标纹理图15中待查询像素点O3的纹理参数;其中,目标纹理图15中待查询像素点O3与查询特征图11中待查询像素点O1对应。
S102、基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
在一些实施例中,将所述查询特征图作为注意力机制的将所述键特征图作为注意力机制的将值特征图作为注意力机制的经过该注意力机制,得到该目标纹理特征图其中,该(v,u)是输出纹理空间(UV空间)的高度和宽度,(h,w)是待转换图像的高度和宽度,d,c分别是K和V的特征维数。
在一些实施例中,该纹理参数可以为像素值。
在本公开实施例中,由于采用注意力机制,在基于所述查询特征图、所述键特征图和所述值特征图获取目标纹理特征图的过程中,该目标纹理特征图中的每一待查询像素点的纹理参数能够考虑到待转换图像的全局信息,进而可以在基于单一图像的基础上,提升纹理特征图中纹理参数的真实性,为后续渲染相应的三维网络提供纹理基础。
参见图2A,图2A是本公开实施例提供的纹理生成方法的一个可选的流程示意图,基于图1A,图1A中的S102可以包括S201至S203,将结合图2A示出的步骤进行说明。
S201、对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征;所述输入特征图包括所述查询特征图、所述键特征图和所述值特征图。
在一些实施例中,为了得到所述查询特征图、所述键特征图和所述值特征图的深层次特征,至少两个尺度对应的查询特征图、键特征图和值特征图,由于同一尺度的查询特征图、键特征图和值特征图均是注意力机制的输入特征,为了便于表述,之后实施例将以输入特征图代替查询特征图、键特征图和值特征图。需要说明的是,由于该查询特征图与待转换图像无关,即,针对不同的待转换图像,可以采用相同的查询特征图,因此,可以预先设置每一尺度对应的查询特征图,进而可以避免对于查询特征图的重复特征提取。
在一些实施例中,可以对所述输入特征图依次进行多次下采样处理,得到多个尺度对应的输入特征。其中,每一所述下采样处理得到特征为一个尺度对应的输入特征。
在一些实施例中,针对多个尺度对应的输入特征,本公开实施例可以采用任意数量次下采样处理、任意数量次上采样处理和处理顺序,只要得到上述多个尺度对应的输入特征即可。
在一些实施例中,可以通过S2011实现上述对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征:
S2011、对所述输入特征图进行多次下采样处理,得到预设尺度对应的输入特征;对所述预设尺度对应的输入特征,进行多次上采样处理,得到多个尺度对应的输入特征;所述下采样处理的次数和所述上采样处理的次数相同。
在一些实施例中,每一所述上采样处理得到的特征为一个尺度对应的输入特征。
例如,在所述多次下采样处理为3次下采样处理,所述多次上采样处理为3次上采样处理的情况下,针对原始尺度(D0)的输入特征,在经过第一次下采样处理后,得到D1尺度的特征;针对D1尺度的特征,在经过第二次下采样处理后,得到D2尺度的特征;针对D2尺度的特征,在经过第三次下采样处理后,得到D3尺度的特征,即上述预设尺度对应的输入特征;针对该D3尺度的特征,在经过第一次上采样处理后,得到U2尺度的特征;针对U2尺度的特征,在经过第二次上采样处理后,得到U1尺度的特征;针对U1尺度的特征,在经过第三次上采样处理后,得到U0尺度的特征。其中,U2尺度的特征、U1尺度的特征和U0尺度的特征为3个尺度对应的输入特征。
需要说明的是,D0尺度和U0尺度、D1尺度和U1尺度、D2尺度和U2尺度可以是完全相同的,也可以是部分相同的,也可以是完全不同的。在完全相同的情况下,在下采样处理的次数和上采样处理的次数均为N的情况下,第n次下采样处理的尺度变化量与第(N-n+1)次上采样处理的尺度变化量相同。
S202、将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征。
在一些实施例中,针对每一尺度,将当前尺度的查询特征图作为Q、键特征图作为K、值特征图作为V,输入至当前尺度对应的转换模块,将转换模块输出的O作为所述尺度对应的输出特征。
在一些实施例中,可以通过S2021实现上述将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征:
S2021、针对每一所述尺度,融合所述查询特征图和所述查询特征图的位置编码,得到第一输入特征;融合所述键特征图和所述键特征图的位置编码,得到第二输入特征;基于所述第一输入特征、所述第二输入特征和所述值特征图得到中间特征图;基于所述中间特征图和残差网络确定所述尺度对应的输出特征。
其中,上述输出特征可以表示为公式(1-1):
O∈fres-MLP(fAttn(Q+EQ,K+EK,V)) 公式(1-1);
其中,O为输出特征,Q为查询特征图,EQ为查询特征图的位置编码,(Q+EQ)为第一输入特征,K为键特征图,EK为键特征图的位置编码,(K+EK)为第二输入特征,V为值特征图,fAttn为注意力模块,fres-MLP为残差网络。
请参阅图2B,其示出了一种注意力模块的结构示意图,其中,该注意力模块可以基于值特征图V、融合查询特征图的位置编码的第一输入特征(Q+EQ)和融合键特征图的位置编码的第二输入特征(K+EK),得到中间特征图,再将该中间特征和经过多层感知器(MLP)处理的中间特征融合,即通过残差网络得到当前尺度对应的输出特征O。
S203、融合每一所述尺度对应的输出特征,得到所述目标纹理特征图。
在一些实施例中,在值特征图为包括待转换图像的原始像素特征的情况下,基于注意力机制,得到的每一尺度对应的输出特征也包含像素特征。因此,在融合每一尺度对应的输出特征之后,可以得到目标纹理特征图。
在一些实施例中,在值特征图为包括待转换图像的像素分布特征的情况下,基于注意力机制,得到的每一尺度对应的输出特征也包含像素分布特征。因此,在融合每一尺度对应的输出特征之后,不仅需要融合各个尺度对应的输出特征,得到多尺度输出特征,还需要结合该多尺度输出特征和待转换图像,确定目标纹理特征图。即,可以通过S2031至S2032实现上述融合每一所述尺度对应的输出特征,得到所述目标纹理特征图。
S2031、融合每一所述尺度对应的输出特征,得到多尺度输出特征。
S2032、基于所述多尺度输出特征,确定所述目标纹理特征图。
在一些实施例中,在所述多尺度输出特征包括像素特征图的情况下,所述值特征图包括所述待转换图像的原始像素特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:将所述像素特征图作为所述目标纹理特征图。
在一些实施例中,在所述多尺度输出特征包括纹理流特征图的情况下,所述值特征图包括所述输入图像的像素分布特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:基于所述纹理流特征图和所述待转换图像,生成所述目标纹理特征图。
在一些实施例中,该多尺度输出特征可以同时包括上述像素特征图和纹理流特征图。例如,该多尺度输出特征为v*u*C,其中,(v,u)是输出纹理空间(UV空间)的高度和宽度,C为纹理空间中每一待查询像素点对应的特征,本公开实施例可以将C分割为C1和C2,以得到v*u*C1的像素特征图,和v*u*C2的纹理流特征图。之后,分别通过像素特征图得到对应的第一待融合纹理特征图,通过纹理流特征图得到对应的第二待融合纹理特征图,并基于预设的融合权重,融合该第一待融合纹理特征图和第二待融合纹理特征图以得到目标纹理特征图。
在本公开实施例中,由于获取不同尺度的输入特征(包括查询特征图、键特征图和值特征图),并结合对应的转换模块,得到每一尺度对应的输出特征,可以获取各个特征图的在不同尺度的特征分布情况,基于上述不同尺度对应的输出特征得到的目标纹理特征图可以更加准确的体现真实的纹理信息。
参见图3,图3是本公开实施例提供的纹理生成方法的一个可选的流程示意图,基于图2A,图2A中的S2031可以包括S301至S302,将结合图3示出的步骤进行说明。
S301、按照所述多个尺度中最大尺度至最小尺度的顺序,依次对每一所述尺度对应的输出特征进行下采样融合处理,得到每一所述尺度对应的下采样融合特征。
在一些实施例中,所述下采样融合处理用于融合所述尺度对应的输出特征和上一个下采样融合处理得到的下采样融合特征,得到下采样中间特征,并对所述下采样中间特征进行下采样处理,得到所述尺度对应的下采样融合特征。
S302、按照所述多个尺度中最小尺度至最大尺度的顺序,依次对每一所述尺度对应的输出特征进行上采样融合处理,得到每一所述尺度对应的上采样融合特征;所述最大尺度对应的上采样融合特征为所述多尺度输出特征。
在一些实施例中,所述上采样融合处理用于对上一个上采样融合处理得到的上采样融合特征进行上采样处理,得到上采样中间特征,并融合所述上采样中间特征和所述尺度对应的输出特征,得到所述尺度对应的上采样融合特征。
在一些实施例中,所述最小尺度的上采样融合处理用于对所述最小尺度对应的下采样融合特征进行上采样处理,并融合所述最小尺度对应的输出特征,得到所述最小尺度对应的上采样融合特征;所述最大尺度对应的上采样融合特征为所述多尺度输出特征。
以所述多个尺度包括第一尺度、第二尺度和第三尺度为例,其中,按照最大尺度至最小尺度的顺序,第一尺度>第二尺度>第三尺度,上述S301的执行过程包括:先对第一尺度对应的输出特征进行下采样融合处理,再对第二尺度对应的输出特征进行下采样融合处理,最后对第三尺度对应的输出特征进行下采样融合处理。
其中,在对第一尺度对应的输出特征进行下采样融合处理的过程中,由于该第一尺度为最大的尺度,因此不需要融合上一个下采样融合处理得到的下采样融合特征,只需对该第一尺度的输出特征进行下采样处理,得到第一尺度对应的下采样融合特征。
在对第二尺度对应的输出特征进行下采样融合处理的过程中,融合第一尺度对应的下采样融合特征和第二尺度对应的输出特征,得到第二尺度的下采样中间特征,然后对该下采样中间特征进行下采样处理,得到第二尺度对应的下采样融合特征。以此类推,在对第二尺度对应的输出特征进行下采样融合处理的过程中,可以得到第三尺度对应的下采样融合特征。
此时,S301已经完成了依次对每一所述尺度对应的输出特征进行上采样融合处理,得到每一所述尺度对应的上采样融合特征的步骤,并将最小尺度(第三尺度)对应的下采样融合特征传递至S302。
上述S302的执行过程包括:先对第三尺度对应的输出特征进行上采样融合处理,再对第二尺度对应的输出特征进行上采样融合处理,最后对第一尺度对应的输出特征进行上采样融合处理。
其中,在对第三尺度对应的输出特征进行上采样融合处理的过程中,由于该第三尺度为最小的尺度,因此,需要对S301得到的最小尺度(第三尺度)对应的下采样融合特征进行上采样处理,得到第三尺度对应的上采样融合特征。
在对第二尺度对应的输出特征进行上采样融合处理的过程中,对第三尺度对应的上采样融合特征进行上采样处理,得到第二尺度对应的上采样中间特征,并融合所述上采样中间特征和第二尺度对应的输出特征,得到第二尺度对应的上采样融合特征。以此类推,在对第一尺度对应的输出特征进行上采样融合处理的过程中,可以得到第一尺度对应的上采样融合特征。
此时,S302已经完成了依次对每一所述尺度对应的输出特征进行上采样融合处理,得到每一所述尺度对应的上采样融合特征的步骤,并将最大尺度(第一尺度)对应的上采样融合特征作为所述多尺度输出特征。
在本公开实施例中,由于在融合过程中,针对当前尺度的上采样融合处理或下采样融合处理,不仅考虑到上一个融合过程得到的输出特征,还融合当前尺度的原始输出特征,可以提升特征融合效果,得到的多尺度输出特征可以包含每一尺度的输出特征的特征信息。
参见图4,图4是本公开实施例提供的纹理生成方法的一个可选的流程示意图,基于图2A,图2A中的S2032可以包括S401至S402,将结合图4示出的步骤进行说明。
S401、基于所述置信度特征图,确定所述纹理空间中每一所述待查询像素点的置信度信息;所述置信度信息包括所述待查询像素点对应所述像素特征图的第一置信度和对应所述纹理流特征图的第二置信度。
在一些实施例中,上述多尺度融合特征不仅包括了像素特征图和纹理流特征图,还包括了携带每一所述待查询像素点的置信度信息的置信度特征图。基于上述实施例,该多尺度输出特征为v*u*C,其中,(v,u)是输出纹理空间(UV空间)的高度和宽度,C为纹理空间中每一待查询像素点对应的特征,本公开实施例可以将C分割为C1、C2和C3,以得到v*u*C1的像素特征图,v*u*C2的纹理流特征图,和v*u*C3的置信度特征图。
在一些实施例中,针对任意一个待查询像素点,该待查询像素点的置信度信息可以表示为(K1,K2),其中K1为该待查询像素点对应像素特征图的第一置信度,该第一置信度越高,表征该像素特征图中还原的该待查询像素点的纹理参数更准确;K2为该待查询像素点对应纹理流特征图的第二置信度,该第二置信度越高,表征该纹理流特征图中还原的该待查询像素点的纹理参数更准确。
S402、基于每一所述待查询像素点的所述第一置信度和所述第二置信度,融合所述像素特征图和所述纹理流特征图,得到所述目标纹理特征图。
在一些实施例中,针对每一待查询像素点,可以对比该第一置信度和第二置信度,基于较大的置信度对应的特征图(像素特征图或纹理流特征图)确定该待查询像素点的纹理参数,进而可以得到所有待查询像素点的纹理参数,即目标纹理特征图。
在一些实施例中,可以通过S4021至S4023实现上述将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征:
S4021、基于所述像素特征图确定每一所述待查询像素点对应的第一纹理参数。
S4022、基于所述纹理流特征图和所述待转换图像,确定每一所述待查询像素点对应的第二纹理参数。
S4023、针对每一所述待查询像素点,分别基于所述第一置信度和所述第二置信度,对所述第一纹理参数和所述第二纹理参数进行加权融合,得到所述待查询像素点对应的纹理参数。
以纹理参数为像素值为例,针对任意一个待查询像素点,该待查询像素点的置信度信息为(K1,K2),则基于该像素特征图可以确定该待查询像素点对应的第一纹理参数为P1,基于该纹理流特征图和所述待转换图像可以确定该待查询像素点对应的第一纹理参数为P2,则该待查询像素点对应的纹理参数可以表示为P=K1*P1+K2*P2。
需要说明的是,该纹理参数还可以是其他用于渲染三维模型的纹理数据,例如,亮度、材质或硬度中的至少之一。
在本公开实施例中,由于基于待查询像素点的第一置信度和所述第二置信度,对由像素特征图确定的第一纹理参数和由纹理流特征图确定的第二纹理参数进行融合,可以提升每一待查询像素点的纹理参数的真实性。
参见图5,图5是本申请实施例提供的纹理生成模型的训练方法的一个可选的流程示意图,上述实施例中的纹理生成方法可以通过已训练的纹理生成模型实现,该纹理生成模型的训练过程,可以通过S501至S504实现,将结合图5示出的步骤进行说明。
S501、获取样本图像,将所述样本图像输入至待训练的纹理生成模型,得到所述样本图像对应的预测纹理图像。
S502、对所述样本图像对应的预测纹理图像进行渲染,得到所述样本图像对应的预测渲染图像。
S503、基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值。
其中,该待训练的纹理生成模型的损失值可以由第一损失值、第二损失值和第三损失值中的至少之一确定。以下将针对不同的损失值的获取方法进行说明。
在一些实施例中,参见图6,图6是本申请实施例提供的第一损失值获取方法的一个可选的流程示意图,包括:
S601、基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征。
S602、基于所述第一人物特征和所述第二人物特征之间的特征距离确定所述第一损失值。
在一些实施例中,参见图7,图7是本申请实施例提供的第二损失值获取方法的一个可选的流程示意图,包括:
S701、基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征。
S702、获取所述样本图像对应的第一分割结果;所述第一分割结果用于表征所述样本图像中每一人体部位的第一分布信息;获取所述预测渲染图像对应的第二分割结果;所述第二分割结果用于表征所述预测渲染图像中每一所述人体部位的第二分布信息。
S703、针对每一所述人体部位,基于所述人体部位的第一部位特征和第二部位特征之间的特征距离确定所述人体部位对应的部位损失值;所述第一部位特征基于所述第一人物特征和所述人体部位的第一分部信息确定,所述第二部位特征基于所述第二人物特征和所述人体部位的第二分部信息确定。
S704、基于每一所述人体部位对应的部位损失值,确定所述第二损失值。
在一些实施例中,参见图8,图8是本申请实施例提供的第三损失值获取方法的一个可选的流程示意图,包括:
S801、获取所述预测纹理图像中目标人体部位对应的部位纹理图像。
S802、获取所述目标人体部位对应的标准纹理图像;所述标准纹理图像为不同人物在所述目标人体部位下的部位纹理图像的融合图像。
S803、基于所述部位纹理图像和所述标准纹理图像之间的结构相似性指数,确定所述第三损失值。
S804、根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,可以同时基于上述第一损失值、第二损失值和第三损失值确定所述待训练的纹理生成模型的损失值,通过该损失函数训练得到的纹理生成模型,输出的纹理特征图不仅可以保留待转换图像的细节信息,还可以减少出现伪影的几率,针对复杂结构的人体部位,可以生成符合人体特征的纹理特征图。
请参阅图9,图9是本申请实施例提供的纹理生成模型的训练方法的另一个可选的流程示意图,上述实施例中的纹理生成方法可以通过已训练的纹理生成模型实现,该纹理生成模型的训练过程,还可以通过S901至S904实现,将结合图9示出的步骤进行说明。
S901、获取样本图像,将所述样本图像输入至待训练的纹理生成模型,得到所述样本图像对应的预测纹理图像。
S902、对所述样本图像对应的预测纹理图像进行渲染,得到所述样本图像对应的预测渲染图像。
S903、基于所述样本图像、所述预测渲染图像和目标人体部位对应的标准纹理图像,确定第一损失值、第二损失值和第三损失值;
S904、基于所述第一损失值、所述第二损失值和所述第三损失值分别对应的权重参数,确定所述待训练的纹理生成模型的总损失值。
S905、根据所述总损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在本公开实施例中,由于在利用样本图像对待训练的纹理生成图像进行训练的过程中,同时基于上述第一损失值、第二损失值和第三损失值确定所述待训练的纹理生成模型的损失值,通过该损失函数训练得到的纹理生成模型,输出的纹理特征图不仅可以保留待转换图像的细节信息,还可以降低出现伪影的几率,针对复杂结构的人体部位,可以生成符合人体特征的纹理特征图。
下面,将说明本公开实施例在一个实际的应用场景中的示例性应用。为了便于理解,以下将以人体为待渲染的三维模型(网格)进行说明,本申请还可以应用于动物,建筑,车辆等其他对象。
本公开实施例可以从单目图像中估计3D人体纹理,在基于单幅图像完成3D人体重建中起着关键作用,在虚拟和增强现实、电影业、游戏和生物识别方面有着广泛的应用。
在相关方案中,可以通过深度卷积神经网络(CNN)从输入图像(对应上述实施例中的待转换图像)中预测3D人体纹理(即UV纹理图)。虽然相关方案可以得到一定的预测结果,但发明人经过研究发现,其网络架构存在一个固有的缺点:卷积层被设计为局部操作,在处理对3D人体纹理估计的过程中,难以关注至关重要的全局信息。更具体地说,该方案中的输入和输出没有严格对齐的空间对应关系,甚至可能具有完全不同的形状,如图10所示,该方案的输入为图10中的输入图像,输出为图10中的纹理图像,可以看出,该方案的输入和输出不仅在图像尺寸大小存在不同,输入图像中的各个人体部位在输入图像中的相对位置和纹理图像中各个人体部位在纹理图像中的相对位置也存在不同。因此,本公开在提取纹理数据的过程中引入了全局信息,进而可以得到更好地3D人体纹理重建效果。
在一些实施例中,本公开实施例提供了一种转换模块(Transformer),该转换模块用于基于单个图像进行3D人体纹理估计。其中,该转换模块的核心是注意力模块,它涉及三个输入特征:查询(Query)特征图,键(Key)特征图和值(Value)特征图。
其中,本公开实施例中的查询特征图的大小与输出的UV纹理图的大小相同,例如,在查询特征图的尺寸为256*256*Q的情况下,对应的UV纹理图的尺寸为256*256*T,即查询特征图和UV纹理图中包括的像素点数量相同。查询特征图的每个像素点与3D人体网格的一个顶点存在对应关系。值特征图包括待转换图像中所有源像素。键特征图包括待转换图像中各个像素点的语义类别,针对一个像素点,若该像素点的语义类别为头部,则该像素点从图像空间至UV空间的映射关系就确定了,即对应至输出的UV纹理图中的头部区域。该键特征图可以基于语义分割模型对该待转换图像进行分割得到的二维分割图像。
为了更直观理解这三个输入特征之间的关系,请参阅图1B,图1B示出了该转换模块的基础工作流程。针对查询特征(Query)中的任意一个像素(如图1B中标记为星形的单个像素)首先用于与键特征(Key)相关联,从而生成一个注意力特征图(attention map)。基于该注意力特征图,结合值特征(Value)中的源信息,通过加权平均来有效聚合,生成目标纹理图像(UV map)中的对应像素。基于该转换模块,能够在不丢失细节的情况下利用输入图像的全局信息。需要说明的是,为了便于理解,图1B提供的实施方式是简化后的。
请参阅图11,该图11示出了一种纹理生成模型的模型架构示意图。可以看出,该纹理生成模型的输入包括查询特征B1,键特征B2和值特征B3,输出为目标纹理图像B4。在该纹理生成模型中,包括特征提取模块B5、特征转换模块B6和特征融合模块B7。
在一些实施例中,该查询特征B1为输出UV空间的编码特征,在该查询特征B1中的每一个像素点均对应三维人体网格中的一个顶点。为此,本公开使用来自SMPL模型(Skinned Multi-Person Linear Model,基于纹理的多人线性模型)的标准人体网格的每个顶点的3D坐标作为颜色编码。查询特征B1中每个像素的颜色值可以通过以下方式得到:首先将标准人体网格的每个顶点的3D坐标映射到UV空间,然后对坐标进行插值来获得查询特征B1中每个像素的颜色值。需要说明的是,在网络训练之前预先确定了查询特征B1,并且对所有输入图像均使用相同的查询特征B1,即使用了相同的UV空间的颜色编码。
在一些实施例中,该键特征B2用于关联查询特征B1并生成对应的注意力图,对于连接图像空间和UV空间至关重要。在本公开实施例中,可以将输入图像的二维分割图像(对应上述实施例中的键特征图)作为表征输入图像与UV纹理图之间映射关系的键特征。需要说明的是,与上述实施例中通过二维语义分割模型对待转换图像进行语义分割的方案相同,上述二维分割图像可以通过相关技术中的语义分割模型得到。
在一些实施例中,该键特征B2中除了包括图像空间中每一像素点对应的语义特征之外,还将输入图像作为附加通道,以提供上下文特征。例如,在输入图像的大小为h*w的情况下,通过语义分割模型可以得到该输入图像对应的二维分割图像可以为h*w*Y,将其作为该输入图像的键特征;在另一些实施例中,还可以将输入图像也添加至该键特征中,即得到的键特征为h*w*(Y+M),其中,M为输入图像在每一像素点的图像特征,可以包括位置特征(坐标),还可以包括像素特征。
在一些实施例中,该值特征B3用于表示由键特征索引的源信息,结合注意图并聚合到UV空间中,以生成输出。其中,该值特征B3可以包括以下情况:
(1)在上述纹理生成模型直接用于输出RGB UV纹理图的情况下,该值特征B3可以包括输入图像的RGB特征。
(2)在模型首先生成纹理流特征,然后通过对输入图像和预测流进行采样来生成UV纹理图时,该值特征B3可以包括输入图像的流场,即每个像素的2D坐标。
在一些实施例中,该值特征B3可以同时包括RGB特征和纹理流特征,即将RGB特征和纹理流特征的融合特征作为值特征B3。相应地,该纹理生成模型可以同时生成预测的RGB特征和纹理流特征。
Transformer不能直接使用查询特征、键特征和值特征的原始形式,针对在注意力模块中进行比较的过程中,更不能直接使用查询特征、键特征的原始形式,例如,若查询特征的原始形式为vu×D1,键特征的原始形式为hw×D2,在查询特征的特征维度D1与键特征的特征维度D2不相同的情况下,该注意力模块无法完成上述查询特征和键特征的运算过程(即QKT),因此查询特征和键特征应该具有相同的特征维度。因此,本公开实施例将上述查询特征、键特征和值特征输入至特征提取模块B5以转换至特征空间,以得到 然后将得到的特征发送到特征转换模块B6,特征转换模块B6生成输出特征其中,(v,u)是输出UV纹理图的高度和宽度,(h,w)是输入图像的高度和宽度,而d,c分别是K和V的特征维数。
需要注意的是,查询特征输入至特征提取模块B5以转换至特征空间的方案仅为了表明不同尺度的特征转换模块B6的输入特征,并且仅在训练阶段才需要。在模型部署期间,可以通过预先计算特征编码来删除将查询特征输入至特征提取模块B5以转换至特征空间的方案。
在一些实施例中,特征转换模块为该纹理生成模型的核心模块,通过该特征转换模型可以有效地将图像特征分布到UV纹理图的适当位置,并实现输入空间和输出空间之间的全局信息交换。具体来说,可以写为公式(2-1):
O∈fres-MLP(fAttn(Q+EQ,K+EK,V)) 公式(2-1);
其中,fAttn为多头注意力模块,fres-MLP是一种两层MLP,其输入和输出之间具有残差连接。EQ和EK分别是查询特征和键特征的正弦位置编码。
在一些实施例中,上述多头注意力模块fAttn基于单头注意力模块,如公式(2-2):
普通注意力公式的一个重要问题是高记忆复杂度这使得普通gpu无法进行训练。为了解决这个问题,本公开实施例使用了低秩策略,该低秩策略删除了公式(2-2)的softmax函数,并通过纯矩阵乘法来近似注意力,这允许通过操纵矩阵乘法的顺序来进行更有效的计算,即先计算再结合得到该注意力机制的输出结果。这样,可以大大减少内存占用至使训练更加可行。
在一些实施例中,上述纹理生成模型采用了多尺度特征融合的方案。即,通过三级特征金字塔来计算输出特征,而不是在单一尺度上应用特征转换模块B6。以图11在三个尺度上应用特征转换模块B6为例,该纹理生成模型可以进一步包括第一尺度对应的特征转换模块B61、第二尺度对应的特征转换模块B62和第三尺度对应的特征转换模块B63,第三尺度大于第二尺度,且第二尺度大于第一尺度。相应地,对于前两个特征空间较大的尺度(即第二尺度和第三尺度),本公开实施例使用上述低秩策略来降低内存开销;对于第三个特征空间较小的尺度(即第一尺度),本公开实施例使用普通的基于softmax的注意力模块。然后,通过特征融合模块B7对得到的多尺度输出特征Oi,i=1,2,3进行融合。这种多尺度特征融合方案可以使特征转换模块B6更好地利用上下文信息,并预测不可见区域(即有遮挡的纹理区域,或结构复杂的纹理区域)的高质量人体纹理。
在一些实施例中,该纹理生成模型的输出有两种可能的选择:(1)直接生成RGB纹理TRGB(对应上述实施例中的像素特征图);(2)通过从输入图像I采样来预测可用于生成最终纹理的纹理流F(对应上述实施例中的纹理流特征图)。请参阅图12所示,这两种策略都有各自的优点和局限性:直接合成TRGB可以重建视觉上令人满意的3D人体纹理,但往往会丢失细节信息(图12中的RGB渲染结果)。另一方面,纹理流能够保留输入图像中的细节信息,但是可能存在严重的伪影(图12中的纹理流渲染结果)。
为了解决上述问题,本公开实施例采用了一种掩模融合(mask-fusion)方案,来结合上述RGB纹理图和纹理流的优点。因此,本公开实施例中的特征转换模块的输出不仅包括RGB纹理图和纹理流F,还包括掩模特征(对应上述实施例中的置信度特征图),如图11所示,该特征融合模块B7不仅可以采用多个下采样处理和多个上采样处理,将特征转换模块输出的多个尺度的输出进行融合,并对融合得到的RGB纹理图、纹理流和掩码特征进行运算,得到最后的纹理图(对应上述实施例中的目标纹理特征图)。上述特征融合模块B7可以执行如公式(2-3)的运算过程:
T=M⊙fsample(F,I)+(1-M)⊙TRGB 公式(2-3);
其中,fsample是双线性采样函数,该fsample用于基于纹理流F从输入图像I中采样,以得到对应的第一纹理图,⊙表示逐元素相乘,最终纹理T是通过加权求和的方式,融合TRGB和fsample(F,I)计算得出的。如图12中的掩模融合渲染结果所示,掩模融合方法能够显着减少视觉伪影,同时保留精细细节。
此外,通过观察学习的图12中的掩模特征,发明人发现该纹理生成模型倾向于使用采样纹理样本(F,I)作为可见区域(如人体胸部),并使用合成纹理TRGB作为不可见的区域,如人的背部以及其他具有复杂结构(如脸部和手部)的区域。
针对该纹理生成模型,本公开实施例提供了以下多种损失函数,以提升该纹理生成模型的纹理生成效果。
在一些实施例中,本公开实施例可以基于得到的目标纹理图像进行渲染,得到对应的渲染纹理图像fr(T,D),其中,fr是可微的渲染函数,D表示相关算法预测的3D人体网格和相机参数;也就是说,将目标纹理图像渲染至与输入图像中人体姿态对应的三维人体模型中,并通过虚拟相机生成对应的投影图像,将该投影图像作为上述渲染纹理图像。之后,可以通过提升渲染图像fr(T)和输入图像I之间的相似性来训练该纹理生成模型。请注意,这里为了表达的简洁,以下实施例将以fr(T)代替fr(T,D)。
因此,为了加强fr(T)和I之间的相似性,本公开实施例提供了第一损失函数(lReID),如公式(2-4):
发明人经过研究发现,虽然第一损失函数的可以在一定程度上还原输入图像中的纹理信息,但重建的纹理通常与输入图像有明显的颜色差异,如图13中的ReID渲染结果所示,这主要是由于公式(2-4)中的归一化操作所致。解决这个问题的一种方法是去除归一化操作,并使用未归一化的特征作为第一损失函数。然而,这种策略通常会导致重建的人体纹理中出现严重的伪影,如图13中的去归一化的ReID渲染结果所示,重建的人体的人脸和手臂上存在不自然的纹理。发明人经过一定的实验后发现,上述问题是由于相关算法预测的3D人体网格并不总是准确的。3D人体网格与输入图像没有很好地对齐。因此,仅仅将渲染的人体与输入图像之间的相似性作为模型训练的损失值可能会对训练过程产生负面影响。
为了解决这个问题,本公开实施例还提供了第二损失函数,其基础是观察到2D部分分割结果通常比3D部分分割结果更准确,并且与输入图像更好地对齐。具体来说,本公开实施例针对每个身体部分确定渲染渲染的人体与输入图像之间的相似性,可以解决3D网格预测不准确进而引起的未对准问题。
然而,不同分割图中相同身体部位的区域通常具有不同的尺寸和形状,基于三维网格渲染得到的分割图和基于二维输入图像得到的分割图在相同身体部位也具有不同的尺寸和形状,因此,不能采用上述公式(2-4)的损失值计算方法。本公开实施例通过格拉姆矩阵(Gram matrix)来确定第二损失值,其中,格拉姆矩阵在计算过程中不需要相同的大小和形状。与基于整体图像计算格拉姆矩阵相似性的方案不同,本公开实施例以每个身体部分的分别计算各个身体部位对应的格拉姆矩阵相似性,得到的第二损失函数(lStyle),如公式(2-5):
其中M和M′分别是来自3D网格和2D人体解析模型的人体部分分割结果。这里,p表示第p个身体部分,G是格拉姆矩阵(Gram matrix)。通过使用ReID网络第一层的特征(即“φ1”)确定第二损失值(lStyle),以使该第二损失函数可以更好地关注重建纹理的低层级颜色。
如图13中的ReID+Style渲染结果所示,结合基于第一损失函数得到的第一损失值(lReID)和基于第二损失函数得到的第二损失值(lStyle),可以实现更接近输入图像的颜色外观,而不会引入令人不快的伪影。
在一些实施例中,基于上述第一损失值和第二损失值的方案虽然能够很好地重建人体大多数区域的3D纹理,但是对于具有复杂结构(例如人脸)的人体部分的纹理仍然是具有挑战性的。在相关技术中,可以通过鼓励面部纹理接近人类数据集的平均面部纹理的方式得到该面部纹理,然而,这通常会导致面部颜色与其他皮肤不一致,而造成不自然的情况。为了解决这个问题,本公开实施例通过分析和改进原始结构相似性指数(SSIM,Structural Similarity)提出了一种面部结构损失lface作为第三损失函数。通过该第三损失函数可以有效地促进合理的面部纹理的生成,同时保持该面部纹理颜色与输入人体的颜色相同。
基于上述实施例,上述纹理生成模型的整体损失函数同时包括上述第一损失函数,第二损失函数和第三损失函数。在一些实施例中,该整体损失函数可以如公式(2-6)所示:
l=w1*lReID+w2*lStyle+w3*lface 公式(2-6);
其中,w1、w2和w3是超参数。在一些实施例中,w1=5000,w2=0.4,w3=0.01。
图14为本公开实施例提供的一种纹理生成装置的组成结构示意图,如图14所示,纹理生成装置1400包括:
获取模块1401,用于获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
生成模块1402,用于基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
在一些实施例中,所述生成模块1402,还用于:
对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征;所述输入特征图包括所述查询特征图、所述键特征图和所述值特征图;
将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征;
融合每一所述尺度对应的输出特征,得到所述目标纹理特征图。
在一些实施例中,所述生成模块1402,还用于:
对所述输入特征图进行多次下采样处理,得到预设尺度对应的输入特征;
对所述预设尺度对应的输入特征,进行多次上采样处理,得到多个尺度对应的输入特征;所述下采样处理的次数和所述上采样处理的次数相同。
在一些实施例中,所述生成模块1402,还用于:
针对每一所述尺度,融合所述查询特征图和所述查询特征图的位置编码,得到第一输入特征;
融合所述键特征图和所述键特征图的位置编码,得到第二输入特征;
基于所述第一输入特征、所述第二输入特征和所述值特征图得到中间特征图;
基于所述中间特征图和残差网络确定所述尺度对应的输出特征。
在一些实施例中,所述生成模块1402,还用于:
融合每一所述尺度对应的输出特征,得到多尺度输出特征;
基于所述多尺度输出特征,确定所述目标纹理特征图。
在一些实施例中,所述生成模块1402,还用于:
按照所述多个尺度中最大尺度至最小尺度的顺序,依次对每一所述尺度对应的输出特征进行下采样融合处理,得到每一所述尺度对应的下采样融合特征;所述下采样融合处理用于融合所述尺度对应的输出特征和上一个下采样融合处理得到的下采样融合特征,得到下采样中间特征,并对所述下采样中间特征进行下采样处理,得到所述尺度对应的下采样融合特征;
按照所述多个尺度中最小尺度至最大尺度的顺序,依次对每一所述尺度对应的输出特征进行上采样融合处理,得到每一所述尺度对应的上采样融合特征;所述上采样融合处理用于对上一个上采样融合处理得到的上采样融合特征进行上采样处理,得到上采样中间特征,并融合所述上采样中间特征和所述尺度对应的输出特征,得到所述尺度对应的上采样融合特征;
其中,所述最小尺度的上采样融合处理用于对所述最小尺度对应的下采样融合特征进行上采样处理,并融合所述最小尺度对应的输出特征,得到所述最小尺度对应的上采样融合特征;所述最大尺度对应的上采样融合特征为所述多尺度输出特征。
在一些实施例中,在所述多尺度输出特征包括像素特征图的情况下,所述生成模块1402,还用于:
将所述像素特征图作为所述目标纹理特征图。
在一些实施例中,在所述多尺度输出特征包括纹理流特征图的情况下,所述生成模块1402,还用于:
基于所述纹理流特征图和所述待转换图像,生成所述目标纹理特征图。
在一些实施例中,在所述多尺度输出特征包括像素特征图、纹理流特征图和置信度特征图的情况下,所述值特征图包括所述输入图像的原始像素特征和像素分布特征;所述生成模块1402,还用于:
基于所述置信度特征图,确定所述纹理空间中每一所述待查询像素点的置信度信息;所述置信度信息包括所述待查询像素点对应所述像素特征图的第一置信度和对应所述纹理流特征图的第二置信度;
基于每一所述待查询像素点的所述第一置信度和所述第二置信度,融合所述像素特征图和所述纹理流特征图,得到所述目标纹理特征图。
在一些实施例中,所述生成模块1402,还用于:
基于所述像素特征图确定每一所述待查询像素点对应的第一纹理参数;
基于所述纹理流特征图和所述待转换图像,确定每一所述待查询像素点对应的第二纹理参数;
针对每一所述待查询像素点,分别基于所述第一置信度和所述第二置信度,对所述第一纹理参数和所述第二纹理参数进行加权融合,得到所述待查询像素点对应的纹理参数。
在一些实施例中,上述实施例提供的纹理生成方法由已训练的纹理生成模型实现,所述纹理生成装置还包括训练模块,所述训练模块用于:
获取样本图像,将所述样本图像输入至待训练的纹理生成模型,得到所述样本图像对应的预测纹理图像;
对所述样本图像对应的预测纹理图像进行渲染,得到所述样本图像对应的预测渲染图像;
基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值;
根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,所述待训练的纹理生成模型的损失值包括第一损失值;
所述训练模块还用于:基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征;基于所述第一人物特征和所述第二人物特征之间的特征距离确定所述第一损失值;至少基于所述第一损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,所述待训练的纹理生成模型的损失值包括第二损失值;所述训练模块还用于:基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征;获取所述样本图像对应的第一分割结果;所述第一分割结果用于表征所述样本图像中每一人体部位的第一分布信息;获取所述预测渲染图像对应的第二分割结果;所述第二分割结果用于表征所述预测渲染图像中每一所述人体部位的第二分布信息;针对每一所述人体部位,基于所述人体部位的第一部位特征和第二部位特征之间的特征距离确定所述人体部位对应的部位损失值;所述第一部位特征基于所述第一人物特征和所述人体部位的第一分部信息确定,所述第二部位特征基于所述第二人物特征和所述人体部位的第二分部信息确定;基于每一所述人体部位对应的部位损失值,确定所述第二损失值;至少基于所述第二损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
在一些实施例中,所述待训练的纹理生成模型的损失值包括第三损失值;所述训练模块还用于:获取所述预测纹理图像中目标人体部位对应的部位纹理图像;获取所述目标人体部位对应的标准纹理图像;所述标准纹理图像为不同人物在所述目标人体部位下的部位纹理图像的融合图像;基于所述部位纹理图像和所述标准纹理图像之间的结构相似性指数,确定所述第三损失值;至少基于所述第三损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述的纹理生成方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本公开各个实施例方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本公开实施例不限制于任何目标的硬件和软件结合。
图15为本公开实施例提供的一种纹理生成设备的硬件实体示意图,如图15所示,该纹理生成设备1500的硬件实体包括:处理器1501和存储器1502,其中,存储器1502存储有可在处理器1501上运行的计算机程序,处理器1501执行程序时实现上述任一实施例的方法中的步骤。在一些实施方式中,游戏桌上收赔游戏币的设备1500可以是上述任一实施例中所说明的检测设备。
存储器1502存储有可在处理器上运行的计算机程序,存储器1502配置为存储由处理器1501可执行的指令和应用,还可以缓存待处理器1501以及纹理生成设备1500中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器1501执行程序时实现上述任一项的纹理生成方法的步骤。处理器1501通常控制纹理生成设备1500的总体操作。
本公开实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的纹理生成方法的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
上述处理器可以为目标用途集成电路(Application Specific IntegratedCircuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“本公开实施例”或“前述实施例”或“一些实施例”意味着与实施例有关的目标特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本公开实施例”或“前述实施例”或“一些实施例”未必一定指相同的实施例。此外,这些目标的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在未做特殊说明的情况下,检测设备执行本公开实施例中的任一步骤,可以是检测设备的处理器执行该步骤。除非特殊说明,本公开实施例并不限定检测设备执行下述步骤的先后顺序。另外,不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是,本公开实施例中的任一步骤是检测设备可以独立执行的,即检测设备执行上述实施例中的任一步骤时,可以不依赖于其它步骤的执行。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本公开所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本公开所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本公开所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、检测设备、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
在本公开实施例中,不同实施例中相同步骤和相同内容的说明,可以互相参照。在本公开实施例中,术语“并”不对步骤的先后顺序造成影响。
以上所述,仅为本公开的实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种纹理生成方法,其特征在于,包括:
获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
2.根据权利要求1所述的方法,其特征在于,所述基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图,包括:
对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征;所述输入特征图包括所述查询特征图、所述键特征图和所述值特征图;
将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征;
融合每一所述尺度对应的输出特征,得到所述目标纹理特征图。
3.根据权利要求2所述的方法,其特征在于,所述对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征,包括:
对所述输入特征图进行多次下采样处理,得到预设尺度对应的输入特征;
对所述预设尺度对应的输入特征,进行多次上采样处理,得到多个尺度对应的输入特征;所述下采样处理的次数和所述上采样处理的次数相同。
4.根据权利要求2所述的方法,其特征在于,所述将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征,包括:
针对每一所述尺度,融合所述查询特征图和所述查询特征图的位置编码,得到第一输入特征;
融合所述键特征图和所述键特征图的位置编码,得到第二输入特征;
基于所述第一输入特征、所述第二输入特征和所述值特征图得到中间特征图;
基于所述中间特征图和残差网络确定所述尺度对应的输出特征。
5.根据权利要求2所述的方法,其特征在于,所述融合每一所述尺度对应的输出特征,得到所述目标纹理特征图,包括:
融合每一所述尺度对应的输出特征,得到多尺度输出特征;
基于所述多尺度输出特征,确定所述目标纹理特征图。
6.根据权利要求5所述的方法,其特征在于,所述融合每一所述尺度对应的输出特征,得到多尺度输出特征,包括:
按照所述多个尺度中最大尺度至最小尺度的顺序,依次对每一所述尺度对应的输出特征进行下采样融合处理,得到每一所述尺度对应的下采样融合特征;所述下采样融合处理用于融合所述尺度对应的输出特征和上一个下采样融合处理得到的下采样融合特征,得到下采样中间特征,并对所述下采样中间特征进行下采样处理,得到所述尺度对应的下采样融合特征;
按照所述多个尺度中最小尺度至最大尺度的顺序,依次对每一所述尺度对应的输出特征进行上采样融合处理,得到每一所述尺度对应的上采样融合特征;所述上采样融合处理用于对上一个上采样融合处理得到的上采样融合特征进行上采样处理,得到上采样中间特征,并融合所述上采样中间特征和所述尺度对应的输出特征,得到所述尺度对应的上采样融合特征;
其中,所述最小尺度的上采样融合处理用于对所述最小尺度对应的下采样融合特征进行上采样处理,并融合所述最小尺度对应的输出特征,得到所述最小尺度对应的上采样融合特征;所述最大尺度对应的上采样融合特征为所述多尺度输出特征。
7.根据权利要求5所述的方法,其特征在于,在所述多尺度输出特征包括像素特征图的情况下,所述值特征图包括所述待转换图像的原始像素特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:
将所述像素特征图作为所述目标纹理特征图。
8.根据权利要求5所述的方法,其特征在于,在所述多尺度输出特征包括纹理流特征图的情况下,所述值特征图包括所述待转换图像的像素分布特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:
基于所述纹理流特征图和所述待转换图像,生成所述目标纹理特征图。
9.根据权利要求5所述的方法,其特征在于,在所述多尺度输出特征包括像素特征图、纹理流特征图和置信度特征图的情况下,所述值特征图包括所述待转换图像的原始像素特征和像素分布特征;所述基于所述多尺度输出特征,确定所述目标纹理特征图,包括:
基于所述置信度特征图,确定所述纹理空间中每一所述待查询像素点的置信度信息;所述置信度信息包括所述待查询像素点对应所述像素特征图的第一置信度和对应所述纹理流特征图的第二置信度;
基于每一所述待查询像素点的所述第一置信度和所述第二置信度,融合所述像素特征图和所述纹理流特征图,得到所述目标纹理特征图。
10.根据权利要求9所述的方法,其特征在于,所述基于每一所述待查询像素点的所述第一置信度和所述第二置信度,融合所述像素特征图和所述纹理流特征图,得到所述目标纹理特征图,包括:
基于所述像素特征图确定每一所述待查询像素点对应的第一纹理参数;
基于所述纹理流特征图和所述待转换图像,确定每一所述待查询像素点对应的第二纹理参数;
针对每一所述待查询像素点,分别基于所述第一置信度和所述第二置信度,对所述第一纹理参数和所述第二纹理参数进行加权融合,得到所述待查询像素点对应的纹理参数。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述方法由已训练的纹理生成模型实现,所述纹理生成模型的训练过程包括:
获取样本图像,将所述样本图像输入至待训练的纹理生成模型,得到所述样本图像对应的预测纹理图像;
对所述样本图像对应的预测纹理图像进行渲染,得到所述样本图像对应的预测渲染图像;
基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值;
根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
12.根据权利要求11所述的方法,其特征在于,所述待训练的纹理生成模型的损失值包括第一损失值;
所述基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值,包括:基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征;基于所述第一人物特征和所述第二人物特征之间的特征距离确定所述第一损失值;
所述根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型,包括:至少基于所述第一损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
13.根据权利要求11所述的方法,其特征在于,所述待训练的纹理生成模型的损失值包括第二损失值;
所述基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值,包括:基于行人再识别模型分别提取所述样本图像中的第一人物特征和所述预测渲染图像中的第二人物特征;获取所述样本图像对应的第一分割结果;所述第一分割结果用于表征所述样本图像中每一人体部位的第一分布信息;获取所述预测渲染图像对应的第二分割结果;所述第二分割结果用于表征所述预测渲染图像中每一所述人体部位的第二分布信息;针对每一所述人体部位,基于所述人体部位的第一部位特征和第二部位特征之间的特征距离确定所述人体部位对应的部位损失值;所述第一部位特征基于所述第一人物特征和所述人体部位的第一分部信息确定,所述第二部位特征基于所述第二人物特征和所述人体部位的第二分部信息确定;基于每一所述人体部位对应的部位损失值,确定所述第二损失值;
所述根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型,包括:至少基于所述第二损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
14.根据权利要求11所述的方法,其特征在于,所述待训练的纹理生成模型的损失值包括第三损失值;所述方法还包括:获取所述预测纹理图像中目标人体部位对应的部位纹理图像;获取所述目标人体部位对应的标准纹理图像;所述标准纹理图像为不同人物在所述目标人体部位下的部位纹理图像的融合图像;基于所述部位纹理图像和所述标准纹理图像之间的结构相似性指数,确定所述第三损失值;
所述根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型,包括:至少基于所述第三损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
15.一种纹理生成装置,其特征在于,包括:
获取模块,用于获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
生成模块,用于基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
16.根据权利要求15所述的装置,其特征在于,所述生成模块,还用于对所述注意力机制的输入特征图进行不同尺度的特征提取处理,得到多个尺度对应的输入特征;所述输入特征图包括所述查询特征图、所述键特征图和所述值特征图;将每一所述尺度对应的输入特征输入至对应的转换模块,得到每一所述尺度对应的输出特征;融合每一所述尺度对应的输出特征,得到所述目标纹理特征图。
17.根据权利要求15或16所述的装置,其特征在于,还包括训练模块;
所述训练模块,用于获取样本图像,将所述样本图像输入至待训练的纹理生成模型,得到所述样本图像对应的预测纹理图像;对所述样本图像对应的预测纹理图像进行渲染,得到所述样本图像对应的预测渲染图像;基于所述样本图像和所述预测渲染图像,确定所述待训练的纹理生成模型的损失值;根据所述损失值对所述待训练的纹理生成模型的参数进行调整,以得到已训练的纹理生成模型。
18.一种纹理生成设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令以
获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数:。
19.一种计算机可读存储介质,其特征在于,存储有可执行指令,其中,所述可执行指令被处理器执行时用于:
获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
20.一种计算机程序,其特征在于,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器用于:
获取待转换图像的查询特征图、键特征图和值特征图;所述查询特征图包括纹理空间中的多个待查询像素点;所述键特征图用于表征所述待转换图像的语义特征;所述值特征图用于结合每一所述待查询像素点的注意力特征图确定每一所述待查询像素点的纹理参数;所述注意力特征图由所述查询特征图和所述键特征图确定;
基于注意力机制,将所述查询特征图、所述键特征图和所述值特征图生成目标纹理特征图;所述目标纹理特征图包括每一所述待查询像素点对应的纹理参数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG10202109242Q | 2021-08-24 | ||
SG10202109242Q | 2021-08-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114565941A true CN114565941A (zh) | 2022-05-31 |
CN114565941B CN114565941B (zh) | 2024-09-24 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015271906A1 (en) * | 2011-09-30 | 2016-01-21 | Ebay Inc. | Image feature data extraction and use |
WO2016151790A1 (ja) * | 2015-03-25 | 2016-09-29 | 三菱電機株式会社 | テクスチャマッピング装置、テクスチャマッピング方法及びプログラム |
CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
US20200117906A1 (en) * | 2018-10-12 | 2020-04-16 | Adobe Inc. | Space-time memory network for locating target object in video content |
US20200250528A1 (en) * | 2017-10-25 | 2020-08-06 | Deepmind Technologies Limited | Auto-regressive neural network systems with a soft attention mechanism using support data patches |
US20200320408A1 (en) * | 2019-04-02 | 2020-10-08 | Samsung Electronics Co., Ltd. | Method and apparatus with key-value coupling |
CN112465828A (zh) * | 2020-12-15 | 2021-03-09 | 首都师范大学 | 一种图像语义分割方法、装置、电子设备及存储介质 |
WO2021088556A1 (zh) * | 2019-11-05 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113065586A (zh) * | 2021-03-23 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种非局域的图像分类装置、方法和存储介质 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015271906A1 (en) * | 2011-09-30 | 2016-01-21 | Ebay Inc. | Image feature data extraction and use |
WO2016151790A1 (ja) * | 2015-03-25 | 2016-09-29 | 三菱電機株式会社 | テクスチャマッピング装置、テクスチャマッピング方法及びプログラム |
CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
US20200250528A1 (en) * | 2017-10-25 | 2020-08-06 | Deepmind Technologies Limited | Auto-regressive neural network systems with a soft attention mechanism using support data patches |
US20200117906A1 (en) * | 2018-10-12 | 2020-04-16 | Adobe Inc. | Space-time memory network for locating target object in video content |
US20200320408A1 (en) * | 2019-04-02 | 2020-10-08 | Samsung Electronics Co., Ltd. | Method and apparatus with key-value coupling |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
WO2021088556A1 (zh) * | 2019-11-05 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN112465828A (zh) * | 2020-12-15 | 2021-03-09 | 首都师范大学 | 一种图像语义分割方法、装置、电子设备及存储介质 |
CN113065586A (zh) * | 2021-03-23 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种非局域的图像分类装置、方法和存储介质 |
Non-Patent Citations (3)
Title |
---|
THIEMO ALLDIECK ET AL: "Detailed Human Avatars from Monocular Video", 2018 INTERNATIONAL CONFERENCE ON 3D VISION, 14 October 2018 (2018-10-14) * |
THIEMO ALLDIECK ET AL: "Learning to Reconstruct People in Clothing from a Single RGB Camera", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 9 January 2020 (2020-01-09) * |
何凯;冯旭;高圣楠;马希涛;: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 天津大学学报(自然科学与工程技术版), no. 10, 2 September 2020 (2020-09-02) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859296B (zh) | Smpl参数预测模型的训练方法、服务器及存储介质 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN112889092B (zh) | 有纹理的神经化身 | |
CN110533712A (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN112215050A (zh) | 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备 | |
CN109684969B (zh) | 凝视位置估计方法、计算机设备及存储介质 | |
CN112132739B (zh) | 3d重建以及人脸姿态归一化方法、装置、存储介质及设备 | |
CN114022527B (zh) | 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 | |
CN112396645A (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
CN114067057A (zh) | 一种基于注意力机制的人体重建方法、模型、装置 | |
WO2021228183A1 (en) | Facial re-enactment | |
CN115239861A (zh) | 人脸数据增强方法、装置、计算机设备和存储介质 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN114494611B (zh) | 基于神经基函数的智能三维重建方法、装置、设备及介质 | |
CN116152334A (zh) | 图像处理方法及相关设备 | |
CN114429518B (zh) | 人脸模型重建方法、装置、设备和存储介质 | |
CN117576312A (zh) | 手部模型构建方法、装置以及计算机设备 | |
Geng et al. | Towards photo-realistic facial expression manipulation | |
Zhou et al. | A superior image inpainting scheme using Transformer-based self-supervised attention GAN model | |
KR20180136707A (ko) | 볼륨 렌더링 장치 및 방법 | |
CN114119923B (zh) | 三维人脸重建方法、装置以及电子设备 | |
CN114565941B (zh) | 纹理生成方法、装置、设备及计算机可读存储介质 | |
CN114565941A (zh) | 纹理生成方法、装置、设备及计算机可读存储介质 | |
CN116758212A (zh) | 基于自适应去噪算法的3d重建方法、装置、设备及介质 | |
CN115311403A (zh) | 深度学习网络的训练方法、虚拟形象生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |