CN117746192A - 电子设备及其数据处理方法 - Google Patents
电子设备及其数据处理方法 Download PDFInfo
- Publication number
- CN117746192A CN117746192A CN202410187651.XA CN202410187651A CN117746192A CN 117746192 A CN117746192 A CN 117746192A CN 202410187651 A CN202410187651 A CN 202410187651A CN 117746192 A CN117746192 A CN 117746192A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- model
- state information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 142
- 230000008859 change Effects 0.000 claims abstract description 88
- 230000003068 static effect Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 64
- 238000009877 rendering Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 44
- 230000033001 locomotion Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 17
- 238000002156 mixing Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 29
- 238000006731 degradation reaction Methods 0.000 description 15
- 230000015556 catabolic process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 206010034719 Personality change Diseases 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种数据处理方法,方法包括:确定训练数据集合,对应于对象状态为运动状态,确定第一状态信息包括第一训练图像对应的第一拍摄视角,拍摄对象的第一位置信息和第一姿态变化信息,以及确定出第一训练图像对应的第二训练图像,将第一训练图像、第一状态信息以及第二训练图像、第二状态信息输入第一模型进行训练,得到第二模型,其中,第二模型用于生成拍摄对象的生成图像,生成图像用于呈现拍摄对象的运动状态。可以看出,通过结合拍摄对象的位置信息以及姿态变化信息训练后的第二模型,能够确保第二模型具有在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的模型新视角画质增强能力。
Description
技术领域
本申请涉及神经网络的技术领域。尤其涉及一种电子设备及其数据处理方法。
背景技术
随着神经网络技术的发展,智能模型开始越来越多地运用在视频或者图像生成领域。例如:神经辐射场(NeRF,Neural Radiance Fields)模型可以根据接收的一组或者一系列的已知拍摄视角的拍摄对象的输入图像,渲染出该拍摄对象的不同于已知拍摄视角的新拍摄视角的生成图像的图像集合,甚至还可以根据图像集合得到整个拍摄对象的三维结构和外观。通过多样化数据学习NeRF模型重建过程中数据退化方式以及恢复方式,可以提升新场景下NeRF模型所渲染的新视角的画质。该类方法提出的模型不需要有在新场景下重新训练,具有场景泛化性,然而目前这类方法只能应用在静态场景下。
但是,针对运动状态(也可以称为动态场景)下的拍摄对象来说,随着时间变化,即使在同一个拍摄视角下,拍摄对象的姿态也会发生变化,导致上述具有场景泛化性的插件式NeRF新视角画质增强模型失效。因此,需要一种能够在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的NeRF模型新视角画质增强方法。
发明内容
本申请提供了一种电子设备及其数据处理方法。
第一方面,本申请实施例提供了一种数据处理方法,方法包括:确定训练数据集合,其中,训练数据集合包括拍摄对象的第一训练图像以及第一训练图像对应的第一状态信息,第一状态信息用于表示拍摄对象的对象状态,对象状态包括拍摄对象至少处于运动状态;对应于对象状态为运动状态,确定第一状态信息包括第一训练图像对应的第一拍摄视角,拍摄对象的第一位置信息和第一姿态变化信息,以及确定出第一训练图像对应的第二训练图像,其中,第二训练图像对应的第二状态信息与第一状态信息满足预设条件;将第一训练图像、第一状态信息以及第二训练图像、第二状态信息输入第一模型进行训练,得到第二模型,其中,第二模型用于生成拍摄对象的生成图像,生成图像用于呈现拍摄对象的运动状态。
在本申请中,这里的训练数据集合可以是训练图像的图像集合。这里的第一训练图像可以是目标图像而第二训练图像可以是参考图像。第一状态信息可以是第一训练图像的拍摄视角,拍摄对象的第一位置信息和第一姿态变化信息,相对而言,第二状态信息可以是第二训练图像的拍摄视角,拍摄对象的第二位置信息和第二姿态变化信息。对应于拍摄对象处于运动状态,第一状态信息和第二状态信息相同/相近,这里的第一训练图像和第二训练图像可以是预先确定的拍摄视角相近、位置相近、姿态变化小的图像。
可以看出,这里的第一状态信息以及第二状态可以是从训练图像获取/解析出的信息。通过结合拍摄对象的位置信息以及姿态变化信息训练后的第二模型,在基于对应运动状态的拍摄对象的输入图像而生成拍摄对象的生成图像时,能够确保生成图像具有能够反映拍摄对象的更加逼真的效果。
在上述第一方面的一种可能的实现中,第一拍摄视角包括第一训练图像对应的拍摄设备在空间中的3D坐标以及拍摄设备的水平方向旋转角度以及垂直方向旋转角度。
在本申请中,这里的第一拍摄视角可以表示为(X,d),这里的X,也就是,(x,y,z),表示拍摄设备的3D点的坐标。这里的d,也就是,(θ,φ)表示拍摄设备的观测方向,θ和φ可以分别表示水平以及垂直旋转角度。
在上述第一方面的一种可能的实现中,第一位置信息和第一姿态变化信息用于表示对应于时间变化拍摄对象的位置变化以及姿态变化。
在上述第一方面的一种可能的实现中,对应于第二训练图像对应的第二状态信息与第一状态信息满足预设条件,第一拍摄视角与第二拍摄视角相同、且第一位置信息与第二位置信息之间的第一差值以及第一姿态变化信息与第二姿态变化信息之间的第二差值满足预设差值范围。
在本申请中,这里的第二状态信息与第一状态信息满足预设条件可以是选择至少两个训练图像的拍摄视角相同或者相近,相近可以表示两个训练图像的拍摄视角之间的差值满足差值范围,如:拍摄视角之间的差值小于1°;以及至少两个训练图像中的拍摄对象之间的旋转/平移等运动变化程度满足变化范围时,例如:运动变化程度小于1°,也就是,训练图像之间的拍摄对象的位置相近,姿态变化小。
在上述第一方面的一种可能的实现中,将第一训练图像、第一状态信息以及第二训练图像、第二状态信息输入第一模型进行训练,得到第二模型,包括:
将第一训练图像经过第一模型对应的第一图像训练模块,得到的第一处理图像,其中,第一处理图像包括表示拍摄对象的第一处理数据,第一处理数据包括拍摄对象对应的噪声、模糊和失真中的至少一种;将第一处理图像、第一状态信息以及第二训练图像、第二状态信息经过第一模型对应的第二图像训练模块,对第一处理图像和第二训练图像进行融合处理,得到第二处理图像,其中,第二处理图像包括第一处理数据以及第二处理数据,第二处理数据包括拍摄对象对应的纹理和光影中的至少一种。
在本申请中,这里的第一图像训练模块可以是图像退化模块,第二图像训练模块可以是图像混合模块。还可以对第一训练图像进一步执行图像处理,如:分割、改变分辨率等等。将第一训练图像经过第一图像训练模块的图像退化处理得到第一处理图像,也就是,退化图像,这里的第一处理图像可以包含表示拍摄对象的图像退化数据,例如:噪声、模糊和失真等等,经过图像退化处理的第一处理图像可以包括拍摄对象的真实性。这里的第二训练图像,也就是,参考图像,可以包含表示拍摄对象的高清图像数据,例如:表示纹理、光影等等的数据。将第一处理图像、第二训练图像以及第一状态信息、第二状态信息输入第二图像训练进行训练,第二图像训练可以融合第一处理图像和第二训练图像得到包括了第一处理数据以及第二处理数据的生成图像。
可以看出,经过训练后的第二模型具有融合来自多个图像数据能够渲染出包括了更佳的图像质量以及拍摄对象的真实的运动状态的生成图像的能力。
在上述第一方面的一种可能的实现中,对应于对象状态为拍摄对象处于静止状态,训练数据集合包括拍摄对象的第三训练图像以及第三训练图像对应的第三状态信息,其中,第三状态信息包括第三训练图像的第三拍摄视角。
在本申请中,对应静止状态的拍摄对象的输入图像,对第一模型进行训练的过程可以只关注第三训练图像以及第三训练图像对应的第三拍摄视角。
在上述第一方面的一种可能的实现中,还包括:
将第三训练图像以及第三训练图像对应的第三状态信息输入第一模型进行训练,得到第二模型,其中,第二模型生成的拍摄对象的生成图像呈现拍摄对象的静止状态。
可以看出,训练后的第二模型能够同时具有生成运动以及静止的拍摄对象的生成图像的能力。通过本申请的数据处理方法得到的第二模型既可以支持静态场景,也可以支持动态场景,也就是,训练后的第二模型可以具有能够在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的NeRF模型新视角的画质增强能力。
第二方面,本申请实施例提供了一种数据处理方法,方法包括:
确定输入数据集合,其中,输入数据集合包括拍摄对象的第一输入图像;基于第一输入图像确定出第一状态信息,其中,第一状态信息用于表示拍摄对象的对象状态,对象状态包括拍摄对象至少处于运动状态;对应于对象状态为运动状态,确定第一状态信息包括第一输入图像对应的第一拍摄视角,拍摄对象的第一位置信息和第一姿态变化信息,以及确定出第一输入图像对应的第二输入图像,其中,第二输入图像对应的第二状态信息与第一状态信息满足预设条件;将第一输入图像、第一状态信息以及第二输入图像、第二状态信息输入第一渲染模型,得到拍摄对象的渲染图像,其中,渲染图像呈现拍摄对象的运动状态。
这里的输入数据集合可以是使用训练后的第一渲染模型对拍摄对象进行渲染的输入图像的图像集合。通过从图像集合中选择的参考图像,也就是,第二输入图像,将参考图像结合输入图像进行渲染,提高第一渲染模型的渲染速度,以及通过选择与输入图像的参数相近/相同的参考图像,使得渲染出的生成图像具有更好的渲染质量。
在上述第二方面的一种可能的实现中,第一拍摄视角包括第一输入图像对应的拍摄设备在空间中的3D坐标以及拍摄设备的水平方向旋转角度以及垂直方向旋转角度。
在上述第二方面的一种可能的实现中,第一位置信息和第一姿态变化信息用于表示对应于时间变化拍摄对象的位置变化以及姿态变化。
在上述第二方面的一种可能的实现中,对应于第二输入图像对应的第二状态信息与第一状态信息满足预设条件,第一拍摄视角与第二拍摄视角相同、且第一位置信息与第二位置信息之间的第一差值以及第一姿态变化信息与第二姿态变化信息之间的第二差值满足预设差值范围。
在本申请中,这里的第二状态信息与第一状态信息满足预设条件可以是至少两个输入图像的拍摄视角相同或者相近,相近可以表示两个输入图像的拍摄视角之间的差值满足差值范围,如:拍摄视角之间的差值小于1°;以及至少两个训输入图像中的拍摄对象之间的旋转/平移等运动变化程度满足变化范围时,例如:运动变化程度小于1°,也就是,训练图像之间的拍摄对象的位置相近,姿态变化小。
在上述第二方面的一种可能的实现中,将第一输入图像、第一状态信息以及第二输入图像、第二状态信息输入第一渲染模型,得到拍摄对象的渲染图像,包括:
将第一输入图像、第一状态信息以及第二输入图像、第二状态信息经过第一渲染模型对应的第一图像渲染模块,对第一输入图像和第二输入图像进行融合处理,得到渲染图像。
在本申请中,这里的第一图像渲染模块可以是训练后的第一渲染模型对应的图像混合模块。将第一输入图像、第二输入图像以及第一状态信息、第二状态信息输入第一渲染模型后,第二图像训练可以融合第一输入图像和第二输入图像得到渲染图像。
在上述第二方面的一种可能的实现中,对应于对象状态为拍摄对象处于静止状态,输入数据集合包括拍摄对象的第三输入图像以及第三输入图像的第三状态信息,其中,第三状态信息包括第三拍摄视角。
在本申请中,对应静止状态的拍摄对象的输入图像,对第一渲染模型进行渲染的过程可以只关注第三输入图像以及第三输入图像对应的第三拍摄视角。
在上述第二方面的一种可能的实现中,还包括:
将第三输入图像以及第三输入图像对应的第三状态信息输入第一渲染模型进,得到渲染图像。
可以看出,第一渲染模型能够同时具有生成运动以及静止的拍摄对象的生成图像的能力。通过本申请的数据处理方法,第一渲染模型既可以支持静态场景,也可以支持动态场景,也就是,第一渲染模型可以具有能够在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的NeRF模型新视角画质增强能力。
第三方面,本申请提供一种电子设备,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行第一方面或者第二方面的数据处理方法。
第四方面,本申请提供一种计算机程序产品,包括:非易失性计算机可读存储介质,非易失性计算机可读存储介质包含用于执行执行第一方面或者第二方面的数据处理方法的计算机程序代码。
附图说明
图1(a)为本申请实施例提供的一种在用户手持电子进行移动拍摄的场景示意图;
图1(b)为本申请实施例提供的一种在用户手持电子进行移动拍摄的场景示意图;
图2为本申请实施例提供的一种NeRF模型生成拍摄对象的图像的集合的场景示意图;
图3为本申请实施例提供的一种使用训练图像对NeRF模型进行训练的过程的示意图;
图4为本申请实施例提供的一种使用输入图像的图像集合通过训练后的NeRF模型进行渲染的过程的示意图;
图5(a)为本申请实施例提供的数据处理方法的实施流程示意图;
图5(b)为本申请实施例提供的数据处理方法的实施流程示意图;
图6为本申请实施例提供的图像混合模块的结构示意图;
图7为本申请实施例提供的视图选择模块的结构示意图;
图8为本申请实施例提供的电子设备的结构示意图;
图9为本申请实施例提供的电子设备的软件结构框图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。
可以理解,本申请的数据处理方法涉及电子设备运行的NeRF模型对应的图像生成技术。本申请的技术方案适用于可以部署/运行/调试人工智能模型的各种电子设备,如:手机、平板电脑、显示器、智能屏、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等移动终端。
下面以电子设备为手机为例,介绍本申请实施例。
如图1(a)所示,该场景包括用户手持手机100打开视频拍摄应用并开启视频拍摄后进行移动拍摄。在拍摄过程中,电子设备可以通过配置的视频拍摄器件(也可以称为摄像头模组或者相机)对拍摄对象,包括:运动中的人物101和静止的圆桶102进行拍摄,其中,以人物101为焦点,采集图像生成视频,同时,电子设备还可以将部分采集的图像输入部署的NeRF模型,通过NeRF模型生成包括人物101和圆桶102的生成图像的图像集合。进一步,还可以根据图像集合得到整个拍摄对象的三维结构和外观。
若人物101处于运动状态,参考图1(b),在手机100通过NeRF模型生成人物101对应的生成图像的图像集合时,模型生成的生成图像可能会存在与电子设备实际拍摄的实际图像之间存在差异。例如:在时刻T1以及拍摄视角A1下,人物101展示动作1(如图1(b)的上图所示的双手并拢站立),在时刻T2以及拍摄视角A2下,人物101展示动作2(如图1(b)的下图所示的站立并且举起一只手),而手机100通过NeRF模型生成的人物101的生成图像中人物101可能还是展示动作1,导致生成图像或者基于图像集合得到拍摄对象对应的三维结构和外观也缺乏真实性,影响用户的使用体验。
在介绍本申请提出的应用于NeRF模型生成图像的数据处理技术之前,先通过图2介绍NeRF模型生成拍摄对象的生成图像的图像集合的示意图。
图2示出了一种NeRF模型生成拍摄对象的图像的集合的场景示意图。
如图2所示,F表示NeRF模型,若电子设备采集了一组或者一系列的已知拍摄视角的拍摄对象的训练图像I,可以将训练图像I作为输入数据对NeRF模型进行训练,则NeRF模型的数据关系可以表示为F:(X,d)→(c,σ),其中,电子设备可以从训练图像I获取/解析出X和d,或者训练图像I可以携带X和d。X表示(x,y,z),也就是电子设备拍摄图像时的拍摄视角的3D点的坐标。d=(θ,φ)表示拍摄视角的观测方向,其中,θ和φ可以分别表示拍摄视角的水平以及垂直旋转角度。c=(r,g,b)表示3D点的颜色值,σ表示体密度。
这里的体密度σ描述了在拍摄视角(x,d)处光线的吸收或散射的程度。如果体密度较高,那么在拍摄视角处的光线将会被大量吸收或散射,这意味着物体是不透明的或者是高度散射的(例如雾或云)。如果体密度较低,那么在拍摄视角处的光线将会被较少吸收或散射,这意味着物体是透明的或者是低度散射的(例如清晰的空气或水)。
继续参考图2,在完成NeRF模型训练后,NeRF模型可以渲染出该拍摄对象的新拍摄视角的生成图像的图像集合。也就是通过F:(x,d)→(c,σ),渲染出F:(x1,d1)→(c1,σ1)。进一步,还可以根据图像集合,得到拍摄对象对应的三维结构和外观。
可以看出,在电子设备采用如图2所示的训练图像对NeRF模型进行训练的过程中,由于训练数据仅包括训练图像以及训练图像对应的拍摄视角,而不包括运动状态下的拍摄对象的运动信息。因此,训练后的NeRF模型不能很准确地学习学习到运动状态下的拍摄对象对应的姿态变化,导致NeRF模型生成针对运动状态下的拍摄对象的生成图像的逼真程度会减低。
为了解决上述问题,本申请实施例提供了一种数据处理方法,应用于可以部署/运行NeRF模型的电子设备。该方法包括:在使用训练图像对NeRF模型进行训练的过程中,将训练图像结合训练图像的拍摄视角、训练图像中拍摄对象的位置信息以及拍摄对象的姿态变化信息,作为训练数据集对NeRF模型进行训练;通过学习不同训练图像中拍摄对象的位置信息以及姿态变化信息,NeRF模型能够掌握拍摄对象对应的姿态变化,使得训练后的NeRF模型具有生成运动状态下的拍摄对象的生成图像的渲染能力。在使用输入图像通过NeRF模型对拍摄对象进行渲染的过程中,获取输入图像中拍摄对象的位置信息以及拍摄对象的姿态变化信息,结合输入图像以及输入图像的拍摄视角,生成针对运动状态下的拍摄对象的生成图像的图像集合。该图像集合可以包括在多个/各个拍摄视角下针对拍摄对象的生成图像,每一个生成图像可以反映拍摄对象的姿态变化。
可以看出,这里的位置信息和姿态变化信息可以是从训练图像获取/解析出的信息。通过结合拍摄对象的位置信息以及姿态变化信息训练后的NeRF模型,在基于对应运动的拍摄对象的输入图像而生成拍摄对象的生成图像时,能够确保生成图像具有能够反映拍摄对象的更加逼真的效果。在一些实施例中,也可以同时使用未提供/未携带的位置信息和姿态变化信息的训练图像,也就是,对应静止状态(也可以称为静态场景)的拍摄对象的输入图像,对NeRF模型进行训练,NeRF模型的训练过程可以只关注输入图像以及输入图像对应的拍摄视角,使得训练后的NeRF模型能够同时具有生成运动以及静止的拍摄对象的生成图像的能力。本申请的NeRF模型针对训练图像对应的位置信息以及姿态变化信息的训练/生成过程可以看作是插件式的,NeRF模型既可以支持静态场景,也可以支持动态场景,也就是,训练后的NeRF模型可以具有能够在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的NeRF模型新视角画质增强能力。
可以理解,上述拍摄视角可以包括位姿以及拍摄角度,这里的位姿可以是电子设备的摄像头模组在空间中的3D点的坐标,拍摄角度可以包括摄像头模组的水平方向旋转角度以及垂直方向旋转角度。上述位置信息可以用于描述对应于时间变化拍摄对象的位置变化,而姿态变化信息可以用于描述对应于时间变化,拍摄对象在相同/不同拍摄视角下的姿态变化。
在一些实施例中,这里的位置信息可以表示为α,α可以表示训练图像中的拍摄对象整体的3D点的坐标(x’,y’,z’),拍摄对象处于运动状态,则随着时间变化获取的训练图像中的拍摄对象的α可能会产生相应的变化。这里的姿态变化信息可以包括至少形状参数β和姿态参数γ,β可以表示训练图像中的拍摄对象的形状,例如:以拍摄对象是人为例,β可以描述一个人的形状,具体可以包括人的形状的指标,比如高矮,胖瘦等等。γ可以表示训练图像中的拍摄对象的动作姿态,例如:以拍摄对象是人为例,γ可以是一组有着N×3维度的数值,其中的N可以表示N个定义好的人体关节点,其中的3可以表示为(x”,y”,z”),表示人体关节点的空间位置坐标,可以看出,相邻的训练图像中同一个人体关节点对应的γ的变化,可以看作是运动状态下的拍摄对象的各个人体关节点产生的空间位移,也就是拍摄对象的姿态变化。对于拍摄对象是人来说,姿态变化信息也可以称为人体姿态参数。这里的拍摄对象还可以包括:动物、车辆等等可以主动或者被动处于运动状态的物体。
在一些实施例中,上述拍摄对象也可以称为拍摄目标。此外,可以理解,电子设备生成的各个/多个拍摄视角下的生成图像的图像集合也可以用于生成/表示运动状态下的拍摄对象的三维结构和外观,也就是,可以动态地展示360°下拍摄对象的姿态变化。
可以看出,通过在NeRF模型的训练过程中,加入位置信息和姿态变化信息可以帮助NeRF模型更好地学习运动状态下的拍摄对象的姿态变化,提高NeRF模型的训练效率;同时,训练后的NeRF模型能够更好地渲染拍摄对象对应的新的姿态变化,NeRF模型可以同时支持渲染动态场景和静态场景下的拍摄对象,提高NeRF模型在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的NeRF模型新视角画质增强能力。
在介绍完本申请涉及的姿态变化相关的位置信息以及姿态变化信息后,下面通过图3和图4详细描述本申请涉及的NeRF模型的训练和渲染过程。
在一些实施例中,为了能够得到高质量的拍摄对象的三维结构和外观,避免NeRF模型生成的生成图像仍然存在渲染伪影,如:生成的生成图像出现噪声、模糊等,进而导致根据生成图像的图像集合生成的拍摄对象对应的三维结构和外观会存在局部模糊、分辨率低等等问题。在NeRF模型训练时还可以加入高质量的用于训练NeRF模型的训练图像的图像集合,但是,通过电子设备实际拍摄的拍摄对象的实际图像往往会存在一定程度的模糊或者失真等等,使得基于高质量的训练图像生成的生成图像与实际图像之间存在较大差异。因此,需要一种能够提升NeRF模型的性能,使其能够生成高度逼真的图像的方法。
图3示出了本申请涉及的一种使用训练图像对NeRF模型300进行训练的过程的示意图,其中,NeRF模型300可以包括图像退化模块301和图像混合模块302。图像退化模块301用于还原训练图像中的模糊或者失真等等得到退化图像,图像混合模块302用于将退化图像与高质量的参考图像得到融合后包括了高清图像数据以及图像退化数据的生成图像。
在电子设备使用输入图像对NeRF模型进行训练的过程中,可以预先从输入图像中确定出目标图像以及目标图像对应的参考图像。目标图像与参考图像的拍摄视角、位置信息以及姿态变化信息(也可以总称为图像参数)相同/相近。继续参考图3,可以从输入图像中确定出一个目标图像P1以及至少两个参考图像P2和P3。这里的参考图像P2和P3可以是预先确定的与目标图像P1对应的拍摄视角相近、位置相近、姿态变化小的图像。
在一些实施例中,还可以对目标图像P1进一步执行图像处理,如:分割、改变分辨率等等。将目标图像P1经过图像退化模块301处理得到退化图像P1’,这里的退化图像P1’可以包含表示拍摄对象的图像退化数据,例如:噪声、模糊和失真等等,经过图像退化模块301处理的退化图像可以包括拍摄对象的真实性。在一些实施例中,还可以对退化图像P1’进一步执行图像处理,如:合并、改变分辨率等等。参考图像P2和P3可以包含表示拍摄对象的高清图像数据,例如:表示纹理、光影等等的数据。
在一些实施例中,这里的参考图像可以是表示拍摄对象的高质量图像,可以包含表示拍摄对象的高清图像数据。接着,将退化图像、参考图像以及图像参数输入图像混合模块302对图像混合模块302进行训练,图像混合模块302可以基于参考图像对退化图像进行融合重构误差处理,也就是,融合退化图像和参考图像得到包括了高清图像数据以及图像退化数据的生成图像P1”。经过训练后的图像混合模块302具有融合来自多个图像数据能够渲染出包括了更佳的图像质量以及真实性的生成图像的能力。图3中虚线框所示“重构误差”仅是表明经过一系列模块处理等效于该功能,并不是一个单独存在的模块。
确定目标图像和参考图像的过程可以包括:获取至少两个拍摄视角满足筛选条件的接近的输入图像。以其中一个输入图像作为目标图像,提取各自对应的特征点,然后使用特征匹配算法来计算各个图像对应的特征点之间的对应关系,
上面的筛选条件可以包括:先选择至少两个输入图像的拍摄视角相同或者相近,相近可以表示两个输入图像的拍摄视角之间的差值满足差值范围,如:拍摄视角之间的差值小于1°。
对应关系可以是各个图像中的拍摄对象之间的旋转/平移等运动变化程度,在运动变化程度满足变化范围时,例如:运动变化程度小于1°,也就是,图像之间的拍摄对象的位置相近,姿态变化小,则确定输入图像为目标图像和参考图像。
这里的特征匹配算法可以包括尺度不变特征变换(Scale-invariant featuretransform,SIFT)、定向快速旋转特征(Oriented FAST and Rotated BRIEF,ORB)等等。可以理解,上述取值都是示例性地,并不构成对本申请的限制。
可以理解,图像退化模块301和图像混合模块302各自可以具有初始权重,其中,图像退化模块301可以是训练好的模块,而图像混合模块302是未经训练的模块。在对NeRF模型300进行训练的过程中,也就是,对图像混合模块302进行训练的过程中,可以更新图像混合模块302的初始权值,使得图像混合模块302能够更好地拟合输入图像。
可以看出,通过使用携带有图像参数(包括位置信息和姿态变化信息等)的目标图像以及参考图像训练后的NeRF模型,在接收了运动状态下的拍摄对象的输入图像生成拍摄对象的生成图像时,NeRF模型能够确保渲染出的生成图像能够更加准确地描述拍摄对象的姿态变化,以及确保生成图像具有更佳的图像质量能够反应拍摄对象的真实性。
图4示出了本申请涉及的一种使用输入图像的图像集合通过训练后的NeRF模型400进行渲染的过程的示意图。其中,NeRF模型400可以包括图像混合模块401以及视图选择模块402,这里的图像混合模块401可以是图3描述的经过训练的图像混合模块,用于对多个图像进行融合处理;这里的视图选择模块402用于基于输入图像从图像集合确定出参考图像,将输入图像和参考图像输入图像混合模块401,渲染出基于输入图像的图像集合的生成图像的图像集合。
在一些实施例中,在电子设备使用输入图像的图像集合通过NeRF模型进行渲染的过程中,可以从图像集合中确定一个输入图像M1,视图选择模块402根据输入图像对应的拍摄视角、以及从输入图像中获取/解析出的拍摄对象的位置信息以及姿态变化信息等参数,从图像集合中确定出至少两个与输入图像的参数相同/相近的参考图像M2和M3,将输入图像M1以及参考图像M2和M3输入图像混合模块401,渲染出拍摄对象的生成图像M4。
在一些实施例中,确定出与输入图像的参数相同/相近的参考图像的过程可以与图3描述的从训练图像/输入图像中确定目标图像和参考图像的过程相同,包括:确定与输入图像对应的拍摄视角相同/相近的图像,判断图像之间的拍摄对象的位置相近、姿态变化小。
具体地,从输入图像的图像集合中,根据用户输入或其他方式,确定一个输入图像M1;获取/解析输入图像M1得到以下参数:拍摄视角:可以采用图像特征匹配、光流估计等方法来估计拍摄视角;拍摄对象的位置信息:可以采用3D重建等方法来估计拍摄对象的位置信息;拍摄对象的姿态变化信息:可以采用例如人体姿态估计等方法来估计拍摄对象的姿态变化信息;根据输入图像M1的参数,从图像集合中搜索至少两个与输入图像的参数相同/相近的参考图像M2和M3,对图像集合中的每个图像,计算其与输入图像M1的参数的相似度,根据相似度排序,选择相似度最高的两个图像作为参考图像M2和M3;也就是确定参考图像M2和M3为最佳参考图像。这里的最佳参考图像可以是与输入图像M1的差异最小/相似度最高的图像,也可以是综合考虑差异、拍摄视角、拍摄对象的位置信息以及姿态变化信息等因素选定的图像。例如:M1与M2和M3的拍摄视角相同,且位置信息之间的差值以及姿态变化信息之间的差值均满足预设差值范围,也就是,在预设差值范围内。
例如:输入图像的图像集合包含以下图像:图像1:拍摄视角为0,拍摄对象位于原点,姿态为站立。图像2:拍摄视角为30,拍摄对象位于原点,姿态为站立。图像3:拍摄视角为30,拍摄对象位于原点,姿态为站立。图像4:拍摄视角为0,拍摄对象位于离开原点的x方向上1个单位,姿态为站立。图像5:拍摄视角为0,拍摄对象位于原点,姿态为坐姿。假设输入图像M1为图像3。根据输入图像M1的参数,可以确定参考图像M2为图像2,参考图像M3为图像1。
可以看出,通过在训练后的NeRF模型中加入视图选择模块,可以实现从图像集合中选择较少的参考图像,将参考图像结合输入图像进行渲染,提高NeRF模型的渲染速度,以及通过选择与输入图像的参数相近/相同的参考图像,使得渲染出的生成图像具有更好的渲染质量。
在通过上述图1(a)、图1(b)至图4介绍完适用本申请提供的数据处理方法的场景和过程后,下面进一步通过图5(a)描述数据处理方法的流程。数据处理方法可以由电子设备100,例如:手机100的处理器执行,且图5(a)所示的数据处理方法可以适用于包括运动状态下的拍摄对象的图像。数据处理方法包括:
S501a:接收用户指令,启动针对拍摄对象的拍摄。
示例性地,继续参考图1(a),这里的拍摄对象可以运动状态下的人或者动物等等。这里的拍摄可以是用户手持手机100针对拍摄对象进行的视频拍摄。在一些实施例中,这里的拍摄还可以是用户可以手持手机100针对拍摄对象进行的图像拍摄。
S502a:在拍摄过程中,获取一系列的拍摄对象的输入图像。
示例性地,这里的一系列的拍摄对象的输入图像可以是手机100进行拍摄的过程中,采集的拍摄对象对应的图像,输入图像可以用于建立拍摄对象的NeRF模型。
S503a:基于输入图像以及输入图像的图像参数,训练NeRF模型。
示例性地,这里的图像参数可以包括手机100进行视频拍摄的过程中的拍摄视角、输入图像中拍摄对象对应的位置信息以及姿态变化信息等等,其中,位置信息以及姿态变化信息可以是对输入图像中拍摄对象进行获取/解析得到的信息。手机100可以根据图3所示的NeRF模型的训练过程,构建针对拍摄对象的NeRF模型。
在一些实施例中,手机100可以采用图3所示的对NeRF模型进行训练的方法,先对输入图像进行退化处理,得到输入图像对应的退化图像,其中,退化图像可以包括针对拍摄对象的噪声、模糊和失真等图像退化数据。手机100还可以根据输入图像以及输入图像的图像参数确定出输入图像对应的参考图像,参考图像可以包括针对拍摄对象的纹理、光影等高清图像数据。手机100可以将输入图像以及输入图像携带的图像参数输入NeRF模型进行训练。
S504a:得到训练后的NeRF模型。
示例性地,继续参考图3,在完成NeRF模型的训练后,手机100可以NeRF模型保存于存储区域内,以便于使用进一步获取的拍摄对象的输入图像,通过NeRF模型渲染出拍摄对象的生成图像。
S505a:继续获取拍摄对象的输入图像,将输入图像输入NeRF模型。
示例性地,继续参考图4,手机100可以陆续地将输入图像输入NeRF模型。手机100可以使用NeRF模型从对应的图像集合中确定一个输入图像以及根据输入图像对应的拍摄视角、以及从输入图像中获取/解析出的拍摄对象的位置信息以及姿态变化信息等参数,从图像集合中确定出至少两个与输入图像的参数相同/相近的参考图像,用于生成拍摄对象的生成图像。
S506a:得到渲染后的拍摄对象的生成图像。
示例性地,手机100可以通过NeRF模型渲染出拍摄对象的生成图像。
可以看出,通过图5(a)描述的数据处理方法,使用携带有图像参数(包括位置信息和姿态变化信息等)的目标图像以及参考图像训练后的NeRF模型,在接收了运动状态下的拍摄对象的输入图像生成拍摄对象的生成图像时,NeRF模型能够确保渲染出的生成图像能够更加准确地描述运动状态下的拍摄对象的姿态变化,以及确保生成图像具有更佳的图像质量能够反应动态场景下的拍摄对象的真实性。
在一些实施例中,如图5(b)所示,本申请涉及的数据处理方法还可以适用于包括静止状态下的拍摄对象的图像。数据处理方法包括:
S501b:接收用户指令,启动针对拍摄对象的拍摄。
示例性地,继续参考图1(a),这里的拍摄对象可以静止状态下的人或者动物等等。
S502b:在拍摄过程中,获取一系列的拍摄对象的输入图像。
示例性地,这里的输入图像可以是手机100采集的拍摄对象对应的图像。
S503b:基于输入图像以及输入图像的拍摄视角,训练NeRF模型。
示例性地,这里的拍摄视角可以是包括手机100进行视频拍摄的过程中的采集到输入图像时的拍摄视角。
S504b:得到训练后的NeRF模型。
示例性地,继续参考图3,在完成NeRF模型的训练后,手机100可以NeRF模型保存于存储区域内,以便于使用进一步获取的拍摄对象的输入图像,通过NeRF模型渲染出拍摄对象的生成图像。
S505b:继续获取拍摄对象的输入图像,将输入图像输入NeRF模型。
示例性地,手机100可以陆续地将输入图像输入NeRF模型。手机100可以使用NeRF模型从对应的图像集合中确定一个输入图像以及根据输入图像对应的拍摄视角,生成拍摄对象的生成图像。
S506b:得到渲染后的拍摄对象的生成图像。
示例性地,手机100可以通过NeRF模型渲染出拍摄对象的生成图像。
可以看出,通过图5(a)和图5(b)描述的数据处理方法,分别使用携带有图像参数(包括位置信息和姿态变化信息等,也就是,动态场景)的目标图像和参考图像以及静态场景的目标图像训练后的NeRF模型,在接收了运动状态或者静止状态下的拍摄对象的输入图像生成拍摄对象的生成图像时,NeRF模型能够确保渲染出的生成图像能够更加准确地描述运动状态的姿态变化或者静止状态下的拍摄对象的外观,确保生成图像具有更佳的图像质量能够反应各种场景,也就是,能够在静态、动态场景下均适用的,不需要针对每个场景下重新训练的,可泛化的NeRF模型新视角画质增强能力。
在介绍完本申请涉及的NeRF模型的训练和渲染过程以及使用部署于电子设备的NeRF模型渲染出拍摄对象的生成图像的过程后,下面通过图6和图7进一步描述上述图4中涉及的图像混合模块以及视图选择模块的结构。
如图6所示,图像混合模块600可以包括:至少两个编码单元,例如:编码单元601-1和编码单元601-2、至少两个混合单元,例如:混合单元602-1和混合单元602-2、重构单元603等等。其中,编码单元601-1和编码单元601-2可以分别对输入图像和输入图像对应的参考图像以及输入图像和参考图像各自携带的图像参数进行编码,得到用于训练NeRF模型的特定数据结构。混合单元602-1和混合单元602-2用于对输入图像、参考图像进行融合处理,而重构单元603可以对经过融合的输入图像、参考图像进行重构,生成融合后的生成图像。可以理解,本申请并未对图6所示的图像混合模块600中的各个功能单元的数量进行限定,图像混合模块600还可以包括其他数量的编码单元、混合单元以及重构单元。在一些实施例中,图像混合模块600还可以包括其他的功能单元。
可以看出,图像混合模块600可以通过携带有图像参数(包括位置信息和姿态变化信息等)的目标图像以及参考图像进行训练,训练后的图像混合模块600可以部署在NeRF模型中,使得NeRF模型在接收了运动状态下的拍摄对象的输入图像生成拍摄对象的生成图像时,NeRF模型能够确保渲染出的生成图像能够更加准确地描述拍摄对象的姿态变化,以及确保生成图像具有更佳的图像质量能够反应拍摄对象的真实性。
如图7所示,视图选择模块700可以包括:卷积处理单元701,循环处理单元702、变换处理单元703以及特征匹配单元704等,其中,卷积处理单元701可以是一种卷积神经网络单元(Convolutional Neural Networks,CNN),循环处理单元702可以是一种循环神经网络单元(Gate Recurrent Unit,GRU),卷积处理单元701和循环处理单元702可以用于对输入图像进行处理获取输入图像对应的图像参数,如:姿态变化信息。变换处理单元703可以是一种Transformer单元,变换处理单元703用于将输入图像和图像参数转换为候选图像形成候选图像的第一候选图像集合,用于进一步从图像集合中匹配出参考图像。特征匹配单元704用于从输入图像的图像集合中匹配出与当前处理的输入图像对应的图像特征匹配的候选图像,形成候选图像的第二候选图像集合。通过第一图像集合和第二图像集合结合,得到输入图像对应的参考图像。
可以看出,视图选择模块700可以根据携带有图像参数(包括位置信息和姿态变化信息等)的目标图像,筛选出对应的参考图像用于NeRF模型渲染拍摄对象的生成图像,能够确保渲染出的生成图像能够更加准确地描述拍摄对象的姿态变化,以及确保生成图像具有更佳的图像质量能够反应拍摄对象的真实性。
图8是本申请实施例提供的一例电子设备100的结构示意图。如图8所示,电子设备(如手机)可以包括:处理器810,外部存储器接口820,内部存储器821,通用串行总线(universal serial bus,USB)接口830,充电管理模块840,电源管理模块841,电池842,天线1,天线2,移动通信模块850,无线通信模块860,音频模块870,扬声器870A,受话器870B,麦克风870C,耳机接口870D,传感器模块880,按键890,马达891,指示器892,摄像头893,显示屏894,以及用户标识模块(subscriber identification module,SIM)卡接口895等。
其中,上述传感器模块880可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器和环境光传感器等传感器。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器810可以包括一个或多个处理单元,例如:处理器810可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
处理器810中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器810中的存储器为高速缓冲存储器。该存储器可以保存处理器810刚用过或循环使用的指令或数据。如果处理器810需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器810的等待时间,因而提高了系统的效率。
在一些实施例中,处理器810可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
电子设备通过GPU,显示屏894,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏894和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器810可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏894用于显示图像,视频等。该显示屏894包括显示面板。
电子设备可以通过ISP,摄像头893,视频编解码器,GPU,显示屏894以及应用处理器等实现拍摄功能。ISP用于处理摄像头893反馈的数据。摄像头893用于捕获静态图像或视频。在一些实施例中,电子设备可以包括1个或N个摄像头893,N为大于1的正整数。摄像头893可以称为摄像头模组或者相机,用于拍摄视频。
外部存储器接口820可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口820与处理器810通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器821可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器810通过运行存储在内部存储器821的指令,从而执行电子设备的各种功能应用以及数据处理。例如,在本申请实施例中,处理器810可以通过执行存储在内部存储器821中的指令,内部存储器821可以包括存储程序区和存储数据区。内部存储器821可以用于保存训练后的NeRF模型。
其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器821可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS)等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
图9是本说明书的电子设备的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在本说明书中,将Android系统分为四层,从上至下分别为应用层,应用框架层,硬件抽象层,以及内核层。
如图9所示,应用层可以包括生活,视频,阅读,购物,图库,日历,通话,导航和音乐等应用程序。可以理解,这里的应用程序可以是电子设备100已安装的应用或者服务,或者是通过快服务中心检索到的电子设备100未安装的应用或者服务。
应用框架层可以包括布局服务,电源管理服务以及视频防抖处理服务等等。其中,布局服务用于在电子设备的屏幕中的显示应用程序的应用界面。电源管理服务用于对电子设备配置的各个器件进行电源管理。NeRF模型服务可以是NeRF模型,用于基于电子设备拍摄的图像,渲染出拍摄对象的生成图像。
硬件抽象层可以包括绘制服务模块(SurfaceFlinger)、布局模块以及视图模块等等。其中,绘制服务模块(SurfaceFlinger)用于将一个或者多个应用的窗口中的一个或者多个图层进行绘制合成之后得到帧数据。布局模块用于确定一个或者多个应用的窗口在电子设备的屏幕中的位置。视图模块用于显示一个或者多个应用的窗口对应的视图。
内核层包括显示驱动,事件驱动和传感器驱动等等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read only memory,ROM)或随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。
应当理解的是,虽然在本文中可能使用了术语“第一”、“第二”等等来描述各个特征,但是这些特征不应当受这些术语限制。使用这些术语仅仅是为了进行区分,而不能理解为指示或暗示相对重要性。举例来说,在不背离本说明书的范围的情况下,第一特征可以被称为第二特征,并且类似地第二特征可以被称为第一特征。
此外,各种操作将以最有助于理解本说明书的方式被描述为多个彼此分离的操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖描述的顺序,其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序也可以被重新安排。当所描述的操作完成时,所述处理可以被终止,但是还可以具有未包括在附图中的附加操作。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
除非上下文另有规定,否则术语“包含”、“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A)、(B)或(A和B)”。
如本文所使用的,术语“模块”可以指代,作为其中的一部分,或者包括:用于运行一个或多个软件或固件程序的存储器(共享、专用或组),专用集成电路(ASIC),电子电路和/或处理器(共享、专用或组),组合逻辑电路,和/或提供所述功能的其他合适组件。
在附图中,可能以特定布置和/或顺序示出了一些结构或方法特征。然而,应当理解的是,这样的特定布置和/或排序不是必需的。而是,在本说明书中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来进行说明。另外,特定附图中所包含得结构或方法特征并不意味着都需要包含这样的特征,在本说明书中,可以不包含这些特征,或者可以将这些特征与其他特征进行组合。
上面结合附图对本说明书做了详细说明,但本申请技术方案的使用不仅仅局限于本说明书中提及的各种应用,各种结构和变型都可以参考本申请技术方案轻易地实施,以达到本文中提及的各种有益效果。在本领域普通技术人员所具备的知识范围内,在不脱离本申请宗旨的前提下做出的各种变化,均应归属于本申请专利涵盖范围。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
确定训练数据集合,其中,所述训练数据集合包括拍摄对象的第一训练图像以及所述第一训练图像对应的第一状态信息,所述第一状态信息用于表示所述拍摄对象的对象状态,所述对象状态包括所述拍摄对象至少处于运动状态;
对应于所述对象状态为所述运动状态,确定所述第一状态信息包括所述第一训练图像对应的第一拍摄视角,所述拍摄对象的第一位置信息和第一姿态变化信息,以及确定出所述第一训练图像对应的第二训练图像,其中,所述第二训练图像对应的第二状态信息与所述第一状态信息满足预设条件;
将所述第一训练图像、所述第一状态信息以及所述第二训练图像、所述第二状态信息输入第一模型进行训练,得到第二模型,其中,所述第二模型用于生成所述拍摄对象的生成图像,所述生成图像用于呈现所述拍摄对象的所述运动状态。
2.根据权利要求1所述的方法,其特征在于,所述第一拍摄视角包括所述第一训练图像对应的拍摄设备在空间中的3D坐标以及所述拍摄设备的水平方向旋转角度以及垂直方向旋转角度。
3.根据权利要求2所述的方法,其特征在于,所述第一位置信息和所述第一姿态变化信息用于表示对应于时间变化所述拍摄对象的位置变化以及姿态变化。
4.根据权利要求3所述的方法,其特征在于,对应于所述第二训练图像对应的第二状态信息与所述第一状态信息满足预设条件,所述第一拍摄视角与第二拍摄视角相同、且所述第一位置信息与第二位置信息之间的第一差值以及所述第一姿态变化信息与第二姿态变化信息之间的第二差值满足预设差值范围。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一训练图像、所述第一状态信息以及所述第二训练图像、所述第二状态信息输入第一模型进行训练,得到第二模型,包括:
将第一训练图像经过所述第一模型对应的第一图像训练模块,得到的第一处理图像,其中,所述第一处理图像包括表示所述拍摄对象的第一处理数据,所述第一处理数据包括所述拍摄对象对应的噪声、模糊和失真中的至少一种;
将所述第一处理图像、所述第一状态信息以及所述第二训练图像、所述第二状态信息经过所述第一模型对应的第二图像训练模块,对所述第一处理图像和所述第二训练图像进行融合处理,得到第二处理图像,其中,所述第二处理图像包括所述第一处理数据以及第二处理数据,所述第二处理数据包括所述拍摄对象对应的纹理和光影中的至少一种。
6.根据权利要求1所述的方法,其特征在于,对应于所述对象状态为所述拍摄对象处于静止状态,所述训练数据集合包括所述拍摄对象的第三训练图像以及所述第三训练图像对应的第三状态信息,其中,所述第三状态信息包括所述第三训练图像的第三拍摄视角。
7.根据权利要求6所述的方法,其特征在于,还包括:
将所述第三训练图像以及所述第三训练图像对应的所述第三状态信息输入所述第一模型进行训练,得到所述第二模型,其中,所述第二模型生成的所述拍摄对象的生成图像呈现所述拍摄对象的所述静止状态。
8.一种数据处理方法,其特征在于,所述方法包括:
确定输入数据集合,其中,所述输入数据集合包括拍摄对象的第一输入图像;
基于所述第一输入图像确定出第一状态信息,其中,所述第一状态信息用于表示所述拍摄对象的对象状态,所述对象状态包括所述拍摄对象至少处于运动状态;
对应于所述对象状态为所述运动状态,确定所述第一状态信息包括所述第一输入图像对应的第一拍摄视角,所述拍摄对象的第一位置信息和第一姿态变化信息,以及确定出所述第一输入图像对应的第二输入图像,其中,所述第二输入图像对应的第二状态信息与所述第一状态信息满足预设条件;
将所述第一输入图像、所述第一状态信息以及所述第二输入图像、所述第二状态信息输入第一渲染模型,得到所述拍摄对象的渲染图像,其中,所述渲染图像呈现所述拍摄对象的所述运动状态。
9.根据权利要求8所述的方法,其特征在于,所述第一拍摄视角包括所述第一输入图像对应的拍摄设备在空间中的3D坐标以及所述拍摄设备的水平方向旋转角度以及垂直方向旋转角度。
10.根据权利要求9所述的方法,其特征在于,所述第一位置信息和所述第一姿态变化信息用于表示对应于时间变化所述拍摄对象的位置变化以及姿态变化。
11.根据权利要求10所述的方法,其特征在于,对应于所述第二输入图像对应的第二状态信息与所述第一状态信息满足预设条件,所述第一拍摄视角与第二拍摄视角相同、且所述第一位置信息与第二位置信息之间的第一差值以及所述第一姿态变化信息与第二姿态变化信息之间的第二差值满足预设差值范围。
12.根据权利要求11所述的方法,其特征在于,所述将所述第一输入图像、所述第一状态信息以及所述第二输入图像、所述第二状态信息输入第一渲染模型,得到所述拍摄对象的渲染图像,包括:
将所述第一输入图像、所述第一状态信息以及所述第二输入图像、所述第二状态信息经过所述第一渲染模型对应的第一图像渲染模块,对所述第一输入图像和所述第二输入图像进行融合处理,得到所述渲染图像。
13.根据权利要求8所述的方法,其特征在于,对应于所述对象状态为所述拍摄对象处于静止状态,所述输入数据集合包括所述拍摄对象的第三输入图像以及所述第三输入图像的第三状态信息,其中,所述第三状态信息包括第三拍摄视角。
14.根据权利要求13所述的方法,其特征在于,还包括:
将所述第三输入图像以及所述第三输入图像对应的第三状态信息输入所述第一渲染模型进,得到所述渲染图像。
15.一种电子设备,其特征在于,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行权利要求1-7或者权利要求8-14中任一项所述的数据处理方法。
16.一种计算机程序产品,其特征在于,包括:非易失性计算机可读存储介质,所述非易失性计算机可读存储介质包含用于执行权利要求1-7或者权利要求8-14中任一项所述的数据处理方法的计算机程序代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410187651.XA CN117746192B (zh) | 2024-02-20 | 2024-02-20 | 电子设备及其数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410187651.XA CN117746192B (zh) | 2024-02-20 | 2024-02-20 | 电子设备及其数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117746192A true CN117746192A (zh) | 2024-03-22 |
CN117746192B CN117746192B (zh) | 2024-06-28 |
Family
ID=90277763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410187651.XA Active CN117746192B (zh) | 2024-02-20 | 2024-02-20 | 电子设备及其数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746192B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822977A (zh) * | 2021-06-28 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像渲染方法、装置、设备以及存储介质 |
WO2022099613A1 (zh) * | 2020-11-13 | 2022-05-19 | 华为技术有限公司 | 图像生成模型的训练方法、新视角图像生成方法及装置 |
CN115439606A (zh) * | 2022-08-31 | 2022-12-06 | 华为技术有限公司 | 三维重建方法、图形界面、系统及相关装置 |
KR20230004280A (ko) * | 2021-06-30 | 2023-01-06 | 옥재윤 | 딥러닝 기술을 이용한 모션 추적 시스템 |
CN115631418A (zh) * | 2022-11-18 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像处理方法、神经辐射场的训练方法和神经网络 |
CN117036583A (zh) * | 2022-10-13 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 视频生成方法、装置、存储介质及计算机设备 |
-
2024
- 2024-02-20 CN CN202410187651.XA patent/CN117746192B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022099613A1 (zh) * | 2020-11-13 | 2022-05-19 | 华为技术有限公司 | 图像生成模型的训练方法、新视角图像生成方法及装置 |
CN113822977A (zh) * | 2021-06-28 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像渲染方法、装置、设备以及存储介质 |
KR20230004280A (ko) * | 2021-06-30 | 2023-01-06 | 옥재윤 | 딥러닝 기술을 이용한 모션 추적 시스템 |
CN115439606A (zh) * | 2022-08-31 | 2022-12-06 | 华为技术有限公司 | 三维重建方法、图形界面、系统及相关装置 |
CN117036583A (zh) * | 2022-10-13 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 视频生成方法、装置、存储介质及计算机设备 |
CN115631418A (zh) * | 2022-11-18 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像处理方法、神经辐射场的训练方法和神经网络 |
Non-Patent Citations (1)
Title |
---|
SHISHIR REDDY VUTUKUR ET AL: "NeRF-Pose: A First-Reconstruct-Then-Regress Approach forWeakly-supervised 6D Object Pose Estimation", ARXIV, 9 September 2023 (2023-09-09), pages 1 - 12 * |
Also Published As
Publication number | Publication date |
---|---|
CN117746192B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209797A1 (en) | Point-based object localization from images | |
CN115699114B (zh) | 用于分析的图像增广的方法和装置 | |
CN110533707B (zh) | 照明估计 | |
US11398044B2 (en) | Method for face modeling and related products | |
CN108876833A (zh) | 图像处理方法、图像处理装置和计算机可读存储介质 | |
US8803880B2 (en) | Image-based lighting simulation for objects | |
KR20220167323A (ko) | 메시징 시스템 내의 3d 데이터를 포함하는 증강 현실 콘텐츠 생성기들 | |
US20130243351A1 (en) | Methods and Apparatus for Interfacing Panoramic Image Stitching with Post-Processors | |
US10846560B2 (en) | GPU optimized and online single gaussian based skin likelihood estimation | |
US11748913B2 (en) | Modeling objects from monocular camera outputs | |
CN112927362A (zh) | 地图重建方法及装置、计算机可读介质和电子设备 | |
CN115690382B (zh) | 深度学习模型的训练方法、生成全景图的方法和装置 | |
CN108776822B (zh) | 目标区域检测方法、装置、终端及存储介质 | |
CN112766215B (zh) | 人脸图像处理方法、装置、电子设备及存储介质 | |
CN112927363A (zh) | 体素地图构建方法及装置、计算机可读介质和电子设备 | |
CN112308977B (zh) | 视频处理方法、视频处理装置和存储介质 | |
CN115398907A (zh) | 一种图像帧预测的方法及电子设备 | |
CN110956571B (zh) | 基于slam进行虚实融合的方法及电子设备 | |
CN116170689A (zh) | 视频生成方法、装置、计算机设备和存储介质 | |
CN112714263B (zh) | 视频生成方法、装置、设备及存储介质 | |
CN113642359B (zh) | 人脸图像生成方法、装置、电子设备及存储介质 | |
CN115908120B (zh) | 图像处理方法和电子设备 | |
CN110084306B (zh) | 用于生成动态图像的方法和装置 | |
WO2024077791A1 (zh) | 视频生成方法、装置、设备与计算机可读存储介质 | |
CN117746192B (zh) | 电子设备及其数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |