CN117078509B - 模型训练方法、照片生成方法及相关设备 - Google Patents
模型训练方法、照片生成方法及相关设备 Download PDFInfo
- Publication number
- CN117078509B CN117078509B CN202311350264.5A CN202311350264A CN117078509B CN 117078509 B CN117078509 B CN 117078509B CN 202311350264 A CN202311350264 A CN 202311350264A CN 117078509 B CN117078509 B CN 117078509B
- Authority
- CN
- China
- Prior art keywords
- image
- photo
- model
- point cloud
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 title claims abstract description 65
- 238000009792 diffusion process Methods 0.000 claims abstract description 135
- 230000000007 visual effect Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 67
- 230000015654 memory Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 36
- 230000006854 communication Effects 0.000 description 36
- 238000007726 management method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 230000005236 sound signal Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供一种模型训练方法、照片生成方法及相关设备,所述模型训练方法包括:构建多个图像对,作为预设扩散模型的训练数据,每个图像对包括第一图像和第二图像,第一图像为一视角下图像信息完整的图像,第二图像为相同视角下图像信息缺失的图像;对预设扩散模型进行初始化;基于多个图像对,训练所述预设扩散模型,直至预设扩散模型的损失函数的输出值小于或等于预设阈值,停止训练;将训练后的预设扩散模型确定为照片生成模型。本申请实施例构建包含信息完整图像和信息缺失图像的训练数据对,并对预设扩散模型进行训练,得到照片生成模型,便于通过照片生成模型生成视角调整后的信息完整的照片,使得照片角度符合用户需求。
Description
技术领域
本申请涉及终端技术领域,属于图像处理技术,尤其涉及一种模型训练方法、照片生成方法及相关设备。
背景技术
随着终端技术的发展,智能手机、平板电脑等智能终端设备都配置有摄像头,具有拍照功能。在拍照的过程中,容易受到设备、人员、环境等因素的限制,而导致无法拍摄到用户希望的角度的照片。或者,用户在回看照片时,可能对照片的拍摄角度不满意,却又无法重新拍摄其他角度的照片,导致照片的拍摄效果不符合用户需求,从而影响用户的使用体验。
发明内容
鉴于以上内容,有必要提供一种模型训练方法、照片生成方法及相关设备,解决上述由于受到拍摄条件的限制而导致难以通过终端设备拍摄满足用户需求的角度的照片的问题。
第一方面,本申请实施例提供一种模型训练方法,应用于电子设备,所述方法包括:构建多个图像对,作为预设扩散模型的训练数据,每个图像对包括第一图像和第二图像,第一图像为一视角下图像信息完整的图像,第二图像为相同视角下图像信息缺失的图像;对预设扩散模型进行初始化;基于所述多个图像对,训练所述预设扩散模型,直至所述预设扩散模型的损失函数的输出值小于或等于预设阈值,停止训练;将训练后的预设扩散模型确定为照片生成模型。
通过上述技术方案,可以预先构建包含相同视角下图像信息完整的照片和图像信息缺失的照片的多个训练数据对,根据构建的多个训练数据对对预设扩散模型进行训练,得到照片生成模型,便于后续将经过视角调整的图像信息缺失的照片输入照片生成模型,可以生成视角调整后的信息完整的照片,使得照片的角度符合用户需求,从而提升用户的使用体验。
在一种可能的实现方式中,所述基于所述多个图像对,训练所述预设扩散模型,包括:将所述多个图像对中的一图像对输入所述预设扩散模型,计算所述预设扩散模型的损失函数;若所述损失函数的输出值大于所述预设阈值,调整所述预设扩散模型的参数;将所述多个图像对中的另一图像对输入所述预设扩散模型,继续对所述预设扩散模型进行训练,直至所述预设扩散模型的损失函数的输出值小于或等于所述预设阈值。
通过上述技术方案,可以将预设扩散模型训练至收敛,保证对预设扩散模型训练建立的照片生成模型生成的照片的准确性。
在一种可能的实现方式中,所述预设扩散模型包括输入层、扩散模块、条件控制模块及输出层,所述扩散模块为稳定扩散模型,包括多个第一编码器块、第一中间块、多个解码器块,所述条件控制模块为控制模型,包括多个零卷积层、多个第二编码器块和第二中间块。
通过上述技术方案,预设扩散模型将扩散模块和条件控制模块结合,通过条件控制模块提供的条件限制可以引导扩散模块进行照片重建,从而有效提高重建照片的准确性。
在一种可能的实现方式中,所述计算所述预设扩散模型的损失函数,包括:将所述图像对中的所述第一图像和所述第二图像输入所述预设扩散模型的输入层,通过所述输入层对所述第一图像进行预处理;所述输入层将预处理后的所述第一图像输入所述扩散模块,通过所述扩散模块的所述多个第一编码器块分别将所述第一图像编码为潜在图像,并将随机噪声添加至所述潜在图像,并将添加有随机噪声的所述潜在图像传递至所述第一中间块;所述输入层将所述第二图像输入所述条件控制模块,通过所述条件控制模块的所述多个第二编码器块提取所述第二图像的点云特征,并将所述第二图像的点云特征传递至所述第二中间块;所述第二中间块将所述第二图像的点云特征传递至所述第一中间块,所述第一中间块将添加有随机噪声的所述潜在图像和所述第二图像的点云特征传递至所述扩散模块的所述解码器块;所述解码器块根据所述第二图像的点云特征确定所述潜在图像中的预测噪声,从所述潜在图像中减去所述预测噪声,得到更新的潜在图像,并对所述更新的潜在图像进行上采样处理,得到所述第二图像的重建图像;将所述第一图像的图像特征和所述重建图像的图像特征输入所述预设扩散模型的损失函数,得到所述预设扩散模型的损失函数的输出值。
通过上述技术方案,在对预设扩散模型进行训练的过程中,通过编码器提取图像信息缺失的图像的特征,将图像信息缺失的图像编码为潜在图像,在潜在图像中添加随机噪声,在条件限制模块提供的点云图像的图像特征的引导下,确定潜在图像中的预测噪声,并从潜在图像中减去预测噪声,从而对图像信息缺失的图像进行重建,补全图像信息,并根据重建图像和原始图像之间的差异验证预设扩散模型的准确性,从而保证对预设扩散模型训练建立的照片生成模块生成的照片的准确性。
在一种可能的实现方式中,所述构建多个图像对,包括:获取所述第一图像的深度信息;根据所述第一图像的深度信息将所述第一图像转换为点云图像;将所述第一图像对应的所述点云图像转换为三维网格图像;调整所述三维网格图像的视角,并将视角调整后的所述三维网格图像转换为与所述第一图像相同视角的点云图像,将转换得到的所述点云图像作为所述图像对中与所述第一图像对应的所述第二图像。
通过上述技术方案,通过构建相同视角下图像信息完整和图像信息缺失的两个图像作为训练数据,可以实现预设扩散模型的自监督训练,无需依赖外部数据集,使得对预设扩散模型训练建立的照片生成模型符合实际需求。
在一种可能的实现方式中,所述第一图像的深度信息包括每个像素点对应在场景中的点与摄像头之间的距离,所述获取所述第一图像的深度信息,包括:将所述第一图像输入预设的深度学习模型,通过所述预设的深度学习模型输出所述第一图像对应的视差图;根据所述视差图得到所述第一图像中每个像素点的视差,并根据每个像素点的视差得到每个像素点的深度信息。
通过上述技术方案,可以采用单目深度估计方法提高深度信息的获取效率,并且同时保证获取的图像的深度信息的准确性。
在一种可能的实现方式中,所述根据所述第一图像的深度信息将所述第一图像转换为点云图像,包括:根据摄像头的内参和所述第一图像中每个像素点的深度信息将所述第一图像中每个像素点在像素坐标系内的像素坐标转换为相机坐标系中的二维坐标;根据所述摄像头的外参将所述第一图像中每个像素点在所述相机坐标系中的所述二维坐标转换为世界坐标系中的三维坐标,所述第一图像中多个像素点的三维坐标对应的点形成所述第一图像对应的点云图像。
通过上述技术方案,将第一图像转换为点云图像,便于根据点云图像的图像特征引导扩散模型进行图像重建,提高生成的重建图像的准确性。
在一种可能的实现方式中,所述将所述第一图像对应的所述点云图像转换为三维网格图像,包括:将所述第一图像对应的一帧点云图像映射到纹理贴图坐标平面;遍历纹理贴图坐标平面,根据四边形规则取顶点,并对三维网格进行三角化,遍历纹理贴图坐标的第r行和第r+1行的数据,分别取四个点生成三角形;若存在四个点对应的三维点云,根据所述四个点对应的三维点云将四边形划分为两个三角形;若存在三个点对应的三维点云,根据所述三个点对应的三维点云构造一个三角形;将生成的所有三角形组成子网格;根据该帧点云图像的邻域点云的索引集,找到每个点云集合对应的外包围框,取每个外包围框对应的整体网格的顶点和当前子网格的顶点进行相邻顶点合并,生成所述三维网格图像。
通过上述技术方案,将第一图像对应的点云图像转换为三维网格,由于三维网格可以对点云图像中的点云进行固定,便于获取在视角调整后的点云数据,从而提高图像重建(即图像信息补全)和修复的精度。
第二方面,本申请实施例提供一种照片生成方法,应用于电子设备,所述方法包括:响应用户触发的生成原始照片对应的新视角照片的请求,将所述原始照片转换为点云图像;响应用户对所述点云图像的视角调整操作,得到视角调整后的待重建照片;将视角调整后的所述待重建照片输入通过上述的模型训练方法训练得到的照片生成模型,通过所述照片生成模型对所述待重建照片进行重建,生成所述原始照片对应的新视角照片。
通过上述技术方案,将经过视角调整的图像信息缺失的照片输入照片生成模型,可以生成视角调整后的图像信息完整的照片,使得照片的角度符合用户需求,从而提升用户的使用体验。
在一种可能的实现方式中,所述通过所述照片生成模型对所述待重建照片进行重建,生成所述原始照片对应的新视角照片,包括:所述照片生成模型的输入层接收输入的所述待重建照片,通过零卷积层将所述待重建照片输入所述照片生成模型的条件控制模块;通过所述条件控制模块提取所述待重建照片的点云特征,并将所述点云特征传递至所述照片生成模型的扩散模块;所述扩散模块将纯噪声图像作为输入,根据所述待重建照片的点云特征将所述纯噪声图像转换为所述待重建照片的重建图像,并将所述重建图像确定为所述原始照片的新视角照片。
通过上述技术方案,照片生成模型可以提取待重建照片的点云特征,并且在待重建照片的点云特征的引导下进行图像重建,生成图像信息完整的新视角照片,有效提升了生成的新视角照片的精确度。
在一种可能的实现方式中,所述响应用户触发的生成原始照片对应的新视角照片的请求,将所述原始照片转换为点云图像,包括:响应于在用户在图库应用程序的多个照片中选择所述原始照片进行查看的操作,在所述图库应用程序界面显示新视角照片的生成控件;响应用户对所述新视角照片的生成控件的触发操作,将所述原始照片转换为所述点云图像。
通过上述技术方案,图库应用程序提供新视角照片的生成控件,供用户触发以生成原始照片对应的新视角照片。
在一种可能的实现方式中,所述响应用户对所述点云图像的视角调整操作,得到视角调整后的待重建照片,包括:将所述原始照片转换为所述点云图像后,通过所述图库应用程序显示包含所述点云图像的照片操作界面,接收用户在所述照片操作界面对所述点云图像执行的视角调整操作;响应用户对所述原始照片的视角调整操作,得到视角调整后的所述待重建照片。
通过上述技术方案,图库应用程序提供照片操作界面,便于接收用户对照片执行的视角调整操作,确定待重建的照片,使得生成的重建照片符合用户的实际需求。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括存储器和处理器:其中,所述存储器,用于存储程序指令;所述处理器,用于读取并执行所述存储器中存储的所述程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行上述的照片生成方法。
第四方面,本申请实施例提供一种芯片系统,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使所述电子设备将待处理图像输入所述芯片系统,并执行上述的模型训练方法,或执行上述的照片生成方法。
第五方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备的处理器执行上述的照片生成方法。
另外,第三方面至第五方面所带来的技术效果可参见上述方法部分各设计的方法相关的描述,此处不再赘述。
附图说明
图1是本申请一实施例提供的拍摄场景的示意图。
图2是本申请一实施例提供的一图库应用程序界面的示意图。
图3是本申请一实施例提供的电子设备的软件架构图。
图4是本申请一实施例提供的模型训练方法的流程图。
图5是本申请一实施例提供的预设扩散模型的结构示意图。
图6是本申请一实施例提供的构建图像对的流程图。
图7是本申请一实施例提供的第一图像的示意图。
图8是本申请一实施例提供的第一图像对应的点云图像的示意图。
图9是本申请一实施例提供的第一图像对应的三维网格图像的示意图。
图10是本申请一实施例提供的第二图像的示意图。
图11是本申请一实施例提供的预设扩散模型的另一结构示意图。
图12是本申请一实施例提供的计算预设扩散模型的损失函数的流程图。
图13是本申请一实施例提供的照片生成方法的流程图。
图14是本申请一实施例提供的图库应用程序界面的示意图。
图15是本申请一实施例提供的照片操作界面的示意图。
图16是本申请一实施例提供的照片生成模型的结构示意图。
图17是本申请一实施例提供的生成原始照片对应的新视角照片的流程图。
图18是本申请一实施例提供的电子设备的硬件架构图。
图19是本申请一实施例提供的芯片系统的结构示意图。
具体实施方式
在本申请的一实施例中所涉及的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请实施例的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。在本申请的一实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。应理解,本申请中除非另有说明,“/”表示或的意思。例如,A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如,a、b或c中的至少一个,可以表示:a,b,c,a和b,a和c,b和c,a、b和c七种情况。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
随着终端技术的发展,智能手机、平板电脑等智能终端设备都配置有摄像头,具有拍照功能。在拍照的过程中,容易受到设备、人员、环境等因素的限制,而导致无法拍摄到用户希望的角度的照片。或者,用户在回看照片时,可能对照片的拍摄角度不满意,却又无法重新拍摄其他角度的照片,导致照片的拍摄角度不符合用户需求,从而影响用户的使用体验。
参阅图1所示,为本申请实施例提供的拍摄场景的示意图。在图1所示的拍摄场景中,用户A正对目标对象B,当用户A在使用电子设备100拍摄目标对象B的照片时,由于用户A周围存在障碍物并且与目标对象B之间的距离也较远,导致用户A无法改变与目标对象B的相对位置,如此,只能拍摄到目标对象B的正面角度的照片,无法拍摄目标对象B的侧面角度的照片。
参阅图2所示,为本申请实施例提供的一图库应用程序界面的示意图。用户A在浏览电子设备的图库应用程序中的照片C时,可能对照片C的拍摄角度不满意,但是又不便于重新拍摄照片C中的目标对象。
为了避免由于受到拍摄条件的限制而导致照片的拍摄角度不符合用户需求,本申请实施例提供一种模型训练方法和照片生成方法,可以预先构建包含相同视角下图像信息完整的照片和图像信息缺失的照片的多个训练数据对,根据构建的多个训练数据对对预设扩散模型进行训练,得到照片生成模型,将经过视角调整的图像信息缺失的照片输入照片生成模型,可以生成视角调整后的图像信息完整的照片,使得照片的角度符合用户需求,从而提升用户的使用体验。
参阅图3所示,为本申请实施例提供的电子设备的软件架构图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。例如,安卓系统从上至下分别为应用程序层101,框架层102,安卓运行时(Android runtime)和系统库103,硬件抽象层104,内核层105,硬件层106。
应用程序层101可以包括一系列应用程序包。例如,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息,设备控制服务等应用程序。
框架层102为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。例如,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
其中,窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层101和框架层102运行在虚拟机中。虚拟机将应用程序层和框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库103可以包括多个功能模块。例如,表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如SGL)等。
其中,表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。2D图形引擎是2D绘图的绘图引擎。
硬件抽象层104运行于用户空间,对内核层驱动进行封装,向上层提供调用接口。
内核层105是硬件和软件之间的层。内核层105至少包含显示驱动,触控驱动,音频驱动,传感器驱动。
内核层105是电子设备的操作系统的核心,是基于硬件的第一层软件扩充,提供操作系统最基本的功能,是操作系统工作的基础,负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定了系统的性能和稳定性。例如,内核层可以决定一个应用程序对某部分硬件的操作时间。
内核层105包括与硬件紧密相关的程序,例如中断处理程序、设备驱动程序等,还包括基本的、公共的、运行频率较高的模块,例如时钟管理模块、进程调度模块等,还包括关键性的数据结构。内核层可以设置于处理器中,或固化在内部存储器。
硬件层106包括电子设备的硬件,例如显示屏、按键、摄像头等。
模型训练方法和照片生成方法的详细实现过程可参考下文各个实施例中的描述。
参阅图4所示,为本申请一实施例提供的模型训练方法的流程图。所述模型训练方法应用于电子设备中,所述模型训练方法包括:
S101,构建多个图像对,作为预设扩散模型的训练数据。
在本申请的一实施例中,每个图像对包括第一图像和第二图像,第一图像为一视角下图像信息完整的图像,在本实施例中,若一图像中所有图像点的图像信息完整,则表示该图像的图像信息完整。例如,对于二维图像,图像点为像素点,对应的图像信息为像素信息,其中,像素信息包括像素位置和像素值。对于三维图像,图像点为三维点云,对应的图像信息为点云数据。第二图像与第一图像处于相同视角,第二图像表示相同视角下图像信息缺失的图像,在本实施例中,若一图像中至少一图像点的图像信息缺失,则表示该图像的图像信息缺失。在本实施例中,对于一视角下图像信息完整的第一图像,可以生成对应的相同视角下图像信息缺失的第二图像,完成一个图像对的构建。其中,第一图像可以是二维图像,第二图像可以是二维图像或三维点云图像。
在本申请的一实施例中,可以采用上述方法构建得到多个图像对,也可以对构建的一个图像对进行数据退化,得到多个图像对。例如,对已构建的图像对进行数据退化可以包括对图像对中的第一图像和第二图像进行旋转、平移、缩放、翻转、添加噪声、模糊处理、颜色调整等。
S102,对预设扩散模型进行初始化。
在本申请的一实施例中,预设扩散模型为控制模型ControlNet,对预设扩散模型进行初始化包括:将控制模型部署在预设的深度学习框架中,并设置控制模型的初始模型参数。其中,预设的深度学习框架可以是数据流图Tensorflow或分布式框架PyTorch,控制模型的模型参数包括,但不限于:学习率、迭代次数、卷积核数量和尺寸、卷积层的权重和偏置值。在本申请的另一实施例中,预设扩散模型也可以是生成对抗网络(GenerativeAdversarial Nets,GAN)。
S103,将一图像对输入预设扩散模型,计算预设扩散模型的损失函数。
在本申请一实施例中,对图像对中的第二图像进行重建得到重建图像,基于第二图像的重建图像和图像对中的第一图像,计算预设扩散模型的损失函数。下文结合图5进行说明,如图5所示,为本申请一实施例提供的预设扩散模型的结构示意图。在本申请的一实施例中,以控制模型为例,预设扩散模型包括,但不限于:输入层、扩散模块、多个零卷积层、条件控制模块及输出层。将图像对中的第一图像和第二图像输入预设扩散模型的输入层,输入层对第一图像进行预处理,将第一图像转换为预设尺寸的图像,将预处理后的第一图像输入扩散模块,将第二图像输入条件控制模块。扩散模块将第一图像编码为潜在图像,将随机噪声(例如高斯噪声)添加至潜在图像。条件控制模块提取第二图像的点云特征,并将提取的点云特征传递至扩散模块。扩散模块根据第二图像的点云特征预测潜在图像中的潜在噪声,从潜在图像中减去潜在噪声,得到更新的潜在图像,并对更新的潜在图像进行解码,得到第二图像对应的重建图像。预设扩散模块根据第二图像的重建图像和第一图像计算预设扩散模型的损失函数的输出值。
在本申请的一实施例中,预设扩散模型的损失函数为L2损失函数,L2损失函数为均方误差MSE(mean square error),即,预测值与真实值之间的差值的平方。其中,L2损失函数的计算公式为:
(1)。
其中,yi为第一图像的第i个特征,yi P为重建图像的第i个特征,n为第一图像和重建图像中的特征数量。
在本申请的另一实施例中,预设扩散模型的损失函数也可以是一时间戳对应的真实噪声和预测噪声之间的差值。扩散模块在将第一图像编码为潜在图像后,每隔一个时间戳将随机噪声添加至潜在图像,直至获得一个纯噪声图像,然后根据第二图像的点云特征对每个时间戳添加的噪声进行预测,得到每个时间戳对应的预测噪声,从纯噪声图像中逐步减去每个时间戳对应的预测噪声,得到第二图像对应的重建图像。预设扩散模型获取相同时间戳下的真实噪声和预测噪声,并计算相同时间戳下的真实噪声和预测噪声之间的差值,若相同时间戳下的真实噪声和预测噪声之间的差值小于或等于预设阈值,确定预设扩散模型收敛,表示预设扩散模型训练完成,并将训练完成的预设扩散模型作为照片生成模型。其中,相同时间戳下的真实噪声和预测噪声之间的差值loss的计算公式为:
(2)。
其中,为时间戳t对应的真实噪声,/>,/>为时间戳t对应的预测噪声,时间戳t的输入图像为/>,θ为预设扩散模型的模型参数。
S104,判断损失函数的输出值是否小于或等于预设阈值。当损失函数的输出值小于或等于预设阈值时,执行S105;当损失函数的输出值大于预设阈值时,执行S106。在其他实施例中,还可判断损失函数的输出值是否处于预设区间内,若损失函数的输出值处于预设区间内,执行S105;若损失函数的输出值未处于预设区间之内,执行S106。
S105,将当前的预设扩散模型确定为照片生成模型。
S106,调整预设扩散模型的参数,然后,流程返回S103。
在本申请的一实施例中,当损失函数的输出值小于或等于预设阈值时,确定预设扩散模型收敛,将当前的预设扩散模型确定为照片生成模型。当损失函数的输出值大于预设阈值时,确定预设扩散模型尚未完成收敛,需要再次调整预设扩散模型的参数,将另一图像对输入预设扩散模型,继续对预设扩散模型进行训练以及判断训练后更新的损失函数是否小于或等于预设阈值。也就是说,基于多个图像对训练预设扩散模型,直至预设扩散模型的损失函数的输出值小于或等于预设阈值,停止训练,并将训练后的预设扩散模型确定为照片生成模型。
通过本申请的上述实施例,可以构建用于自监督训练的图像数据对,从而对预设扩散模型进行训练,建立照片生成模型,便于通过照片生成模型根据现有的照片生成不同视角的新照片,使得照片角度符合用户需求,有效提升用户体验。
参阅图6所示,为本申请一实施例提供的构建图像对的流程图。
S1011,获取第一图像的深度信息。
参阅图7所示,为本申请一实施例提供的第一图像的示意图。在本申请的一实施例中,第一图像的深度信息包括每个像素点在第一图像对应场景中的点与摄像头之间的距离。可以通过单目深度估计方法或双目深度估计方法计算第一图像中每个像素点的深度信息。
在本申请的一实施例中,单目深度估计方法包括将第一图像输入预设的深度学习模型,通过预设的深度学习模型输出第一图像对应的视差图,根据视差图可以得到每个像素点的视差D,根据每个像素点的视差D计算每个像素点的深度,每个像素点的深度Z的计算公式为:Z=f*b/D,其中,f为摄像头的焦距,b为摄像头的基线距离。其中,预设的深度学习模型可以是自编码器。
在本申请的一实施例中,双目深度估计方法包括通过两个摄像头分别拍摄第一图像对应场景的两个图像,对两个图像进行特征匹配,确定两个图像中的多组匹配像素点,计算每组匹配像素点分别对应在场景中的点之间距离,得到每个像素点的视差D,每个像素点的深度Z=f*b/D,其中,f为摄像头的焦距,b为摄像头的基线距离(即两个摄像头之间的距离)。
S1012,根据第一图像的深度信息将第一图像转换为点云图像。
在本申请的一实施例中,根据摄像头的内参和第一图像中每个像素点的深度信息将第一图像中每个像素点在像素坐标系内的像素坐标转换为相机坐标系中的二维坐标。其中,将像素坐标(u,v)转换为二维坐标(x,y)的计算公式为:
(3)。
其中,为摄像头的内参,Zc为每个像素点的深度信息。
在本申请的一实施例中,根据摄像头的外参将第一图像中每个像素点在相机坐标系中的二维坐标转换为世界坐标系中的三维坐标,根据第一图像中多个像素点的三维坐标对应的点,生成第一图像对应的点云图像(如图8所示)。其中,将二维坐标(x,y)转换为三维坐标(Xw,Yw,Zw)的计算公式为:
(4)。
其中,为摄像头的外参,R为旋转矩阵,T为平移向量。
S1013,将第一图像对应的点云图像转换为三维网格图像。
在本申请的一实施例中,根据第一图像对应的一帧点云图像的点云数据将该帧点云图像映射到预设平面,例如预设平面为纹理贴图坐标UV平面),一帧点云图像为对第一图像对应的点云图像完成360度扫描,形成的点云数据集合;遍历UV平面,根据四边形规则取顶点,并对三维网格进行三角化,遍历UV平面坐标的第r行和第r+1行的数据,分别取p(u,v),p(u,v+1),p(u+1,v+1),p(u+1,v)四个点生成三角形,若四个点对应的三维点云都存在,则将该四边形划分为两个三角形,如果存在三个点对应的三维点云,则构造一个三角形,其他情况不生成三角形;将生成的所有三角形组成子网格mesh0;根据该帧点云图像的邻域点云的索引集set(indexes),找到每个点云集合index对应的外包围框bounding box,取外包围框bounding box对应的整体网格的顶点和当前子网格mesh0的顶点进行相邻顶点合并,最终生成整体的三维网格图像(如图9所示)。
在本申请的另一实施例中,也可以通过像素网格转换模型(pixel2Mesh)直接将二维的第一图像转换为三维网格图像。像素网格转换模型将二维的RGB图像作为输入数据,初始化一个三维网格(例如椭球体),基于相机坐标系生成二维RGB图像对应的三维网格。像素网格转换模型包括图像特征提取网络(perceptual feature pooling)和级联网格变形网络,图像特征提取网络提取第一图像的二维卷积特征,级联网格变形网络是基于图的卷积网络,包括一个单独的网格变形块和与图的上池化层(Graph unpooling layer)相交的两个网格变形块,每个网格变形块根据图像特征提取网络提取的二维卷积特征获取一个表示当前三维网格的输入图。在网格变形块中,第一图像的二维卷积特征进行特征池化,生成感知特征,感知特征与初始化的顶点三维形状特征拼接,再输入到G-Resnet(基于图graph的残差网络)中,由G-Resnet生成每个顶点的新坐标和三维形状特征,并进行输出。最终生成的三维网格的特征包括N个节点的几何、连接节点的E条边的集合、每个节点的附加特征(包括三维节点坐标、三维形状的特征编码及从二维RGB图像中学习到的特征的拼接方式)。像素网格转换模型的损失函数包括Chamfer loss(倒角损失)、Normal loss(法向损失)、Laplacian regularization(拉普拉斯正则化)及Edge length regularization(边缘长度正则化),最终的损失值为四个损失函数的输出值的加权求和值。
在本申请的另一实施例中,也可以使用连线将点云图像中相邻的两个点云连接,生成点云图像对应的三维网格图像。在本申请的其他实施例中,也可以通过三维重建算法将点云图像转换为三维网格图像,三维重建方法可以是移动立方体算法(marchingcubes)、泊松重建算法等。
S1014,调整三维网格图像的视角,并将视角调整后的三维网格图像转换为与第一图像相同视角的点云图像,将转换得到的点云图像作为图像对中与第一图像对应的第二图像(如图10所示)。
在本申请的一实施例中,可以随机调整三维网格图像的视角,由于视角调整之后的图像并不是摄像头实际拍摄得到的图像,相对于原视角的点云图像,部分区域不显示,并且新增待显示的部分区域,但由于新增的待显示区域没有对应的点云数据,因此,视角调整后的点云图像存在部分点云数据缺失。
在本申请的另一实施例中,也可以将三维网格图像显示在电子设备的用户界面,并响应用户操作调整三维网格图像的视角。
通过本申请的上述实施例,可以根据现有的单视角图像构建视角转换的图像数据对,从而可以采用自监督的方法对预设扩散模型进行训练,建立照片生成模型,用于根据单视角照片生成不同新视角下的照片。
参阅图11所示,为本申请一实施例提供的预设扩散模型的另一结构示意图。扩散模块为稳定扩散模型stable diffusion,包括文本编码器text encoder、时间编码器timeencoder、多个第一编码器块SD Encoder Block、第一中间块SD Middle Block、多个解码器块SD Decoder Block,条件控制模块为控制模型controlnet,包括多个零卷积层、多个第二编码器块和第二中间块。多个第一编码器块SD Encoder Block、第一中间块SD MiddleBlock、多个解码器块SD Decoder Block形成Unet模型,每个第一编码器块可以包括多个残差网络(resnet)和多个视觉转换器模型(vision transformer)。在本申请的一实施例中,预设扩散模型可以采用预先训练好的稳定扩散模型,只需要对条件控制模块中的控制模型进行训练。在本申请的另一实施例中,也可以同时对稳定扩散模型和控制模型进行训练。具体而言,预设扩散模型的参数可以包括迭代次数,条件控制模块中的控制模型controlnet中的零卷积层、第二编码器块、第二中间块中的卷积核的数量和尺寸,以及每个卷积层的权重和偏置值。
参阅图12所示,为本申请一实施例提供的计算预设扩散模型的损失函数的流程图。
S1031,将图像对中的第一图像和第二图像输入预设扩散模型的输入层,通过输入层对第一图像进行预处理。
在本申请的一实施例中,对第一图像进行预处理包括将第一图像转换为预设尺寸的图像。例如,预设尺寸为512*512。
S1032,输入层将预处理后的第一图像输入扩散模块,通过扩散模块的多个第一编码器块分别将第一图像编码为潜在图像,并将随机噪声添加至潜在图像,并将添加有随机噪声的潜在图像传递至第一中间块。
在本申请的一实施例中,每个第一编码器块包括多个卷积层,第一编码器块通过多个卷积层对第一图像进行卷积处理(即下采样处理),提取第一图像的图像特征,从而将第一图像编码为潜在图像。
S1033,输入层将第二图像输入条件控制模块,通过条件控制模块的多个第二编码器块提取第二图像的点云特征,并将第二图像的点云特征传递至第二中间块。
在本申请的一实施例中,输入层通过零卷积层对点云图像进行卷积处理,并将卷积处理后的点云图像输入条件控制模块,条件控制模块的每个第二编码器块包括多个卷积层,第二编码器块通过多个卷积层对点云图像进行卷积处理(即下采样处理),提取第二图像的点云特征。其中,采用零卷积层进行图像数据的传递可以保持图像数据的输入尺寸,保留图像的边缘线,减少图像数据丢失。
S1034,第二中间块将第二图像的点云特征传递至第一中间块,第一中间块将添加有随机噪声的潜在图像和第二图像的点云特征传递至扩散模块的解码器块。
在本申请的一实施例中,第二中间块通过零卷积层对第二图像的点云特征进行卷积处理,并将卷积处理后的点云特征传递至第一中间块。
S1035,解码器块根据第二图像的点云特征确定潜在图像中的预测噪声,从潜在图像中减去预测噪声,得到更新的潜在图像,并对更新的潜在图像进行上采样处理,得到第二图像的重建图像。
在本申请的一实施例中,每个解码器块包括多个反卷积层,每个解码器块还接收第二中间块传递的第二图像的点云特征,每个解码器块接收到的第二图像的点云特征均经过零卷积层的卷积处理,每个解码器块根据第二图像的点云特征确定潜在图像中的预测噪声,从潜在图像中减去预测噪声,得到更新的潜在图像,通过多个反卷积层对更新的潜在图像进行反卷积处理,从而对更新的潜在图像进行上采样,得到第二图像的重建图像。
S1036,将第一图像的图像特征和重建图像的图像特征输入预设扩散模型的损失函数,得到预设扩散模型的损失函数的输出值。
在本申请的一实施例中,预设扩散模型的损失函数为第一图像的图像特征与重建图像的图像特征之间的均方误差MSE。第一图像的图像特征和重建图像的图像特征可以是图像中每个像素点在每个维度(例如R、G、B)的像素值。
在本申请的另一实施例中,预设扩散模型的损失函数为一时间戳t对应的添加至潜在图像的真实噪声和扩散模块确定的该时间戳t下添加至潜在图像中的预测噪声。S1036也可以替换为:获取时间戳t对应的真实噪声和预测噪声,计算时间戳t对应的真实噪声和预测噪声之间的差值,得到预设扩散模型的损失函数的输出值。
通过本申请的上述实施例,可以采用梯度下降的方法对预设扩散模型进行训练,保证训练建立的照片生成模型可以精确地生成新视角照片,使得照片角度符合用户需求。
参阅图13所示,为本申请一实施例提供的照片生成方法的流程图。所述照片生成方法应用于电子设备中,所述照片生成方法包括:
S201,响应用户触发的生成原始照片对应的新视角照片的请求,将原始照片转换为点云图像。
参阅图14所示,为本申请实施例提供的图库应用程序界面的示意图。在本申请的一实施例中,在用户在图库应用程序的多个照片中选择一照片进行浏览时,图库应用程序界面显示新视角照片的生成控件(例如,生成控件可以是一图标,也可以是菜单中的一功能选项),当用户触发新视角照片的生成控件时,触发生成原始照片对应的新视角照片的请求,触发新视角照片的生成控件的操作可以是点击该生成控件。在本申请的一实施例中,将原始照片转换为点云图像的方法与本申请上述实施例S1011-S1012中的方法相同,在此不作赘述。
S202,响应用户对点云图像的视角调整操作,得到视角调整后的待重建照片。
在本申请的一实施例中,将原始照片转换为点云图像后,图库应用程序显示照片操作界面(如图15所示),照片操作界面显示原始照片的点云图像和多个操作控件,多个操作控件可以包括旋转控件、平移控件等,用户可以在照片操作界面对点云图像执行视角调整操作,例如触发旋转控件控制点云图像旋转、触发平移控件控制点云图像平移、点击选中点云图像后的滑动操作等。
在本申请的一实施例中,在用户对点云图像执行视角调整操作后,响应用户对点云图像的视角调整操作,得到视角调整后的待重建照片。如图15所示,由于视角调整后的待重建照片的视角与原始照片的视角不同,也就是说,与实际拍摄的视角不同,包含未拍摄到的图像信息,故存在图像信息缺失。
S203,将视角调整后的待重建照片输入照片生成模型,通过照片生成模型对待重建照片进行重建,生成原始照片对应的新视角照片。
参阅图16所示,在本申请的一实施例中,将视角调整后的待重建照片A输入通过上述的模型训练方法训练得到的照片生成模型,通过照片生成模型对待重建照片进行重建,生成原始照片对应的新视角照片。其中,照片生成模型的网络结构与预设扩散模型的网络结构相同。
通过本申请的上述实施例,用户可以任意调整现有照片的视角,电子设备可以响应用户对现有照片的视角调整操作,通过上述的模型训练方法训练建立的照片生成模型生成新视角下的图像信息完整的照片,使得照片角度符合用户需求。
参阅图17所示,为本申请实施例提供的生成原始照片对应的新视角照片的流程图。
S2031,照片生成模型的输入层接收输入的待重建照片,通过零卷积层将待重建照片输入照片生成模型的条件控制模块。
在本申请的一实施例中,零卷积层是一个1*1的卷积层,可作为连接层,用于传递图像数据。
S2032,通过条件控制模块提取待重建照片的点云特征,并将点云特征传递至照片生成模型的扩散模块。
在本申请的一实施例中,通过条件控制模块中的多个第二编码器块分别对待重建照片进行卷积处理,提取待重建照片的点云特征,并将提取的点云特征传递至对应的解码器块。
S2033,扩散模块将纯噪声图像作为输入,根据待重建照片的点云特征将纯噪声图像转换为待重建照片的重建图像,并将重建图像确定为原始照片的新视角照片。
在本申请的一实施例中,通过扩散模块的多个第一编码器块分别对纯噪声图像进行卷积处理,提取纯噪声图像的图像特征,将纯噪声图像编码为第一潜在图像,并将第一潜在图像通过第一中间块传递至对应的解码器块,解码器块根据接收待重建照片的点云特征,根据待重建照片的点云特征确定第一潜在图像中的预测噪声,从第一潜在图像中减去预测噪声,得到更新的第二潜在图像,对第二潜在图像进行上采样处理,得到待重建照片对应的第一重建图像,继续将第一重建图像输入扩散模块,通过多个第一编码器块分别对第一重建图像进行卷积处理,提取第一重建图像的图像特征,将第一重建图像编码为第三潜在图像,并将第三潜在图像通过第一中间块传递至对应的解码器块,解码器块根据待重建照片的点云特征确定第三潜在图像中的预测噪声,从第三潜在图像中减去预测噪声,得到更新的第四潜在图像,对第四潜在图像进行上采样处理,得到待重建照片的第二重建图像,对以上步骤迭代预设次数,得到待重建照片的目标重建图像,并将目标重建图像确定为原始照片的新视角照片。如图16所示,原始照片的新视角照片为照片B,新视角照片为对原始照片进行视角调整后的图像信息完整的照片。
在本申请的一实施例中,也可以计算当前获得的重建图像与上一重建图像之间的相似度,若当前获得的重建图像与上一重建图像之间的相似度小于或等于预设相似度阈值,确定当前获得的重建图像为目标重建图像。其中,当前获得的重建图像与上一重建图像之间的相似度可以是当前获得的重建图像中的图像特征与上一重建图像中对应的图像特征之间欧式距离或余弦相似度。
本申请实施例还提供一种电子设备100,参阅图18所示,所述电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(Personal Digital Assistant,PDA)、增强现实(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、人工智能(Artificial Intelligence, AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对电子设备100的具体类型不作特殊限制。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(Universal Serial Bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(Subscriber Identification Module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics ProcessingUnit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在本申请的一实施例中,处理器110中的存储器为高速缓冲存储器。存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在本申请的一实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(Inter-integrated Circuit,I2C)接口,集成电路内置音频(Inter-integratedCircuit Sound,I2S)接口,脉冲编码调制(Pulse Code Modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(Mobile Industry Processor Interface,MIPI),通用输入输出(General-PurposeInput/Output,GPIO)接口,用户标识模块(Subscriber Identity Module,SIM)接口,和/或通用串行总线(Universal Serial Bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(Serial Data Line,SDA)和一根串行时钟线(Serial Clock Line,SCL)。在本申请的一实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在本申请的一实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在本申请的一实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在本申请的一实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在本申请的一实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在本申请的一实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在本申请的一实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(Camera Serial Interface,CSI),显示屏串行接口(DisplaySerial Interface,DSI)等。在本申请的一实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在本申请的一实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。接口还可以用于连接其他电子设备100,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在本申请的一实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在本申请的一实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在本申请的一实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(WirelessLocal Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(Frequency Modulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在本申请的一实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(Global System For MobileCommunications,GSM),通用分组无线服务(General Packet Radio Service,GPRS),码分多址接入(Code Division Multiple Access,CDMA),宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA),时分码分多址(Time-Division Code DivisionMultiple Access,TD-SCDMA),长期演进(Long Term Evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System,GPS),全球导航卫星系统(Global Navigation Satellite System,GLONASS),北斗卫星导航系统(Beidou Navigation Satellite System,BDS),准天顶卫星系统(Quasi-ZenithSatellite System,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为照片生成的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode的,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Miniled,Microled,Micro-OLED,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在本申请的一实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在本申请的一实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在本申请的一实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(Moving Picture Experts Group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以包括一个或多个随机存取存储器(Random Access Memory,RAM)和一个或多个非易失性存储器(Non-Volatile Memory,NVM)。
随机存取存储器可以包括静态随机存储器(Static Random-Access Memory,SRAM)、动态随机存储器(Dynamic Random Access Memory,DRAM)、同步动态随机存储器(Synchronous Dynamic Random Access Memory, SDRAM)、双倍资料率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory, DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等;
非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(Single-Level Cell, SLC)、多阶存储单元(Multi-Level Cell, MLC)、三阶储存单元(Triple-Level Cell, TLC)、四阶储存单元(Quad-Level Cell,QLC)等,按照存储规范划分可以包括通用闪存存储(UniversalFlash Storage,UFS)、嵌入式多媒体存储卡(embedded Multi Media Card,eMMC)等。
随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。
非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
内部存储器121或外部存储器接口120用于存储一个或多个计算机程序。一个或多个计算机程序被配置为被处理器110执行。一个或多个计算机程序包括多个指令,多个指令被处理器110执行时,可实现上述实施例中在电子设备100上执行的屏幕显示检测方法,以实现电子设备100的屏幕显示检测功能。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在本申请的一实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备100平台(Open Mobile Terminal Platform,OMTP)标准接口,美国蜂窝电信工业协会(Cellular Telecommunications Industry Association of theUSA,CTIA)标准接口。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在本申请的一实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。本申请实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机指令,当计算机指令在电子设备100上运行时,使得电子设备100执行上述相关方法步骤实现上述实施例中的模型训练方法和照片生成方法。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的模型训练方法和照片生成方法。
参阅图19所示,本申请实施例还提供一种芯片系统200,该芯片系统200应用于电子设备100,芯片系统包括一个或多个处理器210,处理器210用于调用计算机指令以使得电子设备100将待处理图像输入芯片系统,芯片系统基于本申请实施例提供的模型训练方法或照片生成方法对待处理图像进行处理后输出处理后图像。例如,待处理图像为图像信息缺失的点云图像,处理后图像为图像信息完整的新视角图像。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片系统均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者技术方案的全部或部分可以以软件产品的形式体现出来,软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (13)
1.一种模型训练方法,应用于电子设备,其特征在于,所述方法包括:
构建多个图像对,作为预设扩散模型的训练数据,每个图像对包括第一图像和第二图像,所述第一图像为一视角下图像信息完整的图像,所述第二图像为相同视角下图像信息缺失的图像;
对所述预设扩散模型进行初始化;
基于所述多个图像对,训练所述预设扩散模型,将所述多个图像对中的一图像对输入所述预设扩散模型,计算所述预设扩散模型的损失函数,直至所述预设扩散模型的损失函数的输出值小于或等于预设阈值,停止训练;所述预设扩散模型包括输入层、扩散模块、条件控制模块及输出层,所述扩散模块为稳定扩散模型,包括多个第一编码器块、第一中间块、多个解码器块,所述条件控制模块为控制模型,包括多个零卷积层、多个第二编码器块和第二中间块;
所述计算所述预设扩散模型的损失函数,包括:
将所述图像对中的所述第一图像和所述第二图像输入所述预设扩散模型的输入层,通过所述输入层对所述第一图像进行预处理;
所述输入层将预处理后的所述第一图像输入所述扩散模块,通过所述扩散模块的所述多个第一编码器块分别将所述第一图像编码为潜在图像,并将随机噪声添加至所述潜在图像,并将添加有随机噪声的所述潜在图像传递至所述第一中间块;
所述输入层将所述第二图像输入所述条件控制模块,通过所述条件控制模块的所述多个第二编码器块提取所述第二图像的点云特征,并将所述第二图像的点云特征传递至所述第二中间块;
所述第二中间块将所述第二图像的点云特征传递至所述第一中间块,所述第一中间块将添加有随机噪声的所述潜在图像和所述第二图像的点云特征传递至所述扩散模块的所述解码器块;
所述解码器块根据所述第二图像的点云特征确定所述潜在图像中的预测噪声,从所述潜在图像中减去所述预测噪声,得到更新的潜在图像,并对所述更新的潜在图像进行上采样处理,得到所述第二图像的重建图像;
将所述第一图像的图像特征和所述重建图像的图像特征输入所述预设扩散模型的损失函数,得到所述预设扩散模型的损失函数的输出值;
将训练后的所述预设扩散模型确定为照片生成模型。
2.如权利要求1所述的模型训练方法,其特征在于,所述基于所述多个图像对,训练所述预设扩散模型,包括:
若所述损失函数的输出值大于所述预设阈值,调整所述预设扩散模型的参数;
将所述多个图像对中的另一图像对输入所述预设扩散模型,继续对所述预设扩散模型进行训练,直至所述预设扩散模型的损失函数的输出值小于或等于所述预设阈值。
3.如权利要求1所述的模型训练方法,其特征在于,所述构建多个图像对,包括:
获取所述第一图像的深度信息;
根据所述第一图像的深度信息将所述第一图像转换为点云图像;
将所述第一图像对应的所述点云图像转换为三维网格图像;
调整所述三维网格图像的视角,并将视角调整后的所述三维网格图像转换为与所述第一图像相同视角的点云图像,将转换得到的所述点云图像作为所述图像对中与所述第一图像对应的所述第二图像。
4.如权利要求3所述的模型训练方法,其特征在于,所述第一图像的深度信息包括每个像素点对应在场景中的点与摄像头之间的距离,所述获取所述第一图像的深度信息,包括:
将所述第一图像输入预设的深度学习模型,通过所述预设的深度学习模型输出所述第一图像对应的视差图;
根据所述视差图得到所述第一图像中每个像素点的视差,并根据每个像素点的视差得到每个像素点的深度信息。
5.如权利要求3所述的模型训练方法,其特征在于,所述根据所述第一图像的深度信息将所述第一图像转换为点云图像,包括:
根据摄像头的内参和所述第一图像中每个像素点的深度信息将所述第一图像中每个像素点在像素坐标系内的像素坐标转换为相机坐标系中的二维坐标;
根据所述摄像头的外参将所述第一图像中每个像素点在所述相机坐标系中的所述二维坐标转换为世界坐标系中的三维坐标,所述第一图像中多个像素点的三维坐标对应的点形成所述第一图像对应的点云图像。
6.如权利要求3所述的模型训练方法,其特征在于,所述将所述第一图像对应的所述点云图像转换为三维网格图像,包括:
根据所述第一图像对应的一帧点云图像的点云数据将该帧点云图像映射到纹理贴图坐标平面;
遍历所述纹理贴图坐标平面,根据四边形规则取顶点,并对三维网格进行三角化,遍历纹理贴图坐标的第r行和第r+1行的数据,分别取四个点生成三角形;
若存在四个点对应的三维点云,根据所述四个点对应的三维点云将四边形划分为两个三角形;
若存在三个点对应的三维点云,根据所述三个点对应的三维点云构造一个三角形;
将生成的所有三角形组成子网格;
根据该帧点云图像的邻域点云的索引集,找到每个点云集合对应的外包围框,取每个外包围框对应的整体网格的顶点和当前子网格的顶点进行相邻顶点合并,生成所述三维网格图像。
7.一种照片生成方法,应用于电子设备,其特征在于,所述方法包括:
响应用户触发的生成原始照片对应的新视角照片的请求,将所述原始照片转换为点云图像;
响应用户对所述点云图像的视角调整操作,得到视角调整后的待重建照片;
将视角调整后的所述待重建照片输入通过如权利要求1至6中任一项所述的模型训练方法训练得到的照片生成模型,通过所述照片生成模型对所述待重建照片进行重建,生成所述原始照片对应的新视角照片。
8.如权利要求7所述的照片生成方法,其特征在于,所述通过所述照片生成模型对所述待重建照片进行重建,生成所述原始照片对应的新视角照片,包括:
所述照片生成模型的输入层接收输入的所述待重建照片,通过零卷积层将所述待重建照片输入所述照片生成模型的条件控制模块;
通过所述条件控制模块提取所述待重建照片的点云特征,并将所述点云特征传递至所述照片生成模型的扩散模块;
所述扩散模块将纯噪声图像作为输入,根据所述待重建照片的点云特征将所述纯噪声图像转换为所述待重建照片的重建图像,并将所述重建图像确定为所述原始照片的新视角照片。
9.如权利要求7所述的照片生成方法,其特征在于,所述响应用户触发的生成原始照片对应的新视角照片的请求,将所述原始照片转换为点云图像,包括:
响应于在用户在图库应用程序的多个照片中选择所述原始照片进行查看的操作,在所述图库应用程序界面显示新视角照片的生成控件;
响应用户对所述新视角照片的生成控件的触发操作,将所述原始照片转换为所述点云图像。
10.如权利要求9所述的照片生成方法,其特征在于,所述响应用户对所述点云图像的视角调整操作,得到视角调整后的待重建照片,包括:
将所述原始照片转换为所述点云图像后,通过所述图库应用程序显示包含所述点云图像的照片操作界面,接收用户在所述照片操作界面对所述点云图像执行的视角调整操作;
响应用户对所述原始照片的视角调整操作,得到视角调整后的所述待重建照片。
11.一种电子设备,其特征在于,所述电子设备包括存储器和处理器:
其中,所述存储器,用于存储程序指令;
所述处理器,用于读取并执行所述存储器中存储的所述程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行如权利要求1至6中任一项所述的模型训练方法,或执行如权利要求7至10中任一项所述的照片生成方法。
12.一种芯片系统,其特征在于,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使所述电子设备将待处理图像输入所述芯片系统,并执行如权利要求1至6中任一项所述的模型训练方法,或执行如权利要求7至10中任一项所述的照片生成方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备的处理器执行如权利要求1至6中任一项所述的模型训练方法,或执行如权利要求7至10中任一项所述的照片生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311350264.5A CN117078509B (zh) | 2023-10-18 | 2023-10-18 | 模型训练方法、照片生成方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311350264.5A CN117078509B (zh) | 2023-10-18 | 2023-10-18 | 模型训练方法、照片生成方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117078509A CN117078509A (zh) | 2023-11-17 |
CN117078509B true CN117078509B (zh) | 2024-04-09 |
Family
ID=88708467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311350264.5A Active CN117078509B (zh) | 2023-10-18 | 2023-10-18 | 模型训练方法、照片生成方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078509B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542031A (zh) * | 2024-01-10 | 2024-02-09 | 成都阿加犀智能科技有限公司 | 一种基于智能购物车的商品识别方法、装置、设备及介质 |
CN117880446A (zh) * | 2024-03-12 | 2024-04-12 | 武汉橡皮膜网络科技有限公司 | 一种高连贯性视频合成的稳定扩散模型方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520503A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 |
CN110443842A (zh) * | 2019-07-24 | 2019-11-12 | 大连理工大学 | 基于视角融合的深度图预测方法 |
CN111553869A (zh) * | 2020-05-13 | 2020-08-18 | 北京航空航天大学 | 一种空基视角下的生成对抗网络图像补全方法 |
CN111985281A (zh) * | 2019-05-24 | 2020-11-24 | 内蒙古工业大学 | 图像生成模型的生成方法、装置及图像生成方法、装置 |
CN112651881A (zh) * | 2020-12-30 | 2021-04-13 | 北京百度网讯科技有限公司 | 图像合成方法、装置、设备、存储介质以及程序产品 |
CN112927359A (zh) * | 2021-03-22 | 2021-06-08 | 南京大学 | 一种基于深度学习和体素的三维点云补全方法 |
CN116051737A (zh) * | 2022-12-30 | 2023-05-02 | 东风汽车有限公司东风日产乘用车公司 | 图像生成方法、装置、设备及存储介质 |
CN116503551A (zh) * | 2023-04-14 | 2023-07-28 | 海尔数字科技(上海)有限公司 | 一种三维重建方法及装置 |
CN116597246A (zh) * | 2023-04-14 | 2023-08-15 | 北京邮电大学 | 模型训练方法、目标检测方法、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113364969B (zh) * | 2020-03-06 | 2023-05-12 | 华为技术有限公司 | 一种非视距物体的成像方法和电子设备 |
-
2023
- 2023-10-18 CN CN202311350264.5A patent/CN117078509B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520503A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 |
CN111985281A (zh) * | 2019-05-24 | 2020-11-24 | 内蒙古工业大学 | 图像生成模型的生成方法、装置及图像生成方法、装置 |
CN110443842A (zh) * | 2019-07-24 | 2019-11-12 | 大连理工大学 | 基于视角融合的深度图预测方法 |
CN111553869A (zh) * | 2020-05-13 | 2020-08-18 | 北京航空航天大学 | 一种空基视角下的生成对抗网络图像补全方法 |
CN112651881A (zh) * | 2020-12-30 | 2021-04-13 | 北京百度网讯科技有限公司 | 图像合成方法、装置、设备、存储介质以及程序产品 |
CN112927359A (zh) * | 2021-03-22 | 2021-06-08 | 南京大学 | 一种基于深度学习和体素的三维点云补全方法 |
CN116051737A (zh) * | 2022-12-30 | 2023-05-02 | 东风汽车有限公司东风日产乘用车公司 | 图像生成方法、装置、设备及存储介质 |
CN116503551A (zh) * | 2023-04-14 | 2023-07-28 | 海尔数字科技(上海)有限公司 | 一种三维重建方法及装置 |
CN116597246A (zh) * | 2023-04-14 | 2023-08-15 | 北京邮电大学 | 模型训练方法、目标检测方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117078509A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117078509B (zh) | 模型训练方法、照片生成方法及相关设备 | |
WO2020093988A1 (zh) | 一种图像处理方法及电子设备 | |
CN112712470A (zh) | 一种图像增强方法及装置 | |
CN113542580B (zh) | 去除眼镜光斑的方法、装置及电子设备 | |
WO2022095744A1 (zh) | Vr显示控制方法、电子设备及计算机可读存储介质 | |
US20240153209A1 (en) | Object Reconstruction Method and Related Device | |
CN114140365B (zh) | 基于事件帧的特征点匹配方法及电子设备 | |
US20240193945A1 (en) | Method for determining recommended scenario and electronic device | |
CN114222187B (zh) | 视频编辑方法和电子设备 | |
CN114979457B (zh) | 一种图像处理方法及相关装置 | |
CN114708289A (zh) | 一种图像帧预测的方法及电子设备 | |
CN115309547B (zh) | 处理异步binder调用的方法和装置 | |
CN114283195B (zh) | 生成动态图像的方法、电子设备及可读存储介质 | |
CN112416984A (zh) | 一种数据处理方法及其装置 | |
WO2022095906A1 (zh) | 一种按键映射方法、电子设备及系统 | |
CN115686182B (zh) | 增强现实视频的处理方法与电子设备 | |
CN115482143A (zh) | 应用的图像数据调用方法、系统、电子设备及存储介质 | |
CN117499797B (zh) | 图像处理方法及相关设备 | |
CN116993619B (zh) | 图像处理方法及相关设备 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN117764853B (zh) | 人脸图像增强方法和电子设备 | |
CN117131213B (zh) | 图像处理方法及相关设备 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN117635466B (zh) | 图像增强方法、装置、电子设备及可读存储介质 | |
WO2023024036A1 (zh) | 一种人物三维模型的重建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |