CN114359312B - 图像处理方法及装置 - Google Patents
图像处理方法及装置 Download PDFInfo
- Publication number
- CN114359312B CN114359312B CN202210262475.2A CN202210262475A CN114359312B CN 114359312 B CN114359312 B CN 114359312B CN 202210262475 A CN202210262475 A CN 202210262475A CN 114359312 B CN114359312 B CN 114359312B
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- composition model
- visual angle
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供一种图像处理方法及装置,方法包括:获得第一对象的视角构图模型,视角构图模型具备从世界坐标系下的视角和位置向图像坐标系下的图像数据映射的功能;以多个预先指定的视角为视角构图模型的输入,获得视角构图模型输出的第一对象在预先指定的视角下多个位置的图像数据;基于第一对象在预先指定的视角下多个位置的图像数据,得到第一对象在预先指定的视角下的图像;从第一对象在预先指定的视角下的图像中选择目标视角下的图像;从目标视角下的图像中选择目标区域对应的图像。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法及装置。
背景技术
随着电子设备拍照性能的不断增强,用户热衷于随手记录下生活中的美丽瞬间,并分享电子设备拍摄到的图像至社交网络中,在分享图像之前,电子设备可以对图像进行后期构图处理。后期构图处理能够合理安排图像中的元素分布,提升图像的美感,后期构图处理可以从突出图像主体,重构图像比例和放大图像细节等方面对图像进行处理,方式单一,图像处理效果降低。
发明内容
本申请提供了一种图像处理方法及装置,目的在于提高图像处理效果和鲁棒性。为了实现上述目的,本申请提供了以下技术方案:
第一方面,本申请提供一种图像处理方法,方法包括:获得第一对象的视角构图模型,视角构图模型具备从世界坐标系下的视角和位置向图像坐标系下的图像数据映射的功能;以多个预先指定的视角为视角构图模型的输入,获得视角构图模型输出的第一对象在预先指定的视角下多个位置的图像数据;基于第一对象在预先指定的视角下多个位置的图像数据,得到第一对象在预先指定的视角下的图像;从第一对象在预先指定的视角下的图像中选择目标视角下的图像;从目标视角下的图像中选择目标区域对应的图像。在本实施例中,对于第一对象,利用视角构图模型可以生成第一对象在预先指定的不同视角下的图像,从预先指定的不同视角下的图像中选择出目标视角下的图像后,可以从目标视角下的图像中选择目标区域对应的图像,实现将视角构图和区域构图相结合,能够自动对图像进行后期构图处理,实现了多个维度的自动构图,提高图像处理效果、鲁棒性和用户体验。在一些可能的实现方式中,目标视角下的图像可以是多个预先指定的视角下的图像中,图像质量满足条件的视角下的图像。例如图像质量可以通过美学效果评价,那么目标视角下的图像可以是多个预先指定的视角下的图像中,美学效果满足条件(如美学得分最高)的视角下的图像。在一些可能的实现方式中,目标区域对应的图像可以是目标视角下所有区域中图像质量满足条件的区域对应的图像,若仍通过美学效果评价图像质量,那么目标区域对应的图像可以是目标视角下所有区域中美学效果满足条件(如美学得分最高)的区域对应的图像。
可选的,第一对象的视角构图模型是基于第一对象的多张图像、拍摄第一对象的图像时的相机位姿和相机内参训练得到。因为第一对象的视角构图模型是基于第一对象的多张图像、拍摄第一对象的图像时的相机位姿和相机内参训练得到,使得第一对象的视角构图模型可以学习到第一对象在图像坐标系下的图像数据,具备从世界坐标系下的视角和位置向第一对象在图像坐标系下的图像数据映射的功能,提高视角构图模型输出的第一对象的图像数据的准确度。在输入预先指定的视角后,第一对象的视角构图模型能够自动输出在预先指定的视角的不同位置的图像数据,完成从视角到图像数据的转换。其中图像数据可以是一个位置的颜色值和透明度,该位置的颜色值和透明度可以视为是图像中一个像素点的颜色值和透明度,从而可以基于这些数据合成出第一对象的图像。
视角构图模型可以生成同一个对象在预先指定的不同视角下不同位置的图像数据,例如电子设备可以调用视角构图模型多次,每次向视角构图模型输入一个预先指定的视角,由视角构图模型生成对象在该视角下不同位置的图像数据。电子设备每次向视角构图模型输入的视角可以不同,那么视角构图模型每次生成的是同一个对象在不同视角下的图像数据,这样电子设备可以生成同一个对象在不同视角下的图像。
可选的,第一对象的视角构图模型的训练过程包括:获取训练视角,训练视角是训练视角构图模型时使用的视角,且训练视角是基于相机位姿和相机位姿对应的相机内参得到;将训练视角和训练视角下的多个位置输入到视角构图模型中,得到视角构图模型输出的训练视角下每个位置的图像数据;基于训练视角下每个位置的图像数据,合成训练视角下第一对象的图像;基于训练视角下第一对象的图像、相机位姿下拍摄到的第一对象的图像和第一损失函数,调整视角构图模型的模型参数,以获得视角构图模型。因为视角构图模型是基于第一对象的图像、拍摄第一对象时的相机位姿和相机内参训练得到,使得视角构图模型可以学习到第一对象在图像坐标系下的图像数据,针对第一对象构建,降低其他对象对视角构图模型的影响,提高了视角构图模型输出的第一对象在不同视角的不同位置的图像数据的准确度。
可选的,第一对象的视角构图模型包括图像数据获取层、体积渲染层和视角筛选层;图像数据获取层具备从世界坐标系下的视角和位置向图像坐标系下的图像数据映射的功能;体积渲染层具备基于图像数据生成图像的功能;视角筛选层具备从多个视角下的图像中选择目标视角下的图像的功能,由此利用第一对象的视角构图模型能够完成从图像数据映射、图像生成和图像筛选等步骤,实现利用视角构图模型完成视角构图处理。
可选的,图像数据获取层的训练过程包括:获取训练视角,训练视角是训练图像数据获取层时使用的视角,且训练视角是基于相机位姿和相机位姿对应的相机内参得到;将训练视角和训练视角下的多个位置输入到图像数据获取层中,得到图像数据获取层输出的训练视角下每个位置的图像数据;调用体积渲染层基于训练视角下每个位置的图像数据,合成训练视角下第一对象的图像;基于训练视角下第一对象的图像、相机位姿下拍摄到的第一对象的图像和第一损失函数,调整图像数据获取层的模型参数。因为图像数据获取层是基于第一对象的图像、拍摄第一对象时的相机位姿和相机内参训练得到,使得图像数据获取层可以学习到第一对象在图像坐标系下的图像数据,针对第一对象构建,降低其他对象对图像数据获取层的影响,提高了图像数据获取层输出的第一对象在不同视角的不同位置的图像数据的准确度。
可选的,视角筛选层的训练过程包括:调用视角筛选层对体积渲染层输出的第一对象的图像进行美学评分预测,得到视角筛选层输出的第一对象的图像的预测得分;调用美学评价模型对体积渲染层输出的第一对象的图像进行美学评分计算,得到美学评价模型输出的第一对象的图像的美学得分;基于视角筛选层输出的第一对象的图像的预测得分、美学评价模型输出的第一对象的图像的美学得分和第三损失函数,调整视角筛选层的模型参数。通过美学评价模型使得视角筛选层具备美学评价功能,视角筛选层可以基于美学得分筛选出目标视角下的图像。其中目标视角下的图像可以是多个预先指定的视角下的图像中,美学得分最高的视角下的图像。
可选的,视角筛选层的输入为第一对象在多个视角下的图像,视角筛选层的输出为第一对象在多个视角下的图像的美学得分。也就是说视角筛选层以同时(即一次)获得多个预先指定的视角下的图像,例如视角构图模型对应的7个预先指定的视角,那么视角筛选层可以一次获得7个预先指定的视角下的图像,从这7个预先指定的视角下的图像中筛选出最优视角下的图像,提高处理效率。
可选的,基于训练视角下每个位置的图像数据,合成训练视角下第一对象的图像包括:以第一距离对训练视角下每条射线经过的位置进行筛选,基于所筛选出位置的图像数据,合成训练视角下第一对象的第一图像;以第二距离对训练视角下每条射线经过的位置进行筛选,基于所筛选出位置的图像数据,合成训练视角下第一对象的第二图像,第一距离和第二距离不同,训练视角下第一对象的图像包括第一图像和第二图像。在合成第一对象的图像时,可以分别以第一距离和第二距离对位置进行筛选,以分别合成出第一距离对应的第一图像和第二距离对应的第二图像,第一图像和第二图像可参与到第一对象的视角构图模型的模型参数调整过程中,从而在模型参数调整中引入第一对象与不同距离对应的图像,考虑了不同距离对应的图像对视角构图模型的影响,提高视角构图模型的准确度。
可选的,从目标视角下的图像中选择目标区域对应的图像包括:调用区域构图模型对目标视角下的图像进行区域裁剪,得到多个候选区域对应的图像;调用区域构图模型,从多个候选区域对应的图像中选择出目标区域对应的图像,从而可利用区域构图模型自动进行区域构图。
可选的,区域构图模型具备美学评价功能,区域构图模型利用美学评价功能,得到每个候选区域对应的图像的美学得分,基于每个候选区域对应的图像的美学得分,选择出目标区域对应的图像。对于区域构图模型来说,区域构图模型可以一次性输出所有候选区域对应的图像的美学得分,处理效率提升,减少耗时。
可选的,区域构图模型具备美学评价功能,区域构图模型的生成过程包括:对训练样本中每张图像进行裁剪,得到每张图像中候选区域对应的图像;调用区域构图模型对每张图像中候选区域对应的图像进行美学评分预测,得到区域构图模型输出的候选区域对应的图像的预测得分;调用美学评价模型对每张图像中候选区域对应的图像进行美学评分计算,得到美学评价模型输出的候选区域对应的图像的美学得分;基于区域构图模型输出的候选区域对应的图像的预测得分、美学评价模型输出的候选区域对应的图像的美学得分和第二损失函数,调整区域构图模型的模型参数,以生成具备美学评价功能的区域构图模型。通过美学评价模型使得区域构图模型具备美学评价功能,区域构图模型可以基于美学得分筛选出目标区域对应的图像。其中目标区域对应的图像可以是多个候选区域对应的图像中,美学得分最高的目标区域对应的图像。区域构图模型可以一次性输出所有候选区域对应的图像的美学得分,处理效率提升,减少耗时。
可选的,区域构图模型的网络结构基于目标检测网络的网络结构得到,实现对目标检测网络的利用。
可选的,区域构图模型的网络结构基于目标检测网络的网络结构得到包括:在单次多框检测器网络的第M个卷积层截断,在第M个卷积层之后添加一个卷积层、一个池化层和一个全连接层,全连接层为区域构图模型的输出层,全连接层同时输出所有候选区域对应的图像的美学得分,M是一个自然数,M的取值大于1但小于单次多框检测器网络的卷积层总数。
可选的,美学评价模型的网络结构得到过程包括:在视觉几何小组16网络的第m个池化层截断,在第m个池化层之后添加第一全连接层、第二全连接层和一个输出层,第一全连接层连接第m个池化层,第二全连接层在第一全连接层和输出层之间,m是一个自然数,m的取值大于1但小于视觉几何小组16网络的池化层总数,实现对视觉几何小组16网络的利用。
可选的,第一全连接层的通道数为1024,第二全连接层的通道数为512,输出层的通道数为1,以同时输出所有候选区域对应的图像的美学得分。美学评价模型的输出层的通道数相对于视觉几何小组16网络的输出层的通道数降低,使美学评价模型处理的数据量降低,提高处理效率。
可选的,获得第一对象的视角构图模型包括:响应于接收到的第一对象的图像输出指令,基于第一对象的多张图像,生成第一对象的视角构图模型;方法还包括:如果接收到第二对象的图像输出指令,基于第二对象的多张图像,生成第二对象的视角构图模型;以多个预先指定的视角为第二对象的视角构图模型的输入,获得第二对象的视角构图模型输出的第二对象在预先指定的视角下多个位置的图像数据;基于第二对象在预先指定的视角下多个位置的图像数据,得到第二对象在预先指定的视角下的图像;从第二对象在预先指定的视角下的图像中,选择第二对象在目标视角下的图像;从第二对象在目标视角下的图像中选择目标区域对应的图像。在本实施例中,视角构图模型是以一个对象的图像为基准,视角构图模型主要针对的是该对象,使视角构图模型具备生成对象在视角下不同位置的图像数据的功能。如果对象发生改变,则以改变后的对象的图像为基准,生成改变后的对象的视角构图模型,使得该视角构图模型学习到改变后的对象在图像坐标系下的图像数据的能力,这样视角构图模型在输入预先指定的视角后,可以输出改变后的对象(即第二对象)在预先指定的视角下多个位置的图像数据。
第二方面,本申请提供一种电子设备,包括处理器和存储器,处理器和存储器耦合,存储器用于存储计算机程序,当计算机程序被处理器执行时,使得处理器执行上述图像处理方法。
第三方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序被电子设备执行时,使得电子设备执行上述图像处理方法。
附图说明
图1为本申请提供的电子设备的硬件结构图;
图2为本申请提供的电子设备的软件架构图;
图3为本申请提供的视角构图模型的示意图;
图4为本申请提供的训练视角构图模型的流程图;
图5为本申请提供的训练区域构图模型的示意图;
图6为本申请提供的训练区域构图模型的流程图;
图7为本申请提供的图像处理方法的一种示意图;
图8为本申请提供的图像处理方法的流程图;
图9为本申请提供的图像处理方法的另一种示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例涉及的多个,是指大于或等于两个。需要说明的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
电子设备可通过拍照和下载等方式获得图像,利用电子设备中安装的软件对图像进行后期构图处理。后期构图处理主要关注区域构图,例如后期构图处理可以从突出图像主体、重构图像比例和放大图像细节等方面进行处理,使得后期构图处理的处理方式单一,降低图像处理效果。
发明人经过研究发现,在拍摄图像过程中不同视角下图像不同,不同视角下图像的美学效果也不同,针对同一对象在不同视角下的图像来说,存在一个美学效果较优的视角,因此视角在图像的美学效果中具有一定作用。基于此,本申请提供一种图像处理方法,该图像处理方法可以将视角构图和区域构图相结合,自动对图像进行后期构图处理,实现了多个维度的自动构图,提高图像处理效果、鲁棒性和用户体验,图像处理效果可以是图像的美学效果。
在本申请中,图像处理方法可以应用到电子设备中。在一些实施例中,该电子设备可以是手机、平板电脑、桌面型电脑、膝上型电脑、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(PersonalDigital Assistant,PDA)、可穿戴电子设备、智能手表等设备。本申请对电子设备的具体形式不做特殊限定。
如图1所示,该电子设备可以包括:处理器,外部存储器接口,内部存储器,通用串行总线(universal serial bus,USB)接口,充电管理模块,电源管理模块,电池,天线1,天线2,移动通信模块,无线通信模块,传感器模块,按键,马达,指示器,摄像头,显示屏,以及用户标识模块(subscriber identification module,SIM)卡接口等。其中音频模块可以包括扬声器,受话器,麦克风,耳机接口等,传感器模块可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器可以包括一个或多个处理单元,例如:处理器可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics ProcessingUnit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器是电子设备的神经中枢和指挥中心,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
显示屏用于显示图像,视频、一系列图形用户界面(Graphical User Interface,GUI)等,如显示经过图像处理方法裁剪后的图像、显示经过图像处理方法生成的视角下的图像等。
外部存储器接口可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口与处理器通信,实现数据存储功能。例如将网络的配置信息等文件保存在外部存储卡中。内部存储器可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器通过运行存储在内部存储器的指令,从而执行电子设备的各种功能应用以及数据处理。例如,在本申请中,处理器通过运行内部存储器中存储的指令,使得电子设备执行本申请提供的图像处理方法。
摄像头用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备可以包括1个或N个摄像头,N为大于1的正整。摄像头可以以不同位姿拍摄同一个对象,在不同位姿下获得同一个对象的图像。处理器可以调用摄像头拍摄到的图像对视角构图模型和区域构图模型进行训练。其中对象可以是人、动物、风景等,摄像头可以拍摄到不同对象的图像。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块,无线通信模块,调制解调处理器以及基带处理器等实现。电子设备可以利用无线通信功能下载图像,处理器可以调用下载的图像对视角构图模型和区域构图模型进行训练。
另外,在上述部件之上,运行有操作系统。例如苹果公司所开发的iOS操作系统,谷歌公司所开发的Android开源操作系统,微软公司所开发的Windows操作系统等。在该操作系统上可以安装运行应用程序。
电子设备的操作系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备的软件结构。图2是电子设备的软硬件结构框图。软件结构采用分层架构,分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。以Android系统为例,在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层(Framework),硬件抽象层(HAL)以及系统内核层(Kernel)。
其中,应用程序层可以包括一系列应用程序包。应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等APP。应用程序框架层为应用程序层的应用程序提供应用编程接口(Application Programming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。例如应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
HAL可以包含多个库模块,其中每个模块都为特定类型的硬件组件实现一组接口,如HAL包括图像处理模块,图像处理模块具有一组接口,应用程序层的APP可以调用图像处理模块的接口,图像处理模块用于实现本申请所述的图像处理方法。例如应用程序层的第三方应用(如图库)可以调用图像处理模块,通过图像处理模块的接口向图像处理模块发送图像处理指令,图像处理模块调用视角构图模型和区域构图模型对图像处理指令指向的图像进行处理,以改变图像处理指令指向的图像的美学效果。内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
下面对本申请涉及的视角构图模型、区域构图模型和图像处理方法进行详细说明。
视角构图模型具有生成视角下不同位置的图像数据的功能,以基于不同位置的图像数据生成在该视角对应的图像。此外视角构图模型还具有从多个视角对应的图像中选择出最优视角对应的图像,最优视角对应的图像是从多个视角对应的图像中选择出的美学效果最优的图像。
在一种示例中,视角构图模型具有美学评价功能,调用美学评价功能选择出最优视角对应的图像,例如视角构图模型可以获得每个视角对应的图像的美学得分,基于美学得分选择出最优视角对应的图像。最优视角对应的图像可以是美学得分最高的图像。在另一种示例中,视角构图模型和美学评价模型结合使用,美学评价模型具备美学评价功能,视角构图模型生成的多个视角对应的图像作为美学评价模型的输入,由美学评价模型选择出最优视角对应的图像。
区域构图模型具有选择最优候选区域对应的图像的功能,区域构图模型可以基于候选区域对最优视角对应图像进行裁剪,得到每个候选区域对应的图像,从多个候选区域对应的图像中选择出最优候选区域对应的图像,最优候选区域对应的图像可以是多个候选区域对应的图像中选择出的美学效果最优的图像。
在一种示例中,区域构图模型具有美学评价功能,调用美学评价功能选择出最优候选区域对应的图像,例如区域构图模型可以获得每个候选区域对应的图像的美学得分,基于美学得分选择出最优候选区域对应的图像。最优候选区域对应的图像可以是美学得分最高的图像。在另一种示例中,区域构图模型和美学评价模型结合使用,美学评价模型具备美学评价功能,区域构图模型生成的多个候选区域对应的图像作为美学评价模型的输入,由美学评价模型选择出最优候选区域对应的图像。
视角构图模型可以采用多层感知机(Multilayer Perceptron,MLP)、卷积神经网络(Convolutional Neural Network,CNN)、长短期记忆人工神经网络(Long-Short TermMemory,LSTM)等基础网络模型。区域构图模型和美学评价模型可以采用CNN和LSTM等基础网络模型。
MLP通常包括:输入层、多个全连接层和输出层,输入层可以包括至少一个输入、输出层可以包括至少一个输出。输入层的输入数量、全连接层的层数和输出层的输出数量可以根据需求而定。
卷积神经网络通常包括:输入层、卷积层(Convolution Layer)、池化层(Poolinglayer)、全连接层(Fully Connected Layer,FC)和输出层。一般来说,卷积神经网络的第一层是输入层,最后一层是输出层。
卷积层(Convolution Layer)是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。
卷积层(Convolution Layer)是指卷积神经网络中对输入进行卷积处理的神经网络层,一个神经网络层可以只与部分邻层神经网络层连接。一个卷积层中,通常包含若干个卷积核,每个卷积核可以由一些矩形排列的神经单元组成。输入可以共享一组神经单元,这里共享的神经单元就是卷积核。
池化层(Pooling layer)通常在卷积层之后会得到维度很大的特征,将特征切成几个区域,取其最大值或平均值,得到新的、维度较小的特征。
全连接层(Fully-Connected layer)可以把所有局部特征结合变成全局特征,用来计算最后每一类的得分。
长短期记忆人工神经网络(Long-Short Term Memory,LSTM)通常包括输入层、隐含层以及输出层。其中,输入层由至少一个输入节点组成;当LSTM网络为单向网络时,隐含层仅包括前向隐含层,当LSTM网络为双向网络时,隐含层包括前向隐含层以及后向隐含层。对于每个输入节点分别与前向隐含层节点以及后向隐含层节点连接,用于分别向前向隐含层节点以及后向隐含层节点输出输入数据,每个隐含层中的隐含节点分别与输出节点连接,用于向输出节点输出自己的计算结果,输出节点根据隐含层的输出节点进行计算,并输出数据。
例如,视角构图模型可以采用MLP,视角构图模型以视角和位置为输入、经过多个全连接层处理后,以一个位置的颜色值和透明度为输出,输入的视角和位置对应世界坐标系,输出的颜色值和透明度对应图像坐标系,由此以MLP构建的视角构图模型具备获取视角下一个位置的颜色值和透明度的功能。
图3示出了以MLP构建的视角构图模型,视角构图模型的输入可以是世界坐标系下的视角和位置,输出可以是图像坐标系下一个位置的颜色值和透明度,XYZ表示世界坐标系,d表示视角,X表示位置,RGB表示图像坐标系,C表示颜色值,表示透明度。
视角d包括世界坐标系XYZ三个坐标轴下的取值,位置X也包括世界坐标系XYZ三个坐标轴下的取值,颜色值C包括图像坐标系RGB三个坐标轴下的取值,透明度的取值是单一的。如果视角构图模型的一个输入节点对应一个取值,一个输出节点对应一个取值,那么视角构图模型可以包括六个输入节点和四个输出节点。六个输入节点中的三个输入节点对应视角d在XYZ三个坐标轴下的取值,另外三个输入节点对应位置X在XYZ三个坐标轴下的取值;四个输出节点中的三个输出节点对应颜色值C在RGB三个坐标轴下的取值,另外一个输出节点对应透明度的取值。如果视角构图模型的一个输入节点对应一个参数,一个输出节点对应一个参数,例如视角d和位置X分别对应一个输入节点,那么视角构图模型可以包括两个输入节点和两个输出节点。两个输入节点中一个输入节点对应视角d,另一个输入节点对应位置X;两个输出节点中一个输出节点对应颜色值C,另一个输出节点对应透明度。此处输入节点和输出节点仅是示例,本实施例不进行限定,图3中的省略号表示不限定输入节点和输出节点的个数。当然,视角构图模型的全连接层中神经元的数量也不限于图3所示。
视角构图模型的训练过程可以如图4所示,可以包括以下步骤:
S101、获取多个训练数据对,一个训练数据对包括一个相机位姿、该相机位姿下拍摄到的一张图像和该相机位姿对应的相机内参,相机位姿可以是摄像头拍摄图像时的位姿,相机内参可以是摄像头拍摄图像时使用到的参数,一个相机位姿下摄像头可以对一个对象进行多次拍摄,也可以对多个对象进行拍摄,一个摄像头的相机内参固定不变,即一个摄像头在以不同相机位姿拍摄时,摄像头的相机内参是固定的。
如果训练数据对中缺少相机位姿和相机内参,电子设备可以调用重建算法,得到训练数据对中图像对应的相机位姿和相机内参。一种示例中,电子设备可以调用运动结构恢复(Structure From Motion,SFM)重建解决算法之一的COLMAP,得到训练数据对中图像对应的相机位姿和相机内参。
S102、将训练数据对中的相机位姿和相机内参相乘得到视角,在该视角下进行位置遍历,得到该视角下的所有位置。一种位置遍历方式可以是在该视角下对世界坐标系的X轴、Y轴和Z轴进行等距离或不等距离的多次遍历,等距离和不等距离的遍历是以像素点个数为单位。如在视角下对X轴、Y轴和Z轴进行等距离的1000次遍历,从而遍历出(1000)3个像素点。
S103、将视角和该视角下的所有位置输入到视角构图模型中,得到视角构图模型输出的每个位置下的颜色值和透明度。如果位置是像素点,那么视角构图模型可以输出该视角下所有像素点的颜色值和透明度。
S104、基于所有位置的颜色值和透明度,利用体积渲染技术合成一张图像。利用体积渲染技术合成图像的过程可以是:确定以该视角为起始点的一条射线上的所有位置,以该条射线上每个位置的透明度为权重,通过对颜色值进行加权求和方式得到一个颜色值,该颜色值作为像素点的颜色值。在遍历多有射线后,得到多个像素点的颜色值,这些像素点的颜色值作为所要合成图像的图像数据,完成一张图像的合成。
S105、基于合成出的图像、训练数据对中的图像以及损失函数,调整视角构图模型的模型参数,以完成对视角构图模型的训练。
损失函数如下:
,通过损失函数获得损失值L,基于损失值L调整视角构图模型的模型参数。为训练图像对中的图像,和是合成出的图像,两者的区别在于遍历位置时采用的距离间隔不同,对应的距离间隔大于对应的距离间隔,其中距离间隔是指利用体积渲染技术合成图像时,一条射线上相邻两个位置之间的间隔。
其中i和j是同一条射线上的两个点(位置),第j个点在第i个点之前,i=1~P是指遍历射线上的所有点,j=1~i表示遍历第i个点之前的所有点,P表示射线上的点数,t是射线上点的编号,如是第(i+1)个点,是第i个点。和分别是一条射线上相邻两个点之间的距离,是射线上第i个点的透明度,是射线上第j个点的透明度,是射线上第i个点的颜色值。
在完成视角构图模型的训练后,视角构图模型可以学习到从世界坐标系下的视角和位置向图像坐标系下一个位置的颜色值和透明度的映射,使视角构图模型具有生成视角下不同位置的图像数据的功能,然后利用体积渲染技术,基于不同位置的图像数据生成在该视角对应的图像。
注意一点的是:视角构图模型的训练是以一个对象的图像为准,在以该对象的图像完成对视角构图模型的训练后,视角构图模型具备生成该对象在视角下不同位置的图像数据的功能,由此可以在输入视角至视角构图模型中,视角构图模型可以输出该对象在输入的视角下所有位置的图像数据,利用体积渲染技术,生成该对象在输入的视角下的图像。如果对象发生变化,则重新训练视角构图模型,使视角构图模型学习到变化后的对象在视角下不同位置的图像数据的功能,因此若想通过视角构图模型和体积渲染技术生成一个对象的图像,首先针对该对象对视角构图模型进行训练,得到该对象对应的视角构图模型,再利用该对象对应的视角构图模型,生成该对象在视角下所有位置的图像数据;然后利用体积渲染技术,生成该对象在输入的视角下的图像。
其中视角构图模型可以生成同一个对象在不同视角下不同位置的图像数据,例如电子设备可以调用视角构图模型多次,每次向视角构图模型输入一个视角,由视角构图模型生成对象在该视角下不同位置的图像数据。电子设备每次向视角构图模型输入的视角可以不同,那么视角构图模型每次生成的是同一个对象在不同视角下的图像数据,这样电子设备利用体积渲染技术可以生成同一个对象在不同视角下的图像。
在本实施例中,区域构图模型可以采用CNN。一种示例中,区域构图模型的网络结构可以参照目标检测网络的网络结构,如参照单次多框检测器(Single Shot MultiBoxDetector,SSD)网络的网络结构来构建区域构图模型,在SSD网络的第M个卷积层截断,在第M个卷积层之后添加一个卷积层、一个池化层和一个全连接层,全连接层作为区域构图模型的输出层使用。M可以是一个自然数,M可以大于1但小于SSD网络的卷积层总数,例如M=9,在SSD网络的第9个卷积层之后添加一个卷积层、一个池化层和一个全连接层。
池化层可以采用取平均值的方式,输出层可以包括多个输出,每个输出对应一个候选区域,输出该候选区域对应的图像的美学得分。例如通过在不同缩放比例和标准长宽比的图像上滑动来预先定义候选区域集,得到一组N=895个候选区域,那么区域构图模型可以输出895个候选区域对应的图像的美学得分,基于895个候选区域对应的图像的美学得分选择出最优候选区域对应的图像。其中,候选区域集也称为锚框集,候选区域也称为锚框。
美学评价模型可以采用孪生(Siamese)网络,Siamese网络可以是由两个共享权重的美学评价网络组成,每个美学评价网络以一个图像对为输入,输出结果指示图像对中两个图像是否相似,其中美学评价网络可以是VGG(Visual Geometry Group,视觉几何小组)16网络,VGG16网络由牛津大学工程科学系视觉几何小组提出,这是VGG名字的由来,16表示VGG16网的卷积层以及全连接层加起来共有16层,除了卷积层和全连接层之外,VGG16网络还包括池化层等。本实施例中的美学评价模型用于输出多个图像的美学得分,因此美学评价模型对Siamese网络的网络结构进行调整,使调整后的Siamese网络的输出层输出图像的美学得分。
一种示例中,美学评价模型可以基于VGG16网络得到,在VGG16网络的第m个(如最后一个)池化层截断,在第m个池化层之后添加两个全连接层和一个输出层。即美学评价模型可以包括两个共享权重的网络,每个网络的网络架构是VGG16的最后一个池化层之后添加两个全连接层和一个输出层。
VGG16网络输出的是多个类别的概率分布,多个类别的概率分布采用多通道表示,本实施例中的美学评价模型输出多个图像的美学得分,多个图像的美学得分采用单通道(即通道数为1)表示即可,因此美学评价模型的输出层的通道数相对于VGG16网络的通道数降低,使美学评价模型处理的数据量降低,提高处理效率。相对应的,美学评价模型中两个全连接层的通道数分别是1024和512,通道数为1024的全连接层的输入为VGG16网络的第m个池化层的输出,通道数为1024的全连接层的输出为通道数为512的全连接层的输入,通道数为512的全连接层的输出为通道数为1的输出层的输入,通道数为1的输出层输出多个图像的美学得分。一种场景下,美学评价模型结合区域构图模型,美学评价模型可以输出多个候选区域对应的图像的美学得分。例如候选区域总数是895个,美学评价模型的输出层可以输出895个候选区域对应的图像的美学得分。
美学评价模型可以应用到区域构图模型的训练过程中,训练区域构图模型的示意图如图5所示,电子设备利用预先定义的N个候选区域对图像进行裁剪,得到N个候选区域对应的图像,N个候选区域对应的图像输入到区域构图模型和美学评价模型中,由区域构图模型输出N个候选区域对应的图像的预测得分,美学评价模型输出N个候选区域对应的图像的美学得分,美学评价模型输出的美学得分与区域构图模型输出的预测得分进行损失值计算,基于损失值调整区域构图模型的模型参数,从而完成区域构图模型的训练。训练出的区域构图模型可以具备获得N个候选区域对应的图像的美学得分的功能,由此利用区域构图模型可以从N个候选区域对应的图像中选择出最优候选区域对应的图像。区域构图模型的训练过程如图6所示,可以包括以下步骤:
S201、获取训练数据,训练数据包括多张图像,利用体积渲染技术生成的图像可以作为区域构图模型的训练数据使用。
S202、对训练数据中的每张图像,利用预先定义的N个候选区域图像进行裁剪,得到N个候选区域对应的图像。例如预先定义895个候选区域,电子设备可以利用895个候选区域各自制定的区域位置对图像进行裁剪,得到895个候选区域对应的图像,即电子设备可以对每张图像分别进行895次裁剪,每张图像可以得到895个候选区域对应的图像。
S203、将N个候选区域对应的图像输入到区域构图模型和美学评价模型中。
S204、调用区域构图模型对N个候选区域对应的图像进行美学评分预测,得到区域构图模型输出的N个候选区域对应的图像的预测得分。区域构图模型可通过全连接层一次输出N个候选区域对应的图像的预测得分。
S205、调用美学评价模型对N个候选区域对应的图像进行美学评分计算,得到美学评价模型输出的N个候选区域对应的图像的美学得分。美学评价模型在获得美学得分过程中,每次可以得到两个候选区域对应的图像的美学得分,美学评价模型经过多次处理后得到N个候选区域对应的图像的美学得分,相对于区域构图模型一次性输出所有候选区域对应的图像的预测得分来说,处理效率降低。
在本实施例中,步骤S205和步骤S204可以同时执行,步骤S205可以在步骤S204之前执行,本实施例不限定步骤S204和步骤S205的执行顺序,但是对于训练数据中的一张图像,区域构图模型和美学评价模型可以同时输出该张图像中N个候选区域对应的图像在美学方面的得分。
S206、基于N个候选区域对应的图像的预测得分、N个候选区域对应的图像的美学得分以及损失函数,调整区域构图模型的模型参数,以完成对区域构图模型的训练。
损失函数是:
在本实施例中,视角构图模型和区域构图模型结束训练可以是在损失值符合模型的收敛条件时结束。一些实施例中,模型的收敛条件可以是,模型的损失值小于或等于预先设定的损失阈值。也就是说,可以将模型的损失值和损失阈值进行比较,若模型的损失值大于损失阈值,则可以判断出模型的损失值不符合模型收敛条件,反之,若模型的损失值小于或等于损失阈值,则可以判断出模型损失值符合模型收敛条件。
需要说明的是,在对视角构图模型和区域构图模型进行训练过程中,使用多个训练样本(如上述训练数据对和训练数据中的多张图像),可以针对每一个训练样本计算得到对应的模型的损失值,这种情况下,只有在基于每一个训练样本训练得到的损失值均符合收敛条件的情况下确定训练结束,反之,只要有基于训练样本得到的损失值不符合收敛条件,则执行后续步骤。
在完成区域构图模型的训练之后,区域构图模型具备美学评价能力,使得区域构图模型具备得到N个候选区域对应的图像的美学得分,以基于美学得分选择出最优候选区域对应的图像的功能,因此在预测阶段(实际使用阶段),电子设备不再使用美学评价模型获得N个候选区域对应的图像的美学得分,简化流程且提高处理效率。提高处理效率是因为区域构图模型一次可以输出所有候选区域对应的图像的美学得分,美学评价模型需要多次处理才可以输出所有候选区域对应的图像的美学得分,所以区域构图模型的处理效率高于美学评价模型的处理效率。简化流程是因为区域构图模型具备美学评价能力,省去使用美学评价模型。
电子设备利用视角构图模型和区域构图模型实施图像处理方法的示意图如图7所示,其中图像处理方法包括视角构图和区域构图,视角构图和区域构图可以是两个自动构图过程,视角构图利用视角构图模型完成,区域构图利用区域构图模型完成。在一种示例中,图像处理方法的思路可以是:
训练出视角构图模型,训练出的视角构图模型可以学习到从世界坐标系下的视角和位置向图像坐标系下一个位置的颜色值和透明度的映射,使视角构图模型具有生成视角下不同位置的图像数据的功能;向训练出的视角构图模型输入多个预先指定的视角,视角构图模型可以输出该对象在每个预先指定的视角下不同位置的图像数据;利用体积渲染技术对图像数据进行处理,生成在每个预先指定的视角下的图像;调用美学评价模型从预先指定的视角下,选择出最优视角下的图像;将最优视角下的图像发送给区域构图模型,调用区域构图模型从最优视角下的图像中裁剪出最优候选区域对应的图像,输出最优候选区域对应的图像,完成视角构图和区域构图,实现多个维度的美学自动构图,提高图像处理效果、鲁棒性和用户体验。在图7中视角构图模型是利用MLP训练得到,体积渲染技术可通过图7中的体积渲染模型得到。图7中的视角参数可以根据视角构图模型的使用阶段不同而不同,如训练阶段,视角参数包括图像、相机位姿和相机内参;预测阶段,视角参数包括预先指定的多个视角。训练阶段的视角和预测阶段的视角可以相同也可以不同。
注意一点的是:利用MLP训练视角构图模型时是以一个对象的图像为基准,视角构图模型主要针对的是该对象,使视角构图模型具备生成对象在视角下不同位置的图像数据的功能。如果对象发生改变,则以改变后的对象的图像为基准,重新训练视角构图模型。
图像处理方法的流程图如图8所示,可以包括以下步骤:
S301、获取一个对象的多张图像、图像对应的相机位姿和相机内参。
S302、利用该对象的多张图像、图像对应的相机位姿和相机内参,对MLP进行训练,以得到该对象的视角构图模型。训练过程请参见上述图3和图4,此处不再说明。
S303、将预先指定的多个视角输入到视角构图模型中,获得视角构图模型输出的该对象在预先指定的每个视角下不同位置的图像数据。如该对象在预先指定的每个视角下不同位置的颜色值和透明度,预先指定的视角可以是视角均分得到,或者随意选取多个视角,预先指定的视角和训练视角构图模型时采用的视角可以相同或不同。
S304、利用体积渲染技术对图像数据进行处理,生成该对象在预先指定的每个视角下的图像。
S305、调用美学评价模型,从该对象在预先指定的每个视角下的图像中选择出最优视角下的图像。
S306、对最优视角下的图像,利用预先定义的N个候选区域图像进行裁剪,得到N个候选区域对应的图像。
S307、调用区域构图模型对N个候选区域对应的图像进行美学评分,得到区域构图模型输出的N个候选区域对应的图像的美学得分。区域构图模型可通过全连接层一次输出N个候选区域对应的图像的美学得分。
S308、选择美学得分最高的候选区域对应的图像,美学得分最高的候选区域对应的图像为最优候选区域对应的图像。
S309、输出最优候选区域对应的图像。
上述图像处理方法,在拍摄到一个对象的多张图像后,训练出针对该对象的视角构图模型,调用视角构图模型自动生成该对象在预先指定的每个视角下的图像数据,然后利用体积渲染技术生成该对象在预先指定的每个视角下的图像,且在自动筛选出最优视角下的图像后,对最优视角下的图像进行自动化的区域构图,相对于拍照前构图和用户互动构图方式来说,实现拍照后的全自动构图,用户体验更好。在自动化的区域构图基础上,拓展到了自动化的视角构图,使电子设备可以自动合成某个对象在一些视角下的图像,功能增加且更加全面。在进行视角构图和区域构图过程中,可以利用MLP训练出的视角构图模型和利用卷积神经网络训练出的区域构图模型,美学效果得到提高且鲁棒性更强。对于区域构图模型来说,区域构图模型可以一次性输出所有候选区域对应的图像的美学得分,处理效率提升,减少耗时。
在一些示例中,视角构图模型可以具有从多个视角下的图像中选择出最优视角下的图像的功能,最优视角下的图像是从多个视角下的图像中选择出的美学效果最优的图像。那么,在对视角构图模型进行训练过程中可以引入美学评价模型,一种方式是,在视角构图模型中或者视角构图模型之后增加体积渲染层和视角筛选层。体积渲染层可以获取到多个预先指定的视角下多个位置的颜色值和透明度,也可以是多个预先指定的视角下每个位置的颜色值和透明度,然后体积渲染层利用体积渲染技术生成每个预先指定的视角下的图像。体积渲染层将每个预先指定的视角下的图像发送给视角筛选层,由视角筛选层从多个预先指定的视角下的图像中筛选出最优视角下的图像,视角筛选层与上述美学评价模型的区别在于,视角筛选层的输入可以同时(即一次)获得多个预先指定的视角下的图像,例如视角构图模型对应的7个预先指定的视角,那么视角筛选层可以一次获得7个预先指定的视角下的图像,从这7个预先指定的视角下的图像中筛选出最优视角下的图像。一种方式是,MLP输出的图像数据经过体积渲染层生成的图像输入给用于进行视角筛选的网络层,由该网络层输出图像的美学得分。
视角构图模型增加了体积渲染层和视角筛选层,MLP可以视为视角构图模型中的图像数据获取层。在训练视角构图模型中,经过体积渲染层生成的图像输入给美学评价模型,由美学评价模型输出图像的美学得分,然后参照计算损失值,N是视角总数。是视角筛选层输出的第i个视角下的图像的美学得分,是美学评价模型输出的第i个视角下的图像的美学得分,由此在完成视角构图模型的训练后,使得视角构图模型(主要是视角筛选层)具备输出多个视角下的图像的美学得分的功能,从而可以具有从多个视角下的图像中选择出最优视角下的图像的功能。
对于该视角构图模型,电子设备利用该视角构图模型和区域构图模型实施图像处理方法的示意图如图9所示,图9所示图像处理方法的思路可以是:
训练出视角构图模型,训练出的视角构图模型可以学习到从世界坐标系下的视角和位置向图像坐标系下一个位置的颜色值和透明度的映射,学习到对视角下的图像进行美学评分,使视角构图模型具有生成视角下不同位置的图像数据和筛选视角下的图像的功能;向训练出的视角构图模型输入多个预先指定的视角,视角构图模型中的图像数据获取层可以输出该对象在每个预先指定的视角下不同位置的图像数据;利用视角构图模型中的体积渲染层对图像数据进行处理,生成在每个预先指定的视角下的图像;再利用视角构图模型中的视角筛选层从预先指定的视角下,选择出最优视角下的图像;将最优视角下的图像发送给区域构图模型,调用区域构图模型从最优视角下的图像中裁剪出最优候选区域对应的图像,输出最优候选区域对应的图像,其中图像数据获取层可以基于MLP构建。
上述图7和图9所示图像处理方法的示意图仅是示例,本实施例不对图像处理方法进行限定。
此外,本申请提供一种电子设备,包括处理器和存储器,处理器和存储器耦合,存储器用于存储计算机程序,当计算机程序被处理器执行时,使得处理器执行上述图像处理方法。
本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序被电子设备执行时,使得电子设备执行上述图像处理方法。
本申请提供一种计算机程序产品,本申请提供包括计算机程序,当计算机程序被电子设备运行时,使得电子设备执行上述图像处理方法。
Claims (18)
1.一种图像处理方法,其特征在于,所述方法包括:
获得第一对象的视角构图模型,所述视角构图模型具备从世界坐标系下的视角和位置向图像坐标系下所述第一对象的图像数据映射的功能,所述视角构图模型和对象是一对一的关系;
以多个预先指定的视角为所述视角构图模型的输入,获得所述视角构图模型输出的所述第一对象在所述预先指定的视角下多个位置的图像数据;
基于所述第一对象在所述预先指定的视角下多个位置的图像数据,得到所述第一对象在所述预先指定的视角下的图像;
从所述第一对象在所述预先指定的视角下的图像中选择目标视角下的图像;
从所述目标视角下的图像中选择目标区域对应的图像。
2.根据权利要求1所述的方法,其特征在于,所述第一对象的视角构图模型是基于所述第一对象的多张图像、拍摄所述第一对象的图像时的相机位姿和相机内参训练得到。
3.根据权利要求1或2所述的方法,其特征在于,所述第一对象的视角构图模型的训练过程包括:
获取训练视角,所述训练视角是训练所述视角构图模型时使用的视角,且所述训练视角是基于相机位姿和所述相机位姿对应的相机内参得到;
将所述训练视角和所述训练视角下的多个位置输入到所述视角构图模型中,得到所述视角构图模型输出的所述训练视角下每个位置的图像数据;
基于所述训练视角下每个位置的图像数据,合成所述训练视角下所述第一对象的图像;
基于所述训练视角下所述第一对象的图像、所述相机位姿下拍摄到的所述第一对象的图像和第一损失函数,调整所述视角构图模型的模型参数,以获得所述视角构图模型。
4.根据权利要求1或2所述的方法,其特征在于,所述第一对象的视角构图模型包括图像数据获取层、体积渲染层和视角筛选层;
所述图像数据获取层具备从世界坐标系下的视角和位置向图像坐标系下的图像数据映射的功能;
所述体积渲染层具备基于所述图像数据生成图像的功能;
所述视角筛选层具备从多个视角下的图像中选择目标视角下的图像的功能。
5.根据权利要求4所述的方法,其特征在于,所述图像数据获取层的训练过程包括:
获取训练视角,所述训练视角是训练所述图像数据获取层时使用的视角,且所述训练视角是基于相机位姿和所述相机位姿对应的相机内参得到;
将所述训练视角和所述训练视角下的多个位置输入到所述图像数据获取层中,得到所述图像数据获取层输出的所述训练视角下每个位置的图像数据;
调用所述体积渲染层基于所述训练视角下每个位置的图像数据,合成所述训练视角下所述第一对象的图像;
基于所述训练视角下所述第一对象的图像、所述相机位姿下拍摄到的所述第一对象的图像和第一损失函数,调整所述图像数据获取层的模型参数。
6.根据权利要求4所述的方法,其特征在于,所述视角筛选层的训练过程包括:
调用所述视角筛选层对所述体积渲染层输出的第一对象的图像进行美学评分预测,得到所述视角筛选层输出的第一对象的图像的预测得分;
调用美学评价模型对所述体积渲染层输出的第一对象的图像进行美学评分计算,得到所述美学评价模型输出的第一对象的图像的美学得分;
基于所述视角筛选层输出的第一对象的图像的预测得分、所述美学评价模型输出的第一对象的图像的美学得分和第三损失函数,调整所述视角筛选层的模型参数。
7.根据权利要求6所述的方法,其特征在于,所述视角筛选层的输入为所述第一对象在多个视角下的图像,所述视角筛选层的输出为所述第一对象在多个视角下的图像的美学得分。
8.根据权利要求5所述的方法,其特征在于,所述基于所述训练视角下每个位置的图像数据,合成所述训练视角下所述第一对象的图像包括:
以第一距离对所述训练视角下每条射线经过的位置进行筛选,基于所筛选出位置的图像数据,合成所述训练视角下所述第一对象的第一图像;
以第二距离对所述训练视角下每条射线经过的位置进行筛选,基于所筛选出位置的图像数据,合成所述训练视角下所述第一对象的第二图像,所述第一距离和所述第二距离不同,所述训练视角下所述第一对象的图像包括所述第一图像和所述第二图像。
9.根据权利要求1或2所述的方法,其特征在于,所述从所述目标视角下的图像中选择目标区域对应的图像包括:
调用区域构图模型对所述目标视角下的图像进行区域裁剪,得到多个候选区域对应的图像;
调用所述区域构图模型,从所述多个候选区域对应的图像中选择出所述目标区域对应的图像。
10.根据权利要求9所述的方法,其特征在于,所述区域构图模型具备美学评价功能,所述区域构图模型利用所述美学评价功能,得到每个候选区域对应的图像的美学得分,基于每个候选区域对应的图像的美学得分,选择出所述目标区域对应的图像。
11.根据权利要求9所述的方法,其特征在于,所述区域构图模型具备美学评价功能,所述区域构图模型的生成过程包括:
对训练样本中每张图像进行裁剪,得到每张图像中候选区域对应的图像;
调用区域构图模型对每张图像中候选区域对应的图像进行美学评分预测,得到区域构图模型输出的候选区域对应的图像的预测得分;
调用美学评价模型对每张图像中候选区域对应的图像进行美学评分计算,得到美学评价模型输出的候选区域对应的图像的美学得分;
基于所述区域构图模型输出的候选区域对应的图像的预测得分、所述美学评价模型输出的候选区域对应的图像的美学得分和第二损失函数,调整所述区域构图模型的模型参数,以生成具备美学评价功能的区域构图模型。
12.根据权利要求9所述的方法,其特征在于,所述区域构图模型的网络结构基于目标检测网络的网络结构得到。
13.根据权利要求12所述的方法,其特征在于,所述区域构图模型的网络结构基于目标检测网络的网络结构得到包括:在单次多框检测器网络的第M个卷积层截断,在第M个卷积层之后添加一个卷积层、一个池化层和一个全连接层,所述全连接层为所述区域构图模型的输出层,所述全连接层同时输出所有候选区域对应的图像的美学得分,所述M是一个自然数,所述M的取值大于1但小于所述单次多框检测器网络的卷积层总数。
14.根据权利要求6所述的方法,其特征在于,所述美学评价模型的网络结构得到过程包括:在视觉几何小组16网络的第m个池化层截断,在第m个池化层之后添加第一全连接层、第二全连接层和一个输出层,所述第一全连接层连接所述第m个池化层,所述第二全连接层在所述第一全连接层和所述输出层之间,所述m是一个自然数,所述m的取值大于1但小于所述视觉几何小组16网络的池化层总数。
15.根据权利要求14所述的方法,其特征在于,所述第一全连接层的通道数为1024,所述第二全连接层的通道数为512,所述输出层的通道数为1,以同时输出所有候选区域对应的图像的美学得分。
16.根据权利要求1或2所述的方法,其特征在于,所述获得所述第一对象的视角构图模型包括:响应于接收到的所述第一对象的图像输出指令,基于所述第一对象的多张图像,生成所述第一对象的视角构图模型;
所述方法还包括:如果接收到第二对象的图像输出指令,基于所述第二对象的多张图像,生成所述第二对象的视角构图模型;
以多个预先指定的视角为所述第二对象的视角构图模型的输入,获得所述第二对象的视角构图模型输出的所述第二对象在所述预先指定的视角下多个位置的图像数据;
基于所述第二对象在所述预先指定的视角下多个位置的图像数据,得到所述第二对象在所述预先指定的视角下的图像;
从所述第二对象在所述预先指定的视角下的图像中,选择所述第二对象在目标视角下的图像;
从所述第二对象在目标视角下的图像中选择目标区域对应的图像。
17.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器耦合,所述存储器用于存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至16中任意一项所述的图像处理方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被电子设备执行时,使得所述电子设备执行权利要求1至16中任意一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210262475.2A CN114359312B (zh) | 2022-03-17 | 2022-03-17 | 图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210262475.2A CN114359312B (zh) | 2022-03-17 | 2022-03-17 | 图像处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359312A CN114359312A (zh) | 2022-04-15 |
CN114359312B true CN114359312B (zh) | 2022-08-23 |
Family
ID=81094965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210262475.2A Active CN114359312B (zh) | 2022-03-17 | 2022-03-17 | 图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359312B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984447A (zh) * | 2011-09-06 | 2013-03-20 | 联发科技股份有限公司 | 摄影系统及相片产生方法 |
CN108093174A (zh) * | 2017-12-15 | 2018-05-29 | 北京臻迪科技股份有限公司 | 拍照设备的构图方法、装置和拍照设备 |
CN108629823A (zh) * | 2018-04-10 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 多视角图像的生成方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8660342B2 (en) * | 2012-01-24 | 2014-02-25 | Telefonica, S.A. | Method to assess aesthetic quality of photographs |
CN111028216A (zh) * | 2019-12-09 | 2020-04-17 | Oppo广东移动通信有限公司 | 图像评分方法、装置、存储介质及电子设备 |
CN111008971B (zh) * | 2019-12-24 | 2023-06-13 | 天津工业大学 | 一种合影图像的美学质量评价方法及实时拍摄指导系统 |
US11290640B2 (en) * | 2020-06-10 | 2022-03-29 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
CN113873177A (zh) * | 2020-06-30 | 2021-12-31 | 北京小米移动软件有限公司 | 多视角拍摄方法、装置、电子设备及存储介质 |
CN112651881B (zh) * | 2020-12-30 | 2023-08-01 | 北京百度网讯科技有限公司 | 图像合成方法、装置、设备、存储介质以及程序产品 |
CN112788248A (zh) * | 2021-03-24 | 2021-05-11 | 三星电子(中国)研发中心 | 一种拍摄方法和装置 |
-
2022
- 2022-03-17 CN CN202210262475.2A patent/CN114359312B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984447A (zh) * | 2011-09-06 | 2013-03-20 | 联发科技股份有限公司 | 摄影系统及相片产生方法 |
CN108093174A (zh) * | 2017-12-15 | 2018-05-29 | 北京臻迪科技股份有限公司 | 拍照设备的构图方法、装置和拍照设备 |
CN108629823A (zh) * | 2018-04-10 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 多视角图像的生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114359312A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670397B (zh) | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 | |
CN110910486B (zh) | 室内场景光照估计模型、方法、装置、存储介质以及渲染方法 | |
CN113538273B (zh) | 图像处理方法及图像处理装置 | |
CN109951654A (zh) | 一种视频合成的方法、模型训练的方法以及相关装置 | |
CN112287852B (zh) | 人脸图像的处理方法、显示方法、装置及设备 | |
CN110110787A (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN109472764B (zh) | 图像合成和图像合成模型训练的方法、装置、设备和介质 | |
US20230245398A1 (en) | Image effect implementing method and apparatus, electronic device and storage medium | |
CN111669502B (zh) | 目标对象显示方法、装置及电子设备 | |
CN115061770B (zh) | 显示动态壁纸的方法和电子设备 | |
WO2022068326A1 (zh) | 一种图像帧预测的方法及电子设备 | |
CN110796248A (zh) | 数据增强的方法、装置、设备及存储介质 | |
CN112381707B (zh) | 图像生成方法、装置、设备以及存储介质 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN110807769B (zh) | 图像显示控制方法及装置 | |
CN116152122A (zh) | 图像处理方法和电子设备 | |
CN115908120B (zh) | 图像处理方法和电子设备 | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
CN114359312B (zh) | 图像处理方法及装置 | |
CN110084306B (zh) | 用于生成动态图像的方法和装置 | |
CN110135329B (zh) | 从视频中提取姿势的方法、装置、设备及存储介质 | |
US20220114740A1 (en) | Camera motion information based three-dimensional (3d) reconstruction | |
CN115439307A (zh) | 风格转换方法、风格转换模型的生成方法和风格转换系统 | |
CN114693538A (zh) | 一种图像处理方法及装置 | |
CN117746192B (zh) | 电子设备及其数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230906 Address after: 201306 building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Patentee after: Shanghai Glory Smart Technology Development Co.,Ltd. Address before: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040 Patentee before: Honor Device Co.,Ltd. |
|
TR01 | Transfer of patent right |