CN116016952A - 用于光学成像系统的图像编解码模型的训练方法 - Google Patents

用于光学成像系统的图像编解码模型的训练方法 Download PDF

Info

Publication number
CN116016952A
CN116016952A CN202211644311.2A CN202211644311A CN116016952A CN 116016952 A CN116016952 A CN 116016952A CN 202211644311 A CN202211644311 A CN 202211644311A CN 116016952 A CN116016952 A CN 116016952A
Authority
CN
China
Prior art keywords
image
model
parameters
imaging system
optical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211644311.2A
Other languages
English (en)
Other versions
CN116016952B (zh
Inventor
倪一博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weiwu Photon Beijing Technology Co ltd
Original Assignee
Weiwu Photon Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weiwu Photon Beijing Technology Co ltd filed Critical Weiwu Photon Beijing Technology Co ltd
Priority to CN202211644311.2A priority Critical patent/CN116016952B/zh
Publication of CN116016952A publication Critical patent/CN116016952A/zh
Priority to PCT/CN2023/131034 priority patent/WO2024131377A1/zh
Application granted granted Critical
Publication of CN116016952B publication Critical patent/CN116016952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

提供了一种用于光学成像系统的图像编解码模型的训练方法,其中,图像编解码模型包括编码模型和解码模型,光学成像系统包括对待成像图像进行编码的光学元件组,模型训练方法包括:获取样本数据集,其中,样本数据集中的每个样本数据均包括针对目标场景的真实光强度图像和真实深度图像;将样本数据集中的样本数据输入到图像编解码模型,以至少得到深度图像的预测值,其中,编码模型根据光学元件组的参数将样本数据的真实光强度图像和真实深度图像编码为编码图像以作为解码模型的输入;根据深度图像的预测值以及真实深度图像之间的差值,计算损失值;以及基于损失值调节用于解码模型的参数或调节用于解码模型的参数以及光学元件组的参数两者。

Description

用于光学成像系统的图像编解码模型的训练方法
技术领域
本公开涉及计算机视觉,特别是涉及一种用于光学成像系统的图像编解码模型的训练方法、用于光学成像系统的深度图像的生成方法以及光学成像系统。
背景技术
三维成像在机器人、自动驾驶、智能制造、人脸识别与检测、增强现实等领域有着愈发重要的应用。三维成像在传统相机成像仅获取目标场景的二维光强信息的基础上,还需要获取深度信息,即场景内各点到相机的距离。
现有的获取场景深度信息可分为投射激光或结构化照明的主动方法,以及不需要投射激光或结构化照明的被动方法。主动方法主要包括结构光和飞行时间法,结构光方法基于三角测距原理,需要一定的基线长度,从而具有较大的体积,消费级的散斑结构光深度图分辨率受投射点的数目限制而较低,飞行时间法根据具体方法受接收端像素尺寸或激光线数等限制同样具有较低的分辨率,此外,主动方法的激光投射或结构化照明装置使其具有较高的成本与功耗,并且其依赖的投射信号易受到环境光照的干扰。被动方法主要为双目、多目以及光场相机,其原理为三角测距,从而需要较大的体积以保证一定的测距精度,并且需要多个相机或透镜阵列,增加了成本。
利用单目相机,在相较于传统二维相机基本不增加体积成本和功耗的前提下,若能够获取较高质量的三维信息,会在应用上有着巨大的优势。目前对单目三维视觉的研究主要包括基于二维图像语义信息、透镜离焦、点扩散函数工程。基于二维图像语义信息的方法未考虑成像系统物理模型,精度与可靠性均较低,并且只能获取场景的相对深度关系,而不能获取具体距离。基于透镜离焦的方法考虑了物理模型,但是普通透镜本身的点扩散函数使深度估计的精度很低,并且通常需要多帧拍摄以确定深度。点扩散函数工程在成像系统光路中通过相位或强度编码实现具有更高测距精度的点扩散函数,并且只需要单帧拍摄确定深度,典型的点扩散函数为双螺旋点扩散函数,点扩散函数工程的方法被广泛用于光学显微邻域中的三维粒子追踪等。对于机器人、自动驾驶、智能制造、人脸识别与检测、增强现实等领域所需要的从复杂场景获取三维信息需求,已有一种方法利用深度学习和端到端优化实现了较高精度和分辨率的深度图和二维强度图获取,但其仅基于可见光波段的RGB图像,导致其在许多场景中不适用。例如,当单目三维相机在较黑暗环境下工作需要泛光照明补光,若采用RGB图像,则相应波段的补光会被人眼看到,在例如扫地机器人和人脸识别中等应用场景中会对使用者造成干扰;在光照过强的情况下,可能出现过曝;或者在环境光照不均匀的情况下,出现部分区域过曝,部分区域过暗的情况。
发明内容
提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
根据本公开的一方面,提供了一种用于光学成像系统的图像编解码模型的训练方法,其中,图像编解码模型包括编码模型和解码模型,光学成像系统包括对待成像图像进行编码的光学元件组,模型训练方法包括:获取样本数据集,其中,样本数据集中的每个样本数据均包括针对目标场景的真实光强度图像和真实深度图像;将样本数据集中的样本数据输入到图像编解码模型,以至少得到深度图像的预测值,其中,编码模型根据光学元件组的参数将样本数据的真实光强度图像和真实深度图像编码为编码图像以作为解码模型的输入;根据深度图像的预测值以及真实深度图像之间的差值,计算损失值;以及基于损失值调节用于解码模型的参数或调节用于解码模型的参数以及光学元件组的参数两者。
根据本公开的另一方面,提供了一种用于光学成像系统的深度图像的生成方法,其中,光学成像系统包括对成像图像进行编码的光学元件组,方法包括:设置光学元件组的参数,其中,光学元件组的参数是预先确定的或利用上述的图像编解码模型的训练方法调节得到的;使用光学成像系统对目标场景进行拍摄,得到包含目标场景的光强度信息和深度信息的编码图像;以及将编码图像输入利用根据上述的图像编解码模型的训练方法训练得到的解码模型中,得到针对目标场景的深度图像。
根据本公开的又另一方面,提供了一种光学成像系统,包括:光学元件组,配置成对待成像图像进行编码;成像元件,配置成对目标场景进行拍摄,以获取经光学元件组编码后的编码图像;以及处理器,配置成从成像元件获取编码图像,并利用根据上述的图像编解码模型的训练方法训练好的解码模型对编码图像进行解码,以得到针对目标场景的深度图像。
根据本公开的再另一方面,提供了一种计算机设备,包括:至少一个处理器;以及至少一个存储器,其上存储有计算机程序,其中,计算机程序在被至少一个处理器执行时,使至少一个处理器执行上述的方法。
根据本公开的再另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使处理器执行上述的方法。
根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使处理器执行上述的方法。
根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1是图示出根据示例性实施例的光学成像系统的结构示意图;
图2a示出了根据示例性实施例的超构表面的截面示意图;
图2b示出了根据示例性实施例的超构表面的俯视图;
图3a示出了根据示例性实施例的超构表面的透射相位图;
图3b示出了根据图3a的透射相位图得到的点扩散函数的示意图;
图4是图示出根据示例性实施例的用于光学成像系统的图像编解码模型的训练方法的流程图;
图5示出了用于实施图4所示的方法的原理示意图;
图6是图示出根据另一示例性实施例的得到编码图像的方法的流程图;
图7是图示出根据示例性实施例的用于光学成像系统的深度图像的生成方法的流程图;
图8示出了可以被用来实施本文所描述的方法的计算机设备的示例配置。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素,不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及“……中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
下面结合附图详细描述本公开的示例性实施例。
图1是图示出根据示例性实施例的光学成像系统100的结构示意图,该光学成像系统100可以用于在其中实施本文描述的图像编解码模型的训练方法以及深度图像的生成方法。如图1所示,光学成像系统100包括:光学元件组111、成像元件112以及处理器121。
如图1所示,光学元件组111和成像元件112共同组成一个编码模型110,以用于对输入的目标场景140的二维光强度图像和对应的深度图像两者进行编码,从而得到同时包含二维光强度信息和深度信息的编码图像。在此处以及后文的描述中,“图像编码”是指利用一些光学元件的光学特性对原始图像进行图像处理,以使其包含光学信息(例如:深度信息)。处理器121中包含有解码模型120,上述编码图像将再次输入到处理器121的解码模型120中,解码模型120对上述编码图像进行解码,从而得到目标场景140的深度图像和/或二维光强度图的预测值。
光学元件组111包括超构表面113,超构表面113具有可调节的透射率和/或相位分布。图2a示出了根据本公开实施例的超构表面113的截面示意图,图2b示出了根据本公开实施例的超构表面113的俯视图。如图2a和图2b所示,超构表面113包括:衬底113a以及纳米天线阵列113b。纳米天线阵列113b以二维阵列113b形式布设于衬底113a的表面,各纳米天线的高度均在亚波长范围内,且均由高折射率(折射率>2)的介质材料构成,介质材料包括但不限于硅、氮化硅、二氧化钛、磷化镓、氮化镓或砷化镓等。本实施例的超构表面镜头为透射式,衬底113a可以选择熔融玻璃或石英等透明(透射率>80%)基底,各纳米天线采用硅制成。如图2b所示,分别以平行于纳米天线阵列113b行和列的方向作为x轴和y轴,并以右手定则建立坐标系xyz,各纳米天线沿xy平面的横截面形状可以为矩形、椭圆形等形状(本实施例采用圆形)。纳米天线阵列113b中的各纳米天线在高度固定的情况下,可以利用时域有限差分或严格耦合波分析等方法,计算单个纳米天线在不同直径下,对工作波段的入射光的相位和透过率的调制情况,可以获得一组纳米天线结构用于对入射光相位和透射率分别在0-2π和0-1范围内的调控。
在本实施例中,选取超表面基底材料为二氧化硅,天线材料为单晶硅,天线高度为600纳米,天线中心距为400纳米。根据工作波长λ,利用时域有限差分或严格耦合波分析等方法,计算单个纳米天线在不同半径的情况下,对入射光的相位和透过率的调制情况。通过计算得到的单个纳米天线对入射光相位的调制量和透射率与该纳米天线的半径的关系,可选取一组透射率接近1,且相位变换范围为2π的天线结构。
超构表面113的透射率和/或相位分布根据纳米天线阵列113b的布置样式确定。图3a示出了根据本公开实施例的超构表面113的透射相位图,图3a所示的透射相位分布为使用图2a和图2b的超构表面113时,对应波长的光的相位变化。图3a所示的透射相位分布通过在菲涅尔区排列具有向外环增加的拓扑量子数的螺旋相位得到。图3b示出了根据图3a的透射相位图得到的点扩散函数的示意图。在图3b中,各个图像表示在不同深度的情况下,点扩散函数的归一化光强度。
假设超构表面113对入射光的目标透射相位为
Figure BDA0004009113110000051
上述超构表面113可通过光学角动量叠加设计得到。在光学成像系统的入瞳平面中排列携带螺旋相位分布的环带,并向外环增加拓扑量子数,这种方法可以产生的大景深且紧凑的旋转点扩散函数。
Figure BDA0004009113110000052
的表达式为:
Figure BDA0004009113110000053
在式(1)中,u为入瞳平面的归一化径向坐标,
Figure BDA0004009113110000054
为入瞳平面的方位角,[L,ε]是可调的设计参数,L用于调节点扩散函数随深度的旋转速率,ε用于调节点扩散函数紧凑程度与形状不变性之间的取舍,在本实施例中,可以选取[L,ε]=[6,0.5],所得到的超表面目标相位分布将如图3a所示。
可以理解,上述数值的选取以及图3a所示的目标相位分布仅仅是示例性的,在另外一些实施例中,可以根据超构表面对入射光的目标透射相位得到对应透射相位的天线结构。在用于解码模型的参数和光学元件组的参数一起进行优化调节的实施例中,相位分布可以是与式(1)不同的表达式。在不同的示例中,可以设置超构表面在衬底113a表面每个位置处的纳米天线结构,从而得到超构表面的完整结构设计。另外,在本公开的各个实施例中,超构表面113的纳米天线阵列113b均以二维阵列的形式布置,但是在另外一些实施例中,天线阵列113b还可以以一维阵列的形式进行布置。
本实施例的超构表面113能够对入射光束的振幅和相位同时进行调制,而在相关技术中,光学成像系统100大多使用相位掩模,只能进行相位的调制。因此,本申请使用超构表面113具有更高的调制自由度。
如图1所示,光学元件组111还包括与超构表面113组合使用的聚焦元件组115,聚焦元件组115可以由多个参数不同的透镜构成,并且,超构表面113设置在聚焦元件组115的入瞳平面上。入瞳是限制入射光束的有效孔径,是孔径光阑对前方光学系统所成的像。入瞳和出瞳相对应,把孔径光阑在物空间的共轭像称为“入瞳”,入瞳平面的位置代表了入射光束的位置。将聚焦元件组115和超构表面113结合使用并且将超构表面113设置在聚焦元件组115的入瞳平面上,可以使得光学成像系统100在更大视场角下工作。另外,聚焦元件组115由多个透镜构成,相较于只用1片透镜的设计,提高了最终的成像范围和成像质量。光学成像系统100还包括:照明光源130,用于为目标场景140提供照明光源,光学成像系统100用于对目标场进行探测,从而获取目标场景140的深度图或深度图与二维强度图两者。
在一些实施例中,光学元件组111还可以包含一个或多个折射或衍射光学元件以替代上述超构表面113,其中折射光学元件包括但不限于由光学玻璃、光学塑料、光学晶体等材料构成的透镜或棱镜等,衍射光学元件包括但不限于二台阶或多台阶衍射光学元件、光栅、达曼光栅、超构表面、全息图、diffuser、相位掩膜、强度掩膜、空间光调制器等。处理器121可以是图像处理单元,配置成从成像元件112获取编码图像,并利用由图像编解码模型的训练方法训练好的解码模型120对编码图像进行解码,以得到针对目标场景140的深度图像。同样地,折射或衍射光学元件也可以设置在聚焦元件组115的入瞳平面上。
在一些实施例中,光学成像系统100可以是基于红外光成像的系统,该系统100还包括:红外带通滤光片114,配置成对待成像图像进行滤波,以得到红外图像。上述照明光源130可以是红外照明光源,配置成将红外光投射到目标场景140,相应地,后续获得的编码图像为红外编码图像。成像元件112包括至少一个光电传感器,至少一个光电传感器配置成获取编码后的红外图像以作为编码图像。
相关技术一般采用可见光波段的光源对目标场景140进行照明,从而得到可见光波段的编码图像。但是,若采用可见光波段的RGB图像,则相应波段的光源会被人眼接收到,在例如人脸识别等应用场景中会对使用者造成干扰;另外,RGB图像在光照过强的情况下,可能出现过曝;或者在环境光照不均匀的情况下,出现部分区域过曝,部分区域过暗的情况。本实施例的光学成像系统100通过红外照明光源补光,并在系统中加入红外波段的带通滤光片114,实现了场景光照条件的可控操作。在暗光条件下,可以通过人体无感的红外补光实现高质量三维成像,在环境光照过强或不均匀的情况下,大部分杂光可被成像镜头中的红外带通滤光片114滤掉,从而避免了过曝。并且,红外光不能被人眼接收到,因此,避免了对使用者造成干扰。本实施例的光学成像系统100可以在人体无感的前提下,实时获取各种三维场景的高精度、高分辨率深度图以及二维光强度图。
图4是图示出根据示例性实施例的用于光学成像系统100的图像编解码模型的训练方法400的流程图,如图4所示,该方法400包括:
步骤410,获取样本数据集,其中,样本数据集中的每个样本数据均包括针对目标场景140的真实光强度图像和真实深度图像;
步骤420将样本数据集中的样本数据输入到图像编解码模型,以至少得到深度图像的预测值,其中,编码模型110根据光学元件组111的参数将样本数据的真实光强度图像和真实深度图像编码为编码图像以作为解码模型120的输入;
步骤430,根据深度图像的预测值以及真实深度图像之间的差值,计算损失值;以及
步骤440,基于损失值调节用于解码模型120的参数或调节用于解码模型120的参数以及光学元件组111的参数两者。
参考图4,在步骤410,样本数据可以是针对一些目标场景140的真实光强度图像和真实深度图像。这些样本数据可以是从特定的渠道预先获取到的。
在步骤420中,编码模型110首先将真实光强度图像和真实深度图像编码为编码图像,然后再将编码图像输入到解码模型120中获取到深度图像的预测值。图5示出了用于实施图4所示的方法400的原理示意图,参照图5,光学成像系统100中的编码模型110可以由真实的光学元件组111和成像元件112搭建组成,也可以通过在计算机中建立仿真模型获得,在本实施例中,特别是在对图像编解码模型进行训练的过程中,为了便于确定光学元件组111的参数,编码模型110实现为计算机中建立的仿真模型。下文将结合图6具体说明如何利用仿真模型生成编码图像,这里不再详述。也就是说,在本实施例的方法中,实际上不存在光学元件组111和成像元件112,而是由计算机中建立的仿真模型模拟该光学元件组111和成像元件112对相关图像的作用。在步骤420中,可以将真实光强度图像和真实深度图像输入到计算机的仿真模型中,由计算机处理上述两幅图像并得到编码图像。
在一些实施例中,为了简化配置,包括存储有解码模型120的处理器121的计算机也是建立仿真模型的计算机,也就是说,该计算机可以同时用于对图像进行模拟编码和解码。在另外一些实施例中,也可以使用不同的计算机分别进行编码和解码,例如:第一计算机用于建立仿真模型,以对真实光强度图像和真实深度图像进行编码,第二计算机则用于接收第一计算机的编码图像,然后利用解码模型120对接收到的编码图像进行解码,从而得到深度图像的预测值。
继续参照图5所示,将系统100最终得到的深度图像的预测值和一开始输入到系统中的真实深度图像进行比较,根据损失函数计算深度图像的预测值相对于真实深度图像的损失值,基于损失值调节相关编码模型110和/或解码模型120的参数。
在步骤440中,本实施例的模型训练方法既可以单独调节用于解码模型120的参数,又可以同时调节用于解码模型120的参数以及光学元件组111的参数两者。下面分别针对这两种情况的模型训练方法进行说明:
1.在选择单独调节用于解码模型120的参数的情况下,可以预先确定好光学元件组111的参数并在模型训练的过程中保持光学元件组111的参数不变,仅调节用于解码模型120的参数。上述参数的调节可以由存储有解码模型120的处理器121执行,并基于调节后的参数对解码模型120进行迭代更新。在一些实施例中,由于无需调节光学元件组111的参数,因此,可以搭建真实的光学元件组111和成像元件112(而不是使用仿真模型)对图像进行编码。在一些实施例中,输入的样本数据还可以是已经编码好的编码图像,将编码图像直接输入到解码模型120中,得到深度图像的预测值,也就是说,方法400仅对解码模型120进行单独训练。
2.在选择同时调节用于解码模型120的参数和光学元件组111的参数两者的情况下,编码模型110可以实现为计算机中建立的仿真模型。在编码模型110和解码模型120存储于同一计算机的处理器121中的情况下,上述参数的调节可以由该处理器121执行,并基于调节后的参数对编码模型110和解码模型120同时进行迭代更新。在这种情况下,上述模型训练方法可以理解为端到端的模型训练。端到端的模型训练是指编码模型110和解码模型120的操作都包含在一整个神经网络内部(即,编解码模型中),不再分成多个模型进行单独训练。由原始数据输入,到结果输出,从输入端到输出端,中间的神经网络自成一体。
在步骤440中,可以利用梯度下降和反向传播算法计算用于解码模型120的参数或用于解码模型120的参数以及光学元件组111的参数两者。梯度下降算法(GradientDescent GD)是一种寻找目标函数最小化的方法,该算法利用梯度信息,通过不断迭代调整参数来寻找合适的目标值,从而使得损失值最小。反向传播算法是用于训练人工神经网络(Artificial Neural Network,ANN)的一种算法。在模型训练过程中,首先将训练集数据(即,样本数据)输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程。由于ANN的输出结果与实际结果有误差,则需要计算输出的预测值与真实值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层。在反向传播的过程中,根据误差调整各种参数的值,不断迭代上述过程,直至收敛。
图6示出了根据本公开实施例的得到编码图像的方法600的流程图,如图6所示,该方法600包括:
步骤610,根据光学元件组111的参数确定用于编码的点扩散函数,其中,点扩散函数和图像的深度相关;以及
步骤620,利用点扩散函数对样本数据的真实光强度图像和真实深度图像进行编码,得到编码图像。
步骤620进一步包括:
步骤621,根据真实光强度图像和真实深度图像确定真实输入光场,以及
步骤622,根据真实输入光场与点扩散函数的卷积以及预先确定的噪声,生成编码图像。
在步骤610中,点扩散函数为光学成像系统100的脉冲响应,点扩散函数随图像的深度、拍摄视场角以及拍摄波长而变化。在一些实施例中,成像元件112为光电传感器阵列113b。假设上述光电传感器阵列113b为M×N的像素阵列,在数值计算中目标场景140可考虑为M×N的点光源阵列,则用于图像编码的线性仿真模型可以表示为:
Figure BDA0004009113110000091
其中,g(x,y,λ)为光电传感器采集到的一个或多个波段的光强分布,即编码图像;f(xm,yn,z,λ)为三维场景中位于第m行第n列,深度为z的点光源在λ波长处的光强度函数,在一些实施例中,λ范围可以为0.78微米至14微米;PSF(xm,yn,z,λ)为光学成像系统100对于物空间位于第m行第n列,深度为z的点光源在λ波长处的点扩散函数,点扩散函数和光学元件组111的参数密切相关,并且还和待编码的图像的深度相关联;η(λ)为光电传感器在λ波长通道的噪声,对于不同波长的拍摄光,其噪声也会不同。最终光电传感器上每个像素采集的光强度可来自于位于不同深度的点光源所成像的叠加。噪声的来源主要在于两个方面,一方面是实际拍摄的编码图像存在噪声,是由摄像头硬件本身带来的。另一方面是点扩散函数的标定存在误差,该误差反映在卷积得到的编码图像上,并可以视为噪声。
因此,从式(2)中可以看出,编码图像实际上为真实输入光场与点扩散函数的卷积和预先确定的噪声之和。当然,在另外一些实施例中,为了简化计算,提高运算效率,也可以忽略噪声的影响,在这种情况下,编码图像为真实输入光场与点扩散函数的卷积。
图7是图示出根据本公开实施例的用于光学成像系统100的深度图像的生成方法700的流程图。如图7所示,该方法700包括:
步骤710,设置光学元件组111的参数,其中,光学元件组111的参数是预先确定的或利用上述的图像编解码模型的训练方法400调节得到的;
步骤720,使用光学成像系统100对目标场景140进行拍摄,得到包含目标场景140的光强度信息和深度信息的编码图像;以及
步骤730,将编码图像输入利用根据上述的图像编解码模型的训练方法400训练得到的解码模型120中,得到针对目标场景140的深度图像。
本实施例中的光学成像系统100的编解码模型是根据方法400预先训练好的,在步骤710中,可以基于方法400训练得到的编解码模型来搭建实际使用的光学成像系统100。若在编解码模型的训练过程中(即,上述方法400中),调节了用于解码模型120的参数以及光学元件组111的参数两者,那么,在步骤710中,可以基于方法400中通过模型训练确定好的光学元件组111的参数来设定本实施例的光学成像系统100的光学元件组111的参数。在光学元件组111为超构表面113的情况下,上述光学元件组111的参数的设定包括设置超构表面113的纳米天线阵列113b的高度、密度以及布置样式等参数。若在编解码模型的训练过程中(即,上述方法400中),仅调节了用于解码模型120的参数,而未对编码模型110进行训练,那么,在步骤710中,光学元件组111的参数可以是预先设定的,而不必根据方法400的训练结果进行设置。在一些实施例中,在步骤710中还需要对实际搭建的光学成像系统100的点扩散函数进行标定,以及需要利用相应的方法(例如张正友标定法)获取光学成像系统100的畸变参数。
在步骤720中,利用步骤710中搭建的实际使用的光学成像系统100对目标场景140进行拍摄,得到编码图像,目标场景140包含任意环境光照条件下的动态及静态三维场景。在一些实施例中,还需要利用步骤710中获取的畸变参数对该编码图像进行矫正。
利用方法400训练得到的解码模型120对步骤720得到的编码图像进行解码得到目标场景140的深度图或深度图和二维光强度图两者,解码模型120的算法可运行于任意计算平台。在一些实施例中,光学成像系统100可以视频帧率的形式连续对目标场景140进行编码图像的采集,并使用解码模型120的算法实时对编码图像进行处理以输出目标场景140的深度图或深度图和二维光强度图,从而实现实时三维成像。
本实施例的光学成像系统100对目标场景140进行拍摄时,当环境光照不足或不均匀时,红外泛光照明光源2点亮,对场景进行补光。场景发出或反射的红外光线通过成像光学元件组111,成像元件112进行单次曝光即得到编码图像。该编码图像经过处理器121,该处理器121包括图像处理单元,图像处理单元可以为计算机、手机芯片、现场可编程门阵列等计算设备,通过运行解码模型120的算法所对应的指令,即得到目标场景140的深度图或深度图与二维光强度图。
综上,本公开实施例通过对成像系统对三维场景的脉冲响应PSF(x,y,z)以及图像解码方法进行独立或联合设计,基于与深度强相关的点扩散函数响应以及如实施例中的对三维场景成像的数值仿真模型,具有了实现高精度三维成像的物理基础;通过融合了成像数值仿真模型的解码算法,可实现复杂三维场景的高精度、高分辨率实时重建;通过红外泛光光源补光,并在成像镜头中加入红外波段的带通滤光片114,这一方法实现了场景光照条件的可控,在暗光条件下,可通过人体无感的红外补光实现高质量三维成像,在环境光照过强或不均匀的情况下,大部分杂光可被成像镜头中的红外带通滤光片114滤掉,从而避免了过曝。因而该单目相机可在任意环境光照条件下,在人体无感的前提下,实时获取各种三维场景的高精度、高分辨率深度图以及二维强度图。
根据本公开的一方面,提供了一种计算机设备,其包括存储器、处理器121以及存储在存储器上的计算机程序。该处理器121被配置为执行计算机程序以实现上文描述的任一方法实施例的步骤。
根据本公开的一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器121执行时实现上文描述的任一方法实施例的步骤。
根据本公开的一方面,提供了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器121执行时实现上文描述的任一方法实施例的步骤。
在下文中,结合图8描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。
图8示出了可以被用来实施本文所描述的方法的计算机设备800的示例配置。举例来说,图1中所示的处理器121可以包括类似于计算机设备800的架构。上述编码模型110和/或解码模型120的算法、用于训练上述编码模型110和/或解码模型120的算法均可以全部或至少部分地由计算机设备800或类似设备或系统实现。
计算机设备800可以是各种不同类型的设备。计算机设备800的示例包括但不限于:台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。
计算机设备800可以包括能够诸如通过系统总线814或其他适当的连接彼此通信的至少一个处理器802、存储器804、(多个)通信接口806、显示设备808、其他输入/输出(I/O)设备810以及一个或更多大容量存储设备812。
处理器802可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器802可以被实施成一个或更多微处理器121、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器802可以被配置成获取并且执行存储在存储器804、大容量存储设备812或者其他计算机可读介质中的计算机可读指令,诸如操作系统816的程序代码、应用程序818的程序代码、其他程序820的程序代码等。
存储器804和大容量存储设备812是用于存储指令的计算机可读存储介质的示例,指令由处理器802执行来实施前面所描述的各种功能。举例来说,存储器804一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外,大容量存储设备812一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器804和大容量存储设备812在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器121可执行程序指令存储为计算机程序代码的非暂态介质,计算机程序代码可以由处理器802作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
多个程序可以存储在大容量存储设备812上。这些程序包括操作系统816、一个或多个应用程序818、其他程序820和程序数据822,并且它们可以被加载到存储器804以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑(例如,计算机程序代码或指令):图像编码或解码、图像获取、传输以及预处理和/或本文描述的另外的实施例。
虽然在图8中被图示成存储在计算机设备800的存储器804中,但是模块816、818、820和822或者其部分可以使用可由计算机设备800访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机可读存储介质和通信介质。
计算机可读存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机可读存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。与此相对,通信介质可以在诸如载波或其他传送机制之类的已调制数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机可读存储介质不包括通信介质。
一个或更多通信接口806用于诸如通过网络、直接连接等等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE 802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口806可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口806还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
在一些示例中,可以包括诸如监视器之类的显示设备808,以用于向用户显示信息和图像。其他I/O设备810可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
本文描述的技术可以由计算机设备800的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。例如,该功能还可以通过使用分布式系统在“云”上全部或部分地实现。云包括和/或代表用于资源的平台。平台抽象云的硬件(例如,服务器)和软件资源的底层功能。资源可以包括在远离计算机设备800的服务器上执行计算处理时可以使用的应用和/或数据。资源还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。平台可以抽象资源和功能以将计算机设备800与其他计算机设备连接。因此,本文描述的功能的实现可以分布在整个云内。例如,功能可以部分地在计算机设备800上以及部分地通过抽象云的功能的平台来实现。
虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,不定冠词“一”或“一个”不排除多个,术语“多个”是指两个或两个以上,并且术语“基于”应解释为“至少部分地基于”。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。

Claims (16)

1.一种用于光学成像系统的图像编解码模型的训练方法,其中,所述图像编解码模型包括编码模型和解码模型,所述光学成像系统包括对待成像图像进行编码的光学元件组,所述模型训练方法包括:
获取样本数据集,其中,所述样本数据集中的每个样本数据均包括针对目标场景的真实光强度图像和真实深度图像;
将所述样本数据集中的样本数据输入到所述图像编解码模型,以至少得到深度图像的预测值,其中,所述编码模型根据所述光学元件组的参数将所述样本数据的真实光强度图像和真实深度图像编码为编码图像以作为所述解码模型的输入;
根据所述深度图像的预测值以及所述真实深度图像之间的差值,计算损失值;以及
基于所述损失值调节所述用于解码模型的参数或调节所述用于解码模型的参数以及所述光学元件组的参数两者。
2.根据权利要求1所述的方法,其中,将所述样本数据集中的样本数据输入到所述图像编解码模型,以至少得到深度图像的预测值包括:
根据所述光学元件组的参数确定用于编码的点扩散函数,其中,所述点扩散函数和图像的深度相关;以及
利用所述点扩散函数对样本数据的真实光强度图像和真实深度图像进行编码,得到所述编码图像。
3.根据权利要求2所述的方法,其中,所述利用所述点扩散函数对样本数据的真实光强度图像和真实深度图像进行编码,得到所述编码图像包括:
根据所述真实光强度图像和真实深度图像确定真实输入光场;以及
根据所述真实输入光场与所述点扩散函数的卷积,生成所述编码图像。
4.根据权利要求1所述的方法,其中,所述光学元件组包括超构表面和/或衍射光学元件,基于所述损失值调节所述用于解码模型的参数以及所述光学元件组的参数两者包括:
基于所述损失值调节所述光学元件组的透射率和/或相位分布。
5.根据权利要求4所述的方法,其中,所述光学元件组还包括聚焦元件组,所述聚焦元件组由多个透镜构成,其中
所述超构表面和/或衍射光学元件位于所述聚焦元件组的入瞳平面上。
6.根据权利要求1所述的方法,其中,基于所述损失值调节所述用于解码模型的参数或调节所述用于解码模型的参数以及所述光学元件组的参数两者包括:
利用梯度下降算法计算用于解码模型的参数或所述用于解码模型的参数以及所述光学元件组的参数两者。
7.根据权利要求1-5中任一项所述的方法,其中,所述光学成像系统还包括红外带通滤光片和至少一个光电传感器,所述真实光强度图像包括真实红外光强度图像。
8.一种用于光学成像系统的深度图像的生成方法,其中,所述光学成像系统包括对成像图像进行编码的光学元件组,所述方法包括:
设置所述光学元件组的参数,其中,所述光学元件组的参数是预先确定的或利用根据权利要求1-7中任一项所述的图像编解码模型的训练方法调节得到的;
使用所述光学成像系统对目标场景进行拍摄,得到包含目标场景的光强度信息和深度信息的编码图像;以及
将所述编码图像输入利用根据权利要求1-7中任一项所述的图像编解码模型的训练方法训练得到的解码模型中,得到针对所述目标场景的深度图像。
9.一种光学成像系统,包括:
光学元件组,配置成对所述待成像图像进行编码;
成像元件,配置成对目标场景进行拍摄,以获取经所述光学元件组编码后的编码图像;以及
处理器,配置成从所述成像元件获取所述编码图像,并利用根据权利要求1-7中任一项所述的图像编解码模型的训练方法训练好的解码模型对所述编码图像进行解码,以得到针对所述目标场景的深度图像。
10.根据权利要求9所述的光学成像系统,其中,所述光学元件组包括超构表面和/或衍射光学元件,所述超构表面和/或衍射光学元件具有可调节的透射率和/或相位分布。
11.根据权利要求10所述的光学成像系统,其中,所述超构表面包括:
衬底;以及
纳米天线阵列,以一维阵列或二维阵列形式布设于所述衬底的表面,其中,所述超构表面的透射率和/或相位分布根据所述纳米天线阵列的布置样式确定。
12.根据权利要求9所述的光学成像系统,其中,所述光学成像系统还包括:
红外带通滤光片,配置成对所述待成像图像进行滤波,以得到红外图像,其中,
所述成像元件包括至少一个光电传感器,所述至少一个光电传感器配置成获取编码后的红外图像以作为所述编码图像。
13.根据权利要求9所述的光学成像系统,其中,所述光学元件组还包括:
至少一个折射光学元件或至少一个衍射光学元件。
14.一种计算机设备,包括:
至少一个处理器;以及
至少一个存储器,其上存储有计算机程序,
其中,所述计算机程序在被所述至少一个处理器执行时,使所述至少一个处理器执行权利要求1-8中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器执行权利要求1-8中任一项所述的方法。
16.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使所述处理器执行权利要求1-8中任一项所述的方法。
CN202211644311.2A 2022-12-20 2022-12-20 用于光学成像系统的图像编解码模型的训练方法 Active CN116016952B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211644311.2A CN116016952B (zh) 2022-12-20 2022-12-20 用于光学成像系统的图像编解码模型的训练方法
PCT/CN2023/131034 WO2024131377A1 (zh) 2022-12-20 2023-11-10 用于光学成像系统的图像编解码模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211644311.2A CN116016952B (zh) 2022-12-20 2022-12-20 用于光学成像系统的图像编解码模型的训练方法

Publications (2)

Publication Number Publication Date
CN116016952A true CN116016952A (zh) 2023-04-25
CN116016952B CN116016952B (zh) 2024-05-14

Family

ID=86026033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211644311.2A Active CN116016952B (zh) 2022-12-20 2022-12-20 用于光学成像系统的图像编解码模型的训练方法

Country Status (2)

Country Link
CN (1) CN116016952B (zh)
WO (1) WO2024131377A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103841405A (zh) * 2014-03-21 2014-06-04 华为技术有限公司 深度图像的编解码方法和编解码装置
CN108447113A (zh) * 2018-03-22 2018-08-24 北京理工大学 一种基于深度学习模型的脉冲式强度关联三维成像方法
CN109996067A (zh) * 2019-04-04 2019-07-09 清华大学深圳研究生院 一种基于深度的全光图像自适应卷积编码方法
CN110657785A (zh) * 2019-09-02 2020-01-07 清华大学 一种高效的场景深度信息获取方法及系统
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法
US20200349729A1 (en) * 2019-05-01 2020-11-05 William Marsh Rice University Passive and single-viewpoint 3d imaging system
US20210021799A1 (en) * 2019-07-17 2021-01-21 Beijing Institute Of Technology Three-dimensional computational imaging method and apparatus based on single-pixel sensor, and non-transitory computer-readable storage medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402310B (zh) * 2020-02-29 2023-03-28 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN116584093A (zh) * 2020-12-09 2023-08-11 三星电子株式会社 Ai编码装置及其操作方法和ai解码装置及其操作方法
CN113435408A (zh) * 2021-07-21 2021-09-24 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备及存储介质
CN113743517A (zh) * 2021-09-08 2021-12-03 Oppo广东移动通信有限公司 模型训练方法、图像深度预测方法及装置、设备、介质
CN114511605B (zh) * 2022-04-18 2022-09-02 清华大学 光场深度估计方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103841405A (zh) * 2014-03-21 2014-06-04 华为技术有限公司 深度图像的编解码方法和编解码装置
CN108447113A (zh) * 2018-03-22 2018-08-24 北京理工大学 一种基于深度学习模型的脉冲式强度关联三维成像方法
CN109996067A (zh) * 2019-04-04 2019-07-09 清华大学深圳研究生院 一种基于深度的全光图像自适应卷积编码方法
US20200349729A1 (en) * 2019-05-01 2020-11-05 William Marsh Rice University Passive and single-viewpoint 3d imaging system
US20210021799A1 (en) * 2019-07-17 2021-01-21 Beijing Institute Of Technology Three-dimensional computational imaging method and apparatus based on single-pixel sensor, and non-transitory computer-readable storage medium
CN110657785A (zh) * 2019-09-02 2020-01-07 清华大学 一种高效的场景深度信息获取方法及系统
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Also Published As

Publication number Publication date
CN116016952B (zh) 2024-05-14
WO2024131377A1 (zh) 2024-06-27

Similar Documents

Publication Publication Date Title
Elmalem et al. Learned phase coded aperture for the benefit of depth of field extension
Wu et al. Phasecam3d—learning phase masks for passive single view depth estimation
JP7418340B2 (ja) 機械学習を使用した画像増強深度感知
US20210073959A1 (en) Method and system for imaging and image processing
US11662584B2 (en) Gradient refractive index grating for display leakage reduction
US11137603B2 (en) Surface-relief grating with patterned refractive index modulation
US9521399B1 (en) Dynamically reconfigurable optical pattern generator module useable with a system to rapidly reconstruct three-dimensional data
WO2022060485A1 (en) Techniques for manufacturing variable etch depth gratings using gray-tone lithography
CN108702437A (zh) 用于3d成像系统的高动态范围深度生成
CN113574471B (zh) 基于眼睛位置生成的全息图像
US20200143524A1 (en) Method and apparatus for correcting geometric and optical aberrations in augmented reality
US11676294B2 (en) Passive and single-viewpoint 3D imaging system
Baek et al. Polka lines: Learning structured illumination and reconstruction for active stereo
US20200355862A1 (en) Spatial deposition of resins with different functionality on different substrates
US20230334806A1 (en) Scaling neural representations for multi-view reconstruction of scenes
WO2020227355A1 (en) Spatial deposition of resins with different functionality
CN108475109A (zh) 眼睛姿态跟踪
Arguello et al. Deep optical coding design in computational imaging: a data-driven framework
KR20170031185A (ko) 광시야각 깊이 이미징
CN114595636A (zh) 一种单目快照式深度偏振四维成像方法和系统
Lee et al. Design and single-shot fabrication of lensless cameras with arbitrary point spread functions
Klinghoffer et al. Physics vs. learned priors: Rethinking camera and algorithm design for task-specific imaging
CN116016952B (zh) 用于光学成像系统的图像编解码模型的训练方法
KR20220124260A (ko) 나노임프린트 마이크로렌즈 어레이 및 그의 제조방법
CN116917791A (zh) 用于增强现实设备和虚拟现实设备的反向透视眼镜

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40086728

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant