CN115249256A - 用于生成深度信息的电子装置和生成深度信息的方法 - Google Patents

用于生成深度信息的电子装置和生成深度信息的方法 Download PDF

Info

Publication number
CN115249256A
CN115249256A CN202210366193.7A CN202210366193A CN115249256A CN 115249256 A CN115249256 A CN 115249256A CN 202210366193 A CN202210366193 A CN 202210366193A CN 115249256 A CN115249256 A CN 115249256A
Authority
CN
China
Prior art keywords
data
neural network
artificial neural
processing circuit
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210366193.7A
Other languages
English (en)
Inventor
赵淳龙
徐侑贞
李锡弦
朴龙龟
李秀永
郑吉愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN115249256A publication Critical patent/CN115249256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/529Depth or shape recovery from texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种被配置为生成深度信息的电子装置。该电子装置包括:存储器,其存储一个或多个指令和图像数据;以及至少一个处理电路,其被配置为通过执行一个或多个指令生成关于图像数据的深度信息,其中,所述至少一个处理电路还被配置为获取图像数据的照度数据,通过使用被配置为提取视差特征的第一人工神经网络生成照度数据的绝对深度数据,以及基于绝对深度数据来生成深度信息。

Description

用于生成深度信息的电子装置和生成深度信息的方法
相关申请的交叉引用
本申请基于并要求于2021年4月26日在韩国知识产权局提交的韩国专利申请No.10-2021-0053756的优先权,其公开内容通过引用整体合并于此。
技术领域
本发明构思涉及一种用于生成深度信息的处理电路,更具体地讲,涉及一种包括用于使用照度数据生成深度信息的处理电路的电子装置和生成深度信息的方法。
背景技术
由于互补金属氧化物半导体(CMOS)图像传感器广泛地安装在便携式电子装置上,因此在各种成像环境中需要清晰的图像。为了在低照度环境中捕捉清晰的图像,关于对象的深度信息需要是精确的。
尽管飞行时间(TOF)传感器通常用于获取深度信息,但是存在需要大空间并且成本和功耗增加的缺点。而且,普通的基于RGB的CMOS图像传感器易受低照度的影响。
发明内容
本发明构思的各方面提供了一种即使在低照度下也能够获取准确的深度信息的处理电路、一种包括该处理电路的电子装置、以及一种生成深度信息的方法。
根据本发明构思的一方面,一种电子装置被配置为生成深度信息,并且包括:存储器,其存储一个或多个指令和图像数据;以及至少一个处理电路,其被配置为通过执行一个或多个指令生成关于图像数据的深度信息,其中,至少一个处理电路还被配置为获取图像数据的照度数据,通过使用照度数据和被配置为提取视差特征的第一人工神经网络来生成照度数据的绝对深度数据,并且基于绝对深度数据来生成深度信息。
根据本发明构思的另一方面,一种电子装置包括:图像传感器,其被配置为通过使用多个光电转换元件感测对象,并且生成具有视差的图像数据,其中,多个光电转换元件中的至少两个共享一个微透镜;存储器,其存储一个或多个指令和图像数据;以及至少一个处理电路,其被配置为通过执行一个或多个指令生成关于图像数据的深度信息,其中,至少一个处理电路被配置为:通过使用被配置为估计图像数据的绝对深度的第一人工神经网络来生成图像数据的绝对深度数据,通过使用被配置为基于与图像数据对应的场景的形状来估计相对深度的第二人工神经网络生成绝对深度数据的相对深度数据,以及通过使用第三人工神经网络将绝对深度数据与相对深度数据融合来生成深度信息。
根据本发明构思的另一方面,一种由处理电路执行的生成关于图像数据的深度信息的方法包括:从存储器获取来自图像数据的符合YUV格式的照度数据;通过使用第一人工神经网络将视差特征学习应用于照度数据来生成绝对深度数据;通过使用第二人工神经网络将场景学习应用于绝对深度数据来生成相对深度数据;以及通过使用第三人工神经网络将绝对深度数据与相对深度数据融合来生成深度信息。
附图说明
从以下结合附图的详细描述中,本发明构思的实施例将被更清楚地理解,在附图中:
图1是示出根据本发明构思的示例实施例的包括处理电路的电子装置的框图;
图2是示出根据本发明构思的示例实施例的生成深度信息的方法的流程图;
图3是具体示出图像信号处理器的框图;
图4A和图4B是示出图像数据的RGB格式和YUV格式之间的转换关系的示图;
图5A至图5D是示出符合YUV格式的图像数据的数据结构的示图;
图6A至图6C是示出根据本发明构思的示例实施例的处理电路的框图;
图7A至图7C是示出人工神经网络的结构和操作的示图;
图8是示出根据本发明构思的示例实施例的视差特征提取器的结构的框图;
图9是示出根据本发明构思的示例实施例的场景网络模块的结构的框图;
图10是示出根据本发明构思的示例实施例的视差网络模块的结构的框图;
图11是示出根据本发明构思的示例实施例的后处理层的结构的框图;
图12A至图12C是示出根据本发明构思的示例实施例的图像数据的深度估计结果的示图;
图13A至图13D是示出根据本发明构思的示例实施例的像素的结构的示图;
图14是示出根据本发明构思的示例实施例的电子系统的框图;
以及
图15是示出图14的片上系统的示例实施例的框图。
具体实施方式
在下文中,将参照附图详细描述本发明构思的实施例。
图1是示出根据本发明构思的示例实施例的包括处理电路的电子装置10的框图。
参照图1,电子装置10可通过硬件和软件的交互来处理数据,并且可向用户提供处理结果。电子装置10可提供执行软件的物理基础,并且可通过使用硬件的资源来导出用户想要的结果。在示例实施例中,电子装置10可通过操作系统(OS)执行应用软件,并且根据执行的操作结果可存储在存储器400中。在这种情况下,电子装置10可被称为计算系统。
电子装置10可包括图像传感器100、图像信号处理器(ISP)200、处理电路300和存储器400,并且可通过第一总线BUS1与每个组件通信。
图像传感器100可安装在具有图像或光学感测功能的电子装置上。例如,图像传感器100可安装在电子装置上或电子装置中,电子装置诸如相机、智能电话、可穿戴装置、物联网(IoT)装置、平板个人计算机(PC)、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航装置等。此外,图像传感器100可安装在作为车辆、家具、制造设备、门或门铃、或各种测量设备中的一部分提供的电子装置上或电子装置中。
图像传感器100可将通过光学透镜入射的对象的光信号转换为电信号,并可基于电信号生成图像数据,并将图像数据输出到外部(例如,图像传感器100的外部)。图像传感器100可包括例如包括多个二维地布置的像素的像素阵列和读出电路,并且像素阵列可将接收到的光信号转换成电信号。
例如,像素阵列可实现为诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)的光电转换元件、或者其它各种光电转换元件中的一种。光电转换元件可生成根据入射光的强度而变化的光电荷。例如,光电转换元件可包括光电二极管、光电晶体管、端口门或钉扎光电二极管。例如,作为P-N结二极管的光电二极管PD可生成与入射光量成比例的电荷,即,作为负电荷的电子和作为正电荷的空穴。
微透镜和滤色器可层叠在多个像素中的每一个的上部上。在示例实施例中,多个像素中的每一个可通过使用至少两个光电转换元件来感测对象。例如,多个像素中的每一个可包括相对于微透镜的光轴布置在左方向(或向上方向)上的至少一个第一光电转换元件和相对于微透镜的光轴布置在右方向(或向下方向)上的至少一个第二光电转换元件。多个像素中的每一个可输出由第一光电转换元件生成的第一图像信号或由第二光电转换元件生成的第二图像信号。图像数据中可包括视差,视差是由一对光电转换元件感测的同一对象的第一图像信号和第二图像信号之间的相位差。如本文所使用的,包括共享一个微透镜的两个光电转换元件的像素将被称为双像素。将参照图13A至图13D详细描述双像素的结构。
读出电路可基于从像素阵列提供的电信号,输出已经对其执行了诸如坏像素的去除的预处理的数据作为图像数据。图像传感器100可实现为包括像素阵列和读出电路的半导体芯片或封装件。
ISP 200可对从图像传感器100提供的图像数据执行图像处理。例如,ISP 200可对图像数据执行用于改变数据格式的图像处理(例如,将拜尔模式的图像数据改变为YUV格式或RGB格式),或者用于改善图像质量的图像处理(诸如噪声去除、亮度调整或锐度调整)。将参照图3详细描述ISP 200的结构。
根据示例实施例,ISP 200可将以拜尔格式感测的图像数据转换为RGB格式或YUV格式。根据本发明构思的示例实施例,ISP 200可生成照度数据YDAT和色度数据UDAT和VDAT作为处理图像数据的结果。照度数据YDAT和色度数据UDAT和VDAT可存储在存储器400中。
处理电路300可处理电子装置10的整体操作,具体地,可处理构成电子装置10的其它组件(例如,图像传感器100、ISP 200和存储器400)的请求,并且可控制其它组件。在示例实施例中,处理电路300可执行特定任务、指令或操作。在示例实施例中,可从存储器400加载指令。例如,计算机程序代码可用于实现处理电路300的一些功能。
在示例实施例中,处理电路300可实现为通用处理器、专用处理器、应用处理器(AP)等。在示例实施例中,处理电路300可实现为包括专用逻辑电路(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)的运算处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)、神经处理单元(NPU)、AP等),但不限于此。
处理电路300还可包括加速器,加速器为用于高速数据运算(例如人工智能(AI)数据运算)的专用电路,并且加速器可包括GPU、NPU和/或数字信号处理器(DSP)。根据示例实施例,加速器可实现为物理地独立于处理电路300的其它组件的单独芯片。根据示例实施例,处理电路300可通过使用一个或多个人工神经网络来处理数据。此外,处理电路300可通过经由一个或多个人工神经网络学习数据来增强一个或多个人工神经网络。
根据本发明构思的与AI相关的功能可通过至少一个处理电路300和存储器400来操作。处理电路300可以是通用处理器(诸如CPU、AP或DSP)、图形专用处理器(诸如GPU或视觉处理单元(VPU))或AI专用处理器(诸如NPU)。处理电路300可根据存储在存储器400中的预定义的操作规则或AI模型来控制输入数据的处理。当处理电路300是AI专用处理器时,AI专用处理器可被设计为具有专用于处理特定AI模型的硬件结构。通过学习创建预定义的操作规则或AI模型。这里,表述“通过学习创建”意味着通过学习算法使用多个学习数据片段来训练基础AI模型,使得创建被设置为执行期望特征(或目的)的预定义的操作规则或AI模型。这种学习可在执行根据本发明构思的AI的装置中执行,或者可通过单独的服务器和/或系统执行。学习算法的示例可以是监督学习、无监督学习、半监督学习或强化学习,但不限于此。
人工神经网络可包括深度神经网络(DNN),例如,卷积神经网络(CNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度置信网络(DBN)、双向循环深度神经网络(BRDNN)或深度Q网络,但不限于此。
人工神经网络可由多个神经网络层组成。多个神经网络层中的每一个具有多个权重值,并且通过前一层的运算结果与多个权重值之间的运算来执行神经网络运算。多个神经网络层的多个权重值可由AI模型的学习结果来优化。例如,可更新多个权重值,使得在学习处理期间从AI模型获取的损失值或成本值被减小或最小化。将参照图7A至图7C详细描述人工神经网络。
根据本发明构思的示例实施例,处理电路300可包括视差特征提取器(DFE)310、场景网络(S.NET)模块330和视差网络(D.NET)模块350。
一对图像数据可被输入到DFE 310,并且作为结果,可生成包括特征的一条输出数据。在示例实施例中,DFE 310可通过使用人工神经网络从输入图像提取诸如边界、线、颜色、边缘(对象的边界)、密度(包括密集状态和稀疏状态)和深度的特征。如本文所使用的,具有密集(例如,高)密度的图像将被称为纹理图像,而具有稀疏(例如,低)密度的图像将被称为无纹理图像。纹理图像可对应于高频,并且无纹理图像可对应于低频。
DFE 310可通过使用人工神经网络预先学习图像的密度。例如,DFE 310可通过使用人工神经网络预先学习高密度图像(即,纹理图像),并且可根据学习结果来改进对输入数据的边缘检测的性能。
在示例实施例中,DFE 310可估计具有视差的输入数据对的绝对深度。例如,DFE310可生成绝对深度数据作为提取输入数据对的特征的结果。
根据本发明构思的示例实施例,照度数据YDAT可被输入到DFE310,使得可估计照度数据YDAT的绝对深度。
一条数据可被输入到S.NET模块330,并且作为结果,可生成包括特征的一条输出数据。S.NET模块330可通过使用被配置为学习场景的整体特征的人工神经网络来处理输入图像。场景网络S.NET是学习场景的整体特征的人工神经网络,可以以金字塔结构来实现场景网络S.NET。根据示例实施例,S.NET模块330可在顺序地降低与图像数据对应的场景的分辨率的同时对该场景执行编码,并可在顺序地提高分辨率的同时执行解码,直到返回到初始分辨率。例如,场景网络S.NET可具有五到六个编码级和解码级。作为在顺序地降低分辨率的同时执行编码的结果,场景网络S.NET可学习表示场景的所有分辨率的特征。例如,S.NET模块330使用的人工神经网络可以是PyDNet,但是本发明构思不限于特定模型或特定实施例。
根据本发明构思的示例实施例,S.NET模块330可通过使用场景网络S.NET来估计输入图像的相对深度。例如,S.NET模块330可被提供有从DFE 310输出的绝对深度数据,并且相对深度数据可作为由场景网络S.NET对绝对深度数据的处理的结果被生成。通过估计低密度图像(即,无纹理图像)的相对深度,S.NET模块330即使对于具有相对小的视差的图像数据也可获取相对准确的深度。
一条数据可被输入到D.NET模块350,并且作为结果,包括特征的一条输出数据可被生成。D.NET模块350可通过使用人工神经网络将相对深度数据与绝对深度数据融合。视差网络D.NET是通过将相对深度数据与绝对深度数据融合来生成最终深度数据的人工神经网络,视差网络D.NET可包括激活层和多个卷积层,激活层包括至少一个修正线性单元(ReLU)函数。例如,视差网络D.NET可由五个级组成,每个级具有一个卷积层和一个激活层。
根据本发明构思的示例实施例,D.NET模块350可通过使用视差网络D.NET将相对深度数据与绝对深度数据融合。例如,D.NET模块350可被提供有从DFE 310输出的绝对深度数据和从S.NET模块330输出的相对深度数据,并且最终深度数据可作为视差网络D.NET的处理结果被生成。最终深度数据可通过后处理层(未示出)的处理被转换成深度信息。
如本文所使用的,DFE 310、S.NET模块330和D.NET模块350可实现为硬件、固件和/或软件的组合。例如,DFE 310、S.NET模块330和D.NET模块350均可实现为处理电路(诸如包括逻辑电路的硬件),或者可实现为硬件和软件的组合(诸如运行执行人工神经网络的处理操作的软件的处理器)。
根据本发明构思的示例实施例,与RGB格式的图像数据相比,照度数据YDAT即使在经过人工神经网络处理之后,对于低照度环境也可以是鲁棒的。根据本发明构思的示例实施例,与使用RGB格式的图像数据的情况相比,处理电路300可使用照度数据YDAT作为输入,并且可增强作为在处理电路300中使用的至少一个人工神经网络的处理结果的深度估计结果。
存储器400可存储由图像传感器100、ISP 200和/或处理电路300生成或处理的数据,并且可将存储的数据提供给ISP 200和/或处理电路300。存储器400可存储用于电子装置10的OS、应用和处理操作的指令。
根据示例实施例,存储器400可以是与处理电路300实时交换数据的工作存储器。例如,存储器400可包括作为易失性存储器的动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、移动DRAM、双数据速率同步动态随机存取存储器(DDR SDRAM)、低功率DDR(LPDDR)SDRAM、图形DDR(GDDR)SDRAM、rambus动态随机存取存储器(RDRAM)等。然而,这仅仅是示例实施例,并且本发明构思不排除存储器400可包括非易失性存储器。
例如,存储器400可以是以非易失性方式存储由图像传感器100、ISP 200和/或处理电路300生成或处理的数据的存储装置。在示例实施例中,存储器400可包括作为非易失性存储器的电可擦除可编程只读存储器(EEPROM)、闪速存储器、相变随机存取存储器(PRAM)、电阻随机存取存储器(RRAM)、纳米浮栅存储器(NFGM)、聚合物随机存取存储器(PoRAM)、磁随机存取存储器(MRAM)、铁电随机存取存储器(FRAM)等。
根据本发明构思的示例实施例,存储器400可存储照度数据YDAT。照度数据YDAT由ISP 200生成,作为符合YUV格式的图像数据的一部分。照度数据YDAT和色度数据UDAT和VDAT可分离地存储在存储器400内的逻辑地或物理地分离的空间中。根据示例实施例,处理电路300可仅使用YUV格式的图像数据中的照度数据YDAT。
第一总线BUS1可在图像传感器100、ISP 200、处理电路300和存储器400之间中继数据通信。在示例实施例中,第一总线BUS 1可通过使用诸如地址总线、控制总线或数据总线的总线类型来中继图像传感器100、ISP 200、处理电路300和存储器400之间的控制信号、数据和地址的发送和接收。
如图1所示的包括图像传感器100、ISP 200、处理电路300、存储器400和第一总线BUS1的电子装置10可实现为片上系统(SOC)。SOC是包括用于驱动具有单个芯片(或单个封装件的芯片部件的组或堆叠)的电子装置10所需的硬件模块的半导体芯片。在示例实施例中,可通过将执行多个硬件模块中的每一个的功能所需的应用与内部软件组合来安装SOC。应用(或程序)可以是执行特定目的的应用软件。根据示例实施例,可通过使用至少一个功能来执行应用。可通过执行源代码来构建应用。通过使用SOC,与分别生产各种功能元件相比,可减小每个元件安装在基板上的空间,使得产品小型化成为可能,并且可降低制造成本。
根据本发明构思的示例实施例的处理电路300可通过仅利用YUV数据中的照度数据YDAT训练人工神经网络来降低存储器使用和功耗。
此外,因为根据本发明构思的示例实施例的处理电路300不需要将已经转换为YUV格式的数据转换回RGB格式,所以可提高数据处理速度。
此外,根据本发明构思的示例实施例的处理电路300可通过使用照度数据YDAT来改善即使在低照度环境中的深度估计的精度。
此外,因为根据本发明构思的示例实施例的处理电路300即使对于具有小视差的图像数据也可考虑相对深度来估计深度,所以可改善深度估计的精度。
图2是示出根据本发明构思的示例实施例的生成深度信息的方法的流程图。生成深度信息的方法可由处理电路300(图1)或包括处理电路300的电子装置10(图1)执行。将一起参照图1与图2。
在操作S110中,可获取符合YUV格式的照度数据YDAT(图1)。例如,处理电路300可获取存储在存储器400(图1)中的照度数据YDAT。照度数据YDAT可被理解为以YUV格式表示的图像数据中的照度通道中包括的数据。
在操作S120中,可通过使用第一人工神经网络将双像素特征学习应用于照度数据YDAT来生成绝对深度数据。例如,通过将获取的照度数据YDAT输入DFE 310,处理电路300可估计作为对由双像素感测的图像数据进行处理的结果的绝对深度,从而生成绝对深度数据。由双像素感测的图像数据可具有视差。双像素是指共享一个微透镜的两个光电转换元件,并且与指的是彼此不同的相机模块的双相机相比,双像素可具有小的视差。因此,由于双像素而导致的特征可不同于由于双相机而导致的特征。
在操作S130,可通过使用第二人工神经网络将场景学习应用于绝对深度数据来生成相对深度数据。例如,从DFE 310输出的绝对深度数据可被提供至S.NET模块330,并且S.NET模块330可根据由与第二人工神经网络对应的场景网络S.NET进行的处理来估计相对深度,从而生成相对深度数据。
在操作S140,可通过使用第三人工神经网络生成绝对深度数据和相对深度数据的最终深度数据。例如,从S.NET模块330输出的相对深度数据可被提供至D.NET模块350,并且D.NET模块350可根据由与第三人工神经网络对应的视差网络D.NET进行的处理来生成最终深度数据。
在操作S150中,可生成深度信息。可生成作为由包括卷积层、批次归一化(batchnormal ization)层和激活层的后处理层对最终深度数据进行处理的结果的深度信息。
图3是具体示出ISP 200的框图。
参照图3,ISP 200可包括DPHY 210、ISP接口(ISP I/F)230、图像前端引擎(IFE)250和图像处理引擎(IPE)270。
作为图像传感器100和显示器之间的接口的物理层的DPHY 210是由移动工业处理器接口(MIPI)联盟建立的标准化接口。DPHY 210可将图像数据IDAT发送到ISP 200。图像数据IDAT可从图像传感器100被提供给ISP 200。在这种情况下,ISP 200可被称为相机子系统,并且具体地,可符合由MIPI联盟定义的相机串行接口-2(MIPI-CSI-2)。
ISP I/F 230可路由来自多个相机串行接口(CSI)解码器的数据流。ISP I/F 230可将通过DPHY 210提供的原始数据RDAT路由至IFE 250。
IFE 250可包括被配置为接收原始数据RDAT并输出预YUV数据pYUV的硬件、固件和软件。根据示例实施例,IFE 250可执行图像处理操作,诸如收集自动曝光(AE)噪声、自动聚焦(AF)噪声和自动白平衡(AWB)噪声的统计信息。此外,IFE 250可执行各种图像处理操作,诸如缺陷像素校正、偏移校正、透镜失真校正、颜色增益校正、绿色不平衡校正等。
IPE 270可包括CPU、微处理器或微控制器单元(MCU)。IPE 270可执行针对输入数据的图像后处理。后处理可指基于感测的图像数据用于减少误差和失真的一系列后续处理任务。由IPE 270执行的后处理可指针对图像伪影的图像增强算法的应用。
在示例实施例中,由IPE 270处理的数据可存储在存储器400中。例如,照度数据YDAT和色度数据片段UDAT和VDAT可存储在存储器400中,其中照度数据YDAT和色度数据片段UDAT和VDAT中的每一个都具有相对于预YUV数据pYUV改变的数据格式。此外,根据图像处理生成的图像处理后的帧(在下文中,被称为转换后的图像数据)和/或结果数据(统计数据、直方图等)可存储在存储器400中。
图4A和图AB是示出图像数据的RGB格式和YUV格式之间的转换关系的示图。将一起参照图1与图4A和图4B。
参照图4A,颜色像素CP可包括红色通道、绿色通道和蓝色通道RGB 3ch。ISP 200可通过颜色空间转换将红色通道、绿色通道和蓝色通道RGB 3ch转换为Y通道、U通道和V通道YUV 3ch。在此,照度数据YDAT是与表示照度信号的通道对应的数据。U通道是表示照度信号和蓝色分量之间的差的通道,并且也被称为蓝色色度Cb通道。V通道是表示照度信号和红色分量之间的差的通道,并且也被称为红色色度Cr通道。电子装置10可将照度数据YDAT输入到人工神经网络,照度数据YDAT是转换后的Y通道、U通道和V通道YUV 3ch当中的Y通道的数据。
参照图4B,描述了RGB颜色空间和YUV颜色空间之间的转换关系。
在RGB颜色空间中,红色R、蓝色B和绿色G构成维度,并且其原点是黑色Bk。当以8位表示数据时,红色可表示为(255,0,0),蓝色可表示为(0,0,255),绿色可表示为(0,255,0)。在这种情况下,黄色可表示为(255,255,0),品红色可表示为(255,0,255),青色可表示为(0,255,255)。
RGB颜色空间可通过以下等式被转换成YUV颜色空间。
[等式1]
Y=(0.257×R)+(0.504×G)+(0.098×B)+16
[等式2]
U=-(0.148×R)-(0.291×G)+(0.439×B)+128
[等式3]
V=(0.439×R)-(0.368×G)-(0.071×B)+128
当通过等式1至等式3将RGB颜色空间转换为YUV颜色空间时,RGB颜色空间中的红色、蓝色、绿色、黄色、品红色、青色和白色的位置关系改变。
在YUV颜色空间中,照度Y、蓝色色度Cb(即,U通道)和红色色度Cr(即,V通道)构成维度。当数据以8位表示时,RGB颜色空间的红、蓝、绿、黄、品红、青、白和黑可表示为八面体的边,但可不标准化为特定的位置。例如,白色是照度Y为255、蓝色色度Cb和红色色度Cr均为128的颜色。
图5A到图5D是示出符合YUV格式的图像数据IDAT的数据结构的示图。YUV格式的图像数据IDAT可存储为具有针对每个像素分离的其照度分量LUMA及其色度分量CHROMA,以显示彩色图像。YUV格式也称为YCbCr格式。在图5A至图5D中,为了便于说明,将以YCbCr格式为例描述数据结构。
参照图5A,示出了具有4:4:4的YCbCr采样比的数据结构。YCbCr4:4:4是指Cr和Cb与Y的比率等于4:4:4。当在垂直方向上从照度分量LUMA读取数据结构时,当在一行中为照度分量LUMA提供四个数据空间的同时,在色度分量CHROMA中,为蓝色色度Cb提供四个数据空间,并且为红色色度Cr提供四个数据空间。
参照图5B,示出了具有4:2:2的YCbCr采样比的数据结构。当在垂直方向上从照度分量LUMA读取数据结构时,当在一行中为照度分量LUMA提供四个数据空间的同时,在色度分量CHROMA中,为蓝色色度Cb提供两个数据空间,并且为红色色度Cr提供两个数据空间。因此,YCbCr 4:2:2是指Cr和Cb与Y的比率为2:2:4。
参照图5C,示出了具有4:1:1的YCbCr采样比的数据结构。当在垂直方向上从照度分量LUMA读取数据结构时,当在一行中为照度分量LUMA提供四个数据空间的同时,在色度分量CHROMA中,为蓝色色度Cb提供一个数据空间,并且为红色色度Cr提供一个数据空间。因此,YCbCr 4:1:1是指Cr和Cb与Y的比率为1:1:4。
参见图5D,示出了具有4:2:0的YCbCr采样比的数据结构。当在垂直方向上从照度分量LUMA读取数据结构时,当在一行中为照度分量LUMA提供四个数据空间的同时,在色度分量CHROMA中,为蓝色色度Cb提供两个数据空间,或者为红色色度Cr提供两个数据空间。因此,YCbCr 4:2:0可指Cr(或Cb)和Cb(或Cr)与Y的比率为2:0:4。
根据本发明构思的示例实施例,ISP 230(图3)可针对图像数据IDAT生成符合YCbCr 4:2:0的格式的YUV数据。YCbCr 4:2:0可对于便携式电子装置中的数据处理、存储及/或显示是高效的。然而,图像数据IDAT不限于此,并且可具有如上所述的各种YCbCr数据结构中的一种。
图6A至图6C是示出根据本发明构思的示例实施例的处理电路300a和300b以及第一处理电路301c和第二处理电路302c的框图。
参照图6A,处理电路300a可通过处理照度数据YDATa来生成深度信息iDEPTHa。根据示例实施例,处理电路300a可包括DFE 310a、D.NET模块350a和后处理层370a。
可通过将照度数据YDATa输入到DFE 310a来估计照度数据YDATa的绝对深度,并且作为结果,可生成绝对深度数据ADa。D.NET模块350a支持的视差网络D.NET可包括激活层和多个卷积层,激活层包括至少一个ReLU函数,并且D.NET模块350a支持的视差网络D.NET可通过处理绝对深度数据ADa生成最终深度数据FDa。后处理层370a可将最终深度数据FDa处理成深度信息iDEPTHa。
根据本发明构思的示例实施例,通过仅使用照度数据YDATa,处理电路300a可生成对低照度环境比符合RGB格式的图像数据更鲁棒的深度信息。
此外,根据本发明构思的示例实施例,通过仅利用YUV数据(例如,图3的照度数据YDAT以及色度数据片段UDAT和VDAT)中的照度数据YDATa训练人工神经网络,处理电路300a可降低存储器使用和功耗。此外,因为根据本发明构思的示例实施例的处理电路300a不需要将已经转换为YUV格式的数据转换回RGB格式,所以可提高数据处理速度。
参照图6B,处理电路300b可通过处理照度数据YDATb来生成深度信息iDEPTHb。根据示例实施例,处理电路300b可包括DFE 310b、S.NET模块330b、D.NET模块350b和后处理层370b。
可通过将照度数据YDATb输入到DFE 310b来估计照度数据YDATb的绝对深度,并且作为结果,可生成绝对深度数据ADb。S.NET模块330b可通过使用场景网络S.NET来估计绝对深度数据ADb的相对深度。可输出绝对深度数据ADb的相对深度估计结果作为相对深度数据CDb。D.NET模块350b支持的视差网络D.NET可通过将绝对深度数据ADb与相对深度数据CDb融合来生成最终深度数据FDb。后处理层370b可将最终深度数据FDb处理成深度信息iDEPTHb。
因为根据本发明构思的示例实施例的处理电路300b即使对于具有小视差的数据(例如,照度数据YDATb)也可考虑相对深度来估计深度,所以可提高深度估计的精度。
参照图6C,第一处理电路301c可通过处理照度数据YDATc来生成深度信息iDEPTHc。根据示例实施例,第一处理电路301c可包括DFE 310c、D.NET模块350c和后处理层370c,并且第二处理电路302c可包括S.NET模块330c。
可通过将照度数据YDATc输入到DFE 310c来估计照度数据YDATc的绝对深度,并且作为结果,可生成绝对深度数据ADc。可将绝对深度数据ADc提供至S.NET模块330c和D.NET模块350c。
第二处理电路302c的S.NET模块330c可通过使用场景网络S.NET来估计绝对深度数据ADc的相对深度。可将绝对深度数据ADc的相对深度估计结果作为相对深度数据CDc输出到第一处理电路301c。D.NET模块350c支持的视差网络D.NET可通过将绝对深度数据ADc与从第二处理电路302c接收的相对深度数据CDc融合来生成最终深度数据FDc。后处理层370c可将最终深度数据FDc处理成深度信息iDEPTHc。
因为人工神经网络的一部分在另一处理电路(例如,第二处理电路302c)中被处理,所以根据本发明构思的示例实施例的第一处理电路301c可促进数据的分布式处理,并且可实现具有大数据量或需要长数据处理时间的任务的分布式和/或并行处理。
图7A至图7C是示出人工神经网络NN1、NN2和NN3的结构和操作的示图。
参照图7A,人工神经网络NN1可以是CNN,但不限于此。尽管为了便于解释,图7A示出人工神经网络NN1包括两个隐藏层,但人工神经网络NN1不限于此,并可包括各种数量的隐藏层。此外,尽管图7A示出人工神经网络NN1包括用于接收输入数据的单独输入层,但在一些实施例中,输入数据可直接输入到隐藏层。
在人工神经网络NN1中,除了输出层之外的层的节点可通过用于发送输出信号的链路连接到下一层的节点。通过这些链路,通过将包括在前一层中的节点的节点值乘以分配给每个链路的权重而获取的值可被输入到包括在当前层中的节点。前一层的节点值可对应于轴突值,并且权重可对应于突触权重。权重可被称为人工神经网络NN1的参数。
可应用激活函数来将特征映射的值转换成关于特征是否存在的非线性信息。例如,激活函数可包括S形函数、双曲正切(tanh)函数、ReLU函数等,并且非线性可通过激活函数在人工神经网络NN1中实现。
包括在人工神经网络NN1中的任何一个节点的输出可由以下等式4表示。
[等式4]
Figure BDA0003587189830000161
等式4可表示第i个节点的相对于层中的m个输入值的输出值yi。xj可表示前一层的第j个节点的输出值,wj,i可表示施加到前一层的第j个节点和当前层的第i个节点之间的连接部分的权重。f()可表示激活函数。如等式4所示,在激活函数中,可使用将输入值xj乘以权重wj,i的累积结果。换句话说,在每个节点处,可执行将输入值xj乘以权重wj,i并累加其结果的运算,例如乘法-累加(MAC)运算。除了这种用途之外,还可存在需要MAC运算的各种应用,并且可使用能够在模拟电路区域中处理MAC运算的处理装置。
参照图7B,人工神经网络NN2可包括多个层,即,第1层L1至第n层Ln。第一层L1至第n层Ln中的每一个可以是线性层或非线性层。在实施例中,至少一个线性层和至少一个非线性层可彼此组合并且被称为一个层。例如,线性层可包括卷积层和全连接层,并且非线性层可包括池化层和激活层。
例如,第一层L1可以是卷积层,第二层L2可以是池化层,并且作为输出层的第n层Ln可以是全连接层。人工神经网络NN2还可包括激活层或执行另一类型运算的层。
第一层L1至第n层Ln中的每一个可接收输入数据(例如,图像帧)或由前一层生成的特征映射作为输入特征映射,并且可通过对输入特征映射进行运算来生成输出特征映射或识别信号REC。在这种情况下,特征映射是指其中表达了输入数据的各种特征的数据。第1特征映射至第n特征映射FM1、FM2、FM3、...和FMn可具有例如二维矩阵形式或三维矩阵(或张量)形式。第1特征映射至第n特征映射FM1、FM2、FM3、...和FMn可具有宽度W(或列)、高度H(或行)和深度D,其可分别对应于坐标上的x轴、y轴和z轴。在这种情况下,深度D可被称为通道的数量。
第一层L1可通过将第一特征映射FM1与权重映射WM卷积来生成第二特征映射FM2。权重映射WM可对第一特征映射FM1进行滤波,并且可被称为滤波器或内核。权重映射WM的深度(即,通道的数量)等于第一特征映射FM1的深度(即,通道的数量),并且权重映射WM和第一特征映射FM1的相同通道可彼此卷积。可通过使用第一特征映射FM1作为滑动窗口的遍历方法来移位权重映射WM。移位量可被称为“步幅长度”或“步幅”。在每次移位期间,包括在权重映射WM中的每个权重值可与包括在权重映射WM中的每个权重值与第一特征映射FM1重叠的区域中的所有单元数据片段相乘并相加。第一特征映射FM1的在包括在权重映射WM中的每个权重值与第一特征映射FM1重叠的区域中的数据片段可被称为提取数据。当第一特征映射FM1与权重映射WM卷积时,可生成第二特征映射FM2的一个通道。尽管在图7B中示出了一个权重映射WM,但多个权重映射可基本上与第一特征映射FM1卷积,以生成第二特征映射FM2的多个通道。例如,第二特征映射FM2的通道的数量可对应于权重映射的数量。
第二层L2可通过经由池化改变第二特征映射FM2的空间大小来生成第三特征映射FM3。池化可被称为采样或下采样。可以以池化窗口PW的大小为单位在第二特征映射FM2上移位二维池化窗口PW,并且可选择第二特征映射FM2与池化窗口PW重叠的区域中的单元数据片段的最大值(或平均值)。因此,可根据第二特征映射FM2生成具有改变的空间大小的第三特征映射FM3。第三特征映射FM3的通道的数量等于第二特征映射FM2的通道的数量。
第n层Ln可通过将第n特征映射FMn的特征组合来将输入数据的类别CL分类。此外,第n层Ln可生成与类别CL对应的识别信号REC。在实施例中,输入数据可对应于包括在视频流中的帧数据,并且第n层Ln可基于从前一层提供的第n特征映射FMn提取与包括在由帧数据表达的图像中的对象对应的类别CL,从而识别对象,并生成与识别的对象对应的识别信号REC。
参照图7C,输入特征映射可包括D个通道,并且每个通道的输入特征映射可具有H行乘W列的大小(其中,D、H和W是自然数)。每个内核可具有R行乘S列的大小,并且内核可包括与输入特征映射的通道数量(或深度)相对应的数量的通道(其中,R和S是自然数)。输出特征映射可通过输入特征映射和内核之间的三维卷积运算来生成,并且根据卷积运算可包括Y个通道。
图8是示出根据本发明构思的示例实施例的DFE 310的结构的框图。
参照图8,DFE 310可包括多个级,并且一个级可由一对卷积层CONV和激活层ACTV构成。激活层ACTV是非线性层,S形函数、双曲正切函数和ReLU函数中的至少一个被应用于该非线性层以将特征的存在转换成非线性信息。
根据本发明构思的示例实施例,DFE 310可从存储器400接收照度数据YDAT,并可将照度数据YDAT输入到第一级的卷积层CONV以细化和处理数据。DFE 310可生成绝对深度数据AD作为结果。可将绝对深度数据AD提供给S.NET模块330或D.NET模块350。
图9是示出根据本发明构思的示例实施例的S.NET模块330的结构的框图。
参照图9,在S.NET模块330中使用的场景网络S.NET可包括编码层单元LUa和解码层单元LUb。场景网络S.NET可接收绝对深度数据AD,并且可由编码层单元LUa、解码层单元LUb计算绝对深度数据AD的特征值。
场景网络S.NET可包括多个编码器(编码层单元)和多个解码器(解码层单元),并且多个编码器和多个解码器可以以对称金字塔结构来实现。例如,多个编码器可串联连接以逐渐降低编码数据的分辨率,并且多个解码器可串联连接以逐渐增加解码数据的分辨率。
编码层单元LUa可接收从前一编码层单元输出的特征映射,并可执行分配给每个编码层单元(例如LUa1)的运算。例如,第一编码层单元LUa1可接收特征映射FMa0,并通过包括在第一编码层单元LUa1中的各种层执行运算。例如,编码层单元LUa可包括卷积层、采样层和激活层。卷积层可执行卷积运算。采样层可执行下采样、上采样、平均池化或最大池化运算。激活层可通过ReLU函数或S形函数执行运算。第一编码层单元LUa1可基于运算的结果输出特征映射FMa1。
由第一编码层单元LUa1输出的特征映射FMa1可具有比输入特征映射FMa0小的宽度和高度,并且可具有大的深度。例如,第一编码层单元LUa1可控制特征映射FMa1的宽度、高度和深度。例如,可控制深度以便不过度大。第一编码层单元LUa1可具有用于设置特征映射FMa1的深度的参数。同时,第一编码层单元LUa1可包括下采样层DS。下采样层DS可从包括在输入特征映射FMa0中的特征值中选择预定特征值,并将其输出为特征映射FMa1的特征值。例如,下采样层DS可控制特征映射FMa1的宽度和高度。第二编码层单元LUa2和第三编码层单元LUa3可与第一编码层单元LUa1类似地处理运算。例如,第二编码层单元LUa2和第三编码层单元LUa3可从前一编码层单元接收特征映射,通过包括在当前层单元中的多个层来处理运算,并将包括运算的结果的特征映射输出到下一编码层单元。
编码层单元LUa可将运算的结果输出至下一编码层单元LUa或同一级的解码层单元LUb。每个编码层单元LUa可固定地连接到下一编码层单元LUa,并可经由多个跳过连接(例如,第一跳过连接SK1至第三跳过连接SK3)连接到同一级的解码层单元LUb。尽管在图9中仅示出了第一跳过连接至第三跳过连接,但是本发明构思不限于此。例如,表述“同一级”可指从输入层IL开始的顺序等于从输出层OL开始的顺序的情况。同一级的层单元可以是例如第一编码层单元LUa1和第一解码层单元LUb1。
根据示例实施例,可由处理电路300或电子装置10选择第一跳过连接SK1至第三跳过连接SK3中的至少一些。例如,处理电路300可接收关于跳过级的信息。当设置人工神经网络模型的跳过级时,可激活与预设的跳过级对应的第一跳过连接SK1至第三跳过连接SK3。例如,当人工神经网络模型的跳过级为2时,可激活第二跳过连接SK2。编码层单元LUa可经由激活的跳过连接将特征映射输出到解码层单元LUb。未激活的跳过连接(例如,SK1和SK3)可不传播特征映射。
根据本发明构思的示例实施例,同一级的层单元(例如,LUa1和LUb1)可处理基本相同大小的特征映射。例如,由第一编码层单元LUa1接收的特征映射FMa0的大小和由第一解码层单元LUb1输出的特征映射FMb0的大小可基本相同。例如,特征映射的大小可包括宽度、高度和深度中的至少一个。此外,由第一编码层单元LUa1输出的特征映射FMa1的大小和由第一解码层单元LUb1接收的特征映射FMb1的大小可基本相同。
根据本发明构思的示例实施例,同一级的编码层单元LUa和解码层单元LUb可具有基本相同的采样大小。例如,第一编码层单元LUa1的下采样大小和第一解码层单元LUb1的上采样大小可基本上相同。
解码层单元LUb可从前一解码层单元LUb接收特征映射,或者从同一级的编码层单元LUa接收特征映射。解码层单元LUb可通过使用接收到的特征映射来处理运算。例如,解码层单元LUb可包括卷积层、采样层和激活层。
由第一编码层单元LUa1输出的特征映射FMa1可具有比输入特征映射FMa0小的宽度和高度,并且可具有大的深度。例如,第一编码层单元LUa1可控制特征映射FMa1的宽度、高度和深度。例如,可控制深度以便不过度大。第一编码层单元LUa1可具有用于设置特征映射FMa1的深度的参数。
上采样层US可调整输入特征映射的大小。例如,上采样层US可调整特征映射的宽度和高度。上采样层US可通过使用输入特征映射的每个特征值和与每个特征值相邻的特征值来执行上采样操作。例如,上采样层US可以是通过使用最近邻方法将相同的特征值写入输出特征映射的层。作为另一示例,上采样层US可以是转置卷积层,并且可通过使用预定的权重映射来对图像进行上采样。
通过上采样已经返回到先前分辨率的数据可经由卷积层CONV、批次归一化层BN和激活层ACTV被转换成相对深度数据CD。
图10是示出根据本发明构思的示例实施例的D.NET模块350的结构的框图。
参照图10,D.NET模块350可包括多个级,并且一个级可由一对卷积层CONV和激活层ACTV构成。
根据本发明构思的示例实施例,D.NET模块350可从DFE 310接收绝对深度数据AD,并且/或者可从S.NET模块330接收相对深度数据CD。
绝对深度数据AD或与绝对深度数据AD融合的相对深度数据CD可被输入到第一级的卷积层CONV。D.NET模块350可生成最终深度数据FD作为结果。最终深度数据FD可被发送到后处理层370。
图11是示出根据本发明构思的示例实施例的后处理层370的结构的框图。
根据示例实施例,后处理层370可包括卷积层CONV、批次归一化层BN和激活层ACTV。后处理层370可例如通过使用卷积层CONV、批次归一化层BN和激活层ACTV执行已知类型的卷积、批次归一化和激活功能,将最终深度数据FD转换成深度信息iDEPTH。
图12A至图12C是示出根据本发明构思的示例实施例的图像数据的深度估计结果的示图。
参照图12A,第一图像IMG1可包括对象(兔子)和背景。第一图像IMG1可对应于图像数据IDAT。作为第一图像IMG1的背景,山丘可被理解为其中图像的密度稀疏并且边界或边缘中的突然改变的发生小的无纹理区域。
参照图12B,第二图像IMG2包括对象(兔子)和背景,并且表示与深度信息iDEPTHa对应的深度图。深度图可以是包含从图像传感器或观察点到对象的表面的距离和与该距离相关的信息的图像,或者是图像的通道,并且从用户的视点(或图像传感器)到屏幕上包含的对象的表面的距离可被识别为深度信息iDEPTHa。
第二图像IMG2可以以阴影显示深度信息iDEPTHa。较亮(或更接近白色)的部分可被定义为具有较小深度值的部分,较暗(或更接近黑色)的部分可被定义为具有较大深度值的部分。
深度信息iDEPTHa由图6A的DFE 310a、D.NET模块350a和后处理层370a生成。根据本发明构思的示例实施例,处理电路300a可通过仅将对低照度鲁棒的照度数据YDATa应用于估计绝对深度的人工神经网络来实现对象(兔子)和背景之间的区分。
参照图12C,第三图像IMG3包括对象(兔子)和背景,并且表示与深度信息iDEPTHb相对应的深度图。
深度信息iDEPTHb由图6B的DFE 310b、S.NET模块330b、D.NET模块350b和后处理层370b生成。根据本发明构思的示例实施例,处理电路300b可额外地通过使用S.NET模块330b将相对深度数据与绝对深度数据融合,并且因此,即使对于具有相对小的视差的数据,也可实现对象(兔子)和背景之间的清楚区分。例如,第三图像IMG3的无纹理区域是在第二图像IMG2中还未被观察到的区域,并且可证明深度图已得到改善。
图13A至图13D是示出根据本发明构思的示例实施例的像素的结构的示图。
参照图13A,像素PHDa可包括微透镜、光电转换元件和滤色器。例如,多个像素PX1和PX2中的每一个可包括作为光电转换元件的实施例的光电二极管PD1和PD2,和滤色器CF1和CF2,并且可在滤色器CF1和CF2上设置微透镜ML1和ML2。根据示例实施例,微透镜ML1和ML2的竖直截面形状可以是具有圆形或椭圆的一部分的曲率的弧。
根据图13A所示的实施例,一个滤色器CF1或CF2以及一个微透镜ML1或ML2可分别设置在一个光电二极管PD1或PD2上。例如,入射到微透镜ML1的中心的光可穿过滤色器CF1,使得仅特定波长带(例如,对应于绿色的约500纳米(nm)至约600nm)的光可透射,并且特定波长带的透射光可在光电二极管PD1上成像。类似地,入射到微透镜ML2的中心的光可穿过滤色器CF2,使得仅特定波长的光可透射,并且特定波长的透射光可在光电二极管PD2上成像。如图13A所示,当入射在一个微透镜ML1或ML2上的光在一个光电二极管PD1或PD2上成像时,光电二极管可被称为单个光电二极管(单个PD)。图像传感器100(图1)可通过使用像素PHDa根据光电二极管PD1与PD2之间的相位差计算视差,进而确定到对象的距离。
参照图13B,双像素PHDb可包括微透镜、光电转换元件和滤色器。例如,像素PXx可包括两个滤色器CFa和CFb以及分别对应于滤色器CFa和CFb的两个光电二极管PDa和PDb。类似地,像素PXy可包括两个滤色器CFc和CFD及分别对应于滤色器CFc和CFD的两个光电二极管PDc和PDd。
根据图13B所示的实施例,两个滤色器CFa和CFb以及两个光电二极管PDa和PDb可分别设置在一个微透镜MLx下方。例如,作为入射到微透镜MLx的中心的光的一部分的第一光通量LFx可穿过滤色器CFa以在光电二极管PDa上成像。作为入射到微透镜MLx的中心的光的其余部分的第二光通量LFy可穿过滤色器CFb以在光电二极管PDb上成像。在像素PXy中也可发生与像素PXx的现象类似的现象。如图13B所示,当入射到一个微透镜MLx或MLy的光在两个光电二极管PDa和PDb(或PDc和PDd)上成像时,光电二极管可被称为双光电二极管(双PD)或双像素。
图13C是图13B的双像素PHDb的平面图。参照图13C,像素PXx可包括微透镜MLx和两个子像素,例如,第一子像素SPXa与第二子像素SPXb。第一子像素SPXa和第二子像素SPXb可在行方向(例如,X轴方向(第一方向))上并排布置。例如,第一子像素SPXa可布置在像素PXx的左侧,而第二子像素SPXb可布置在像素PXx的右侧。第一子像素SPXa和第二子像素SPXb可分别包括第一光电二极管PDa和第二光电二极管PDb。
根据示例实施例,可由第一光电二极管PDa和第二光电二极管PDb生成感测信号。例如,分别地,可由第一子像素SPXa输出第一图像信号,可由第二子像素SPXb输出第二图像信号,并且可基于第一图像信号和第二图像信号计算根据相位差运算的视差。
图13D示出了根据图13C的线A-A'的竖直截面图。
参照图13D,像素PXx可包括在Z轴方向(例如,第三方向)上层叠的第一层L1和第二层L2。第一层L1可被称为光电转换层,并且可包括形成在基板SUB上的滤色器CF、微透镜MLx、以及形成在基板SUB中的两个光电转换元件(例如,第一光电二极管PDa和第二光电二极管PDb)。第二层L2可被称为布线层,并且多个布线WS可形成在第二层L2中。
基板SUB可以是硅晶片、绝缘体上硅(SOI)基板或半导体外延层。基板SUB可包括彼此相对的第一表面Sf和第二表面Sb。例如,第一表面Sf可以是基板SUB的前表面,而第二表面Sb可以是基板SUB的后表面。光可入射到第二表面Sb。
从基板SUB的第二表面Sb朝向第一表面Sf延伸的多个像素分离层(例如,第一像素分离层SEP1和第二像素分离层SEP2(例如,深沟槽隔离(DTI)或p型离子注入区域))可形成在基板SUB上,其中形成有像素PXx的像素区域APX可被多个像素分离层SEP1和SEP2中的多个相对长的第一像素分离层SEP1分离,并且像素区域APX可被相对短的第二像素分离层SEP2划分成其中形成有第一子像素SPXa和第二子像素SPXb的第一区域A1和第二区域A2。在示例实施例中,第一区域A1和第二区域A2中的每一个可掺杂有第一导电类型(例如,P型)的杂质。第一光电二极管PDa和第二光电二极管PDb可分别形成在第一区域A1和第二区域A2中。例如,掺杂有第二导电类型(例如,N型)的杂质的阱区可形成为第一光电二极管PDa和第二光电二极管PDb。
如图所示,第一光电二极管PDa和第二光电二极管PDb可相对于微透镜MLx的光轴MLX在第一方向(例如,X方向)或第二方向(例如,Y方向)上并排布置。
浮动扩散节点FD可形成在第一光电二极管PDa与第二光电二极管PDb之间。在实施例中,晶体管可形成在第一光电二极管PDa和第二光电二极管PDb与第一表面Sf之间,并且信号可通过布线层L2的多个布线WS发送到晶体管并由晶体管接收。
图14是示出根据本发明构思的示例实施例的电子系统1的框图。
参照图14,图14的SOC 1000可以是图1的电子装置10的应用。因此,图14的SOC1000可设计为支持图1的电子装置10。图14中所示的SOC 1000可对应于图1中所示的电子装置10。SOC 1000可控制至少一个组件的操作。
电子系统1可实现为PC、数据服务器或便携式电子装置。便携式电子装置可实现为例如膝上型计算机、移动电话、智能电话、平板PC、PDA、企业数字助理(EDA)、数字静态相机、数字摄像机、PMP、个人导航装置或便携式导航装置(PND)、手持式游戏控制台或电子书。
电子系统1可包括SOC 1000、相机模块1100、显示器1200、电源1300、输入/输出(I/O)端口1400、存储器1500、存储部1600、外部存储器1700和网络装置1800。
相机模块1100是指能够将光学图像转换为电子图像的模块。因此,从相机模块1100输出的电子图像可存储在存储部1600、存储器1500或外部存储器1700中。此外,可通过显示器1200显示从相机模块1100输出的电子图像。相机模块1100可包括图1的图像传感器100或图像传感器100和ISP 200。
显示器1200可显示从存储部1600、存储器1500、I/O端口1400、外部存储器1700或网络装置1800输出的数据。电源1300可向至少一个组件提供操作电压。I/O端口1400是指能够将数据发送到电子系统1或将从电子系统1输出的数据发送到外部装置的端口。例如,I/O端口1400可以是用于连接到诸如计算机鼠标的指示装置的端口、用于连接到打印机的端口、或用于连接到USB驱动器的端口。
存储器1500可实现为易失性存储器或非易失性存储器。根据实施例,能够控制针对存储器1500的数据访问操作(例如,读取操作、写入操作(或编程操作)、或擦除操作)的存储器控制器可集成或嵌入在SOC 1000中。根据另一实施例,存储器控制器可实施在SOC1000与存储器1500之间。
存储部1600可实现为硬盘驱动器或固态驱动器(SSD)。
外部存储器1700可实现为安全数字(SD)卡或多媒体卡(MMC)。根据实施例,外部存储器1700可以是用户识别模块(SIM)卡或通用用户识别模块(USIM)卡。
网络装置1800是指用于将电子系统1连接到有线网络或无线网络的装置。
图15是示出了图14的SOC 1000的示例实施例的框图。
参照图15,SOC 1000可包括主处理器1010、随机存取存储器/只读存储器(RAM/ROM)1020、调制解调器1030、ISP 1040、(包括NPU 1051、GPU 1053和DSP 1055的)加速器模块1050、非易失性存储器接口(NVM I/F)1060、相机接口(I/F)1070、存储器接口(I/F)1080和显示器接口(I/F)1090。SOC 1000的组件(即,主处理器1010、ROM/RAM 1020、调制解调器1030、ISP 1040、非易失性存储器接口1060、相机接口1070、存储器接口1080和显示器接口1090)可通过第二总线BUS2发送和接收数据。
主处理器1010可控制SOC 1000的整体操作。主处理器1010可实现为例如CPU、微处理器、ARM处理器、X86处理器、MIPS处理器等。在一些实施例中,主处理器1010可实现为具有两个或更多个独立处理器(或核)的一个计算组件,即多核处理器。主处理器1010可处理或执行存储在ROM/RAM 1020中的命令代码(例如,指令)和/或数据。
RAM/ROM 1020可临时地存储程序、数据和/或指令。根据实施例,RAM/ROM 1020可实现为DRAM或SRAM。RAM/ROM 1020可通过接口1060、1070、1080和1090输入和输出,或者可临时地存储由ISP 1040进行过图像处理的数据。
非易失性存储器接口1060可对接(interface)从非易失性存储器(NVM)装置1160输入的数据或输出到非易失性存储器的数据。非易失性存储装置1160可实现为例如存储卡(MMC、嵌入式MMC(eMMC)、SD卡、微SD卡等)。
相机接口1070可对接从位于SOC 1000外部的相机1170输入的图像数据(例如,原始图像数据)。相机1170可生成通过使用多个光电转换元件拍摄的图像的数据。通过相机接口1070接收的图像数据可被提供给ISP 1040或通过存储器接口1080存储在存储器1180中。
存储器接口1080可对接从存储器1180输入的数据或向存储器1180输出的数据。根据实施例,存储器1180可实现为诸如DRAM或SRAM的易失性存储器,或者实现为诸如RRAM、PRAM或NAND闪存的非易失性存储器。
显示接口1090可对接输出到显示装置1190的数据(例如,图像数据)。显示装置1190可通过诸如液晶显示器(LCD)、有源矩阵有机发光二极管(AMOLED)等的显示器输出根据图像数据的图像信号。
ISP 1040可通过对由相机1170提供的图像数据执行图像处理来生成转换后的图像数据,并可将转换后的图像数据存储在存储器1180中,或者可按比例缩放转换后的图像数据并将按比例缩放的图像提供给显示装置1190。此外,SOC 1000还可包括安全装置1100,安全装置1100包括安全方法、协议以及加密和解密密钥。
尽管已经参照本发明构思的实施例具体示出和描述了本发明构思,但将理解,在不脱离所附权利要求的精神和范围的情况下,可在形式和细节上对其进行各种改变。

Claims (20)

1.一种被配置为生成深度信息的电子装置,所述电子装置包括:
存储器,其存储一个或多个指令和图像数据;以及
至少一个处理电路,其被配置为通过执行所述一个或多个指令生成关于所述图像数据的所述深度信息,
其中,所述至少一个处理电路被配置为获取所述图像数据的照度数据,通过使用所述照度数据和被配置为提取视差特征的第一人工神经网络生成所述照度数据的绝对深度数据,并且基于所述绝对深度数据来生成所述深度信息。
2.如权利要求1所述的电子装置,其中,所述至少一个处理电路还被配置为通过使用第二人工神经网络来生成所述绝对深度数据的相对深度数据,所述第二人工神经网络被配置为基于与所述图像数据对应的场景的特征来估计相对深度。
3.如权利要求2所述的电子装置,其中:
所述至少一个处理电路包括第一处理电路和第二处理电路,
所述第一处理电路被配置为使用所述第一人工神经网络,并且
所述第二处理电路被配置为使用所述第二人工神经网络。
4.如权利要求2所述的电子装置,其中,所述至少一个处理电路还被配置为通过使用包括激活层和多个卷积层的第三人工神经网络将所述绝对深度数据与所述相对深度数据融合,所述激活层包括至少一个修正线性单元函数。
5.如权利要求2所述的电子装置,其中:
所述第二人工神经网络包括多个编码器和多个解码器,并且
所述多个编码器和所述多个解码器以对称金字塔结构实现。
6.如权利要求5所述的电子装置,其中:
所述多个编码器串联连接以逐渐降低编码数据的分辨率,并且
所述多个解码器串联连接以逐渐增加解码数据的分辨率。
7.如权利要求1所述的电子装置,其中,所述第一人工神经网络包括激活层和三个卷积层,所述激活层包括至少一个修正线性单元函数。
8.如权利要求1所述的电子装置,其中,所述图像数据由双像素生成,所述双像素被配置为使得多个光电转换元件中的至少两个共享一个微透镜。
9.一种电子装置,包括:
图像传感器,其被配置为通过使用多个光电转换元件感测对象,并且生成具有视差的图像数据,其中,所述多个光电转换元件中的至少两个共享一个微透镜;
存储器,其存储一个或多个指令和所述图像数据;以及
至少一个处理电路,其被配置为通过执行所述一个或多个指令生成关于所述图像数据的深度信息,
其中,所述至少一个处理电路被配置为:通过使用被配置为估计所述图像数据的绝对深度的第一人工神经网络来生成所述图像数据的绝对深度数据,通过使用被配置为基于与所述图像数据对应的场景的形状来估计相对深度的第二人工神经网络来生成所述绝对深度数据的相对深度数据,以及通过使用第三人工神经网络将所述绝对深度数据与所述相对深度数据融合来生成所述深度信息。
10.如权利要求9所述的电子装置,其中,所述图像数据包括符合YUV格式的照度数据。
11.如权利要求9所述的电子装置,其中,所述第一人工神经网络被配置为在生成关于具有密集图像特征的纹理图像的所述深度信息之前进行学习。
12.如权利要求9所述的电子装置,其中,所述第一人工神经网络被实现为接收具有视差的两条图像数据作为输入,并且生成一条绝对深度数据作为输出。
13.如权利要求9所述的电子装置,其中,所述第二人工神经网络被配置为通过在顺序地降低所述图像的分辨率的同时对图像进行编码来学习与所述图像数据对应的所述场景的整体。
14.如权利要求9所述的电子装置,其中,所述第二人工神经网络被配置为提取具有稀疏图像特征的无纹理图像的特征。
15.如权利要求9所述的电子装置,其中,所述第二人工神经网络被实现为接收一条绝对深度数据作为输入并且生成一条相对深度数据作为输出。
16.如权利要求9所述的电子装置,其中:
所述至少一个处理电路包括第一处理电路和第二处理电路,
所述第一处理电路被配置为使用所述第一人工神经网络,并且
所述第二处理电路被配置为使用所述第二人工神经网络。
17.如权利要求9所述的电子装置,其中,所述第一人工神经网络和所述第二人工神经网络包括激活层和多个卷积层,所述激活层包括至少一个修正线性单元函数。
18.如权利要求9所述的电子装置,其中:
所述第二人工神经网络包括多个编码器和多个解码器,并且
所述多个编码器和所述多个解码器以对称金字塔结构实现。
19.一种由处理电路执行的生成关于图像数据的深度信息的方法,所述方法包括:
从存储器获取来自所述图像数据的符合YUV格式的照度数据;
通过使用第一人工神经网络将视差特征学习应用于所述照度数据来生成绝对深度数据;
通过使用第二人工神经网络将场景学习应用于所述绝对深度数据来生成相对深度数据;以及
通过使用第三人工神经网络将所述绝对深度数据与所述相对深度数据融合来生成深度信息。
20.如权利要求19所述的方法,其中,所述图像数据由于由双像素生成而具有视差,所述双像素被配置为使得多个光电转换元件中的至少两个共享一个微透镜。
CN202210366193.7A 2021-04-26 2022-04-08 用于生成深度信息的电子装置和生成深度信息的方法 Pending CN115249256A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210053756A KR20220146900A (ko) 2021-04-26 2021-04-26 휘도 데이터를 이용하여 심도 정보를 생성하는 처리 회로를 포함하는 전자 장치, 및 심도 정보 생성 방법
KR10-2021-0053756 2021-04-26

Publications (1)

Publication Number Publication Date
CN115249256A true CN115249256A (zh) 2022-10-28

Family

ID=83694399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210366193.7A Pending CN115249256A (zh) 2021-04-26 2022-04-08 用于生成深度信息的电子装置和生成深度信息的方法

Country Status (3)

Country Link
US (1) US11978223B2 (zh)
KR (1) KR20220146900A (zh)
CN (1) CN115249256A (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172381A (ja) 2004-12-20 2006-06-29 Dkk Toa Corp 画像観測方法およびこの方法を実施する装置
KR101119941B1 (ko) 2010-12-17 2012-03-16 강원대학교 산학협력단 입체영상의 화질 개선 장치 및 방법
KR101207862B1 (ko) 2010-12-24 2012-12-04 유기령 2차원 영상을 스테레오 영상으로 변환하는 방법
US9445018B2 (en) 2014-05-01 2016-09-13 Semiconductor Components Industries, Llc Imaging systems with phase detection pixels
JP6566749B2 (ja) * 2015-07-01 2019-08-28 株式会社ソニー・インタラクティブエンタテインメント 撮像素子、イメージセンサ、および情報処理装置
US10148864B2 (en) 2015-07-02 2018-12-04 Pixart Imaging Inc. Imaging device having phase detection pixels and regular pixels, and operating method thereof
WO2018218643A1 (en) * 2017-06-02 2018-12-06 Shanghaitech University Method and apparatus for estimating depth of field information
US10362296B2 (en) 2017-08-17 2019-07-23 Microsoft Technology Licensing, Llc Localized depth map generation
US10846888B2 (en) * 2018-09-26 2020-11-24 Facebook Technologies, Llc Systems and methods for generating and transmitting image sequences based on sampled color information
KR20200056709A (ko) 2018-11-15 2020-05-25 주식회사 인트로메딕 3차원 영상을 렌더링하는 방법, 상기 방법을 사용하는 영상처리장치, 상기 영상처리장치와 연동하는 촬영장치, 상기 촬영장치의 촬영방법, 및 3차원 영상을 렌더링하는 시스템
US11494937B2 (en) 2018-11-16 2022-11-08 Uatc, Llc Multi-task multi-sensor fusion for three-dimensional object detection
CN115529835A (zh) * 2021-04-08 2022-12-27 谷歌有限责任公司 用于新颖视图合成的神经混合

Also Published As

Publication number Publication date
US20220343523A1 (en) 2022-10-27
US11978223B2 (en) 2024-05-07
KR20220146900A (ko) 2022-11-02

Similar Documents

Publication Publication Date Title
US11849226B2 (en) Image processing device including neural network processor and operating method thereof
EP3816929B1 (en) Method and apparatus for restoring image
CN105991946B (zh) 图像信号处理器和包括该图像信号处理器的装置
WO2020177607A1 (zh) 图像去噪方法和装置
US20160267666A1 (en) Image signal processor for generating depth map from phase detection pixels and device having the same
US20220366588A1 (en) Electronic device for generating depth information of region of interest and operation method thereof
US11838651B2 (en) Image processing apparatus including neural network processor and method of operating the same
CN112149793A (zh) 人工神经网络模型和包括人工神经网络模型的电子设备
US20230377111A1 (en) Image processing apparatus including neural network processor and method of operation
CN115249256A (zh) 用于生成深度信息的电子装置和生成深度信息的方法
US11895401B2 (en) Camera module for high resolution auto focusing and electronic device including same
US11627250B2 (en) Image compression method, encoder, and camera module including the encoder
WO2022193132A1 (zh) 图像检测方法、装置和电子设备
CN115242990A (zh) 图像传感器模块和操作图像传感器模块的方法
US20240147090A1 (en) Image sensor and operating method
US20240163578A1 (en) Image signal processor, image sensor, and operating method of the image sensor
CN115760659A (zh) 图像处理设备及其操作方法
US20220020180A1 (en) Image compression method using saturated pixel, encoder, and electronic device
KR102667267B1 (ko) 영상 획득 장치 및 이를 포함하는 전자 장치
EP2517179A1 (en) Determining color information using a binary sensor
CN115734078A (zh) 电子装置以及操作其的方法
CN116883232A (zh) 图像处理方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination