CN117396894A - 具有集成的单个对象类检测深度神经网络(dnn)的图像传感器 - Google Patents

具有集成的单个对象类检测深度神经网络(dnn)的图像传感器 Download PDF

Info

Publication number
CN117396894A
CN117396894A CN202280037925.6A CN202280037925A CN117396894A CN 117396894 A CN117396894 A CN 117396894A CN 202280037925 A CN202280037925 A CN 202280037925A CN 117396894 A CN117396894 A CN 117396894A
Authority
CN
China
Prior art keywords
object class
single object
dnn
class detection
image sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280037925.6A
Other languages
English (en)
Inventor
凯文·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Semiconductor Solutions Corp
Original Assignee
Sony Semiconductor Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Semiconductor Solutions Corp filed Critical Sony Semiconductor Solutions Corp
Publication of CN117396894A publication Critical patent/CN117396894A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • H04N25/79Arrangements of circuitry being divided between different or multiple substrates, chips or circuit boards, e.g. stacked image sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

一种图像传感器、电子装置、以及其方法,使用面部检测DNN等的传感器上单个对象类检测深度神经网络(DNN),执行传感器上单个对象类检测。单个对象类检测DNN包括:像素阵列层。被构成为捕捉图像,并且将捕捉到的图像的图像数据传送;以及逻辑及单个对象类检测深度神经网络(DNN)层,从像素阵列层直接接受图像数据,将图像数据与单个对象类检测数据一起向电子装置的通信总线输出。

Description

具有集成的单个对象类检测深度神经网络(DNN)的图像传 感器
技术领域
本申请涉及普遍而言的图像传感器。更具体而言,本申请涉及集成于图像传感器(例如,互补金属氧化物半导体(CMOS)图像传感器,堆叠型CMOS传感器)的、具有传感器上的单个对象类检测深度神经网络(DNN)的系统以及方法。例如,单个对象类能够是面部(例如,据此提供面部检测DNN)。
背景技术
对象检测(例如,面部检测)功能由电子图像捕捉装置(例如,图像传感器、相机、带相机的智能手机)普遍使用。当前的对象/面部检测技术需要大量的内存,利用计算量较多的深度神经网络(DNN)。然而,对象检测(例如,面部检测)用的现有的DNN(从内存的角度来说)过大、计算量过多,从而无法在传感器上实现。从而,现有的DNN需要在与图像传感器为分体的处理器上执行。
通常,对象检测在相机/传感器以外的通用处理器上执行。对象检测在通过通信总线而结合于相机系统的另外的处理器上执行。从而,执行对象检测需要从相机向处理器传送图像数据。
进一步地,使用需要重叠低精度的(例如,Haar特征、方向梯度直方图(HoG)、尺度不变特征转换(SIFT))特征、或在传感器上的实现中需要过多的内存的(例如,多任务卷积神经网络)现有的算法来执行对象检测。
发明内容
发明要解决的技术问题
用于解决技术问题的方案
本公开的电子摄像装置(例如,CMOS传感器)是维持较低的内存使用量以及较低的计算复杂性,并且在传感器上以高精度实现了单个对象类(例如,面部)检测的电子摄像装置。例如,本公开的传感器是具有比特定的值(例如,100kB)更小的内存占用大小的低电力传感器。
在本公开的一方式中,提供一种堆叠型图像传感器,所述堆叠型图像传感器具备:像素阵列层,被构成为捕捉图像,并且将捕捉到的图像的图像数据传送;以及逻辑及单个对象类检测DNN层,是逻辑及单个对象类检测深度神经网络(DNN)层,包括单个对象类检测DNN。逻辑及单个对象类检测DNN层能够被构成为:从像素阵列层直接接收图像数据;执行图像数据的前处理,生成经过前处理后的图像数据;使用经过前处理后的图像数据的至少一部分,执行基于单个对象类检测DNN的单个类对象检测;执行由单个对象类检测DNN输出的单个对象类检测数据的后处理;将图像数据与经过后处理之后的单个对象类检测数据组合并向电子装置的通信总线输出。
在本公开的另外的方式中,存在一种方法,该方法包括:将单个对象类深度神经网络(DNN)存储于堆叠型图像传感器的逻辑及单个对象类检测DNN层;通过堆叠型图像传感器的像素阵列层捕捉图像;通过像素阵列层,将捕捉到的图像的图像数据向堆叠型图像传感器的逻辑及单个对象类检测深度神经网络(DNN)层传送;通过逻辑及单个对象类检测DNN层,执行图像数据的前处理,并生成经过前处理后的图像数据;通过逻辑及单个对象类检测DNN层,将经过前处理后的图像数据的至少一部分作为输入而使用,执行单个对象类检测;通过逻辑及单个对象类检测DNN层,执行由单个对象类检测DNN输出的单个对象类检测数据的后处理;以及通过逻辑及单个对象类检测DNN层,将所捕捉到的图像与经过后处理之后的单个对象类检测数据组合并向电子装置的通信总线输出。
在本公开的一方式中,提供一种电子装置,所述电子装置具备处理器、内存、光学透镜、通信总线、以及堆叠型图像传感器。堆叠型图像传感器具备:像素阵列层,被构成为捕捉图像,并且将捕捉到的图像的图像数据传送;以及逻辑及单个对象类检测深度神经网络(DNN)层。
逻辑及单个对象类检测DNN层包括单个对象类检测DNN。
逻辑及单个对象类检测DNN层被构成为:从像素阵列层直接接收图像数据;执行图像数据的前处理,生成经过前处理后的图像数据;使用经过前处理后的图像数据的至少一部分,执行基于单个对象类检测DNN的单个对象类检测;执行由单个对象类检测DNN输出的单个对象类检测数据的后处理;将图像数据与经过后处理之后的单个对象类检测数据组合并向通信总线输出。
像这样,本公开的上述方式至少提供摄像的技术领域和图像传感器架构、图像处理、面部检测等的相关技术领域的改善。
本公开能够以包括由计算机实现方法进行控制的硬件或电路、计算机程序产品(例如,暂时性或非暂时性的计算机可读介质)、计算机系统以及网络、用户接口、以及应用程序接口、还有硬件实现方法、信号处理电路、图像传感器电路、面向特定用途的集成电路、现场可编程逻辑门阵列等在内的各种各样的方式具体化。前述的概要的目的只是给出本公开的各种各样的方式的普遍性的概念,并非用于以任何方式限定本公开的范围。
参照附图,在以下的说明中更完全地公开各种各样的实施方式的这些特征以及其他更详细且特定的特征。
附图说明
图1是示出本公开的各种各样的方式所涉及的摄像装置的图。
图2是示出本公开的各种各样的方式所涉及的堆叠型图像传感器的图。
图3是示出本公开的各种各样的方式所涉及的DNN的内存占用的图。
图4是示出本公开的各种各样的方式所涉及的面部检测DNN的图。
图5是示出本公开的各种各样的方式所涉及的对每一层的卷积处理的图。
图6是示出本公开的各种各样的方式所涉及的多层卷积处理的图。
图7是示出本公开的各种各样的方式所涉及的图像传感器的进程/方法的流程图。
图8是示出本公开的各种各样的方式所涉及的图像传感器的低分辨率模式方法的流程图。
图9是示出本公开的各种各样的方式所涉及的图像传感器的低分辨率模式方法的流程图。
具体实施方式
在以下的说明中,记载有流程图、数据表、以及系统结构等多个详细内容。这些特定的详细内容只是例子,对本领域技术人员而言显然不是用于限定本申请的范围的内容。
进一步地,本公开主要将焦点对准DNN在图像传感器中使用的例子,应当理解此仅为实现的一例。进一步地,应当理解所公开的装置、系统、以及方法也能够在需要执行捕捉到的图像的面部检测的任意的装置中使用,例如,能够在智能手机或平板等中使用。更进一步地,以下所记载的图像传感器的实现也可以组装于包括但不限定于智能手机、平板计算机、笔记本计算机等这些电子装置。
摄像装置
图1示出本公开的各种各样的方式所涉及的电子摄像装置100。电子摄像装置10为相机、智能手机、平板等。
如图1所示,根据实施方式,摄像装置100具备光学透镜102、像素阵列单元104、面部检测DNN模块106、记录单元108(例如,内存)、以及通信总线110。像素阵列单元104能够是具有数百万(例如,数百万到数千万)以上的像素电路(“百万像素”或MP)的图像传感器。出于说明的目的,面部检测DNN模块作为单个对象类DNN模块的示例性的实施方式而被使用。
面部检测DNN模块106由硬件处理器或硬件电路实现,还包括内存(例如,动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、或同步DRAM(SDRAM))。如在图1中通过单个方向的箭头示出的那样,透镜102接受传送至像素阵列104的光。如图1所示,像素阵列104、面部检测DNN106、以及记录单元108全部经由通信总线110而相互通信(传送信息、接收信息)。
面部检测DNN106被构成为向服务器或外部处理器等另外的电子装置(例如,应用程序硬件处理器)输出信息。面部检测DNN106还能够构成为从处理器等其他电子装置接收信息。
图2是示出本公开的各种各样的方式所涉及的堆叠型图像传感器200的例子的图。如图2所示,堆叠型图像传感器200具备受光像素层202、逻辑及面部检测DNN处理层204。
受光像素层202被构成为:捕捉图像,并且将捕捉到的图像的图像数据向逻辑及面部检测DNN处理层204输出。逻辑及面部检测DNN处理层204包括用于执行逻辑功能(例如,参照以下的图7~图9)以及以下所记载的面部检测DNN处理等的DNN处理的硬件(例如,处理器、图形处理器、内存(例如,DRAM或SDRAM)等中的1个以上)。
根据实施方式,如图2所示,堆叠型图像传感器202包括受光像素层202,受光像素层202在堆叠方向上堆叠于逻辑及面部检测DNN处理层204之上(配置于上方)。如图2所示,2个层通过硅穿孔(TSV)等彼此电连接。
堆叠型图像传感器在1个芯片(例如,堆叠集成电路)上提供像素层202和逻辑及面部检测DNN处理层204。例如,传感器是具有比特定的值(例如,100kB)更小的内存占用大小的低电力传感器。面部检测DNN的被削减后的大小使逻辑及面部检测DNN处理层204能够在具有较小的面积的占用的硬件中实现,从而,能够在低电力图像传感器上实现。
虽然被称为“面部”DNN,但是DNN也可以是任意的单个类DNN,不只限定于面部对象的检测。面部对象检测是单个对象类的一例。然而,也能够使用其他单个对象类来替代面部对象。例如,行人检测DNN、指纹检测、或其他适当的单个对象类DNN等不同的单个对象类DNN也能够被实现。根据各种各样的实施方式,也可以在对象检测DNN中使用多类DNN来替代单个对象类DNN。例如,能够使用2个对象类(例如,行人以及车辆)来替代单个对象类。作为另外的例子,也能够在对象检测DNN中使用3个以上的对象类。
图3是示出本公开的各种各样的方式所涉及的DNN302~318的内存占用大小的图。如图3所示,以往的DNN(例如,快速区域基础卷积神经网络(RCNN)+视觉几何组(VGG)16(302)、You Only Look Once(YOLO)-v2(304)、区域基础全卷积网络(R-FCN)+残差神经网络(ResNet)-101(306)、R-FCN+ResNet-50(308)、单镜头检测器(SSD)+VGG16(310)、SSD+MobileNet-vi(312)、SSDLite+MobileNet-v2(314))对特定的低电力图像传感器(例如,堆叠型CMOS图像传感器)而言过大了。然而,如图3所示,本公开的各种各样的实施方式所涉及的传感器上的单个对象类检测DNN318具有比以往的检测DNN模型302~316更小的内存占用。
如图3所示,用于面部检测的本公开的DNN架构(例如,图4的传感器上的单个对象类检测DNN400)具有比相关技术更小的内存占用。例如,根据若干实施方式,DNN模型具有100kB以下的内存占用。如参照图4~图9而在以下说明的那样,各种各样的实施方式所涉及的图像传感器(例如,堆叠型图像传感器200)作为例子,具有用于在低电力CMOS图像传感器中高效率地硬件实现单个对象类检测DNN的架构以及算法构造的组合。本公开针对用于在单个对象类(例如,面部类)检测以及神经网络处理中削减特有的内存以及电力的架构以及算法构造的组合、以及能够作为用于单个对象类(例如,面部)检测输出控制图像传感器的动作的触发而使用的方法进行记载。
传感器上的单个对象类检测DNN
图4是示出本公开的各种各样的方式所涉及的单个对象类(例如,面部)检测DNN400的例子的图。虽然将面部检测DNN400作为实施方式示出,但是如上所述,也可以使用其他的单个对象类或多对象类。面部检测DNN400是图3的传感器上的单个对象类检测DNN318的一例。与面部认识或对象认识(即,身份验证)为对照的是,本公开的各种各样的实施方式所涉及的面部检测DNN400能够具有以下目标:识别单个对象(例如,面部(任意的面部))是否存在于图像内,将该单个的对象类检测(例如,面部检测)信息作为用于控制图像传感器的动作的触发而使用(例如,参照以下的图7~图9)。面部检测DNN400的输入能够是既有包括单个对象类(在该例中,为面部)的情况又有不包括单个对象类的情况的图像区域。面部检测DNN400的输出能够包括示出输入图像数据内的任意的面部的位置的边界框的组。
如图4所示,面部检测DNN400包括通过特征提取器模块404接收并处理的输入图像402,特征提取器模块404能够由多个卷积块以及反向残差块构成。进一步地,来自特征提取器404的卷积块输出以及/或者残差块输出的子组被框预测器模块406处理,识别潜在的面部的边界框(输出410A:边界框)的大小以及位置。来自特征提取器404的卷积块输出以及/或者残差块输出的相同子组由类预测器模块408处理,判定对应的边界框包括面部的概率(输出410B:类概率)。
在该上下文中,所谓卷积块,是指连续地连接的1个以上的卷积层的组,在各卷积层之后,接着线性整流函数(ReLU)等非线性活性化函数。在该上下文中,所谓反向残差块,是指1个以上卷积层、深度方向的卷积层、以及ReLU层的组,块的输出被算入与块的输入总计。
为了保证面部检测DNN400能够在对内存有限制的硬件上实现,针对各卷积块以及各反向残差块的输出大小不大于在逻辑及面部检测DNN处理层204的硬件中能够利用的作业内存(例如,小于100kB)。为了保证面部检测DNN400能够在对内存有限制的硬件上实现,全部的卷积块以及全部的反向残差块中的权重的总内存大小不大于在硬件中能够利用的权重内存(例如,小于100kB)。
图4所记载的面部检测DNN400(面部检测架构)能够是为了(经由1个以上的变更)消减DNN模型的内存大小而变更的、基于MobileNetv2+SSDLite的架构。能够在训练、前处理、以及/或者后处理中产生的1个以上的变更能够包括以下几项中的1个以上:(i)削减图像输入大小(例如,向160×120以及/或者灰度图像转变);(ii)削减面部检测DNN的各层中的输出通道的数量;(iii)变更/调整DNN的一部分的层中的卷积步长;(iv)削减DNN的锚框的数量;以及(v)将对象类的数量削减为1(例如,面部)。进一步地,MobileNetv2+SSDLite虽然是通用的对象检测DNN,但该面部检测DNN300具体被训练为面部检测用。对象类为1且为“面部”,但是作为例子,也能够使用另外的单个类(例如,行人、另外的身体部分)。
对每一层的卷积处理
图5是示出本公开的各种各样的方式所涉及的对每一层的卷积处理500的图。在能够利用充分的作业内存对来自各层的中间活性化进行存储的情况,神经网络处理能够对每一层执行。如图5所示,对每一层的卷积处理500包括如图5所示对全部的(行、列)位置处的各“Conv+ReLU”层的结果进行处理以及存储。例如,如图5所示,对每一层的卷积处理500包括动作501~508中的1个以上。根据实施方式,获取图像区域(例如,对每一个输出(行、列)位置获取来自输入缓冲器的区域(例如,更大的来自输入缓冲器的3像素×3像素(3×3)区域))(动作501)。使用相同大小的滤波器(例如,3×3),执行元素乘法函数(动作502)。进一步地,还执行总计计算函数(动作503)以及ReLU函数(动作504)。例如,如图5所示,ReLU函数504能够是以下方式:
总计=(总计>0)?总计:0) [式1]
将值存储于输出内存(动作505)。执行核查,判定是否对每一层的卷积处理计算了各输出(行、列、通道)位置(动作506)。在未计算各输出(行、列、通道)位置的情况下,指针递增(动作507),使用使动作501~506/507重新开始的(再次执行的)循环(动作508)。在计算了各输出(行、列、通道)位置的情况下,针对所指定的层的处理完成,能够开始针对后续的层的处理。
多层卷积处理
或者,为了削减用于中间层的活性化的作业内存,也可以执行以下方式的多等级卷积过程:并非对针对全部的空间坐标的各卷积整体进行计算,而是多卷积层针对给定的空间坐标而被一起计算。图6是示出本公开的各种各样的方式所涉及的多层卷积过程600的图。多层卷积过程600避免存储各中间卷积层的输出的必要性,由此来削减用于中间数据的作业内存要件。即,多层卷积过程600能够提供(并非一次一层地)处理较大的块这一更加进步的优点。
多层卷积处理600如图6所示,针对各(行、列)位置包括基于多个“Conv+ReLU”层的处理。例如,如图6所示,多层卷积处理包括动作601~608中的1个以上。根据实施方式,获取图像区域(例如,针对各输出(行、列)位置,获取来自输入缓冲器的区域(例如,更大的来自输入缓冲器的3像素×3像素(3×3)区域))(动作601)。图像区域包括2个以上图像帧区域。图6示出了#1~#9区域(9区域),但是区域的数量也可以是9以上,也可以是小于9。进一步地,区域的数量也可以被中间内存的量制限。
进一步地,使用相同大小的第一滤波器(例如,3×3),执行元素乘法函数(动作602A)。也执行总计计算函数(动作603A)。执行ReLU函数(动作604A)。例如,如图5所示,ReLU函数能够是以下方式:
总计=(总计>0)?总计:0) [式1]
接下来,针对第二相同大小的滤波器(例如,3×3),执行元素乘法函数(动作602B),接着执行总计计算函数(603B)以及ReLU函数(604B)。
将卷积输出值存储于输出内存(动作605)。例如,卷积输出值也可以包括卷积输出的值(例如,ReLU或其他的非线性活性化后),这些又被称为活性化或特征图,被存储于给定的层(或多个给定的层)的输出内存。为了判定多层卷积处理是否处理了各空间坐标,执行核查(动作606)。在各空间坐标未被处理的情况下,指针递增(动作607),使用使动作601~606/607重新开始的(再次执行的)循环(动作608)。
在神经网络处理之后,根据各种各样的实施方式,DNN输出能够被后处理。在该情况下,基于锚框对边界框进行解码,通过非最大抑制来删除重复的边界框。这能够与针对SSD的后处理类似,但为了削减计算复杂性,能够使用一阶线性逼近来替代对数函数、指数函数。
单个对象类检测处理
在公开的面部检测DNN400的物理的传感器的实现的基础上,图7~图9示出关于面部检测处理在图像处理管线中能够怎样集成的各种各样的实施方式。
图7包括示出本公开的各种各样的方式所涉及的图像传感器的示例性的进程/方法700A的流程图。如图7所示,图像传感器能够捕捉全分辨率的帧图像(动作2001),各全帧图像被面部检测DNN处理,判定图像区域内的所有面部的边界框(动作2003)。接下来,能够将捕捉到的图像以及任意的检测到的面部的边界框向芯片外(传感器外)发送(动作2005)。能够在动作2001与2003之间,对帧图像进行大小变更以及前处理(动作2002),在动作2003与2005之间,进行DNN输出的后处理(动作2004)。
根据实施方式,面部检测DNN能够使用为了与在图像传感器上的硬件中执行面部检测匹配而添加了1个以上的变更的单发多盒检测器(SSD)(对象检测神经网络架构)。能够在训练、前处理、以及/或者后处理中产生的1个以上的变更能够包括以下几项中的1个以上:(i)削减图像输入大小(例如,向160×120以及/或者灰度图像转变);(ii)削减面部检测DNN的各层中的输出通道的数量;(iii)调整DNN的一部分的层中的卷积步长;(iv)削减DNN的锚框的数量;以及(v)(例如,面部)将对象类的数量削减为1。
在神经网络处理之前,输入数据需要被前处理。在该情况下,执行伴随着向-1对1的数据正规化与向DNN输入大小(例如,160×120)的数据的大小变更的标准的前处理。这在任意的标准的图像信号处理(ISP)处理(例如,去镶嵌、噪声除去等)的基础上进行。
在神经网络处理之后,DNN输出需要被后处理。在该情况下,基于锚框对边界框进行解码,通过非最大抑制来删除重复的边界框。这与针对SSD的后处理类似,但是为了削减计算复杂性,使用一阶线性逼近来替代对数函数、指数函数。
基于单个对象类检测DNN的低分辨率模式
图8是示出本公开的各种各样的方式所涉及的图像传感器的低分辨率图像数据模式方法800的流程图。如图8所示,低分辨率模式方法800包括使图像传感器以低分辨率图像数据(低电力)模式进行动作,直到面部检测DNN判定到人的面部的存在。低分辨率图像数据模式方法800包括:捕捉低分辨率图像数据(动作3001)、变更大小为DNN用并应用于前处理(动作3002)、通过神经网络执行面部检测(动作3003)、执行DNN输出的后处理(动作3004)、以及判定是否检测到面部(动作3005)。在未检测到面部的情况下(动作3005=否),低分辨率模式方法800能够循环(即,再次执行动作2001~2005)。在检测到了面部的情况下(动作3005=是),方法800将传感器切换为全分辨率模式,持续捕捉全分辨率图像(动作3006),直到面部检测DNN判定为不存在任何人的面部(动作3005)。在检测到不存在任何人的面部之后,图像传感器返回低分辨率模式。方法800还包括将图像数据以及面部检测数据向传感器外电子装置(例如,CPU或GPU)输出(动作3007)。
基于单个对象类检测DNN的超低电力模式
图9是示出本公开的各种各样的方式所涉及的图像传感器的超低电力模式方法900的流程图。在此,使用面部对象作为单个对象类的例子,但是也能够使用其他的单个对象类(或多个对象的限定的组)。如图9所示,在超低电力模式方法900中,图像传感器以“动作检测”探知模式进行动作,直到接收照度的变化触发对图8的低分辨率模式方法800的唤醒。在超低电力模式方法900中,在从低分辨率图像和高分辨率图像中的任一个都未通过面部检测DNN检测到面部的情况下,传感器能够向超低电力动作检测模式循环/翻转。超低电力模式方法4001包括动作4001~4009中的1个以上。例如,超低电力模式方法4001包括:捕捉低分辨率动作检测数据(动作4001)、判定是否检测到动作(动作4002)。在未检测到动作的情况下(动作4002=否),能够连续地重复动作4001以及4002(循环),直到检测到动作。在检测到了动作的情况下(动作4002=是),能够执行动作4003~4009。动作4003~4009与动作3001~3007对应,能够具有相同或类似的功能。
单个对象类检测DNN的训练
用于训练实施方式所涉及的面部检测DNN(例如,面部检测DNN400)的过程700B记载于图7。训练方法700B如图7的第二流程图所示,能够包括动作1001~1006中的1个以上。面部检测DNN的训练能够在传感器外执行,例如能够在中央处理装置(CPU)或图形处理装置(GPU)上执行,训练后的权重被载入传感器上的内存(动作1006)。训练方法700B能够包括:获取训练数据(动作1001)(例如,收集图像或图像帧)、使用神经网络而执行预测(动作1002)、将网络输出预测与期望的输出进行比较(动作1003)、判定是否应当停止训练(动作1004)。在未判定为要将训练停止的情况下(动作1004=否),能够执行反向传播算法以及网络权重更新。DNN训练包括基于反向传播的损失函数的反复最小化。在判定为要将训练停止的情况下(动作1004=是),训练后的神经网络权重能够向图像传感器导出(动作1006)。
根据本公开的实施方式,电子装置也可以包括以如下方式构成的处理器:从数据库收集被捕捉到的图像作为训练数据,使用单个对象类检测神经网络而执行预测,将来自单个对象类检测神经网络(DNN)的预测输出与期望的输出进行比较,执行反向传播算法,基于比较更新网络权重,将学习后的神经网络权重向堆叠型图像传感器(或具备堆叠型图像传感器的电子装置)的传感器上内存导出,单个对象类检测DNN将图像区域作为输入接收,将示出输入图像区域内的所有面部的位置的边界框的组作为对象检测数据输出,单个对象类检测DNN被构成为:单个对象类检测DNN的各卷积块以及各反向残差块的输出大小不超过堆叠型图像传感器内的能够利用的作业内存。训练后的神经网络权重的导出能够包括经由网络将训练后的神经网络权重经由网络通信接口向具有堆叠型图像传感器的外部电子装置(例如,相机、智能手机)发送。单个对象类能够包括面部对象类、行人对象类、或其他的适当的对象类、或者限定的对象类的组(例如,多对象类)。
总结
关于本说明书所记载的进程、系统、方法、启发法等,这样的进程等动作虽然被记载为遵循被赋予的特定顺序的序列而产生的动作,但也望理解这样的进程能够通过在本说明书中所记载的顺序以外的顺序执行的被记载动作来实践。进一步地,还望理解能够同时执行特定的动作、能够附加其他的动作、以及能够省略本说明书所记载的特定的动作。换言之,提供本说明书中的进程的说明的目的是说明特定的实施方式,绝不应当解释为是对权利要求书的范围进行限定的说明。
从而,望理解上述的说明以示例为目的,并非是用于限定的说明。如果阅读上述的说明,就能够明显看出所提供的例子以外的多个实施方式以及应用。范围不应当参考上述的说明的而确定,取而代之的是,应当参照所附的权利要求书的范围、以及这样的权利要求书的范围所具有权利的均等物的全范围来进行确定。预测在本说明书所记载的技术中会发生未来的开发、公开的系统以及方法会被组装入这样的未来的实施方式,这一情况在本发明的意图之内。总而言之,望理解本申请能够进行变更以及变形。
针对在权利要求书的范围内使用的全部的术语,只要在本说明书中没有相反的明确示出,就赋予其由精通于本说明书所记载的技术的人员能够理解的最大范围的合理解释以及这些通常的意思,这一情况在本发明的意图之内。特别是,针对“a”、“the”、“said”等单数冠词的使用,只要在权利要求书的范围中未记载相反的明确示出的限定,就应当将它们读作记载了所示出的元素中的1个以上。
摘要是为了使读者能够迅速地确认本技术公开的性质而提供的。对摘要进行理解以及提示,这并不是为了解释或限定权利要求书的范围或意思而使用的。进一步地,在用于实施前述的发明的方式中,出于将本公开合理化的目的,可以看出在各种各样的实施方式中各种各样的特征被分组化了。本公开的该方法不应当解释为反映请求保护的实施方式需要比权利要求书的各项中明确记载的具备更多的特征这一意图。不如说,如权利要求书的范围所反映的那样,本发明的主题并不在于公开的单个的实施方式的全部的特征。从而,权利要求书的范围被纳入用于实施发明的方式,权利要求书的各项作为单独被请求保护的主题而独立地成立。

Claims (20)

1.一种堆叠型图像传感器,具备:
像素阵列层,被构成为捕捉图像,并且将捕捉到的所述图像的图像数据传送;以及
逻辑及单个对象类检测DNN层,是逻辑及单个对象类检测深度神经网络(DNN)层,包括单个对象类检测DNN,
所述逻辑及单个对象类检测DNN层被构成为:
从所述像素阵列层直接接收所述图像数据;
执行所述图像数据的前处理,生成经过前处理后的图像数据;
使用所述经过前处理后的图像数据的至少一部分,执行基于所述单个对象类检测DNN的单个类对象检测;
执行由所述单个对象类检测DNN输出的单个对象类检测数据的后处理;
将所述图像数据与经过所述后处理之后的单个对象类检测数据组合并向电子装置的通信总线输出。
2.根据权利要求1所述的堆叠型图像传感器,其中,
所述单个对象类为面部对象。
3.根据权利要求1所述的堆叠型图像传感器,其中,
所述像素阵列层堆叠在所述逻辑及单个对象类检测DNN层上。
4.根据权利要求1所述的堆叠型图像传感器,其中,
所述逻辑及单个对象类DNN层将图像区域作为输入而接收,将示出所述输入图像区域内的所述单个对象类的所有实例的位置的边界框的组作为所述单个对象类检测数据而输出。
5.根据权利要求1所述的堆叠型图像传感器,其中,
所述逻辑及单个对象类检测DNN层被构成为实现特征提取器模块、框预测器模块、以及类预测器模块,并且各模块分别包括多个卷积块以及反向残差块。
6.根据权利要求4所述的堆叠型图像传感器,其中,
所述逻辑及单个对象类检测DNN层还被构成为:将针对所述单个对象类检测DNN的各卷积块以及各反向残差块的输出大小控制为不大于100kB。
7.根据权利要求1所述的堆叠型图像传感器,其中,
由所述单个对象类检测DNN输出的所述单个对象类检测数据的所述后处理包括使用一阶线性逼近来替代对数函数以及指数函数。
8.根据权利要求5所述的堆叠型图像传感器,其中,
全部的卷积块以及全部的反向残差块中的权重的总内存大小小于100kB。
9.根据权利要求5所述的堆叠型图像传感器,其中,
卷积块以及/或者反向残差块的子组作为以下方式的多等级卷积而被实现:并非是针对全部的空间坐标计算各卷积整体,而是多卷积层针对给定的空间坐标而被一起计算。
10.根据权利要求1所述的堆叠型图像传感器,其中,
所述逻辑及单个对象类检测DNN层还被构成为:基于检测到的单个类对象的存在(或非存在),在所述堆叠型图像传感器的低分辨率捕捉模式与高分辨率捕捉模式之间进行切换,所述堆叠型图像传感器在所述低分辨率捕捉模式下进行动作,直到所述单个对象类检测DNN判定到所述单个类对象的存在。
11.根据权利要求1所述的堆叠型图像传感器,其中,
所述逻辑及单个对象类检测DNN层还被构成为:
捕捉低分辨率动作检测数据;
判定是否检测到动作;
基于检测到的动作,基于所述单个对象类的检测到的对象的存在(或非存在),切换所述堆叠型图像传感器的低分辨率捕捉模式与高分辨率捕捉模式。
12.根据权利要求1所述的堆叠型图像传感器,其中,
所述逻辑及单个对象类检测DNN层还被构成为:基于接收照度的变化以及所述单个对象类的检测到的对象的存在(或非存在),在图像传感器的低电力动作检测模式、低分辨率捕捉模式、以及高分辨率捕捉模式之间进行切换。
13.根据权利要求1所述的堆叠型图像传感器,其中,
获取到的所述图像数据的所述前处理包括降低所述图像数据的分辨率。
14.根据权利要求1所述的堆叠型图像传感器,其中,
所述图像数据的所述前处理包括向灰度图像转换。
15.一种方法,包括:
将单个对象类深度神经网络(DNN)存储于堆叠型图像传感器的逻辑及单个对象类检测DNN层;
通过所述堆叠型图像传感器的像素阵列层捕捉图像;
通过所述像素阵列层,将捕捉到的所述图像的图像数据向所述堆叠型图像传感器的所述逻辑及单个对象类检测深度神经网络(DNN)层传送;
通过所述逻辑及单个对象类检测DNN,执行所述图像数据的前处理,并生成经过前处理后的图像数据;
通过所述逻辑及单个对象类检测层,将所述经过前处理后的图像数据的至少一部分作为输入而使用,执行单个对象类检测;
通过所述逻辑及单个对象类检测DNN,执行由所述单个对象类检测输出的单个对象类检测数据的后处理;以及
通过所述逻辑及单个对象类检测DNN,将捕捉到的所述图像与经过所述后处理之后的单个对象类检测数据组合并向电子装置的通信总线输出。
16.根据权利要求15所述的方法,其中,
所述单个对象类为面部对象。
17.根据权利要求15所述的方法,其中,
所述单个对象类检测将图像区域作为输入而接收,将示出所述输入图像区域内的所述单个对象类的所有对象的位置的边界框的组作为所述单个对象类检测数据而输出。
18.根据权利要求15所述的方法,其中,
所述单个对象类检测DNN被构成为:所述单个对象类检测DNN的各卷积块以及各反向残差块的输出大小不大于所述堆叠型图像传感器内的能够利用的作业内存。
19.一种电子装置,具备:
处理器;
内存;
光学透镜;
通信总线;以及
堆叠型图像传感器,
所述堆叠型图像传感器具备:
像素阵列层,被构成为捕捉图像,并且将捕捉到的所述图像的图像数据传送;以及
逻辑及单个对象类检测DNN层,是逻辑及单个对象类检测深度神经网络(DNN)层,包括单个对象类检测DNN,
所述逻辑及单个对象类检测DNN层被构成为:
从所述像素阵列层直接接收所述图像数据;
执行所述图像数据的前处理,生成经过前处理后的图像数据;
使用所述经过前处理后的图像数据的至少一部分,执行基于所述单个对象类检测DNN的单个对象类检测;
执行由所述单个对象类检测DNN输出的单个对象类检测数据的后处理;
将所述图像数据与经过所述后处理之后的单个对象类检测数据组合并向所述通信总线输出。
20.根据权利要求19所述的电子装置,其中,
所述单个对象类为面部对象。
CN202280037925.6A 2021-06-01 2022-03-15 具有集成的单个对象类检测深度神经网络(dnn)的图像传感器 Pending CN117396894A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/335,794 2021-06-01
US17/335,794 US11706546B2 (en) 2021-06-01 2021-06-01 Image sensor with integrated single object class detection deep neural network (DNN)
PCT/US2022/020344 WO2022256065A1 (en) 2021-06-01 2022-03-15 Image sensor with integrated single object class detection deep neural network (dnn)

Publications (1)

Publication Number Publication Date
CN117396894A true CN117396894A (zh) 2024-01-12

Family

ID=84194072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280037925.6A Pending CN117396894A (zh) 2021-06-01 2022-03-15 具有集成的单个对象类检测深度神经网络(dnn)的图像传感器

Country Status (5)

Country Link
US (1) US11706546B2 (zh)
EP (1) EP4348513A1 (zh)
JP (1) JP2024520293A (zh)
CN (1) CN117396894A (zh)
WO (1) WO2022256065A1 (zh)

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100455294B1 (ko) * 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
TWI797699B (zh) * 2015-12-22 2023-04-01 以色列商應用材料以色列公司 半導體試樣的基於深度學習之檢查的方法及其系統
CN108781265B (zh) * 2016-03-30 2020-11-03 株式会社尼康 特征提取元件、特征提取系统及判定装置
US10757377B2 (en) * 2016-06-01 2020-08-25 Pixart Imaging Inc. Surveillance system and operation method thereof
US10627887B2 (en) * 2016-07-01 2020-04-21 Microsoft Technology Licensing, Llc Face detection circuit
US10083347B2 (en) * 2016-07-29 2018-09-25 NTech lab LLC Face identification using artificial neural network
EP3515057B1 (en) * 2016-09-16 2024-02-21 Sony Semiconductor Solutions Corporation Image pickup device and electronic apparatus
WO2018052714A2 (en) * 2016-09-19 2018-03-22 Nec Laboratories America, Inc. Video to radar
CN107871101A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置
US10963676B2 (en) * 2016-12-23 2021-03-30 Samsung Electronics Co., Ltd. Image processing method and apparatus
CN108230292B (zh) * 2017-04-11 2021-04-02 北京市商汤科技开发有限公司 物体检测方法和神经网络的训练方法、装置及电子设备
US10902252B2 (en) * 2017-07-17 2021-01-26 Open Text Corporation Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques
US10726627B2 (en) 2017-07-25 2020-07-28 Facebook Technologies, Llc Sensor system based on stacked sensor layers
US10832406B2 (en) * 2017-11-15 2020-11-10 President And Fellows Of Harvard College Quantitative pathology analysis and diagnosis using neural networks
US10935676B2 (en) 2018-02-05 2021-03-02 Rhombus Holdings Llc Physical structure for a tunable sensor system for particle detection
US11301728B2 (en) * 2018-06-18 2022-04-12 Apical Ltd. Image processing using a neural network system
WO2020027161A1 (ja) * 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 積層型受光センサ及び電子機器
EP3833007B1 (en) * 2018-07-31 2024-03-13 Sony Semiconductor Solutions Corporation Layered-type light-receiving sensor and electronic device
JP6725733B2 (ja) 2018-07-31 2020-07-22 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置および電子機器
JP7402606B2 (ja) * 2018-10-31 2023-12-21 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置及び電子機器
US11016495B2 (en) * 2018-11-05 2021-05-25 GM Global Technology Operations LLC Method and system for end-to-end learning of control commands for autonomous vehicle
US10963745B2 (en) * 2018-11-21 2021-03-30 Intel Corporation Real time adaptive training face detection for ultra low power always on architecture
US11888002B2 (en) * 2018-12-17 2024-01-30 Meta Platforms Technologies, Llc Dynamically programmable image sensor
US11144749B1 (en) * 2019-01-09 2021-10-12 Idemia Identity & Security USA LLC Classifying camera images to generate alerts
US11037968B2 (en) * 2019-04-05 2021-06-15 Waymo Llc Image sensor architecture
CN112052703A (zh) * 2019-06-05 2020-12-08 上海柏柯智能科技有限公司 一种基于深度神经网络的人脸识别方法和系统
US20210044742A1 (en) 2019-08-05 2021-02-11 Facebook Technologies, Llc Dynamically programmable image sensor
KR20210041328A (ko) * 2019-10-07 2021-04-15 엘지전자 주식회사 인공지능 기반 얼굴 인식 장치 및 방법
US11394905B2 (en) * 2019-12-13 2022-07-19 Sony Semiconductor Solutions Corporation Dynamic region of interest and frame rate for event based sensor and imaging camera
US20210185266A1 (en) * 2019-12-13 2021-06-17 Sony Semiconductor Solutions Corporation Methods and systems of low power facial recognition
US20210185265A1 (en) * 2019-12-13 2021-06-17 Sony Semiconductor Solutions Corporation Methods of sensor mode switching in event based sensor and imaging camera for low power application
EP4147445A1 (en) * 2020-05-07 2023-03-15 Meta Platforms Technologies, Llc Smart sensor
US11967166B2 (en) * 2020-11-23 2024-04-23 Tianye Wang Method and system for automated identification and classification of marine life
US11989888B2 (en) * 2021-08-04 2024-05-21 Sony Semiconductor Solutions Corporation Image sensor with integrated efficient multiresolution hierarchical deep neural network (DNN)
US11954988B2 (en) * 2021-09-03 2024-04-09 Vivek Satya Bharati Image processing system for wildlife detection and method thereof

Also Published As

Publication number Publication date
US11706546B2 (en) 2023-07-18
US20220383020A1 (en) 2022-12-01
EP4348513A1 (en) 2024-04-10
JP2024520293A (ja) 2024-05-24
WO2022256065A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
WO2020177651A1 (zh) 图像分割方法和图像处理装置
US11244191B2 (en) Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
US10346726B2 (en) Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
KR102557561B1 (ko) 이미지의 깊이 정보를 결정하는 방법 및 시스템
CN112308107A (zh) 可重构和时间编码卷积尖峰神经网络中基于事件的特征分类
CN112800468B (zh) 一种基于隐私保护的数据处理方法、装置及设备
US10848746B2 (en) Apparatus including multiple cameras and image processing method
US11989888B2 (en) Image sensor with integrated efficient multiresolution hierarchical deep neural network (DNN)
US11636712B2 (en) Dynamic gesture recognition method, device and computer-readable storage medium
US11941822B2 (en) Volumetric sampling with correlative characterization for dense estimation
CN111178495B (zh) 用于检测图像中极小物体的轻量卷积神经网络
CN115861675A (zh) 对象分类方法和设备
US20220044053A1 (en) Semantic image segmentation using gated dense pyramid blocks
US20220092394A1 (en) Method and apparatus with neural network operation
EP4222700A1 (en) Sparse optical flow estimation
CN117396894A (zh) 具有集成的单个对象类检测深度神经网络(dnn)的图像传感器
US11790633B2 (en) Image processing using coupled segmentation and edge learning
Huang Moving object detection in low-luminance images
US20230274530A1 (en) Inference processing system in which server and edge device cooperate to perform computation, server, edge device, and control method thereof, and storage medium
US20220019872A1 (en) Processor, logic chip and method for binarized convolution neural network
US20240070812A1 (en) Efficient cost volume processing within iterative process
KR20220143550A (ko) 포인트 클라우드 인코더를 생성하는 방법 및 장치 및 포인트 클라우드 데이터를 생성하는 방법 및 장치, 전자 기기 및 컴퓨터 저장 매체
KR20220132375A (ko) 차량 영상의 화소를 분류하는 행렬 곱셈 가속기에 최적화된 임베디드 의미 분할 네트워크 장치
CN116934853A (zh) 单目标姿态估计方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination