CN109819675A - 图像生成装置以及图像生成方法 - Google Patents

图像生成装置以及图像生成方法 Download PDF

Info

Publication number
CN109819675A
CN109819675A CN201880003233.3A CN201880003233A CN109819675A CN 109819675 A CN109819675 A CN 109819675A CN 201880003233 A CN201880003233 A CN 201880003233A CN 109819675 A CN109819675 A CN 109819675A
Authority
CN
China
Prior art keywords
image
shooting
restored
display
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880003233.3A
Other languages
English (en)
Other versions
CN109819675B (zh
Inventor
佐藤智
齐藤雅彦
吾妻健夫
登一生
若井信彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN109819675A publication Critical patent/CN109819675A/zh
Application granted granted Critical
Publication of CN109819675B publication Critical patent/CN109819675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Vascular Medicine (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

图像生成装置具备处理电路和记录至少一个计算拍摄图像的存储器,所述计算拍摄图像是光场图像、压缩感知图像和编码拍摄图像中的某一种,所述处理电路,(a1)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,(a2)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,(a3)输出所述显示图像。

Description

图像生成装置以及图像生成方法
技术领域
本公开涉及图像生成装置以及图像生成方法。
背景技术
在自动驾驶的车辆以及机器人中,识别周围的物体、认知环境的技术很重要。近年来,为了识别物体,被称作深度学习(Deep Learning)的技术引人关注。深度学习是指使用多层构造的神经网络的机器学习。通过使用利用大量的学习数据构建而成的多层构造的神经网络,与以往方法相比,能够实现更高精度的识别性能。在物体识别中,图像信息特别有效。在非专利文献1中,公开了一种通过以图像信息作为输入的深度学习来大幅提高以往的物体识别能力的方法。另外,为了高精度地识别,需要输入图像是高分辨率。在低分辨率图像的情况下,例如远方的被拍摄对象不具有足够的分辨率,会导致识别性能下降。
另一方面,在非专利文献2中公开了一种除了图像信息以外还使用通过三维测距仪取得的进深信息来进一步提高神经网络的识别能力的方法。如果使用进深信息,则能够分离附近和远方的被拍摄对象。因此,通过使用进深信息,即使对于远方的被拍摄对象也能够提升识别性能。另外,为了一边拍摄低分辨率的图像一边复原高分辨率的图像,例如已知有如非专利文献3公开的被称为压缩感知(sensing)的方法。
现有技术文献
非专利文献1:A.Krizhevsky、I.Sutskever以及G.E.Hinton著,“ImageNetClassication with Deep Convolutional Neural Networks”、NIPS'12Proceedings ofthe 25th International Conference on Neural Information Processing Systems,2012年,P.1097-1105
非专利文献2:Andreas Eitel等著,“Multimodal Deep Learning forRobustRGB-D Object Recognition”,2015IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS),2015年
非专利文献3:Y.Oike以及A.E.Gamal著,“A 256×256CMOS Image SensorwithΔΣ-Based Single-Shot Compressed Sensing”,2012 IEEE International Solid-StateCircuits Conference(ISSCC)Dig.of Tech.Papers,2012年,P.386-387
非专利文献4:M.Salman Asif、Ali Ayremlou、Ashok Veeraraghavan、RichardBaraniuk以及Aswin Sankaranarayanan著,“FlatCam:Replacing Lenses with Masks andComputation”,International Conference on Computer Vision Workshop(ICCVW),2015年,P.663-666
非专利文献5:Yusuke Nakamura、Takeshi Shimano、Kazuyuki Tajima、MayuSao以及Taku Hoshizawa著,“Lensless Light-field Imaging with Fresnel ZoneAperture”,3rd International Workshop on Image Sensors and Imaging Systems(IWISS2016)ITE-IST2016-51,2016年,no.40,P.7-8
非专利文献6:Michael Wakin、Jason Laska、Marco Duarte、Dror Baron、ShriramSarvotham、Dharmpal Takhar、Kevin Kellyand以及Richard Baraniuk著,“AnArchitecture for Compressive Imaging”,2006IEEE International Conference onImage Processing(ICIP),2006年
非专利文献7:Rudin L.I.、Osher S.J.以及Fatemi E.著,“Nonlinear totalvariation based noise removal algorithms”,Physica D,1992年,vol.60,P.259-268
非专利文献8:Shunsuke Ono以及Isao Yamada著,“Decorrelated VectorialTotal Variation”,2014IEEE Conference on Computer Vision and PatternRecognition(CVPR),2014年
非专利文献9:J.Ma著,“Improved Iterative Curvelet Thresholding forCompressed Sensing and Measurement”,IEEE Transactions on Instrumentation&Measurement,2011年,vol.60,no.1,P.126-136
非专利文献10:M.Aharon、M.Elad以及A.M.Bruckstein著,“K-SVD:An Algorithmfor Designing Overcomplete Dictionaries for Sparse Representation”,IEEETransactions on Image Processing,2006年,vol.54,no.11,P.4311-4322
非专利文献11:Manya V.Afonso、Jose M.Bioucas-Dias以及MarioA.T.Figueiredo,“Fast Image Recovery Using Variable Splitting and ConstrainedOptimization”,IEEE Transactions on Image Processing,2010年,VOL.19,NO.9,P.2345-2356
发明内容
但是,为了取得高分辨率的图像信息,需要使用高价的摄像头,存在物体的识别系统自身价格较高的问题。另外,使用进深信息的高精度的识别系统存在为了取得进深信息而需要高价的三维测距仪的问题。而且,还存在压缩感知的用于复原高清晰度图像的计算成本庞大、实时的高清晰度的图像复原较为困难的问题。基于如上所述的理由,存在如下问题:在车辆的自动驾驶、机器人以及周边监视系统等使用识别系统的情况下,在后续阶段进行的驾驶控制等处理中会产生延迟。
本公开提供一种可提高使用图像的物体识别处理速度的图像生成装置以及图像生成方法。
本公开的一技术方案的图像生成装置,其具备:处理电路;以及存储器,其记录至少一个计算拍摄图像,所述计算拍摄图像是光场图像、压缩感知图像和编码拍摄图像中的某一种,所述处理电路,(a1)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,(a2)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,(a3)输出所述显示图像。
本公开的一技术方案的图像生成方法,包括:(b1)从存储器取得作为光场图像、压缩感知图像和编码拍摄图像中的某一种的至少一个计算拍摄图像,(b2)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,(b3)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,(b4)输出所述显示图像,所述(b1)~(b4)中的至少1项由处理器执行。
此外,上述的总括性或者具体的技术方案既可以由系统、装置、方法、集成电路、计算机程序或者计算机可读取的记录盘等记录介质实现,也可以由系统、装置、方法、集成电路、计算机程序以及记录介质的任意的组合实现。计算机可读取的记录介质例如包含CD-ROM(Compact Disc-Read Only Memory,光盘只读存储器)等非易失性记录介质。
根据本公开的图像生成技术,能够提高使用图像的物体的识别处理速度。
本公开的一技术方案附加的好处以及优点可以从本说明书以及附图中明确。该好处及/或优点能够由本说明书以及附图所公开的各技术方案以及特征单独提供,不需要为了获得1个以上的好处及/或优点而实施全部技术方案以及特征。
附图说明
图1是表示具备实施方式的图像生成装置的识别系统的功能性结构的一例的示意图。
图2是表示实施方式的变形例的识别系统的功能性结构的一例的示意图。
图3是表示变形例的识别系统的硬件结构的一例的示意图。
图4是表示图2的学习装置的主要处理流程的一例的流程图。
图5是表示使用多针孔(multi pinhole)的光场摄像头的示例的图。
图6是表示进行了通常拍摄的被拍摄对象的图像的示例的示意图。
图7是表示使用包含多针孔掩模的光场摄像头拍摄的图6的被拍摄对象的图像的示例的示意图。
图8A是识别区域框与通常拍摄图像叠加显示的示意性图。
图8B是表示识别区域框的示意性图。
图9是表示在图像上作为掩模被提供的识别正解的示例的示意图。
图10是表示实施方式的图像生成装置的动作流程的一例的流程图。
图11是表示识别部的功能性结构的一例的示意图。
图12是将随机掩模作为编码孔径(coded aperture)来使用的编码孔径掩模(coded aperture mask)的示例的示意图。
图13是表示识别部的功能性结构的另一例的示意图。
图14A是表示计算拍摄图像的像素数为N=16的情况下的计算拍摄图像的像素配置的一例的示意图。
图14B是表示复原图像的像素数为M=16的情况下的复原图像的像素配置的一例的示意图。
图15是复原计算拍摄图像而得到的通常拍摄图像的示例的示意图。
图16是使用识别区域框来显示由识别部识别出的识别结果的图像的示例的示意图。
图17是将由识别部识别出的识别结果与复原图像叠加而得到的叠加图像的示例的示意图。
图18是表示识别部以及图像复原部的输出定时(timing)的关系的一例的示意图。
图19是表示从图15的复原图像的拍摄时点起经过时间5T之后的复原图像的示例的示意图。
图20是同时示出从第一复原图像的显示开始时点起至第二复原图像的显示开始时点为止的期间内的多个识别结果的叠加图像的示例的示意图。
图21是表示覆写将叠加图像与对应的识别结果连接的箭头的示例的示意图。
图22是表示识别部的识别处理结果与使用在该识别处理所使用的计算拍摄图像之前的计算拍摄图像而得到的复原图像的叠加图像的示例的示意图。
图23是表示实施方式的另一变形例的识别系统的功能性结构的一例的示意图。
图24是说明实施方式的另一变形例的图像的生成方法的示意图。
标号的说明
1、1A、1B识别系统
2移动体
2a速度信息检测部
10、10B图像生成装置
11拍摄部
12学习装置
101取得部
102识别部
103图像输出控制部
104图像复原部
105输出部
121图像取得部
122识别正解取得部
123学习部
具体实施方式
如“背景技术”一项中所记载的那样,通过使用深度学习等机器学习,能够实现基于机械装置的高精度的识别技术。正在尝试将这样的识别技术适用于车辆的自动驾驶以及机器人的动作。车辆以及机器人是移动体,因此需要一边移动一边基于摄像头的拍摄图像认知周围的物体。因此,要求较高的识别处理速度。非专利文献1中公开的技术,为了获得较高的识别精度而需要高分辨率的图像。为了取得高分辨率的图像,不仅需要高价的摄像头,而且高分辨率的图像的处理量增大,存在处理产生延迟的可能性。非专利文献2中公开的技术,由于需要高价的三维测距仪而使成本增大。而且,在该技术中,由于需要将拍摄图像与进深信息相关联来进行处理,所以处理量增加。另外,在非专利文献3公开的技术中,基于低分辨率的图像复原高分辨率的图像的处理量庞大。本公开的发明人发现了非专利文献1~3的技术中的如上所述的问题,研究了提高识别处理速度的技术。因此,本发明人发明了如以下所示的技术。
本公开的一技术方案的图像生成装置具备处理电路;以及存储器,其记录至少一个计算拍摄图像,所述计算拍摄图像是光场图像、压缩感知图像和编码拍摄图像中的某一种,所述处理电路,(a1)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,(a2)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,(a3)输出所述显示图像。
根据上述技术方案,对于计算拍摄图像中的物体的位置的识别,使用计算拍摄图像本身来进行。而且,被识别出的物体的位置在显示图像中被强调显示。因此,物体的识别处理能够以不伴随从计算拍摄图像向复原图像的图像复原的方式进行,因此能够提高处理速度。另外,在显示图像中,被识别出的物体的位置被强调显示,因此用户可容易地视觉确认物体的位置。此外,使用计算拍摄图像而叠加有强调物体位置的显示的显示图像既可以是在计算拍摄图像上叠加有强调显示的图像,也可以是在计算拍摄图像以外的图像上叠加有强调显示的图像。计算拍摄图像以外的图像的示例是计算拍摄图像的复原图像、单色背景的图像等。
在本公开的一技术方案的图像生成装置中,也可以是,所述处理电路,进一步,(a4)复原所述至少一个计算拍摄图像,生成复原图像,在所述(a2)中,在识别出所述计算拍摄图像中的物体的位置之后,使用最近被复原的所述复原图像来生成叠加有强调所述物体位置的显示的显示图像。
根据上述技术方案,显示图像能够显示尽可能新的信息。例如,显示图像能够提供符合图像生成装置的周围现状的显示。
在本公开的一技术方案的图像生成装置中,也可以是,所述处理电路在相同的时间开始所述(a1)的处理和所述(a4)的处理。
根据上述技术方案,能够抑制由某一方处理的延迟导致的处理整体的延迟。例如,在两个处理中的一个处理比另一个处理更需要处理时间的情况下,通过在相同的时间开始进行两个处理,能够将由需要处理时间的一个处理引起的延迟抑制得较低。
在本公开的一技术方案的图像生成装置中,也可以是,所述处理电路,进一步,(a4)复原所述至少一个计算拍摄图像,生成复原图像,在所述(a2)中,生成在所述复原图像上叠加有强调所述物体位置的显示的显示图像,所述处理电路的所述(a1)的处理比所述(a4)的处理快。
根据上述技术方案,在计算拍摄图像的复原图像中被识别出的物体的位置被强调显示。复原图像以与用户看到的像同样的状态示出像,因此在显示图像中用户可容易地视觉确认物体的位置和物体自身。另外,由于处理速度存在差异,所以能够抑制物体的位置的强调显示相对于复原图像的显示期间的延迟。
在本公开的一技术方案的图像生成装置中,也可以是,所述至少一个计算拍摄图像包含第1图像和第2图像,以所述第1图像、所述第2图像的顺序按时间拍摄,所述处理电路,在所述(a1)中,识别所述第1图像中包含的物体的位置,然后识别所述第2图像中包含的物体的位置,进一步,(a4)复原所述第1图像来生成第1复原图像,然后复原所述第2图像来生成第2复原图像,在所述(a2)中,在识别出所述第2图像的物体的位置之后,在第1预定时间内生成了所述第1复原图像并且未生成所述第2复原图像的情况下,取得所述第1图像被拍摄的第1拍摄时间和所述第2图像被拍摄的第2拍摄时间,计算所述第1拍摄时间与所述第2拍摄时间的时间差,在所述时间差为第1阈值以下的情况下,生成在所述第1复原图像上叠加有所述第2图像的物体的位置的显示图像,在所述时间差大于第1阈值的情况下,不在所述第1复原图像上叠加所述第2图像的物体的位置,使所述第1复原图像为所述显示图像。
根据上述技术方案,在经过第1预定时间之后,存在拍摄计算拍摄图像的拍摄部周围的状况发生了变化的可能性。在经过第1预定时间之后,即使在第1复原图像或者第2复原图像上叠加有基于第2图像被识别出的物体的位置,也存在显示图像的内容与拍摄部周围的状况背离的可能性。在这样的情况下,如果第1图像与第2图像的拍摄时间间隔超过第1阈值,则可能助长背离。相反,如果第1图像与第2图像的拍摄时间间隔为第1阈值以下,则有可能会抑制背离。因此,能够使显示图像所表示的物体的位置为实时或与其相近的内容。
在本公开的一技术方案的图像生成装置中,也可以是,拍摄所述计算拍摄图像的拍摄部配置于移动体,所述处理电路,从所述拍摄部取得所述计算拍摄图像并记录在所述存储器中,在所述(a2)中,当识别出所述第1图像的物体的位置时,在生成了所述第1复原图像并且未生成所述第2复原图像的情况下,取得拍摄所述第1图像以及所述第2图像时的所述移动体的移动速度,基于所述移动速度来设定所述第1预定时间。
根据上述技术方案,移动体的移动速度越大,在经过第1预定时间之后,拍摄部周围的状况的变化越大。由于基于移动速度来设定第1预定时间,所以能够抑制上述变化因移动速度而变大。
在本公开的一技术方案的图像生成装置中,也可以是,所述处理电路,在所述移动速度小于第2阈值的情况下,不变更所述第1预定时间,在所述移动速度为所述第2阈值以上的情况下,基于所述移动速度缩短所述第1预定时间。
根据上述技术方案,在移动体的移动速度较大的情况下第1预定时间被缩短,因此能够抑制经过第1预定时间之后的拍摄部周围状况的变化。换言之,在移动体的移动速度较大的情况下,基于第1图像与第2图像的拍摄时间差来判定图像可否叠加显示的频率增加。因此,根据移动体的移动速度,能够抑制叠加有第2图像的物体的位置的显示图像的显示内容与拍摄部周围状况背离的情况。
在本公开的一技术方案的图像生成装置中,也可以是,拍摄所述计算拍摄图像的拍摄部配置于移动体,所述处理电路,从所述拍摄部取得所述计算拍摄图像并记录在所述存储器中,取得所述移动体的移动速度,在所述(a2)中,在所述移动速度为第3阈值以下的情况下,使用所述一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,在所述移动速度大于第3阈值的情况下,生成所述物体的位置未被强调显示的基于所述一个计算拍摄图像的图像作为显示图像。
根据上述技术方案,在移动体的速度较大的情况下,存在拍摄部周围的状况发生较大变化的可能性。由此,存在上述周围的状况与显示图像的内容背离的可能性。在移动体的移动速度超过第3阈值的情况下,显示基于计算拍摄图像的图像。另外,在移动体的移动速度为第3阈值以下的情况下,显示叠加有被识别出的物体的位置的图像。因此,能够使显示图像所表示的物体的位置为实时或与其相近的位置。
在本公开的一技术方案的图像生成装置中,也可以是,所述处理电路,进一步,(a5)在所述至少一个计算拍摄图像中,生成与所述识别出的物体的位置对应的复原部分图像,在所述(a2)中,生成在所述至少一个计算拍摄图像上叠加有所述复原部分图像的所述显示图像。
根据上述技术方案,能够抑制用于生成复原图像的处理量,因此能够提高处理速度。而且,识别对象由复原图像示出,因此用户可容易地视觉确认识别对象的位置以及内容。
本公开的一技术方案的图像生成方法,包括:(b1)从存储器取得作为光场图像、压缩感知图像和编码拍摄图像中的某一种的至少一个计算拍摄图像,(b2)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,(b3)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,(b4)输出所述显示图像,所述(b1)~(b4)中的至少1项由处理器执行。根据上述技术方案,能够得到与本公开的一技术方案的图像生成装置同样的效果。
在本公开的一技术方案的图像生成方法中,也可以是,还包括:(b5)复原所述至少一个计算拍摄图像,生成复原图像,在所述(b3)中,在识别出所述计算拍摄图像中的物体的位置之后,使用最近被复原的所述复原图像来生成叠加有强调所述物体位置的显示的显示图像。
在本公开的一技术方案的图像生成方法中,也可以是,在相同的时间开始所述(b2)的处理和所述(b5)的处理。
在本公开的一技术方案的图像生成方法中,也可以是,还包括:(b5)复原所述至少一个计算拍摄图像,生成复原图像,在所述(b3)中,生成在所述复原图像上叠加有强调所述物体位置的显示的显示图像,所述(b2)的处理速度比所述(b5)的处理速度快。
在本公开的一技术方案的图像生成方法中,也可以是,所述至少一个计算拍摄图像包含第1图像和第2图像,以所述第1图像、所述第2图像的顺序按时间拍摄,在所述(b2)中,识别所述第1图像中包含的物体的位置,然后识别所述第2图像中包含的物体的位置,所述图像生成方法还包括:(b5)复原所述第1图像来生成第1复原图像,然后复原所述第2图像来生成第2复原图像,在所述(b3)中,在识别出所述第2图像的物体的位置之后,在第1预定时间内生成了所述第1复原图像并且未生成所述第2复原图像的情况下,取得所述第1图像被拍摄的第1拍摄时间和所述第2图像被拍摄的第2拍摄时间,计算所述第1拍摄时间与所述第2拍摄时间的时间差,在所述时间差为第1阈值以下的情况下,生成在所述第1复原图像上叠加有所述第2图像的物体的位置的显示图像,在所述时间差大于第1阈值的情况下,不在所述第1复原图像上叠加所述第2图像的物体的位置,使所述第1复原图像为所述显示图像。
在本公开的一技术方案的图像生成方法中,也可以是,所述至少一个计算拍摄图像是从移动体拍摄的图像,在所述(b3)中,当识别出所述第1图像的物体的位置时,在生成了所述第1复原图像并且未生成所述第2复原图像的情况下,取得拍摄所述第1图像以及所述第2图像时的所述移动体的移动速度,基于所述移动速度来设定所述第1预定时间。
在本公开的一技术方案的图像生成方法中,也可以是,在所述移动速度小于第2阈值的情况下,不变更所述第1预定时间,在所述移动速度为所述第2阈值以上的情况下,基于所述移动速度缩短所述第1预定时间。
在本公开的一技术方案的图像生成方法中,也可以是,所述至少一个计算拍摄图像是从移动体拍摄的图像,(b6)取得所述移动体的移动速度,在所述(b3)中,在所述移动速度为第3阈值以下的情况下,使用所述一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,在所述移动速度大于第3阈值的情况下,生成所述物体的位置未被强调显示的基于所述一个计算拍摄图像的图像作为显示图像。
在本公开的一技术方案的图像生成方法中,也可以是,还包括:(b7)在所述至少一个计算拍摄图像中,生成与所述识别出的物体的位置对应的复原部分图像,在所述(b3)中,生成在所述至少一个计算拍摄图像上叠加有所述复原部分图像的所述显示图像。。
此外,上述的总括性或者具体的技术方案既可以由系统、装置、方法、集成电路、计算机程序或者计算机可读取的记录盘等记录介质实现,也可以由系统、装置、方法、集成电路、计算机程序以及记录介质的任意组合实现。计算机可读取的记录介质例如包含CD-ROM等非易失性记录介质。
(实施方式)
以下,参照附图对实施方式进行说明。此外,以下进行说明的实施方式均表示总括性或者具体的示例。由以下的实施方式示出的数值、形状、构成要素、构成要素的配置位置以及连接形态、步骤(工序)、步骤的顺序等仅是一例,并非限定本公开的主旨。另外,关于以下实施方式的构成要素中未记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在以下的实施方式的说明中,存在使用如大致平行、大致正交这样的伴有“大致”表达的情况。例如,大致平行不仅意味着完全平行,还意味着实质上平行即例如包含几%左右的差异。其他的伴有“大致”的表达也同样如此。另外,各图均是示意图,不一定是严格地进行了图示的图。而且,在各图中,有时对实质上相同的构成要素标注相同的标号,重复的说明被省略或者简化。
对实施方式的图像生成装置进行说明。图1示出了表示具备实施方式的图像生成装置10的识别系统1的功能性结构的一例的示意图。识别系统1具备图像生成装置10和拍摄部11。图像生成装置10具备取得部101、识别部102、图像输出控制部103、图像复原部104和输出部105。识别系统1使用由拍摄部11取得的图像,检测该图像中包含的被拍摄对象,输出检测结果。图像中的被拍摄对象的检测也称为“识别”。
识别系统1既可以搭载于车辆以及机器人等移动体上,也可以搭载于监视摄像头系统等固定物上。在本实施方式中,设识别系统1搭载于作为移动体的一例的汽车上来进行说明。在该情况下,拍摄部11以及图像生成装置10也可以搭载于移动体。或者,也可以是,拍摄部11搭载于移动体,图像生成装置10配置在移动体的外部。配置图像生成装置10的对象的示例是计算机装置、移动体的操作者的终端装置等。终端装置的示例是移动体专用的操作用终端装置、或者智能手机、智能手表以及平板电脑等通用的便携终端装置。
在图像生成装置10与拍摄部11分离配置的情况下,图像生成装置10以及拍摄部11可以经由有线通信或者无线通信进行通信。有线通信例如可以适用依据以太网(注册商标)标准的网络等有线LAN(Local Area Network,局域网)以及其他任意有线通信。无线通信可以适用由如第3代移动通信系统(3G)、第4代移动通信系统(4G)、或者LTE(注册商标)等这样的移动通信系统利用的移动通信标准、Wi-Fi(注册商标)(Wireless Fidelity,无线保真)等无线LAN、以及Bluetooth(注册商标)、ZigBee(注册商标)等近距离无线通信。
拍摄部11拍摄即取得包含拍摄对象周边环境的信息的计算拍摄图像(computational imaging photography)。此外,计算拍摄图像也被称为计算图像。例如,拍摄部11按作为预定周期的第1周期取得计算拍摄图像、或者连续地作为动画而取得计算拍摄图像。拍摄部11也可以取得与时刻相关联的计算拍摄图像。拍摄部11的硬件的示例是光场摄像头、无透镜摄像头以及单像素(Single Pixel)摄像头。在这样的摄像头的情况下,拍摄部11能够如后述那样通过1次拍摄动作同时取得被拍摄对象的多个图像。此外,拍摄部11例如也可以通过使拍摄部11具备的拍摄元件的拍摄区域、即受光区域变化来以多次拍摄动作取得上述的多个图像。拍摄部11将取得的计算拍摄图像输出到图像生成装置10的取得部101。
在此,对计算拍摄图像和通常拍摄图像进行说明。通常拍摄图像是通过光学系统拍摄的图像。通常拍摄图像通常通过使由光学系统聚光的来自物体的光成像(imaging)来取得。光学系统的一例是透镜。将物体和像内的像点(image point)调换,将物体配置于像点,由此由相同的光学系统在物体原来的位置产生像点的关系称为共轭(conjugate)。在本说明书中,以像这样以处于共轭关系的状态被拍摄的图像记为通常拍摄图像。在物体存在的环境下,当人直接见到物体时,人以与通常拍摄图像大致同样的状态感知该物体。换言之,人与实际空间的状态同样地在视觉上认知由通常的数字摄像头拍摄到的通常拍摄图像。
另一方面,计算拍摄图像是人无法与实际空间的状态同样地在视觉上认知的图像。即,计算拍摄图像可能是即使人见到也无法在视觉上认知的图像,但是通过计算机处理能够取得包含在周边环境等的图像中的信息的图像。计算拍摄图像能够通过图像复原而以人能够认知的方式视觉化。计算拍摄图像的示例是使用多针孔或者微透镜拍摄的光场图像、在时空间对像素信息进行加权相加而拍摄的压缩感知图像、使用编码孔径和编码的掩模拍摄的编码孔径(Coded Aperture)图像等编码图像。例如,非专利文献3中示出了压缩感知图像的示例。另外,计算拍摄图像的其他示例是使用如非专利文献4以及非专利文献5所示那样的不具有基于折射的成像光学系统的无透镜摄像头拍摄的图像、使用如非专利文献6所示那样的单像素(Single Pixel)摄像头拍摄的图像。上述任意的计算拍摄图像均是已知的技术,因此省略其详细的说明。
例如,在光场图像中,各像素除了图像值以外还包含进深信息。光场图像是经由配置在拍摄元件之前的多个针孔或者微透镜而由拍摄元件取得的图像。多个针孔以及微透镜沿着拍摄元件的受光面平面地配置,例如呈格子状地配置。拍摄元件在其整体的1次拍摄动作中通过多个针孔或者微透镜中的各个同时取得多个像。多个像是从不同的视点拍摄的像。基于这样的多个像与视点的位置关系,能够取得被拍摄对象的进深方向的距离。拍摄元件的示例是CMOS(Complementary Metal Oxide Semiconductor,互补金属氧化物半导体)图像传感器以及CCD(Charge-Coupled Device,电荷耦合器件)图像传感器等图像传感器。
压缩感知图像是压缩感知的对象图像。压缩感知的对象图像的示例是由无透镜摄像头拍摄的图像。无透镜摄像头不具有基于折射的成像光学系统,经由配置在拍摄元件之前的掩模来取得图像。掩模例如呈格子状地包含透过率(也被称为“孔径值”)不同的多个区域。通过这样的掩模进行摄影,由此能够使来自各种方向的光线(光场图像)由掩模编码后进行拍摄。在压缩感知中,通过利用该掩模信息,能够基于被编码的光场图像取得所期望方向的光线的图像、或者在所有距离都聚焦的全聚焦图像、进而取得进深信息。
另外,将这样的掩模作为光圈设置在摄像头的孔径部进行撮影而得到的图像被称为编码孔径图像(Coded Aperture)图像。
图像生成装置10的取得部101从拍摄部11取得计算拍摄图像,输出到识别部102以及图像复原部104。另外,取得部101既可以取得识别部102所使用的识别器,也可以将取得的识别器输出到识别部102。在图像生成装置10搭载于移动体的情况下,取得部101也可以从移动体取得移动体的速度。取得部101既可以实时地取得移动体的速度,也可以定期地取得移动体的速度。在移动体具备速度计的情况下,取得部101既可以从速度计取得速度,也可以从移动体所具备的并且从速度计接收速度信息的计算机取得速度。在移动体不具备速度计的情况下,取得部101也可以从移动体所具备的GPS(Global Positioning System,全球定位系统)装置、加速度计以及角速度计等惯性测量装置等取得与速度关联的信息。
识别部102从取得部101取得计算拍摄图像。识别部102包含识别器。识别器是用于从图像取得对象物的信息的识别模型。识别器使用机器学习来构建。使用计算拍摄图像作为学习用数据进行机器学习,由此能够构建识别性能得以提高的识别器。在本实施方式中,适用于识别器的机器学习模型是深度学习(Deep Learning)等使用神经网络的机器学习模型,但是也可以是其他的学习模型。例如,机器学习模型也可以是使用随机森林(RandomForest)、或者遗传编程(Genetic Programming)等的机器学习模型。
识别部102使用识别器取得计算拍摄图像中的物体的信息。具体而言,识别部102识别计算拍摄图像中包含的物体,并且取得计算拍摄图像中的物体的位置。即,物体的信息包含物体是否存在、以及物体的位置。物体的位置也可以包含图像上的平面的位置、以及图像的进深方向的位置。例如,识别部102使用识别器按计算拍摄图像的至少一个像素来识别物体是否存在。识别部102取得被识别出存在物体的至少一个像素的位置作为计算拍摄图像中的物体的位置。在此,本说明书中的物体的识别包含在计算拍摄图像中检测存在物体的像素。
例如,在识别系统1搭载于汽车的情况下,物体的示例是人物、汽车、自行车以及信号。此外,识别部102使用计算拍摄图像,既可以识别预先设定的1个种类的物体,也可以识别多个种类的物体。另外,识别部102也可以按包含人物、汽车或者自行车的移动体等的类别单位来识别物体。使用与要识别的物体的种类对应的识别器。识别器例如记录在图像生成装置10具有的存储器中。
例如,在光场图像中,各像素除了图像值以外还包含各像素的被拍摄对象的进深信息。另外,如非专利文献2中还记载的那样,将被拍摄对象的进深信息用于学习数据可有效提高识别器的识别能力。因此,通过使用光场图像的机器学习而构建的识别器能够提高其识别性能。同样地,使用压缩感知图像以及编码孔径图像的机器学习也可有效地提高识别器的识别性能。
另外,如图2所示,识别系统1也可以具备用于生成识别器的学习装置12。在该情况下,图像生成装置10的识别部102使用由学习装置12生成的识别器。此外,图2是表示实施方式的变形例的识别系统1A的功能性结构的一例的示意图。
图像输出控制部103决定由输出部105输出的图像。具体而言,图像输出控制部103使用计算拍摄图像,决定是否生成复原图像。图像输出控制部103也可以按以计算拍摄图像的整体为对象的单位、计算拍摄图像的1个像素单位、或者由计算拍摄图像的多个像素构成的群组单位来决定是否生成复原图像。在此的复原图像意味着与通常拍摄图像同样状态的图像。另外,复原图像并非意味着是最初存在且再次生成的图像,而是包含初始生成的图像。例如,以不伴随通常拍摄图像的方式拍摄计算拍摄图像,基于这样的计算拍摄图像被复原的图像是初始生成的图像。
图像输出控制部103既可以基于用户的指示来决定是否生成复原图像,也可以不接收用户的指示,而是根据预先决定的规则以及周期等来决定复原图像的生成。在前者的情况下,例如识别系统1具备接口部,通过接口部接收用户的指示。另外,图像输出控制部103也可以基于来自外部设备的指示来决定是否生成复原图像。此时,图像输出控制部103具有通信电路等通信部,经由通信部取得来自能够以有线或者无线方式进行通信的外部设备的指示。接口部的示例是按钮、杆、键、触摸面板、鼠标、用于语音识别的麦克风等。另外,如后述那样,图像输出控制部103也可以基于识别部102的识别结果来切换要输出的图像信息。
图像复原部104基于图像输出控制部103的决定,对由拍摄部11取得的计算拍摄图像进行图像复原处理,生成复原图像。在由图像输出控制部103判定为不生成复原图像的情况下,图像复原部104不生成复原图像。
输出部105输出图像信息。图像信息包含复原图像、以及被决定为不生成复原图像的计算拍摄图像中的至少一方。在识别系统1还具备显示器的情况下,输出部105对显示器输出用于输出图像信息的指示。或者,输出部105具有通信部,以有线或者无线的方式经由通信部对具有显示器的外部设备的控制部输出图像信息。在此的通信部也可以与图像输出控制部103的通信部共用。此外,输出部105也可以从识别部102取得物体的信息,输出附加有物体信息的图像信息。如上所述,物体的信息包含物体是否存在和物体的位置。
包括如上所述的取得部101、识别部102、图像输出控制部103、图像复原部104以及输出部105的图像生成装置10的构成要素,也可以由包括CPU(Central Processing Unit,中央处理单元)或DSP(Digital Signal Processor,数字信号处理器)等处理器、以及RAM(Random Access Memory,随机存取存储器)及ROM(Read-Only Memory,只读存储器)等存储器等的处理电路构成。上述构成要素的一部分或者全部的功能也可以通过由CPU或者DSP将RAM用作工作用存储器并执行记录在ROM中的程序来实现。另外,上述构成要素的一部分或者全部的功能也可以通过电子电路或者集成电路等专用的硬件电路来实现。上述构成要素的一部分或者全部的功能也可以通过上述的软件功能和硬件电路的组合来构成。
接着,对识别系统包含学习装置的情况、即实施方式的识别系统1的变形例进行说明。如图2所示,变形例的识别系统1A具备图像生成装置10、拍摄部11和学习装置12。另外,学习装置12具备图像取得部121、识别正解取得部122和学习部123。图像生成装置10、拍摄部11以及学习装置12既可以搭载于1个装置,也可以搭载于分开的装置。在搭载于分开的装置的情况下,也可以经由有线通信或者无线通信在装置间授受信息。所适用的有线通信以及无线通信也可以是上面例示的方式中的某一种。
另外,图3示出了表示变形例的识别系统1A的硬件结构的一例的示意图。如图3所示,学习装置12具备第二输入电路221、第二运算电路222和第二存储器223。另外,图像生成装置10具备第一输入电路201、第一运算电路202、第一存储器203和输出电路204。
参照图1以及图3,第一输入电路201与取得部101对应。第一运算电路202与识别部102、图像输出控制部103以及图像复原部104对应。输出电路204与输出部105对应。第一存储器203存储即记录用于供第一输入电路201、第一运算电路202以及输出电路204执行处理的计算机程序、取得部101所取得的至少一个计算拍摄图像、以及识别部102所使用的识别器等。第一存储器203既可以由1个存储器构成,也可以由相同种类或者不同种类的多个存储器构成。第一输入电路201以及输出电路204也可以包含通信电路。
参照图2以及图3,第二输入电路221与图像取得部121对应。第二输入电路221也可以包含通信电路。第二运算电路222与识别正解取得部122以及学习部123对应。第二存储器223存储即记录用于供第二输入电路221以及第二运算电路222执行处理的计算机程序、图像取得部121所取得的至少一个计算拍摄图像、识别正解取得部122所取得的识别正解、由学习部123生成的识别器等。第二存储器223既可以由1个存储器构成,也可以由相同种类或者不同种类的多个存储器构成。
第一输入电路201、第一运算电路202、输出电路204、第二输入电路221以及第二运算电路222可以由包含CPU或者DSP等处理器的处理电路构成。第一存储器203以及第二存储器223例如由ROM、RAM、快闪存储器等半导体存储器、硬盘驱动器或者SSD(Solid StateDrive,固态硬盘)等存储装置实现。第一存储器203以及第二存储器223也可以汇总成1个存储器。处理器执行在存储器展开的计算机程序中记述的命令组。由此,处理器能够实现各种功能。
学习装置12的图像取得部121取得用于机器学习的计算拍摄图像。图像取得部121既可以从拍摄部11取得计算拍摄图像,也可以从识别系统1A的外部经由有线通信或者无线通信取得计算拍摄图像。所适用的有线通信以及无线通信也可以是上面例示的方式中的某一种。图像取得部121将所取得的计算拍摄图像存储在第二存储器223中。
识别正解取得部122为了使用图像取得部121所取得的计算拍摄图像的机器学习而取得识别正解。识别正解既可以与计算拍摄图像一起从识别系统1A的外部提供,也可以通过由用户针对拍摄部11的计算拍摄图像输入识别正解来提供。识别正解包含计算拍摄图像中包含的被拍摄对象所属的类别信息和被拍摄对象的位置信息。被拍摄对象的类别的示例是人物、汽车、自行车、信号等。位置信息不仅包含图像上的位置,还如后述那样包含被拍摄对象的进深位置处的虚拟图像上的位置。识别正解取得部122将所取得的识别正解与计算拍摄图像相关联,存储在第二存储器223中。
学习部123使用图像取得部121所取得的计算拍摄图像和识别正解取得部122所取得的识别正解,进行识别部102的识别器的学习。学习部123使存储在第二存储器223中的识别器进行机器学习,将学习后的最新的识别器存储在第二存储器223中。识别部102取得存储在第二存储器223中的最新的识别器,将其存储在第一存储器203中并用于识别处理。上述机器学习例如通过深度学习等中的误差逆传递法等来实现。具体而言,学习部123将计算拍摄图像输入识别器,取得识别器输出的识别结果。然后,学习部123以使识别结果成为识别正解的方式调整识别器。学习部123通过反复进行这样的调整,使识别器的识别精度提高。
接着,参照图2~图4,示出学习装置12的动作。此外,图4是表示学习装置12的主要处理的流程的一例的流程图。首先,在步骤S1中,图像取得部121取得计算拍摄图像。此外,在以下的说明中,设计算拍摄图像为光场图像来进行说明。
光场图像是指按每个像素具有像素值和进深信息这两种信息。光场图像由光场摄像头取得。光场摄像头的具体例是使用多针孔或者微透镜的摄像头。也可以是,拍摄部11是光场摄像头,图像取得部121取得由拍摄部11拍摄的光场图像。或者,图像取得部121也可以经由有线通信或者无线通信从识别系统1A的外部取得光场图像。
图5示出了使用多针孔的光场摄像头的示例。图5所示的光场摄像头211具有多针孔掩模211a和图像传感器211b。多针孔掩模211a与图像传感器211b隔开一定距离配置。多针孔掩模211a具有随机或者等间隔地配置的多个针孔211aa。也将多个针孔211aa的情况称为多针孔。图像传感器211b通过各针孔211aa取得被拍摄对象的图像。将通过针孔取得的图像称为针孔图像。根据各针孔211aa的位置以及大小不同,被拍摄对象的针孔图像不同,因此图像传感器211b取得多个针孔图像的叠加图像。针孔211aa的位置对被投影到图像传感器211b上的被拍摄对象的位置产生影响,针孔211aa的大小对针孔图像的模糊产生影响。通过使用多针孔掩模211a,能够叠加地取得位置以及模糊程度不同的多个针孔图像。在被拍摄对象远离针孔211aa的情况下,多个针孔图像被投影到大致相同的位置。另一方面,在被拍摄对象与针孔211aa很近的情况下,多个针孔图像被投影到分离的位置。因此,叠加图像包含被拍摄对象的进深信息。
例如,图6以及图7分别示出了通常拍摄图像的示例和使用多针孔的光场摄像头的光场图像的示例。图6示出进行了通常拍摄的被拍摄对象的图像的示例,图7示出使用包含多针孔掩模的光场摄像头拍摄的图6的被拍摄对象的图像的示例。如图6所示,在通常拍摄图像中,映现出道路上的人物A、汽车B以及C作为被拍摄对象。在这些被拍摄对象由例如具有4个针孔的光场摄像头拍摄的情况下,如图7所示,人物A、以及汽车B及C各自的图像作为多个被叠加的图像而取得。具体而言,人物A的图像作为人物A1、A2以及A3取得,汽车B的图像作为汽车B1、B2、B3以及B4取得,汽车C的图像作为汽车C1、C2、C3以及C4取得。
在步骤S2中,识别正解取得部122通过对焦点的进深位置进行各种变更而基于光场图像生成各进深位置处的虚拟进深图像。此时,识别正解取得部122使用多针孔掩模211a的多个针孔211aa的位置以及大小、光场摄像头的摄像头参数、图像传感器的信息、以及光线追踪法(RayTracing)的技术。虚拟进深图像是在设定的进深值的位置聚焦的图像,对于位于其以外的进深值的位置的被拍摄对象不聚焦,示出模糊的图像。通过生成对焦位置变化的多个虚拟进深图像,能够提取被拍摄对象的进深值。此外,光线追踪法(RayTracing)的技术是三维图形的描绘方法的1种,是反向追踪到达作为视点的像素的光线直到被拍摄对象为止,并且决定途中的描绘面上的各像素的颜色的方法。
在步骤S3中,识别正解取得部122取得与光场图像相关的识别正解。识别正解包含人物、汽车、自行车、信号等被拍摄对象所属的类别信息和图像上的被拍摄对象的平面位置以及区域。识别正解与光场图像一起从识别系统1A的外部提供,或者由用户针对由拍摄部11得到的光场图像来提供。识别正解取得部122在各虚拟进深图像中基于被拍摄对象的位置确定被拍摄对象,并将所确定的被拍摄对象与类别相关联。其结果,识别正解取得部122将被拍摄对象的区域、被拍摄对象的类别和包含被拍摄对象的平面位置以及进深位置的位置信息相关联地进行取得,将这些信息作为识别正解。
识别正解取得部122在决定被拍摄对象在图像上的平面位置以及区域时使用指标。例如,识别正解取得部122使用包围被拍摄对象的框作为指标。以下,也将包围被拍摄对象的框称为识别区域框。识别区域框能够强调地示出被拍摄对象的位置以及区域。图8A以及图8B示出了识别区域框的一例。图8A是将识别区域框与通常拍摄图像叠加显示的示意性图。图8B是表示识别区域框的示意性图。在图8A以及图8B所示的示例中,识别正解取得部122设定从外部包围各被拍摄对象并且与各被拍摄对象外接的矩形的识别区域框。此外,识别区域框的形状不限定于图8A以及图8B的示例。
在图8A以及图8B中,识别正解取得部122例如对人物A设定识别区域框FA,对汽车B设定识别区域框FB,对汽车C设定识别区域框FC。此时,识别正解取得部122既可以算出识别区域框整体的线形以及坐标,也可以算出识别区域框的各顶点的坐标,还可以算出识别区域框的左上等的1个顶点的坐标以及各边的长度,来作为表示识别区域框的形状及其位置的信息。另外,如图8A以及图8B所示,识别正解取得部122既可以对所有类别的被拍摄对象设定相同线种的识别区域框,也可以按每个类别变更识别区域框的线种。而且,识别正解取得部122也可以使识别区域框的信息包含识别区域框的线种。通过采用上述这样的方式,识别正解取得部122输出包含识别区域框的区域的平面位置、进深位置以及形状等的信息作为识别正解。
另外,作为识别正解,识别正解取得部122也可以不取得识别区域框的信息,而是按每个像素取得识别正解。每个像素的识别正解例如也可以在图像上作为掩模而被提供。例如,图9示意性地示出了在图像上作为掩模被提供的识别正解的示例。在图9的示例中,对人物A提供掩模Aa,对汽车B以及C分别提供掩模Ba以及Ca来作为识别正解。通过这样的方式,识别正解取得部122按每个像素输出识别正解。
在步骤S4中,学习部123取得通过步骤S1所取得的光场图像和通过步骤S3所取得的虚拟进深图像中的识别正解。进一步,学习部123取得存储在第二存储器223中的识别器,对识别器输入光场图像并取得输出结果。学习部123以使输出结果成为识别正解的方式调整识别器,通过存储调整后的识别器来更新第二存储器223内的识别器。
接着,参照图1以及图10,对图像生成装置10的动作进行说明。图10是表示实施方式的图像生成装置10的动作的流程的一例的流程图。此外,在以下的说明中,设拍摄部11为光场摄像头进行说明。
在步骤S101中,拍摄部11拍摄图像。例如,拍摄部11按作为预定周期的第1周期取得光场图像作为计算拍摄图像。取得部101取得由拍摄部11拍摄的光场图像,输出到识别部102。此外,取得部101也可以从识别系统1的外部取得光场图像。
接着,在步骤S102中,识别部102使用识别器在光场图像中检测被设为识别对象的物体。作为识别对象的物体也可以预先在识别器中被设定。例如,在识别系统1搭载于汽车的情况下,作为识别对象的物体的示例是人物、汽车、自行车以及信号。识别部102通过将光场图像输入到识别器,从识别器取得作为识别对象的物体的检测结果作为输出结果。识别部102也可以将识别处理完成的光场图像存储在第一存储器203中(参照图3)。
接着,在步骤S103中,图像输出控制部103决定是否对由识别部102进行了识别处理的光场图像进行图像复原。图像输出控制部103在进行图像复原的情况下(步骤S103:“是”)前进至步骤S104,在不进行图像复原的情况下(步骤S103:“否”)前进至步骤S105。图像输出控制部103也可以在识别部102检测出作为识别对象的物体的情况下,决定执行图像复原处理。在该情况下,图像输出控制部103既可以对由识别部102检测出作为识别对象的物体的光场图像整体进行图像复原处理,也可以对该光场图像的一部分进行图像复原处理,另外,也可以针对该光场图像的几张而以1张的比例进行图像复原处理。另外,图像输出控制部103也可以对每隔预定时间取得的光场图像进行图像复原处理。图像输出控制部103也可以在接收到来自用户的指示或者外部设备的指示时进行图像复原处理,在该情况下,也可以对在接收到指示时拍摄的光场图像进行图像复原处理。
在步骤S104中,图像复原部104从图像输出控制部103取得要进行图像复原的光场图像的信息,并基于该信息取得光场图像。图像复原部104例如从第一存储器203取得光场图像。图像复原部104通过对所取得的光场图像进行图像复原处理来生成复原图像。
在步骤S105中,输出部105输出图像信息。在由图像复原部104进行了图像复原处理的情况下,输出部105输出复原图像以及光场图像中的至少包含复原图像的图像信息,在未由图像复原部104进行图像复原处理的情况下,输出包含光场图像或者不包含光场图像的图像信息。至少包含复原图像的图像信息也可以包含由识别部102检测出的物体的信息。物体的信息包含物体的位置、区域等。输出部105也可以向识别系统1具备的显示器以及外部设备中的至少一方输出图像信息。
进一步,对图10中的步骤S102的识别处理进行说明。能够从由作为光场摄像头的拍摄部11拍摄的光场图像同时取得图像信息和进深信息。识别部102使用由学习装置12进行了学习的识别器对光场图像进行识别处理。该学习通过深度学习等使用神经网络的机器学习来实现。
识别部102也可以构成为,进行纹理信息的识别和进深信息的识别,使用被识别出的纹理信息以及进深信息,整合地识别图像中包含的物体。如图11所示,这样的识别部102包含纹理信息识别部1021、进深信息识别部1022和整合识别部1023。纹理信息识别部1021以及进深信息识别部1022相对于整合识别部1023并联地连接。此外,图11是表示识别部102的功能性结构的一例的示意图。
纹理信息识别部1021在光场图像中使用纹理信息检测被拍摄对象。具体而言,纹理信息识别部1021例如通过使用如非专利文献1所记载的神经网络作为识别器,在光场图像中识别被拍摄对象的区域和被拍摄对象的类别。输入到纹理信息识别部1021的输入信息是光场图像,纹理信息识别部1021的识别结果与学习装置12的情况同样,是虚拟进深图像上的被拍摄对象的区域以及被拍摄对象的类别。在通常拍摄图像的情况下,入射的光线的方向的值、即进深值被积分而包含在像素值内,因此进深的信息被删除。与这样的通常拍摄图像相比较,光场图像包含大量的与被拍摄对象相关的信息。因此,通过将使用多针孔等而得到的光场图像用作识别器的输入信息,能够进行以通常拍摄图像为输入信息的情况以上的高精度的识别。
进深信息识别部1022基于光场图像检测被拍摄对象的进深信息。具体而言,进深信息识别部1022与学习装置12的情况同样地,基于虚拟进深图像取得被拍摄对象的进深信息。对于基于虚拟进深图像取得进深信息,能够通过使用光线追踪法(RayTracing)的技术来实现,因此进深信息识别部1022所使用的识别器能够作为整个成像层的神经网络来实现。当然,通过将以另外取得的进深图像作为正解图像进行学习,也可以生成进深信息识别部1022。
整合识别部1023将纹理信息识别部1021的识别结果和进深信息识别部1022的识别结果进行整合,输出最终的识别结果。最终的识别结果包含光场图像中包含的物体的区域、该区域在图像上的平面位置、以及该区域的进深位置等。整合识别部1023所使用的识别器可以作为整个成像层的神经网络来实现。
另外,在上述说明中,拍摄部11是使用多针孔或者微透镜的光场摄像头,但是不限定于此。例如,拍摄部11也可以是拍摄编码孔径图像的结构。图12示出了以随机掩模作为编码孔径使用的编码孔径掩模的示例的示意图。如图12所示,编码孔径掩模311具有由无色区域表示的光的透过区域和由涂黑区域表示的光的遮光区域。这样的编码孔径掩模311通过对玻璃蒸镀铬来制作。这样的编码孔径掩模311被配置在主透镜与图像传感器之间的光路上时,光线的一部分被遮断,因此能够实现拍摄编码孔径图像的摄像头。
另外,识别部102也可以不具有纹理信息识别部1021和进深信息识别部1022为并联关系的结构,而构成为在由进深信息识别部1022提取出进深信息之后由纹理信息识别部1021进行识别。图13示出了表示这样的识别部102的功能性结构的另一例的示意图。如图13所示,在识别部102中,进深信息识别部1022、纹理信息识别部1021以及整合识别部1023是串联关系。进深信息识别部1022针对多个进深值的位置分别生成虚拟进深图像。纹理信息识别部1021分别将进深信息识别部1022所生成的针对多个进深值的虚拟进深图像作为输入信息,例如通过使用如非专利文献1所记载的神经网络来识别被拍摄对象的位置、区域以及被拍摄对象的类别。
整合识别部1023整合地输出纹理信息识别部1021的类别识别结果。这样的整合处理例如也可以设为作为纹理信息识别部1021的输出的识别结果的逻辑和。当然,整合处理也可以不是这样的逻辑和,而是例如在针对多个进深值的多个识别结果中选择被多次输出的同一识别结果作为输出结果。
由于针对多个进深值的虚拟进深图像除了纹理信息以外还具有进深信息,所以识别部102能够实现除了纹理信息以外还使用进深信息的识别处理。由此,识别部102能够进行高精度的识别。
另外,在识别部102是在提取出进深信息之后使用纹理信息进行识别的结构的情况下,学习部123也可以使用各进深值的虚拟进深图像进行学习。通过这样的方式,能够进行每个进深值的识别处理,因此能够进行更高精度的识别处理。
另外,识别部102也可以根据拍摄部11来改变其神经网络的结构。在拍摄部11是光场摄像头的情况下,虚拟进深图像通过使用拍摄部11的多针孔的位置以及大小等来生成。在多针孔的位置以及大小按拍摄部而不同的情况下,通过按拍摄部构成神经网络,能够提高识别部102的识别精度。多针孔的位置以及大小的信息能够通过事先实施摄像头校准来取得。
如以上所述,识别部102将光场图像作为输入信息,基于该光场图像的纹理信息以及进深信息进行识别处理。由此,与以往的基于使用通常拍摄图像得到的纹理图像进行的识别处理相比,识别部102能够进行更高精度的识别处理。
如上所述,作为识别系统,例示了具备包含识别部102的图像生成装置10的识别系统1、以及具备图像生成装置10和学习装置12的识别系统1A。但是,例如识别部102也可以包含学习装置12,在该情况下,识别系统1具备学习装置12。
如以上所述,在实施方式以及变形例的识别系统1以及1A中,图像生成装置10使用光场图像等计算拍摄图像,进行该图像内的被拍摄对象的识别。而且,图像生成装置10在一系列识别处理的过程中,不对计算拍摄图像进行图像复原而成为通常拍摄图像,而是在识别处理后根据用户的请求时等的需要来进行图像复原。图像生成装置10基于计算拍摄图像中包含的纹理信息、以及根据计算拍摄图像算出的虚拟进深图像中包含的进深信息,进行计算拍摄图像内的被拍摄对象的识别。因此,图像生成装置10能够减少被拍摄对象的识别处理量。特别是,与在识别处理时伴随从计算拍摄图像向通常拍摄图像的图像复原的方法相比,图像生成装置10能够实现识别处理的大幅的高速化。
另外,图像生成装置10不是使用通常拍摄图像,而是使用光场图像等信息量较多的计算拍摄图像作为识别处理的输入信息。因此,图像生成装置10能够实现除了图像的纹理信息以外还使用被拍摄对象的进深信息的识别处理,因此能够进行高精度的识别。而且,生成识别器的学习装置12也使用计算拍摄图像作为学习用数据使识别器进行学习,因此能够生成高精度的识别器。而且,拍摄计算拍摄图像的拍摄部11不需要用于取得进深信息的测距仪,因此识别系统1以及1A能够以便宜的结构进行高精度的识别。特别是,在拍摄部11是使用多针孔的光场摄像头的情况下,识别系统1以及1A为更加便宜的结构。
接着,对图像复原部104的处理更详细地进行说明。图像复原部104根据图像输出控制部103的处理结果,将由拍摄部11取得的计算拍摄图像复原成作为用户的人可看懂的通常拍摄图像来输出。该处理在将由拍摄部11取得的计算拍摄图像设为y、作为通常拍摄图像的复原图像设为x的情况下,能够公式化为以下的式1。
y=Ax (式1)
在此,矩阵A是表示在拍摄部11中被拍摄到的计算拍摄图像的各点的像表示复原图像上的哪个点的像的采样矩阵。采样矩阵A示出了计算拍摄图像y与复原图像x的关系,通过事先实施摄像头校准来取得。也可以构成为采样矩阵A的信息与计算拍摄图像一起由图像生成装置10从拍摄部11取得。另外,采样矩阵A的信息既可以是表示计算拍摄图像的各点接收了被拍摄对象所在的三维空间上的哪个点的光的信息,也可以是表示计算拍摄图像的各点接收了被拍摄对象所在的三维空间上的哪条直线上的光的信息。无论哪种信息作为摄像头校准信息都是已知的。
另外,例如在设计算拍摄图像y的像素数为N、复原图像x的像素数为M的情况下,计算拍摄图像y由N行1列的矢量、复原图像x由M行1列的矢量、采样矩阵A由N行M列的矩阵来表现。
接着,对在图像复原部104中基于采样矩阵A以及计算拍摄图像y来计算复原图像x的方法进行说明。图14A以及图14B分别示意性地示出了计算拍摄图像以及复原图像的像素的配置例。图14A示出了像素数为N=16的计算拍摄图像y,图14B示出了像素数为M=16的复原图像x。图14B的复原图像x是基于图14A的计算拍摄图像y而复原的图像。计算拍摄图像y和复原图像x由下式2表示。
在本例中,由于M=N,所以在式1中作为未知数的x的元素数是16,作为观测数的y的元素数也是16。由于未知数的数量与方程式的数相等,所以能够通过计算采样矩阵A的逆矩阵来计算复原图像x的各元素。但是,在计算拍摄图像y的像素数N少于复原图像x的像素数M的情况下,式1会出现不良设定问题,无法唯一地求解。为了解决该不良设定问题,图像复原部104使用压缩感知技术。压缩感知技术是指通过在信号的感知时进行加权相加处理(即编码)来压缩数据量并使用压缩后的数据进行复原处理由此对原始信号进行解码(即复原)的技术。在压缩感知处理中,为了解决不良设定问题而使用先备知识。
作为针对自然图像的先备知识,例如也可以使用如非专利文献7以及非专利文献8所记载的总变差(Total Variation)。总变差是图像上的邻近位置间的亮度变化的绝对值和。另外,例如也可以使用如非专利文献9所记载的稀疏性。稀疏性是在小波(Wavelet)变换、DCT变换、曲波(Curvelet)变换等线性变换中许多系数为0的特性。另外,例如也可以使用如非专利文献10所记载的通过学习来取得上述线性变换的变换系数的词典学习(Dictionary Learning)等。设定将这样的先备知识作为式1的约束项的评价函数,通过使该评价函数最优化,能够取得复原图像x。这样的评价函数例如能够通过使用如非专利文献11所记载的ADMM(Alternating Direction Method of Multipliers,交替方向乘子法)等凸优化方法来最优化。
另外,图像复原部104也可以根据识别部102的识别结果来切换处理。例如在使用稀疏性进行图像复原的情况下,通过根据识别结果切换要使用的线性变换的词典,来提高复原画质。关于该切换处理,设排列有线性变换的词典的词典矩阵为D,当使用针对该词典矩阵D的稀疏性时,式1成为下式3。
在此,矢量z是词典矩阵D中的复原图像x的系数矢量、式3的第2项|z|0是z的L0范数(norm),系数矢量z是用于成为稀疏的约束项。另外,词典矩阵D通过词典学习而事先通过学习来求取。在该情况下,将词典矩阵D的学习按被拍摄对象的类别分别实施,来求取词典矩阵Di(i=1、2、····)。此外,“i”与被拍摄对象的类别对应。在进行图像复原时,通过使用与识别部102的识别结果、即被识别出的被拍摄对象的类别对应的词典矩阵Di,能够提高复原画质。
另外,由于式3的最优化比较困难,所以也可以使用将L0范数变更为L1范数的下述式4。
在此,式4的第2项|z|1表示z的L1范数。式4能够通过软阈值(Soft Thresholding)等处理来求解。
另外,图像复原部104也可以不对图像整体进行复原,而是复原图像的一部分。通过复原图像的一部分,能够缩短复原处理所花费的时间。另外,在通过反复计算来实施图像复原并且需要使处理在一定时间内结束的情况下,如果缩短1次反复计算的处理时间,则能够增加反复次数,因此也能够提高复原画质。这样,在复原图像的一部分的情况下,图像复原部104也可以根据识别部102的识别结果来选择进行复原的区域。
如前所述,识别部102例如使用识别区域框来检测作为被拍摄对象的类别信息的人物、汽车、自行车、信号等的区域。图像复原部104也可以对这样被识别出的区域例如识别区域框内的区域进行图像复原。由此,图像复原部104能够以如下方式进行处理:通过用户对人物、汽车、自行车、信号等有用的信息的区域进行图像复原,而不对道路以及空中等不太有用的区域进行图像复原。这样的图像也可以说是在计算拍摄图像上叠加有识别区域框内的复原图像的叠加图像。这样,能够高速、高画质地对有用的区域进行图像复原。
接着,对输出部105的处理进行说明。输出部105也可以按时间来切换并输出显示识别结果的图像和复原图像。例如,输出部105以输出复原图像接着输出显示识别结果的图像等的方式按时间依次输出。输出部105不一定需要交替地输出复原图像和显示识别结果的图像,也可以在输出多个显示识别结果的图像之后输出复原图像。或者,输出部105也可以生成并输出将显示识别结果的图像与复原图像叠加而得到的叠加图像。
例如,图15示意性地示出了复原计算拍摄图像而得到的通常拍摄图像的示例。图16示意性地示出了使用识别区域框显示由识别部102识别出的识别结果的图像的示例。图17示意性地示出了将由识别部102识别出的识别结果与复原图像叠加而得到的叠加图像的示例。如图15以及图17所示,识别对象是人物D、汽车E以及汽车F。
在生成如图17所示的叠加图像时,输出部105,(a)取得由识别部102识别出的物体的信息,(b)使用预定的基准,生成在复原图像中包含与物体的位置对应的显示的图像,(c)输出生成的图像。图17所示的与物体的位置对应的显示是包围人物D的识别区域框FD、包围汽车E的识别区域框FE和包围汽车F的识别区域框FF。预定的基准是用于生成与物体的位置对应的显示的基准,在识别区域框的情况下是设定与物体对应的位置、形状等的基准。
在生成如图16所示的显示识别结果的图像时,输出部105,(a)取得由识别部102识别出的物体的信息,(b)使用预定的基准,生成在图像中包含与物体的位置对应的显示的图像,(c)输出生成的图像。图16所示的与物体的位置对应的显示是识别区域框FD、FE以及FF。输出部105既可以在背景是素色的图像上显示识别区域框FD、FE以及FF,也可以在计算拍摄图像上显示识别区域框FD、FE以及FF。
另外,如对图9进行的说明那样,在识别部102按每个像素进行识别并输出识别结果的情况下,输出部105也可以不叠加显示识别区域框,而是按每个像素叠加显示识别结果。在该情况下,输出部105例如既可以以特定的颜色置换与识别结果对应的像素,也可以进行alpha混合处理。alpha混合处理是将两个图像、即两个像素通过系数α进行合成的处理,例如是通过将某个像素与α值相乘来重叠半透明的像素的处理。
另外,在输出部105在复原图像上叠加显示识别结果的情况下,也可以使识别结果的更新率高于复原图像的更新率。通常,用于图像复原部104对复原图像进行复原的处理成本即处理时间,在处理能力同等的情况下大于由识别部102进行识别处理并输出处理结果的处理时间。因此,在使识别结果以及复原图像的更新率相等的情况下,识别结果的更新率会变慢,在图像生成装置10被用于汽车的自动驾驶或者周边监视系统的情况下,存在后续阶段的驾驶控制等处理发生延迟的可能性。
例如,如图18所示,当设识别部102对1帧图像进行识别处理所需要的时间为T时,假设图像复原部104对1帧图像进行复原处理所需要的时间为5T。此外,图18是表示识别部102以及图像复原部104的输出定时(timing)的关系的一例的示意图。T的示例是1/30(秒),5T的示例是1/6(秒)。输出针对每秒30帧的图像的识别结果,输出针对每秒6帧图像的复原图像。例如,在对全部计算拍摄图像进行识别处理的情况下,相对于5个识别结果而对1个计算拍摄图像进行图像复原处理。因此,在使识别结果以及复原图像的更新率相等的情况下,在复原图像的两个更新定时之间的期间即更新期间Tp(Tp=5T)中,不使用对于4帧图像的识别结果。此外,图18的示例表示针对1个计算拍摄图像而识别处理的开始定时和图像复原处理的开始定时是相同时刻的情况。在该情况下,也可以将图5的步骤S1以及图10的步骤S101中的取得计算拍摄图像的定时设为识别处理的开始定时以及图像复原处理的开始定时。但是,识别处理的开始定时和图像复原处理的开始定时也可以不同,也可以是某个处理先开始。
另一方面,识别部102能够不进行图像复原而进行识别处理,因此图像生成装置10能够使识别结果的更新率高于复原图像的更新率。因此,在图像生成装置10被用于汽车的自动驾驶或者周边监视系统的情况下,不会产生后续阶段的驾驶控制等处理发生延迟的问题。
另外,在复原图像上叠加显示识别结果的情况下,输出部105也可以以使作为处理对象的计算拍摄图像的拍摄定时相对应的方式组合识别结果和复原图像。或者,输出部105也可以以使处理定时相对应的方式组合识别结果和复原图像。在前者的第一种情况下,输出部105在第一复原图像上叠加显示针对如下计算拍摄图像的识别结果,该计算拍摄图像是从第一复原图像的计算拍摄图像的拍摄时刻起至接下来的第二复原图像的计算拍摄图像的拍摄时刻为止的期间拍摄的。在后者的第二种情况下,输出部105在第一复原图像上叠加显示从第一复原图像的输出时刻起至第二复原图像的输出时刻为止的期间输出的识别结果。在第二种情况下,当取得识别结果时在最近被复原的复原图像上叠加显示该识别结果。换言之,在最新的复原图像上叠加显示最新的识别结果。
例如,图19示意性地示出了从图15的复原图像的计算拍摄图像的拍摄时点起经过时间5T之后拍摄到的计算拍摄图像的复原图像的示例。当设图15的复原图像为第一复原图像时,图19的复原图像是紧接着第一复原图像输出的第二复原图像。另外,图20示意性地示出了同时表示从第一复原图像的显示开始时点起至第二复原图像的显示开始时点为止的期间的多个识别结果的叠加图像的示例。
在图20中,识别区域框FD11~FD15及FD21、识别区域框FE11~FE15及FE21、以及识别区域框FF11~FF15及FF21是表示从第一复原图像的显示开始时点起至第二复原图像的显示开始时点为止的6帧的识别结果的显示。表示图20所示的识别结果的显示相当于6帧的计算拍摄图像的识别结果,因此识别区域框FD11~FD15及FD21、识别区域框FE11~FE15及FE21、以及识别区域框FF11~FF15及FF21分别包括6个框。识别区域框FD11~FD15及FD21表示人物D的识别结果,识别区域框FE11~FE15及FE21表示汽车E的识别结果,识别区域框FF11~FF15及FF21表示汽车F的识别结果。此外,由虚线表示的人物D、汽车E以及汽车F可以包含在叠加图像中,也可以不包含在叠加图像中。
另外,在输出部105在复原图像上叠加显示识别结果的情况下,也可以不显示识别结果以及复原图像,而是进一步叠加显示其他图像。例如,为了容易理解帧间的识别结果的对应关系,例如也可以将连接相对应的识别结果的箭头等覆写在叠加图像上。例如,图21示意性地示出了在叠加图像上覆写连接相对应的识别结果的箭头的示例。在图21中,图20的6帧的识别区域框中的2帧叠加显示在第一复原图像上,还覆写有连接2帧的识别区域框间的箭头。箭头FDA连结作为人物D的识别结果的识别区域框FD11以及FD15。箭头FEA连结作为汽车E的识别结果的识别区域框FE11以及FE15。箭头FFA连结作为汽车F的识别结果的识别区域框FF11以及FF15。各箭头所连结的识别区域框不限定于上述情况。在图像生成装置10被用于汽车的自动驾驶或者周边监视系统的情况下,通过将箭头作为矢量进行处理,能够认知周围的物体的移动方向以及移动速度。因此,能够通过系统等实现周围物体的行动预测。并且,能够解决后续阶段的驾驶控制等处理发生延迟的问题。另外,用户也通过视觉确认图像,不仅能够确认周围是否存在物体,还能够认知移动方向以及移动速度。此外,由虚线表示的人物D、汽车E以及汽车F可以包含在叠加图像中,也可以不包含在叠加图像中。
另外,在输出部105在复原图像上叠加显示识别结果的情况下,图像复原部104用于复原图像的计算拍摄图像也可以是识别部102用于识别处理的计算拍摄图像之前所取得的图像。如前所述,通常,用于图像复原部104对复原图像进行复原的处理成本高于识别部102输出识别处理结果的处理成本。因此,在图像复原部104以及识别部102在相同的定时开始进行处理的情况下,识别结果的更新率会变慢。因此,为了与识别部102的识别处理的定时相比使图像复原部104的处理事先开始,图像复原部104将用于复原图像的计算拍摄图像设为识别部102用于识别处理的计算拍摄图像之前的图像。例如,图22示意性地示出了识别部102的识别处理结果与使用了用于该识别处理的计算拍摄图像之前的计算拍摄图像而得到的复原图像的叠加图像的示例。在图22上叠加显示有作为识别结果的识别区域框FD21、FE21以及FF21和第一复原图像。通过采用上述方式,最新的识别结果以不受到复原图像的复原处理的影响的方式被输出并显示。因此,在图像生成装置10被用于汽车的自动驾驶或者周边监视系统的情况下,能够解决后续阶段的驾驶控制等处理发生延迟的问题。
如以上所述,实施方式以及变形例的图像生成装置10具有:将由识别部102识别出的被拍摄对象信息和由图像复原部104复原的复原图像单独更新并输出的输出部105。由此,图像生成装置10能够高速地输出识别结果。因此,在图像生成装置10被用于汽车的自动驾驶或者周边监视系统的情况下,能够解决后续阶段的驾驶控制等处理发生延迟的问题。
另外,如图23所示,图像生成装置10也可以构成为从移动体取得移动体的速度信息。图23是表示实施方式的另一变形例的识别系统1B的功能性结构的示意图。本变形例的识别系统1B的图像生成装置10B相对于实施方式还具备对时刻进行计时的计时部106。计时部106的示例是计时器或者时钟等。此外,计时部既可以设置于识别系统1B,也可以设置于移动体2。另外,图像生成装置10的取得部101从搭载识别系统1B的移动体2的速度信息检测部2a取得移动体2的速度信息。识别系统1B和移动体2经由有线通信或者无线通信授受信息。所适用的有线通信以及无线通信也可以是上面例示的方式中的某一种。
在移动体2具备速度计的情况下,速度信息检测部2a是速度计或者从速度计接收速度信息的移动体2的计算机。在移动体2不具备速度计的情况下,速度信息检测部2a是移动体2具备的GPS装置、加速度计以及角速度计等惯性测量装置等。速度信息也可以是能够算出移动体2的速度、移动体2的位置、加速度、角速度、地磁等速度的要素。速度信息也可以包含上述的与速度关联的要素的检测值被检测出的时刻。取得部101既可以实时地取得移动体2的速度信息,也可以定期地取得移动体2的速度信息。取得部101直接地或者经由识别部102和/或图像复原部104间接地将移动体2的速度信息输出到输出部105。
另外,取得部101基于由计时部106计时的时刻,取得拍摄部11拍摄了计算拍摄图像的时刻,将拍摄时刻与计算拍摄图像相关联。此外,取得部101也可以将从拍摄部11取得了计算拍摄图像的时刻作为拍摄时刻。另外,在拍摄部11具备计时部的情况下,取得部101也可以从拍摄部11与计算拍摄图像一起取得该计算拍摄图像的拍摄时刻。取得部101将计算拍摄图像与拍摄时刻相关联地输出到识别部102以及图像复原部104。另外,输出部105能够从识别部102或者图像复原部104取得计算拍摄图像的拍摄时刻。
进一步,取得部101基于计算拍摄图像的拍摄时刻和移动体2的速度信息的检测时刻或取得时刻,将彼此的时刻相同或者最接近的计算拍摄图像以及速度信息相关联。取得部101除了移动体2的速度信息以外,也可以将与该速度信息对应的计算拍摄图像的信息输出到输出部105。
输出部105对于在某个时刻拍摄的第一计算拍摄图像的复原图像即第一复原图像、以及在第一计算拍摄图像之后拍摄并且接着被进行图像复原的第二计算拍摄图像的复原图像即第二复原图像,以以下说明的方式生成叠加图像。
输出部105计算第一计算拍摄图像的拍摄时间与第二计算拍摄图像的拍摄时间的时间差。而且,在由识别部102识别出第二计算拍摄图像中的物体位置之后在预定时间内生成了第一复原图像而未生成第二复原图像的情况下,输出部105进行如以下那样的处理。具体而言,在上述时间差为第1阈值以下的情况下,输出部105在第一复原图像上叠加显示作为第二计算拍摄图像的识别结果的识别区域框。在上述时间差超过第1阈值的情况下,输出部105不在第一复原图像上叠加作为第二计算拍摄图像的识别结果的识别区域框,而是显示第一复原图像。
预定时间被设为在经过预定时间之后可能导致由拍摄部11拍摄的景象(也被称为“场面(scene)”)与第二计算拍摄图像的拍摄时相比发生较大变化的时间。在这样的经过预定时间的时点,即使在第一复原图像或者第二复原图像上叠加有第二计算拍摄图像的识别结果,也存在叠加图像的内容与移动体2周围的状况即现况发生背离的可能性。在这样的情况下,如果第一计算拍摄图像和第二计算拍摄图像的拍摄时间间隔是超过第1阈值那样较大的值,则存在助长背离的可能性。相反,如果第一计算拍摄图像和第二计算拍摄图像的拍摄时间间隔为第1阈值以下那样较小的值,则能够抑制背离,因此在已经生成的第一在复原图像上叠加显示第二计算拍摄图像的识别结果。
如上所述的预定时间也可以基于移动体2的移动速度来设定。移动体2的移动速度越大,每单位时间的移动体2周围的状况的变化越大。因此,移动体2的移动速度越大,预定时间越被缩短。预定时间既可以按根据移动体2的移动速度的增加以及减小而逐渐变动的方式设定,也可以按以第2阈值这样的预定速度为界限阶段性地变动的方式设定。例如,也可以是,在移动体2的移动速度小于第2阈值的情况下,预定时间不变更,在移动体2的移动速度为第2阈值以上的情况下,基于该移动速度缩短预定时间。此外,上述移动速度既可以是第一计算拍摄图像拍摄时的移动体2的速度和第二计算拍摄图像拍摄时的移动体2的速度的平均值,也可以是上述两个速度中的一方。
另外,第1阈值也可以基于移动体2的移动速度来设定。也可以是,移动体2的移动速度越大,第1阈值也越缩短。第1阈值也可以与预定时间同样地,按根据移动速度的增加以及减小而逐渐或者阶段性地变动的方式设定。
另外,输出部105也可以基于移动体2的移动速度来决定可否显示叠加图像。在移动体2的移动速度为超过第3阈值那样的过大的值的情况下,输出部105不叠加识别结果,而是显示复原图像。相反,在移动体2的移动速度为第3阈值以下那样的值的情况下,输出部105显示叠加有识别结果的复原图像即叠加图像。在移动体2的移动速度过大的情况下,移动体周围的状况与复原图像所表示的内容的背离变大。在这样的复原图像上叠加有识别结果的图像可能会给用户提供错误的认知。第3阈值也可以被设为生成复原图像的时间间隔的期间内的移动体2周围的景象可能发生较大变化的速度。
此外,图像生成装置10B使用从移动体2的速度信息检测部2a取得的移动体2的速度信息进行了上述的处理,但是不限定于此。图像生成装置10B也可以基于由拍摄部11拍摄的计算拍摄图像的帧间的差值,来判断移动体2的移动速度的大小的程度或者移动体2周围的景象是否发生较大变化。在该情况下,图像生成装置10B也可以算出在不同的帧间通过计算拍摄图像的识别处理而得到的同一被拍摄对象的位置、例如识别区域框的位置的差值,并基于该帧间的拍摄时间间隔算出每单位时间的被拍摄对象的位置的差值。如果每单位时间的被拍摄对象的位置的差值为预定的阈值以上,则图像生成装置10B也可以判断为移动体2的移动速度较大或者移动体2周围的景象发生较大的变化。
如上所述,根据实施方式以及变形例的图像生成装置,对于计算拍摄图像中的物体位置的识别,使用计算拍摄图像本身来进行。而且,被识别出的物体的位置在显示图像中被强调显示。因此,物体的识别处理能够以不伴随从计算拍摄图像向复原图像的图像复原的方式进行,能够不增大处理成本,而提高处理速度。另外,在图像生成装置所显示的显示图像中,被识别出的物体的位置被强调显示,因此用户可容易地视觉确认位置。
特别是,图像生成装置在一系列识别处理的过程中不对计算拍摄图像进行图像复原而成为通常拍摄图像,而是在识别处理后根据用户的请求时等的需要来进行图像复原。图像生成装置基于计算拍摄图像中包含的纹理信息和根据计算拍摄图像算出的虚拟进深图像中包含的进深信息,进行计算拍摄图像内的被拍摄对象的识别。因此,图像生成装置能够减少被拍摄对象的识别处理量。而且,图像生成装置与以往的基于使用通常拍摄图像而得到的纹理图像进行的识别处理相比,能够进行更高精度的识别处理。
另外,图像生成装置对由识别部102识别出的被拍摄对象信息和由图像复原部104复原的复原图像单独地进行更新并输出。由此,图像生成装置能够高速地输出识别结果。
另外,图像生成装置使用计算拍摄图像的进深信息以及图像信息,使识别器进行学习以及识别。因此,与使用图像的识别器相比,图像生成装置能够便宜地实现更高精度的识别。
(其他)
以上,基于实施方式以及变形例对1个或者多个技术方案的图像生成装置等进行了说明,但是本公开不限定于实施方式以及变形例。在不脱离本公开的主旨的范围内,将本领域技术人员想到的各种变形实施到本实施方式以及变形例中所得到的技术方案、或者组合不同的实施方式以及变形例中的构成要素而构建的方式也可以包含在1个或者多个技术方案的范围内。
例如,实施方式以及变形例的图像生成装置将强调显示计算拍摄图像中识别出的物体的位置的识别区域框叠加显示在计算拍摄图像的复原图像中,但是既可以叠加显示在计算拍摄图像中,也可以叠加显示在素色背景等预先确定的背景图像中。
另外,本公开的技术也是如下所示这样的技术。例如,本公开的一技术方案的图像生成装置具备:与通常的摄像头不同而通过对拍摄的图像实施图像处理来拍摄人能够认知的计算拍摄图像的拍摄部;基于所述拍摄部所取得的计算拍摄图像来识别人物、汽车、自行车、信号等被拍摄对象的类别信息和所述被拍摄对象的位置信息的识别部;决定由输出部输出的图像的图像输出控制部;根据所述图像输出控制部,基于由所述拍摄部拍摄的计算拍摄图像生成人能够认知的图像的图像复原部;以及根据所述图像输出控制部,输出所选择的图像的输出部。
例如,在上述图像生成装置中,也可以是,所述计算拍摄图像是光场图像、压缩感知图像、编码拍摄图像中的某一种。
例如,在上述图像生成装置中,也可以是,所述拍摄部是不具有基于折射的成像光学系统的无透镜摄像头。
例如,在上述图像生成装置中,也可以是,所述识别部通过深度学习来实现。
例如,在上述图像生成装置中,也可以是,所述识别部根据所述拍摄部来更新神经网络。
例如,在上述图像生成装置中,也可以是,所述识别部使用所述计算拍摄图像中的进深信息和纹理信息来实现所述被拍摄对象的识别处理。
例如,也可以是,上述图像生成装置具有通信部以及接口部中的至少一个,所述图像输出控制部接收用户设定的指令。
例如,在上述图像生成装置中,也可以是,所述图像输出控制部根据所述识别部的识别结果来切换要输出的图像信息。
例如,在上述图像生成装置中,也可以是,所述图像复原部使用所述识别部的结果进行图像复原处理。
例如,在上述图像生成装置中,也可以是,所述图像复原部根据所述识别部的识别结果来切换用于图像复原的词典。
例如,在上述图像生成装置中,也可以是,所述图像复原部复原图像的一部分,其场所根据所述识别部的识别结果来决定。
例如,在上述图像生成装置中,也可以是,所述输出部同时叠加显示由所述识别部识别出的多个识别结果。
例如,在上述图像生成装置中,也可以是,在所述输出部同时输出由所述识别部识别出的结果和由所述图像复原部复原的图像的情况下,所述识别结果的更新率高于所述复原图像的复原结果的更新率。
另外,本公开的一技术方案的识别系统是识别周边状况的识别系统,具备学习装置和图像生成装置,所述学习装置具备:图像取得部,其同时取得图像信息和进深信息;识别正解取得部,其提供在由所述图像取得部取得的计算拍摄图像中识别对象位于哪个位置;以及学习部,其使用由所述图像取得部取得的所述计算拍摄图像和由所述识别正解取得部取得的识别正解信息来进行识别器的学习,所述图像生成装置具备:取得部,其同时取得图像信息和进深信息;处理识别部,其使用由所述学习部进行了学习的所述识别器,对由所述取得部取得的计算拍摄图像进行识别处理;以及输出部,其输出由所述识别部识别出的识别结果。
例如,在上述识别系统中,也可以是,所述识别部具备:纹理信息识别部,其基于由所述取得部取得的所述计算拍摄图像,使用纹理信息进行识别;进深信息识别部,其基于由所述取得部取得的所述计算拍摄图像来识别进深信息;以及整合识别部,其整合所述纹理信息识别部以及所述进深信息识别部的识别结果,输出最终的识别结果。
例如,在上述识别系统中,也可以是,所述识别部通过深度学习来实现。
例如,在上述识别系统中,也可以是,所述进深信息识别部通过整个成像层的神经网络来实现。
例如,在上述识别系统中,也可以是,所述识别部具备:进深信息识别部,其基于由所述图像取得部取得的所述计算拍摄图像来提取进深信息;纹理信息识别部,其使用纹理信息对由所述进深信息识别部提取出的进深信息进行识别;以及整合识别部,其整合所述纹理信息识别部的结果,输出最终的识别结果。
例如,在上述识别系统中,也可以是,所述进深信息识别部输出在各进深值的位置聚焦的图像。
例如,在上述识别系统中,也可以是,所述图像取得部以及所述取得部取得通过多针孔摄像头拍摄的所述计算拍摄图像。
例如,在上述识别系统中,也可以是,所述图像取得部以及所述取得部取得使用编码拍摄而拍摄到的所述计算拍摄图像。
例如,在上述识别系统中,也可以是,所述识别正解取得部对基于由所述图像取得部取得的所述计算拍摄图像来假设虚拟的进深值而生成的虚拟进深图像提供识别正解。
例如,在上述识别系统中,也可以是,所述识别正解取得部对所述虚拟进深图像提供识别对象的类别和所述虚拟进深图像上的位置信息。
以下,对实施方式的另一变形例的显示器中显示的图像的生成方法进行记述。此外,该记载不约束此前描述的实施方式等。图24是说明实施方式的另一变形例的图像的生成方法的示意图。
参照图24(a),拍摄部11在时刻tI(1)拍摄计算拍摄图像I(1),~,在时刻tI(k)拍摄计算拍摄图像I(k),~,在时刻tI(n)拍摄计算拍摄图像I(n)。在此,tI(1)<~<tI(k)<~<tI(n)。取得部101从拍摄部11取得计算拍摄图像I(1)、~、I(k)、~、I(n)
参照图24(b),识别部102不对计算拍摄图像I(1)进行复原,而是认知计算拍摄图像I(1)中包含的物体图像Io(1),在时刻tp(1)决定物体图像Io(1)的位置P(1),~,不对计算拍摄图像I(k)进行复原,而是认知计算拍摄图像I(k)中包含的物体图像Io(k),在时刻tp(k)决定物体图像Io(k)的位置P(k),~,不对计算拍摄图像I(n)进行复原,而是认知计算拍摄图像I(n)中包含的物体图像Io(n),在时刻tp(n)决定物体图像Io(n)的位置P(n)。计算拍摄图像I(1)、~、I(k)、~、I(n)是多个光场图像、多个压缩感知图像、以及多个编码拍摄图像中的某一种。
参照图24(c),图像复原部104基于图像输出控制部103的决定,对由拍摄部11取得的计算拍摄图像I(1)、~、I(k)、~、I(n)中包含的计算拍摄图像Ic(1)进行图像复原处理,生成复原图像D(1),~,对由拍摄部11取得的计算拍摄图像I(1)、~、I(k)、~、I(n)中包含的计算拍摄图像Ic(i)进行图像复原处理,生成复原图像D(i),~,对由拍摄部11取得的计算拍摄图像I(1)、~、I(k)、~、I(n)中包含的计算拍摄图像Ic(p)进行图像复原处理,生成复原图像D(p)。复原图像D(1)的生成在时刻tD(1)完成,~,复原图像D(i)的生成在时刻tD(i)完成,~,复原图像D(p)的生成在时刻tD(p)完成。在此,tD(1)<~<tD(i)<~<tD(p)。复原图像D(1)、~、D(i)、~、D(p)的数量少于计算拍摄图像I(1)、~、I(k)、~、I(n)的数量。
参照图24(a)~(c),计算拍摄图像I(k)被进行复原图像处理而生成复原图像Di,不进行计算拍摄图像I(k+1)~I(k+4)的复原图像处理。计算拍摄图像I(k+5)被进行复原图像处理而生成复原图像D(i+1),不进行计算拍摄图像I(k+6)~I(k+9)的复原图像处理。即,相对于5个计算拍摄图像生成1个复原图像。
参照图24(d),输出部105生成显示器所显示的图像DI(1)、~、DI(k)、~、DI(n)。DI(k+5)是在时刻tD(i)完成复原而得到的D(i)上,基于由在时刻tP(k+5)完成位置决定而得到的P(k+5)表示的位置而在复原图像D(i)中包含的位置上叠加有强调显示PS(k+5)的图像。
此外,tD(i)是作为tD(1)~tD(p)中的时间顺序上比所述tP(k+5)早的时刻的、tD(1)~tD(i)中与tP(k+5)最接近的时刻。
以上,完成了对实施方式的另一变形例的显示器所显示的图像的生成方法的说明。
在本公开中,单元、装置、部件或部的全部或一部分、或者各图所示的框图的功能框的全部或一部分,也可以通过包含半导体装置、半导体集成电路(IC:integratedcircuit)、或者LSI(large scale integration,大规模集成电路)的一个或者多个电子电路来实现。
LSI或者IC既可以集成在一个芯片中,也可以组合多个芯片而构成。例如,存储元件以外的功能框也可以集成在一个芯片中。在此,被称为LSI或者IC,但是也可以根据集成的程度来改变叫法,被称为系统LSI、VLSI(very large scale integration,超大规模集成)、或者ULSI(ultra large scale integration,极大规模集成)。在LSI制造后被编程的现场可编程门阵列(Field Programmable Gate Array(FPGA))、或者能够进行LSI内部的接合关系的重构或LSI内部的电路分区的设置的可重构逻辑器件(recon figurable logicdevice)也能够以相同的目的使用。
而且,单元、装置、部件或部的全部或一部分的功能或操作能够通过软件处理来执行。在该情况下,软件被记录在至少一个ROM、光盘、或者硬盘驱动器等非瞬时性记录介质中,在软件由处理装置(processor)执行时,由该软件确定的功能通过处理装置(processor)以及周边装置来执行。
系统或者装置也可以具备记录有软件的一个或者多个非瞬时性记录介质、处理装置(processor)以及硬件设备。
另外,在上面使用的序数、数量等数字全都是为了具体地说明本公开的技术而例示的,本公开不由例示的数字限制。另外,构成要素间的连接关系是为了具体地说明本公开的技术而例示的,实现本公开的功能的连接关系不限定于此。
另外,框图中的功能框的分割仅是一例,也可以将多个功能框作为1个功能框来实现、或者将1个功能框分割成多个、或者将一部分功能转移到其他功能框。另外,具有类似功能的多个功能框的功能也可以通过单一的硬件或者软件以并行或者时分方式进行处理。
产业上的可利用性
本公开的技术能够广泛适用于对计算拍摄图像中的物体进行图像识别的技术。本公开的技术在拍摄计算拍摄图像的拍摄装置搭载于移动体的情况下也能够广泛适用,例如能够适用于汽车的自动驾驶技术、机器人以及周边监视摄像头系统等。

Claims (19)

1.一种图像生成装置,其具备:
处理电路;以及
存储器,其记录至少一个计算拍摄图像,
所述计算拍摄图像是光场图像、压缩感知图像和编码拍摄图像中的某一种,
所述处理电路,
(a1)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,
(a2)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,
(a3)输出所述显示图像。
2.根据权利要求1所述的图像生成装置,
所述处理电路,进一步,(a4)复原所述至少一个计算拍摄图像,生成复原图像,
在所述(a2)中,在识别出所述计算拍摄图像中的物体的位置之后,使用最近被复原的所述复原图像来生成叠加有强调所述物体位置的显示的显示图像。
3.根据权利要求2所述的图像生成装置,
所述处理电路在相同的时间开始所述(a1)的处理和所述(a4)的处理。
4.根据权利要求1所述的图像生成装置,
所述处理电路,进一步,(a4)复原所述至少一个计算拍摄图像,生成复原图像,
在所述(a2)中,生成在所述复原图像上叠加有强调所述物体位置的显示的显示图像,
所述处理电路的所述(a1)的处理比所述(a4)的处理快。
5.根据权利要求1所述的图像生成装置,
所述至少一个计算拍摄图像包含第1图像和第2图像,
以所述第1图像、所述第2图像的顺序按时间拍摄,
所述处理电路,
在所述(a1)中,识别所述第1图像中包含的物体的位置,然后识别所述第2图像中包含的物体的位置,
进一步,(a4)复原所述第1图像来生成第1复原图像,然后复原所述第2图像来生成第2复原图像,
在所述(a2)中,在识别出所述第2图像的物体的位置之后,在第1预定时间内生成了所述第1复原图像并且未生成所述第2复原图像的情况下,
取得所述第1图像被拍摄的第1拍摄时间和所述第2图像被拍摄的第2拍摄时间,
计算所述第1拍摄时间与所述第2拍摄时间的时间差,
在所述时间差为第1阈值以下的情况下,生成在所述第1复原图像上叠加有所述第2图像的物体的位置的显示图像,在所述时间差大于第1阈值的情况下,不在所述第1复原图像上叠加所述第2图像的物体的位置,使所述第1复原图像为所述显示图像。
6.根据权利要求5所述的图像生成装置,
拍摄所述计算拍摄图像的拍摄部配置于移动体,
所述处理电路,
从所述拍摄部取得所述计算拍摄图像并记录在所述存储器中,
在所述(a2)中,当识别出所述第1图像的物体的位置时,在生成了所述第1复原图像并且未生成所述第2复原图像的情况下,
取得拍摄所述第1图像以及所述第2图像时的所述移动体的移动速度,
基于所述移动速度来设定所述第1预定时间。
7.根据权利要求6所述的图像生成装置,
所述处理电路,
在所述移动速度小于第2阈值的情况下,不变更所述第1预定时间,
在所述移动速度为所述第2阈值以上的情况下,基于所述移动速度缩短所述第1预定时间。
8.根据权利要求1~7中任一项所述的图像生成装置,
拍摄所述计算拍摄图像的拍摄部配置于移动体,
所述处理电路,
从所述拍摄部取得所述计算拍摄图像并记录在所述存储器中,
取得所述移动体的移动速度,
在所述(a2)中,在所述移动速度为第3阈值以下的情况下,使用所述一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,在所述移动速度大于第3阈值的情况下,生成所述物体的位置未被强调显示的基于所述一个计算拍摄图像的图像作为显示图像。
9.根据权利要求1~8中任一项所述的图像生成装置,
所述处理电路,进一步,(a5)在所述至少一个计算拍摄图像中,生成与所述识别出的物体的位置对应的复原部分图像,
在所述(a2)中,生成在所述至少一个计算拍摄图像上叠加有所述复原部分图像的所述显示图像。
10.一种图像生成方法,包括:
(b1)从存储器取得作为光场图像、压缩感知图像和编码拍摄图像中的某一种的至少一个计算拍摄图像,
(b2)使用识别器,识别所述至少一个计算拍摄图像中的物体的位置,
(b3)使用所述至少一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,
(b4)输出所述显示图像,
所述(b1)~(b4)中的至少1项由处理器执行。
11.根据权利要求10所述的图像生成方法,
还包括:(b5)复原所述至少一个计算拍摄图像,生成复原图像,
在所述(b3)中,在识别出所述计算拍摄图像中的物体的位置之后,使用最近被复原的所述复原图像来生成叠加有强调所述物体位置的显示的显示图像。
12.根据权利要求11所述的图像生成方法,
在相同的时间开始所述(b2)的处理和所述(b5)的处理。
13.根据权利要求10所述的图像生成方法,
还包括:(b5)复原所述至少一个计算拍摄图像,生成复原图像,
在所述(b3)中,生成在所述复原图像上叠加有强调所述物体位置的显示的显示图像,
所述(b2)的处理速度比所述(b5)的处理速度快。
14.根据权利要求10所述的图像生成方法,
所述至少一个计算拍摄图像包含第1图像和第2图像,
以所述第1图像、所述第2图像的顺序按时间拍摄,
在所述(b2)中,识别所述第1图像中包含的物体的位置,然后识别所述第2图像中包含的物体的位置,
所述图像生成方法还包括:(b5)复原所述第1图像来生成第1复原图像,然后复原所述第2图像来生成第2复原图像,
在所述(b3)中,在识别出所述第2图像的物体的位置之后,在第1预定时间内生成了所述第1复原图像并且未生成所述第2复原图像的情况下,
取得所述第1图像被拍摄的第1拍摄时间和所述第2图像被拍摄的第2拍摄时间,
计算所述第1拍摄时间与所述第2拍摄时间的时间差,
在所述时间差为第1阈值以下的情况下,生成在所述第1复原图像上叠加有所述第2图像的物体的位置的显示图像,在所述时间差大于第1阈值的情况下,不在所述第1复原图像上叠加所述第2图像的物体的位置,使所述第1复原图像为所述显示图像。
15.根据权利要求14所述的图像生成方法,
所述至少一个计算拍摄图像是从移动体拍摄的图像,
在所述(b3)中,当识别出所述第1图像的物体的位置时,在生成了所述第1复原图像并且未生成所述第2复原图像的情况下,
取得拍摄所述第1图像以及所述第2图像时的所述移动体的移动速度,
基于所述移动速度来设定所述第1预定时间。
16.根据权利要求15所述的图像生成方法,
在所述移动速度小于第2阈值的情况下,不变更所述第1预定时间,
在所述移动速度为所述第2阈值以上的情况下,基于所述移动速度缩短所述第1预定时间。
17.根据权利要求10~16中任一项所述的图像生成方法,
所述至少一个计算拍摄图像是从移动体拍摄的图像,
(b6)取得所述移动体的移动速度,
在所述(b3)中,在所述移动速度为第3阈值以下的情况下,使用所述一个计算拍摄图像,生成叠加有强调所述物体位置的显示的显示图像,在所述移动速度大于第3阈值的情况下,生成所述物体的位置未被强调显示的基于所述一个计算拍摄图像的图像作为显示图像。
18.根据权利要求10~17中任一项所述的图像生成方法,
还包括:(b7)在所述至少一个计算拍摄图像中,生成与所述识别出的物体的位置对应的复原部分图像,
在所述(b3)中,生成在所述至少一个计算拍摄图像上叠加有所述复原部分图像的所述显示图像。
19.一种图像生成装置,
(a)决定在时刻tI(k)~时刻tI(n)拍摄到的计算拍摄图像I(k)~计算拍摄图像I(n)中包含的位置P(k)~位置P(n)
所述k为自然数,所述n为2以上的自然数,k<n,
在所述I(k)~所述I(n)被复原的情况下,复原图像D(k)~复原图像D(n)在所述P(k)~所述P(n)处包含物体图像Io(k)~物体图像Io(n)
所述P(k)~所述P(n)以不复原所述I(k)~所述I(n)的方式来决定,
所述P(k)~所述P(n)的决定在时刻tP(k)~时刻tP(n)完成,
所述I(k)~所述I(n)与所述P(k)~所述P(n)一一对应,
所述I(k)~所述I(n)与所述Io(k)~所述Io(n)一一对应,
所述tI(k)~所述tI(n)与所述I(k)~所述I(n)一一对应,
所述P(k)~所述P(n)与所述tP(k)~所述tP(n)一一对应,
所述I(k)~所述I(n)是多个光场图像、多个压缩感知图像和多个编码拍摄图像中的某一种,
(b)为了生成复原图像D(j)~复原图像D(m),复原所述I(k)~所述I(n)中包含的计算拍摄图像Ic(j)~计算拍摄图像Ic(m)
所述j为1以上的自然数,所述m为1以上的自然数,j<m,
所述Ic(j)~所述Ic(m)的数量少于所述I(k)~所述I(n)的数量,
所述D(j)~所述D(m)的生成在时刻tD(j)~时刻tD(m)完成,
所述Ic(j)~所述Ic(m)与所述D(j)~所述D(m)一一对应,
所述D(j)~D(m)与所述tD(j)~时刻tD(m)一一对应,
(c)生成显示器上显示的图像DI(k)~图像DI(n)
对于所述DI(k)~图像DI(n)中包含的图像DI(i),在时刻tD(r)完成复原而得到的复原图像D(r)上,基于在时刻tP(i)完成了位置决定的位置P(i)所表示的位置,强调显示PS(i)被叠加于所述D(r)中包含的位置,
K≤i≤n,j≤r≤m,
所述tD(r)是作为所述tD(j)~所述tD(m)中的时间顺序上比所述tP(i)早的时刻的、所述tD(j)~所述tD(r)中最接近所述tP(i)的时刻。
CN201880003233.3A 2017-09-12 2018-08-07 图像生成装置以及图像生成方法 Active CN109819675B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017175234 2017-09-12
JP2017-175234 2017-09-12
PCT/JP2018/029498 WO2019054092A1 (ja) 2017-09-12 2018-08-07 画像生成装置及び画像生成方法

Publications (2)

Publication Number Publication Date
CN109819675A true CN109819675A (zh) 2019-05-28
CN109819675B CN109819675B (zh) 2023-08-25

Family

ID=65723532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880003233.3A Active CN109819675B (zh) 2017-09-12 2018-08-07 图像生成装置以及图像生成方法

Country Status (5)

Country Link
US (1) US11195061B2 (zh)
EP (1) EP3683764A4 (zh)
JP (1) JP6998554B2 (zh)
CN (1) CN109819675B (zh)
WO (1) WO2019054092A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113853639A (zh) * 2019-06-14 2021-12-28 马自达汽车株式会社 外部环境识别装置
CN114503174A (zh) * 2019-09-30 2022-05-13 松下知识产权经营株式会社 物体识别装置、物体识别系统以及物体识别方法
CN115345808A (zh) * 2022-08-18 2022-11-15 北京拙河科技有限公司 一种基于多元信息采集的画面生成方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303045B1 (en) * 2017-12-20 2019-05-28 Micron Technology, Inc. Control of display device for autonomous vehicle
KR20220088693A (ko) * 2019-10-30 2022-06-28 소니그룹주식회사 촬상 소자, 표시 장치 및 촬상 시스템
WO2022014305A1 (ja) * 2020-07-16 2022-01-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ マルチピンホールカメラ及び画像識別システム
WO2022014306A1 (ja) * 2020-07-16 2022-01-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、画像識別方法、学習装置、及び画像識別システム
WO2022244578A1 (ja) * 2021-05-20 2022-11-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理システム及び情報処理方法
US11568622B2 (en) * 2021-06-30 2023-01-31 Hewlett-Packard Development Company, L.P. Color adjustments of highlighted areas

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172540A (ja) * 2005-12-26 2007-07-05 Sumitomo Electric Ind Ltd 移動体判定システム、移動体判定方法、及びコンピュータプログラム
JP2010234851A (ja) * 2009-03-30 2010-10-21 Mazda Motor Corp 車両用表示装置
CN102265599A (zh) * 2009-01-20 2011-11-30 歌乐株式会社 障碍物检测显示装置
US20130044234A1 (en) * 2011-08-19 2013-02-21 Canon Kabushiki Kaisha Image capturing apparatus, image processing apparatus, and image processing method for generating auxiliary information for captured image
US20150003750A1 (en) * 2013-07-01 2015-01-01 Xerox Corporation Reconstructing an image of a scene captured using a compressed sensing device

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165641A (ja) * 1998-11-24 2000-06-16 Matsushita Electric Ind Co Ltd 画像処理方法,画像処理装置およびデータ記憶媒体
EP1396819A4 (en) * 2001-06-15 2006-08-09 Sony Corp IMAGE PROCESSING APPARATUS AND METHOD AND IMAGING APPARATUS
EP1555804A3 (en) * 2004-01-19 2006-08-16 Ricoh Company, Ltd. Image processing apparatus, image processing program and storage medium
US7804980B2 (en) * 2005-08-24 2010-09-28 Denso Corporation Environment recognition device
WO2007148219A2 (en) * 2006-06-23 2007-12-27 Imax Corporation Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
ATE537662T1 (de) * 2007-04-27 2011-12-15 Honda Motor Co Ltd System, programm und verfahren zur fahrzeugsperipherieüberwachung
US20120249550A1 (en) * 2009-04-18 2012-10-04 Lytro, Inc. Selective Transmission of Image Data Based on Device Attributes
US20120182388A1 (en) * 2011-01-18 2012-07-19 Samsung Electronics Co., Ltd. Apparatus and method for processing depth image
JP6168794B2 (ja) * 2012-05-31 2017-07-26 キヤノン株式会社 情報処理方法および装置、プログラム。
CN105359518B (zh) * 2013-02-18 2017-03-08 株式会社匹突匹银行 图像处理装置和图像处理方法
US9025883B2 (en) * 2013-07-01 2015-05-05 Xerox Corporation Adaptive quality image reconstruction via a compressed sensing framework
JP6351364B2 (ja) * 2014-05-12 2018-07-04 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
US9697443B2 (en) * 2014-12-11 2017-07-04 Intel Corporation Model compression in binary coded image based object detection
US10176642B2 (en) * 2015-07-17 2019-01-08 Bao Tran Systems and methods for computer assisted operation
JP6735566B2 (ja) * 2016-01-25 2020-08-05 キヤノン株式会社 画像管理装置、画像再生装置及びそれらの制御方法、プログラム並びに記憶媒体
CN108885469B (zh) * 2016-09-27 2022-04-26 深圳市大疆创新科技有限公司 用于在跟踪系统中初始化目标物体的系统和方法
CN110168477B (zh) * 2016-11-15 2022-07-08 奇跃公司 用于长方体检测的深度学习系统
WO2018151211A1 (ja) * 2017-02-15 2018-08-23 株式会社Preferred Networks 点群データ処理装置、点群データ処理方法、点群データ処理プログラム、車両制御装置及び車両
US10282630B2 (en) * 2017-03-08 2019-05-07 Raytheon Company Multi-channel compressive sensing-based object recognition
US10108867B1 (en) * 2017-04-25 2018-10-23 Uber Technologies, Inc. Image-based pedestrian detection
US10269159B2 (en) * 2017-07-27 2019-04-23 Rockwell Collins, Inc. Neural network foreground separation for mixed reality
US10175697B1 (en) * 2017-12-21 2019-01-08 Luminar Technologies, Inc. Object identification and labeling tool for training autonomous vehicle controllers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172540A (ja) * 2005-12-26 2007-07-05 Sumitomo Electric Ind Ltd 移動体判定システム、移動体判定方法、及びコンピュータプログラム
CN102265599A (zh) * 2009-01-20 2011-11-30 歌乐株式会社 障碍物检测显示装置
JP2010234851A (ja) * 2009-03-30 2010-10-21 Mazda Motor Corp 車両用表示装置
US20130044234A1 (en) * 2011-08-19 2013-02-21 Canon Kabushiki Kaisha Image capturing apparatus, image processing apparatus, and image processing method for generating auxiliary information for captured image
US20150003750A1 (en) * 2013-07-01 2015-01-01 Xerox Corporation Reconstructing an image of a scene captured using a compressed sensing device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KANG-YU NI ET AL.: "Foveated compressive imaging for low power vehicle fingerprinting and tracking in aerial imagery", 《INVERSE PROBLEMS AND IMAGING》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113853639A (zh) * 2019-06-14 2021-12-28 马自达汽车株式会社 外部环境识别装置
CN114503174A (zh) * 2019-09-30 2022-05-13 松下知识产权经营株式会社 物体识别装置、物体识别系统以及物体识别方法
CN114503174B (zh) * 2019-09-30 2024-02-23 松下知识产权经营株式会社 物体识别装置、物体识别系统以及物体识别方法
CN115345808A (zh) * 2022-08-18 2022-11-15 北京拙河科技有限公司 一种基于多元信息采集的画面生成方法及装置

Also Published As

Publication number Publication date
JP6998554B2 (ja) 2022-01-18
EP3683764A4 (en) 2020-11-18
JPWO2019054092A1 (ja) 2020-08-27
CN109819675B (zh) 2023-08-25
EP3683764A1 (en) 2020-07-22
US20190279026A1 (en) 2019-09-12
WO2019054092A1 (ja) 2019-03-21
US11195061B2 (en) 2021-12-07

Similar Documents

Publication Publication Date Title
CN109819675A (zh) 图像生成装置以及图像生成方法
US20070103460A1 (en) Determining camera motion
US10455217B2 (en) Electronic apparatus and method of generating depth map
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN102843509B (zh) 图像处理装置和图像处理方法
CN108053449A (zh) 双目视觉系统的三维重建方法、装置及双目视觉系统
CN107690649A (zh) 数字拍摄装置及其操作方法
CN104782110B (zh) 图像处理装置、摄像装置及图像处理方法
JP7227969B2 (ja) 三次元再構成方法および三次元再構成装置
CN109565551A (zh) 对齐于参考帧合成图像
CN101204083A (zh) 利用颜色数字图像对动作如锐度修改进行控制的方法
CN109977847A (zh) 图像生成方法及装置、电子设备和存储介质
CN112767466B (zh) 一种基于多模态信息的光场深度估计方法
US10848746B2 (en) Apparatus including multiple cameras and image processing method
CN109313805A (zh) 图像处理装置、图像处理系统、图像处理方法和程序
CN109313806A (zh) 图像处理装置、图像处理系统、图像处理方法和程序
CN110276831A (zh) 三维模型的建构方法和装置、设备、计算机可读存储介质
TW202247100A (zh) 針對可變焦攝影機的深度估計方法、電腦系統及電腦可讀取儲存媒體
CN113674400A (zh) 基于重定位技术的光谱三维重建方法、系统及存储介质
CN106296574A (zh) 三维照片生成方法和装置
JP2007052609A (ja) 手領域検出装置及び手領域検出方法、並びにプログラム
CN110084180A (zh) 关键点检测方法、装置、电子设备及可读存储介质
CN115457176A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN116563183A (zh) 基于单张raw图像的高动态范围图像重构方法和系统
CN106657817A (zh) 一种应用于手机平台的自动制作相册mv的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant