CN116710971A - 物体识别方法和飞行时间物体识别电路 - Google Patents

物体识别方法和飞行时间物体识别电路 Download PDF

Info

Publication number
CN116710971A
CN116710971A CN202280009429.XA CN202280009429A CN116710971A CN 116710971 A CN116710971 A CN 116710971A CN 202280009429 A CN202280009429 A CN 202280009429A CN 116710971 A CN116710971 A CN 116710971A
Authority
CN
China
Prior art keywords
flight
time
data
object recognition
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280009429.XA
Other languages
English (en)
Inventor
马尔特·阿尔
大卫·达尔·佐特
瓦伦·阿罗拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Semiconductor Solutions Corp
Original Assignee
Sony Semiconductor Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Semiconductor Solutions Corp filed Critical Sony Semiconductor Solutions Corp
Publication of CN116710971A publication Critical patent/CN116710971A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本公开总体上涉及用于飞行时间相机数据的物体识别方法,包括:基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练所述预训练算法,其中,基于指示背景的真实飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成所述飞行时间训练数据,从而生成掩模的模拟物体,所述掩模是基于所述合成覆盖图像数据生成的。

Description

物体识别方法和飞行时间物体识别电路
技术领域
本公开总体上涉及用于飞行时间相机数据的物体识别方法和用于识别飞行时间相机数据中的物体的飞行时间物体识别电路。
背景技术
通常,基于深度图像识别物体的方法是已知的。
对于这样的物体识别方法,可以用训练数据来训练神经网络(NN),例如卷积神经网络(CNN)。为了生成算法的稳健性(NN可以为识别物体而生成该算法),训练数据可能需要是多样的。
例如,如果应该识别人,则训练数据应该代表不同的人,可能处于不同的姿势,并且不总是同一个人。
训练数据还应该是广泛的,使得预定(大)量的训练数据可以用于训练,使得可以执行有效和稳健的训练。
为了基于深度图像识别物体,可以使用来自飞行时间(ToF)相机的深度数据。
ToF相机可以测量发射光(在场景(例如,物体)处反射)的往返延迟,其可以指示深度,即,到场景的距离。
可以用不同的方法来确定往返延迟,例如直接飞行时间(dToF),其中基于时序直方图直接测量往返延迟的时间。众所周知,dToF可以基于SPAD(单光子雪崩二极管)技术。
此外,飞行时间深度图像可以基于间接ToF(iToF),其中确定发射的调制光与其反射之间的相移,其中,可以在图像传感器处对光进行解调(通常基于多个CAPD(电流辅助光子解调器))。
尽管存在用于识别物体的技术,但是通常期望提供一种物体识别方法和物体识别电路。
发明内容
根据第一方面,本公开提供了一种用于飞行时间相机数据的物体识别方法,包括:
基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
根据第二方面,本公开提供了一种飞行时间物体识别电路,用于识别飞行时间相机数据中的物体,所述飞行时间物体识别电路被配置为:
基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
在从属权利要求、下面的描述和附图中阐述了进一步的方面。
附图说明
参考附图通过示例的方式解释实施例,其中:
图1示出了如何掩模模拟物体的方法的本公开的实施例;
图2描绘了根据本公开的用于生成飞行时间训练数据的方法;
图3a和图3b描绘了用于训练识别由驾驶员或乘客执行的静音手势的二进制CNN分类器的飞行时间深度图像;
图4a和图4b描绘了用于训练检测正确系好安全带的二进制CNN分类器的飞行时间置信度图像;
图5以框图的形式描绘了根据本公开的物体识别训练电路的实施例;
图6以框图的形式描绘了根据本公开的物体识别训练方法;
图7以框图的形式描绘了根据本公开的用于飞行时间相机数据的物体识别方法;
图8以框图的形式描绘了根据本公开的用于飞行时间相机数据的物体识别方法的又一实施例;
图9示出了根据本公开的飞行时间成像装置的实施例;
图10是描绘车辆控制系统的示意性配置的示例的框图;
图11是辅助说明车辆外部信息检测部和成像部的安装位置的示例的图;以及
图12以框图的形式描绘了根据本公开的物体识别训练方法。
具体实施方式
在给出图1开始的实施例的详细描述之前,进行一般性说明。
如开头所述,众所周知基于飞行时间数据来执行物体识别。
如前所述,训练数据可能需要足够多样化和广泛。例如,对于手势识别,可能需要几个个体来生成具有足够多样化的数据集。此外,可能需要手动标记数据。
因此,已经认识到现有的方法可能是耗时和低效的。
然而,多样化和广泛的训练数据集可以被认为对于成功地执行物体识别(或者对于生成稳健的物体识别算法/模型)是至关重要的。
已知使用可以简化标记的硬件设备以便生成新的数据集(例如,使用在用手做出特定手势时按下的踏板,或者使用在手指、手、臂、头等上具有位置传感器的高级硬件系统)。
然而,这种设备可能需要花费精力和时间来设置,可能是昂贵的,并且可能不是可用的、可共享的或可运输的(当在家工作时这可能是不利的)。
因此,已经认识到,可以基于合成(模拟)物体数据和基于真实ToF(相机)数据的组合来生成训练数据,其中,可以人为地改变合成数据,以便在训练数据中创建高多样性和广泛性。
此外,已经认识到,已知的方法可能受到偏差的限制。例如,绿色草地背景上的斑马可能无法被已知的物体识别方法很好地检测/识别,因为训练数据集可能只包含黄色稀树草原背景上的斑马。
本公开不限于这一示例。类似地,如果用于训练安全带检测器的真实ToF数据包括与安全带交互或调节安全带的汽车用户的信息,则可以了解到用户胸部上的手可以是扣好安全带的指示。然而,这种方法将在用户每次仅触摸他或她的胸部时检测安全带,例如,打开或关闭夹克。可以通过使用合成训练数据来避免这种错误的学习。
因此,已经认识到,当使用合成数据时,可以生成任何背景上的任何物体(例如,绿色、黄色或任何其他背景上的斑马),从而可以实现稳健的物体识别。
因此,一些实施例涉及用于飞行时间相机数据的物体识别方法,包括:基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的真实飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
可以用根据本公开的物体识别电路来执行物体识别方法,如下面将进一步讨论的。
飞行时间相机数据可以包括在飞行时间获取过程中从飞行时间相机获取的数据,诸如dToF、iToF等。因此,飞行时间相机数据可以指示场景(例如,物体)的深度。
利用根据本公开的物体识别方法,可以识别任何预定物体。例如,物体识别方法可以用于仅识别一个物体,例如驾驶员是否系了安全带(即,物体可以被定义为与安全带组合的人,等等)。在一些实施例中,物体识别方法可以用于区分多个预定物体,例如手的不同手势。例如,不同的手势可以指示不同的预定命令(例如,在家庭自动化、游戏、战术或军事环境等的环境中)。
物体识别方法可以包括识别真实物体。如上所述,真实物体可以是任何物体,并且可以由飞行时间相机数据表示。
该识别可以基于预训练算法,该预训练算法可以基于飞行时间训练数据。
飞行时间训练数据可以是指例如通过人工智能在机器学习过程等中用于训练预训练算法的数据。因此,可以通过具有多组要识别的不同场景和物体来确定预训练算法,使得可以基于不同的场景和物体来训练物体识别。
可以基于真实飞行时间数据和模拟飞行时间数据的组合来生成飞行时间训练数据。例如,真实飞行时间数据可以从真实飞行时间采集中导出,并且可以代表真实场景。在一些实施例中,真实飞行时间数据可以用作或指示在飞行时间训练数据中表示的图像的背景。
当使用真实飞行时间数据作为背景时,只需要(对于硬件视觉设备,例如ToF相机)记录背景(深度)图像,这些图像可以进一步重用用于新的ToF训练数据。此外,可以使用已经存在的(深度)图像。因此,根据本公开,可以提供训练物体检测算法的廉价方式,因为可以需要更少的人力资源和更少的硬件。
模拟飞行时间数据可以从模拟飞行时间测量导出,或者可以是纯模拟和生成的,以便与真实飞行时间数据兼容。模拟飞行时间数据可以指示例如在飞行时间训练数据中表示的场景的前景中的模拟物体。
此外,在一些实施例中,通过在表示模拟物体的合成覆盖图像数据上应用掩模来生成模拟飞行时间数据。
合成覆盖图像数据可以表示可以涉及模拟物体的第一实例的合成覆盖,即,基于可以表示理想物体的模拟原始深度数据。
由于已经认识到使用理想物体可以导致物体识别算法中的错误,所以可以将掩模应用于合成覆盖图像数据。
通常,掩模可以使模拟物体看起来更真实,并且模拟物体可以基于掩模进行自适应。
由此,可以生成掩模的模拟物体。
此外,掩模可以基于合成覆盖图像数据。合成覆盖图像数据可以进行自适应,使得可以生成掩模,并且使得可以基于模拟物体/合成覆盖的特征(例如,边缘、距离/深度、轮廓等)来改变/修改合成覆盖。
掩模可以允许合成覆盖(例如,手势、安全带或可能或应该被识别的任何其他物体)被很好地嵌入到背景图像中,并且合成覆盖的纹理仍然被保留。
例如,可以生成(计算)二值化图像(二值化掩模),例如通过将(合成覆盖的)背景分配给二进制零(例如,可以显示为黑色)和将前景(即,模拟物体)分配给二进制一(例如,可以显示为白色)。由此,可以生成二值化合成覆盖。
在另一示例中,可以将侵蚀(例如,去除边缘、平滑等)应用于合成覆盖(从而生成侵蚀的合成覆盖),或者可以应用于二值化掩模合成覆盖(从而生成侵蚀的二值化掩模合成覆盖)。
在进一步示例中,可以应用合成覆盖、二值化合成覆盖、侵蚀合成覆盖或侵蚀二值化合成覆盖的模糊(例如,高斯模糊、平均模糊、框模糊、透镜模糊、运动径向模糊、形状模糊、智能模糊、表面模糊、场模糊、虹膜模糊、倾斜移位等)。
因此,可以设想不同的掩模方法,这些方法可以彼此组合。此外,不同掩模方法的应用顺序可能导致不同的掩模的模拟物体。例如,首先应用侵蚀然后应用二值化可能导致与首先应用二值化然后应用侵蚀不同的掩模的模拟物体。
因此,在一些实施例中,掩模基于模拟物体的二值化、模拟物体的侵蚀和模拟物体的模糊中的至少一者。
掩模可以附加地或可替代地基于对模拟物体的以下至少一者的应用:随机亮度变化、均匀亮度噪声、以及基于背景来平衡合成覆盖图像数据。
在一些实施例中,可以在掩模过程的任何阶段应用随机亮度变化、均匀亮度噪声和/或平衡,即,直接应用于合成覆盖、应用于二值化合成覆盖等等。
随机亮度变化可以基于本领域技术人员已知的任何随机过程。
此外,均匀亮度噪声可以基于任何噪声,诸如1/f噪声(粉红噪声)、1/f2噪声(布朗噪声)、白噪声或任何其他类型的噪声,其可以由任何噪声功率频谱来表示,如众所周知的。
如本文所讨论的,掩模(例如,在模糊处理之后)可以用于平衡(飞行时间训练数据的)结果(输出)图像的每个像素的背景图像和合成覆盖的“量”,同时保留合成覆盖的纹理。
根据本公开,可以确保背景和合成覆盖的深度和/或纹理信息不会通过生成掩模而被篡改/恶化。
此外,如果合成覆盖的深度随机改变,则可以训练模型,该模型可以检测到距离ToF相机不同距离的物体。
当将深度噪声应用于合成覆盖时,即使ToF相机的深度通道图像包含噪声,也可以训练能够检测物体的模型。
在一些实施例中,预训练算法基于生成对抗网络、卷积神经网络、递归神经网络和与具有长短期记忆的神经网络相组合的卷积神经网络中的至少一者。
因此,可以通过应用人工智能来训练预训练算法。
在生成对抗网络(GAN)的情况下,生成器网络部分可以用于进一步增加飞行时间训练数据集(其可以用于训练算法)。众所周知,GAN可以包括生成器网络和鉴别器网络。两者都可以在同时循环中进行训练,其中,生成器网络可以学习生成新的ToF训练数据,并且鉴别器网络可以学习拒绝由生成器网络生成的数据。在每个训练循环中,生成器网络可以向鉴别器提供新生成的图像或真实图像。如果两个网络都没有进一步改进,则可以停止训练,并且可以使用生成器网络来生成比该训练之前更好的(合成)ToF训练数据,其中,可以使用ToF训练数据训练根据本公开的算法。
在卷积神经网络(CNN)的情况下,(实时飞行时间数据的)深度通道图像可以用来自立体相机的视差图来替换,以训练使用立体相机的视差图像的CNN检测器。
在一些实施例中,当使用CNN时,图像序列可以不被保存为单个图像,而是被明确地保存为图像序列,以使用包含的运动信息来用3D卷积训练CNN。类似地,可以用递归神经网络(RNN)或在具有长短期记忆(LSTM)的网络中组合CNN或任何其他类型的人工智能来执行这种过程,该人工智能适用于使用来自序列图像的运动信息。
在一些实施例中,飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。
这种飞行时间训练数据可以用于训练神经网络,以预测用于物体定位的边界框和/或用于物体分割的物体掩模。
在一些实施例中,飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。
如众所周知的,置信度数据可以指示置信度图像,该置信度图像可以包含与飞行时间(深度)图像(由飞行时间图像数据表示)不同的信息。例如,在iToF中,可以基于I值和Q值的(简单)加法、毕达哥拉斯加法、平方加法等(I值和Q值分别是本领域技术人员本身已知的)来确定置信度。
因此,置信度数据可以用于识别与图像数据可以用于的不同的物体。这可以取决于实际的用例。例如,在具有低深度对比度的场景中,置信度数据可能更适用于识别真实物体,使得这些数据可以用于训练这样的场景。
例如,为了识别车辆的用户是否佩戴安全带,置信度数据可能更合适,因为安全带可能具有与用户衣服大致相同的深度,因此,飞行时间装置的深度分辨率可能不足以识别用户是否佩戴安全带。
在其中预期有足够的深度分辨率的其他实施例中,可以使用图像数据,例如,用于手势识别等。
通常,根据本公开,可以基于飞行时间训练数据来训练神经网络,以实现很好地概括应用于飞行时间相机数据的模型。
为了执行训练,在一些实施例中,设想了标记的深度通道验证集。
深度通道验证集可以指深度通道图像集(基于实时飞行时间数据和/或飞行时间相机数据),其用关于图像(即,真实物体)的内容的信息进行注释(例如,手动或自动),该图像内容被认为是由根据本公开的物体识别方法检测的。
标记的深度通道验证集可以指不会做出错误预测的完美模型的输出(即,理想情况)。
对于训练,可以预先选择或确定参数的合适配置和选择,从而可以实现对飞行时间相机数据的稳健推断。
因此,在一些实施例中,飞行时间训练数据进一步基于随机数据增强和超参数调整中的至少一者。
可以设想随机数据增强用于优化神经网络,该神经网络是例如基于诸如SGD(随机梯度下降)、Adam(自适应学习速率优化算法)等优化器来选择或选定的。
随机梯度下降算法可以选择飞行时间训练数据的小子集(该小子集被称为“批次”)来执行梯度下降。
随机数据增强的结果可能是,在优化器使用它来执行梯度下降之前,优化器请求的批次的每个图像都被变换。因此,随机数据增强可以指在优化器处理飞行时间训练数据之前应用于飞行时间训练数据的过程。换句话说:随机数据增强可以指图像变换操作,以便执行梯度下降。
在一些实施例中,随机数据增强包括以下中的至少一个:水平移位、竖直移位、旋转和缩放(由飞行时间训练数据表示的训练图像,使得可以生成新的飞行时间训练数据)。
随机数据增强可以导致训练图像的自由未定义空间,例如,该空间可以用像素重复操作来填充。
示例性地,随机数据增强可以包括0.3倍的水平和竖直移位、45度的旋转范围以及1.5倍的缩放。
为了执行随机数据增强,在一些实施例中,在要处理的图像的中心位置中生成合成覆盖。
在一些实施例中,可以在已经生成飞行时间训练数据之后应用随机数据增强,从而生成新的飞行时间训练数据。在一些实施例中,在执行训练的同时,将随机数据增强应用于飞行时间训练数据。
预训练算法的参数可以被称为超参数,其可以根据以下内容在超参数调整中进行调整:
已经认识到,如果CNN用于训练,则前两个卷积层的核大小、密集层的大小和/或优化器使用的学习速率可能对预训练算法应用于飞行时间相机数据的稳健性有影响。
为了提高稳健性,可以改变学习的超参数。
例如,可以使用全局搜索算法,例如多臂bandit算法,其中通过从预定超参数的预定范围中选择不同值来生成同一模型(即,同一算法)的一组不同版本。
在训练期间,可以选择模型的一个版本来对一定数量的时期进行训练,或者可以选择先前选择的模型版本来恢复训练。
利用这种方法,可以确定使用深度通道验证集的度量。
换句话说:超参数调整器可能需要目标或反馈函数来决定选择哪个模型来继续训练。作为度量,每个模型的验证精度可以用作反馈函数方面的度量(在这方面不限制本公开)。为了确定验证精度,可能需要验证集,该验证集可以基于真实记录的ToF图像,用于提供对在真实ToF数据上良好工作的模型的偏好。
超参数调整可进一步使用具有相同度量和相同深度通道验证集的早期停止(如下面将进一步讨论的)。
基于本公开,不仅可以训练深度图像,还可以训练置信度图像(如上所述)、灰度图像、彩色图像、来自立体相机的视差图以及从ToF传感器的不同波长接收的图像(在使用多个光源的情况下)。
在一些实施例中,基于早期停止来进一步训练预训练算法。
对于早期停止,可能需要标记的深度通道验证集(如上所述)。在训练期间,可以通过使用度量在深度通道验证集上验证模型的性能。如果模型在深度通道验证集上的性能在预定阈值内没有改善,则可以停止训练,并且可以使用到目前为止实现最佳性能的模型的版本作为最终模型。
因此,可以实现对飞行时间相机数据的稳健推断。
在一些实施例中,如本文所讨论的,真实物体包括手。
在一些实施例中,如本文所讨论的,该方法进一步包括:识别手的手势。
根据本公开,可以获得具有少量层和参数的小模型(与已知的物体识别模型相比),其可以在嵌入式系统(例如,CPU)上具有足够的性能。
在训练期间,可以在整个输入数据集(即,ToF训练数据)上随机选择合成覆盖和背景图像,以确保输入数据的多样性可以在输出数据集中很好地呈现。
此外,可以设想,至少一个梯度滤波器被应用于将随机深度变化应用于合成覆盖或将均匀深度噪声应用于合成覆盖中的至少一者,从而可以进一步提高训练模型(即,算法)的稳健性。
此外,合成覆盖不限于纯合成的(例如,纯人工生成的图像/物体数据),因为它可能已经是真实数据和合成数据的组合(例如,指示马的真实数据与指示马鞍的合成/模拟数据)。在一些实施例中,可以用标记的真实ToF数据来扩展ToF训练数据。
一些实施例涉及一种飞行时间物体识别电路,用于识别飞行时间相机数据中的物体,所述飞行时间物体识别电路被配置为:基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的,如本文所讨论的。
电路可以涉及逻辑元件之间的任何有线或无线连接,例如处理器(例如,CPU(中央处理单元)、GPU(图形处理单元))、FPGA(现场可编程门阵列)、相机(例如,飞行时间相机)、计算机、服务器等。
本公开不限于物体识别发生在获取飞行时间相机数据的相机内的情况,使得物体识别也可以外部化,例如在外部处理器(例如,移动电话、汽车等)、(远程)服务器等中。
在一些实施例中,如本文所讨论的,掩模基于模拟物体的二值化、模拟物体的侵蚀和模拟物体的模糊中的至少一者。在一些实施例中,掩模基于对模拟物体的以下至少一者的应用:随机亮度变化、均匀亮度噪声、以及基于背景来平衡合成覆盖图像数据。在一些实施例中,如本文所讨论的,预训练算法基于生成对抗网络、卷积神经网络、递归神经网络和卷积神经网络中的至少一者,与具有长短期记忆的神经网络相组合。在一些实施例中,如本文所讨论的,飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。在一些实施例中,如本文所讨论的,飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。在一些实施例中,如本文所讨论的,飞行时间训练数据进一步基于随机数据增强和超参数调整中的至少一者。在一些实施例中,如本文所讨论的,基于早期停止来进一步训练预训练算法。在一些实施例中,如本文所讨论的,真实物体包括手。在一些实施例中,如本文所讨论的,物体识别电路进一步被配置为:识别手的手势。
一些实施例涉及用于飞行时间相机数据的物体识别训练方法,包括:基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的,如本文所讨论的。
可以在适于执行人工智能训练的任何电路上执行该生成,例如任何类型的处理器、服务器、计算机等。可以在外部实体中以及在训练算法的同一实体上执行该生成。也可以分割该生成,例如,可以在一个实体中生成合成覆盖图像数据,并且可以在另一个实体中执行掩模。
在一些实施方案中,该方法进一步包括:获得实时飞行时间数据。
通常,例如,可以从处理器、存储器、飞行时间相机、服务器获得根据本公开的数据,可以在执行根据本公开的方法的电路中生成,或者可以基于上述任何一种的组合。
因此,在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:获得合成覆盖图像数据。在一些实施例中,如本文所讨论的,物体识别进一步包括基于合成覆盖图像数据生成掩模。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:基于模拟物体的二值化、模拟物体的侵蚀和模拟物体的模糊中的至少一个来生成掩模。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:基于对模拟物体的以下至少一者的应用来生成掩模:随机亮度变化、均匀亮度噪声、以及基于背景来平衡合成覆盖图像数据。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:在合成覆盖图像数据上应用掩模,从而生成模拟飞行时间数据。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:将真实飞行时间数据和模拟飞行时间数据组合,从而生成飞行时间训练数据。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:基于生成对抗网络、卷积神经网络、递归神经网络和卷积神经网络中的至少一者,与具有长短期记忆的神经网络相组合,生成用于基于飞行时间训练数据识别真实物体的算法。在一些实施例中,如本文所讨论的,飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。在一些实施例中,如本文所讨论的,飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:进一步基于随机数据增强和超参数调整中的至少一个来生成飞行时间训练数据。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:生成用于基于早期停止来识别真实物体的算法。在一些实施例中,如本文所讨论的,真实物体包括手。在一些实施例中,如本文所讨论的,物体识别训练方法进一步包括:识别手的手势。
一些实施例涉及飞行时间训练数据生成方法,包括:例如用3D动画软件创建三维物体或深度图像。
此外,在这种方法中,可以创建动画序列,例如,使用3D动画软件的虚拟相机来从不同视角观看3D物体。
动画序列可以被保存为具有来自阿尔法通道的黑色背景的深度通道格式的单个图像。
这些单个图像可以被称为“合成覆盖”。
利用真实ToF相机,可以记录深度通道图像(用于背景),其中,可以确保图像具有用于表示关于应用上下文的变化的变化内容。
通常,在一些实施例中,完整的训练数据可以基于模拟数据,即,背景也可以被模拟,并且不总是需要使用实时飞行时间数据。另一方面,覆盖图像也可以基于真实ToF采集,使得训练数据可以纯粹基于真实ToF数据。在这样的实施例中,可以以与上面关于合成覆盖讨论的类似的方式改变真实覆盖(例如,二值化、侵蚀等等)。
在一些实施例中,本文描述的方法还被实施为计算机程序,当在计算机和/或处理器上执行时,使计算机和/或处理器执行该方法。在一些实施例中,还提供了一种在其中存储有计算机程序产品的非暂时性计算机可读记录介质,该计算机程序产品在由诸如上述处理器的处理器执行时使得执行本文所述的方法。
返回到图1,示出了根据本公开的如何掩模模拟物体2(也称为合成(深度)覆盖)的方法的实施例,其基于合成覆盖图像数据,即,如何生成掩模的模拟物体,或者如何生成掩模。
如本文所讨论的,模拟物体2被二值化,从而生成二值化掩模3(或二值化模拟物体)。如本文所讨论的,二值化掩模2被侵蚀,从而生成侵蚀掩模4(也称为侵蚀的二值化模拟物体)。利用高斯模糊来模糊侵蚀掩模4,从而生成模糊掩模5(也称为模糊侵蚀二值化模拟物体)。
图2描绘了根据本公开的用于生成飞行时间训练数据的方法10。
在12,处理基于合成覆盖图像数据的合成覆盖11,使得深度随机改变。此外,在13,应用均匀深度噪声,从而生成模糊掩模14。将模糊掩模14应用于合成覆盖11(未示出),从而生成模拟飞行时间数据,如本文所讨论的。
此外,将基于真实飞行时间数据的背景图像15与掩模的模拟物体14组合,从而将真实飞行时间数据和模拟飞行时间数据组合。
由此,生成飞行时间训练数据,其在图2中表示为飞行时间图像16。
图3a描绘了用于训练识别由驾驶员或乘客执行的静音手势的二进制CNN分类器的飞行时间深度图像20。
静音手势是基于一个人在与另一个人的自然对话中向另一个人发出停止说话的信号的手势。
在该实施例中,ToF相机安装在车厢内的天花板上。CNN使用ToF相机的深度通道图像来检测用户是否执行静音手势来停止收音机播放音乐。
如众所周知的,图像20被划分成正类和负类。
对于每个类,生成合成覆盖图。如本文所讨论的,基于合成覆盖,生成飞行时间训练数据(或飞行时间训练图像)。
对于训练,存在验证数据,对于该数据,物体(在该实施例中是预定的手势)应该被识别(在正类中)或被识别为未被显示(负类)。
图3b描绘了对应于图3a的深度图像20的深度图像25的示意性表示,因此省略了重复的描述。
图4a描绘了用于训练检测正确系好安全带的二进制CNN分类器的飞行时间置信度图像30。
如图3a和图3b的情况,图像30被划分成正类和负类。
对于每一类,生成合成覆盖(例如,不同种类的织物,如带安全带的外套(正类)和不带安全带的外套(负类))。如本文所讨论的,基于合成覆盖,生成飞行时间训练数据(或飞行时间训练图像)。
为了给出合成覆盖的大小,给出以下非限制性示例:
可以设想在带和不带安全带的不同组件中,可以使用40种不同的合成纤维织物来生成一万一千二百种合成覆盖。合成覆盖可以用于以真实ToF图像作为背景生成每类四万两千个合成图像。在负类中,50%的没有覆盖的图像可以用于实现结果模型的更大稳健性。此外,可以将八千个真实ToF图像添加到每个类,使得每个类可以存在五万个图像,即,总共十万个图像,这可以构成ToF训练数据。此外,每类八千(标记的)真实ToF图像可以用于验证。然而,这些验证图像可以不用作训练图像,并且可以例如从具有其他八千个图像先前添加到ToF训练数据的不同人和织物的不同环境(例如,不同的汽车)导出。
回到图4a:在该实施例中,图4a的验证数据代表车厢内飞行时间图像,其中车辆的用户系上安全带,对于该图像,物体(在该实施例中用户上方的安全带)应该被识别(在正类中)或被识别为不存在(负类)。
在该实施例中,使用置信度通道图像描绘了用于ToF相机的基于CNN的安全带检测器。ToF相机安装在车厢内的天花板上。
CNN(即,算法)使用相机的置信度通道图像来检测驾驶员或乘客是否正确系好安全带。
图4b描绘了对应于图3a的置信度图像30的置信度图像35的示意性表示,因此省略了重复的描述。
图5以框图的形式描绘了根据本公开的物体识别训练电路40的实施例。
物体识别电路包括要训练的神经网络(NN)41。
神经网络的层42包括:合成数据生成模块43,被配置为生成合成数据(即,模拟ToF数据);随机数据增强模块44,被配置为应用随机数据增强,如本文所讨论的;早期停止模块45,被配置为执行早期停止,如本文所讨论的;以及超参数调整模块,被配置为执行超参数调整,如本文所讨论的。
如本文所讨论的,早期停止模块45和超参数调整模块46构成标记的深度通道验证集47。
作为NN 41的输出,生成经过验证的训练模型48。
图6以框图的形式描绘了根据本公开的物体识别训练方法50,其中,物体识别训练方法50由物体识别训练电路40执行。
在51,如本文所讨论的,通过掩模模拟物体来生成合成数据(即,模拟ToF数据)。
在52,如本文所讨论的,执行随机数据增强。
在53,如本文所讨论的,如果需要,执行早期停止。
在54,如本文所讨论的,如果需要,执行超参数调整。
因此,在55,获得标记的深度通道验证集,并且在56,获得要训练的模型。
在57,生成经过验证的训练模型。
图7以框图的形式描绘了根据本公开的用于飞行时间相机数据的物体识别方法60。
在61,如本文所讨论的,基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的真实飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
图8以框图的形式描绘了根据本公开的用于飞行时间相机数据的物体识别方法70的又一实施例。
在71,如本文所讨论的,基于预训练算法识别手(作为物体)的手势。
参考图9,示出了飞行时间(ToF)成像装置80的实施例,其可以用于深度感测或提供距离测量,特别是用于本文所讨论的技术,其中,ToF成像装置80被配置为iToF相机。ToF成像装置150具有飞行时间物体识别电路147,被配置为执行本文所讨论的方法,并且形成对ToF成像装置80的控制(并且其包括,未示出的对应的处理器、存储和存储器,如本领域技术人员众所周知的)。
ToF成像装置80具有调制光源81,并且其包括发光元件(基于激光二极管),其中,在本实施例中,发光元件是窄带激光元件。
如本文所讨论的,光源81向场景82(感兴趣区域或物体)发射光,即,调制光,该场景反射光。反射光由光学叠层83聚焦到光检测器84。
光检测器84具有飞行时间成像部,其基于形成在像素阵列中的多个CAPD(电流辅助光子解调器)和将从场景82反射的光聚焦到飞行时间成像部85(到图像传感器85的每个像素)的微透镜阵列86来实施。
当检测到从场景82反射的光时,发光时间和调制信息被馈送到包括飞行时间测量单元88的飞行时间物体识别电路或控制器87,该飞行时间测量单元也从飞行时间成像部85接收相应的信息。基于从光源81接收的调制光,飞行时间测量单元88计算已经从光源81发射并被场景82反射的接收到的调制光的相移,并基于此计算图像传感器85和场景82之间的距离d(深度信息)。
深度信息从飞行时间测量单元88馈送到飞行时间图像传感器电路87的3D图像重建单元89,该3D图像重建单元基于深度数据重建(生成)场景82的3D图像。
根据本公开的实施例的技术适用于各种产品。例如,根据本公开的实施例的技术可以被实施为移动体中包括的设备,该移动体是汽车、电动车辆、混合动力电动车辆、摩托车、自行车、个人移动车辆、飞机、无人机、船舶、机器人、工程机械、农业机械(拖拉机)等中的任何一种。
图10是描绘作为可以应用根据本公开的实施例的技术的移动体控制系统的示例的车辆控制系统7000的示意性配置的示例的框图。车辆控制系统7000包括经由通信网络7010彼此连接的多个电子控制单元。在图10所描绘的示例中,车辆控制系统7000包括驱动系统控制单元7100、车身系统控制单元7200、电池控制单元7300、车辆外部信息检测单元7400、车内信息检测单元7500以及集成控制单元7600。例如,将多个控制单元彼此连接的通信网络7010可以是符合任意标准的车载通信网络,例如控制器局域网(CAN)、本地互连网络(LIN)、局域网(LAN)或FlexRay(注册商标)等。
每个控制单元包括:根据各种程序执行算术处理的微型计算机;存储部分,其存储由微型计算机执行的程序、用于各种操作的参数等;以及驱动各种控制目标设备的驱动电路。每个控制单元进一步包括:网络接口(I/F),用于经由通信网络7010与其他控制单元执行通信;以及通信I/F,用于通过有线通信或无线电通信与车辆内外的设备、传感器等通信。图10中所示的集成控制单元7600的功能配置包括微型计算机7610、通用通信I/F 7620、专用通信I/F 7630、定位部分7640、信标接收部分7650、车载设备I/F 7660、声音/图像输出部分7670、车载网络I/F 7680和存储部分7690。类似地,其他控制单元包括微型计算机、通信I/F、存储部分等。
驱动系统控制单元7100根据各种程序来控制与车辆的驱动系统相关的设备的操作。例如,驱动系统控制单元7100用作驱动力产生设备的控制设备,该驱动力产生设备用于产生车辆的驱动力,例如内燃机,驱动电机等,用于将驱动力传递至车轮的驱动力传递机构,用于调节车辆的转向角的转向机构,用于产生车辆的制动力的制动设备等。驱动系统控制单元7100可以具有作为防抱死制动系统(ABS)或电子稳定控制(ESC)等的控制设备的功能。
驱动系统控制单元7100与车辆状态检测部分7110连接。例如,车辆状态检测部分7110包括检测车身的轴向旋转运动的角速度的陀螺仪传感器、检测车辆的加速度的加速度传感器、以及用于检测加速器踏板的操作量、制动踏板的操作量、方向盘的转向角、发动机速度或车轮的旋转速度等中的至少一者。驱动系统控制单元7100使用从车辆状态检测部分7110输入的信号执行算术处理,并且控制内燃机、驱动马达、电动转向设备、制动设备等。
车身系统控制单元7200根据各种程序控制设置在车身上的各种设备的操作。例如,车身系统控制单元7200用作用于无钥匙进入系统,智能钥匙系统,电动车窗设备或诸如前照灯,倒车灯,制动灯,转向灯,雾灯等的各种灯的控制设备。在这种情况下,可以将代替按键的从移动设备发送的无线电波或各种开关的信号输入到车身系统控制单元7200。车身系统控制单元7200接收这些输入的无线电波或信号,并控制车辆的门锁设备,电动窗设备,灯等。
电池控制单元7300根据各种程序控制作为驱动电机的电源的二次电池7310。例如,从包括二次电池7310的电池设备向电池控制单元7300提供关于电池温度、电池输出电压、电池中剩余电量等的信息。电池控制单元7300使用这些信号来执行算术处理,并且执行用于调节二次电池7310的温度的控制或者控制提供给电池设备的冷却设备等。
车辆外部信息检测单元7400检测关于包括车辆控制系统7000的车辆外部的信息。例如,车辆外部信息检测单元7400与成像部分7410和车辆外部信息检测部分7420中的至少一个连接。成像部分7410包括飞行时间(ToF)相机、立体相机、单目相机、红外相机和其他相机中的至少一者。例如,车辆外部信息检测部分7420包括用于检测当前大气条件或天气条件的环境传感器和用于检测包括车辆控制系统7000的车辆周围的另一车辆、障碍物、行人等的外围信息检测传感器中的至少一者。
例如,环境传感器可以是检测降雨的雨滴传感器、检测雾的雾传感器、检测日照程度的日照传感器和检测降雪的雪传感器中的至少一者。外围信息检测传感器可以是超声波传感器、雷达设备和LIDAR设备(光检测和测距设备,或激光成像检测和测距设备)中的至少一者。成像部分7410和车辆外部信息检测部分7420中的每一个都可以被提供作为独立的传感器或设备,或者可以被提供作为其中集成了多个传感器或设备的设备。
图11描绘了成像部分7410和车辆外部信息检测部分7420的安装位置的示例。例如,成像部分7910、7912、7914、7916和7918布置在车辆7900的前鼻、侧视镜、后保险杠和后门上的位置以及车辆内部的挡风玻璃的上部上的位置中的至少一个位置处。设置在前鼻的成像部分7910和设置在车辆内部的挡风玻璃的上部的成像部分7918主要获得车辆7900的前方的图像。设置在侧视镜的成像部分7912和7914主要获得车辆7900的侧面的图像。设置在后保险杠或后门的成像部分7916主要获得车辆7900后方的图像。设置在车辆内部的挡风玻璃的上部的成像部分7918主要用于检测前方车辆、行人、障碍物、信号、交通标志、车道等。
顺便提及,图11描绘了相应成像部分7910、7912、7914和7916的拍摄范围的示例。成像范围a表示设置在前鼻的成像部分7910的成像范围。成像范围b和c分别表示设置在侧视镜的成像部分7912和7914的成像范围。成像范围d表示设置在后保险杠或后门的成像部分7916的成像范围。例如,通过叠加由成像部分7910、7912、7914和7916成像的图像数据,可以获得从上方观看的车辆7900的鸟瞰图像。
例如,设置到车辆7900的前部、后部、侧面和角落以及车辆内部的挡风玻璃的上部的车辆外部信息检测部分7920、7922、7924、7926、7928和7930可以是超声波传感器或雷达设备。例如,设置在车辆7900的前鼻、后保险杠、车辆7900后门和车辆内部的挡风玻璃上部的车辆外部信息检测部分7920、7926和7930可以是LIDAR设备。这些车辆外部信息检测部分7920至7930主要用于检测前方车辆、行人、障碍物等。
回到图10继续描述。车辆外部信息检测单元7400使成像部分7410对车辆外部的图像成像,并且接收成像的图像数据。此外,车辆外部信息检测单元7400从连接到车辆外部信息检测单元7400的车辆外部信息检测部分7420接收检测信息。在车辆外部信息检测部分7420是超声波传感器、雷达设备或LIDAR设备的情况下,车辆外部信息检测单元7400发射超声波、电磁波等,并且接收接收到的反射波的信息。基于接收到的信息,车辆外部信息检测单元7400可以执行检测诸如人、车辆、障碍物、标志、道路上的字符等的物体的处理,或者检测到其距离的处理。基于接收到的信息,车辆外部信息检测单元7400可以执行识别降雨、雾、路面状况等的环境识别处理。基于接收到的信息,车辆外部信息检测单元7400可以计算到车辆外部的物体的距离。
此外,基于接收到的图像数据,车辆外部信息检测单元7400可以执行识别人、车辆、障碍物、标志、路面上的字符等的图像识别处理,或者检测到其距离的处理。车辆外部信息检测单元7400可以对接收到的图像数据进行诸如失真校正、对准等的处理,并组合由多个不同成像部分7410成像的图像数据,以生成鸟瞰图像或全景图像。车辆外部信息检测单元7400可以使用由包括不同成像部分的成像部分7410成像的图像数据来执行视点转换处理。
车内信息检测单元7500检测关于车辆内部的信息。车内信息检测单元7500例如与检测驾驶员的状态的驾驶员状态检测部分7510连接。驾驶员状态检测部分7510可以包括对驾驶员进行成像的相机、检测驾驶员生物信息的生物传感器、收集车辆内部声音的麦克风等。例如,生物传感器布置在座椅表面、方向盘等中,并检测坐在座椅中的乘客或握着方向盘的驾驶员的生物信息。车内信息检测部分7500基于从驾驶员状态检测部分7510输入的检测信息,可以计算出驾驶员的疲劳度或驾驶员的集中度,或者可以确定驾驶员是否在打瞌睡。车内信息检测单元7500可以对通过收集声音获得的音频信号进行诸如噪声消除处理等的处理。
集成控制单元7600根据各种程序控制车辆控制系统7000内的一般操作。集成控制单元7600与输入部分7800连接。输入部分7800由能够由乘客输入操作的设备实现,例如,触摸面板、按钮、麦克风、开关、杆等。可以向集成控制单元7600提供通过对通过麦克风输入的语音进行语音识别而获得的数据。例如,输入部分7800可以是使用红外线或其它无线电波的遥控设备,或者外部连接的设备,例如支持车辆控制系统7000的操作的移动电话或个人数字助理(PDA)等。例如,输入部分7800可以是相机。在这种情况下,乘客可以通过手势输入信息。可替代地,可以输入通过检测乘客佩戴的可穿戴设备的移动而获得的数据。此外,例如,输入部分7800可以包括输入控制电路等,该输入控制电路基于由乘客等使用上述输入部分7800输入的信息生成输入信号,并且将生成的输入信号输出到集成控制单元7600。乘客等通过操作输入部分7800向车辆控制系统7000输入各种数据或给出用于处理操作的指令。
存储部分7690可以包括存储由微型计算机执行的各种程序的只读存储器(ROM)和存储各种参数、操作结果、传感器值等的随机存取存储器(RAM)。此外,存储部分7690可以由磁存储设备实现,例如硬盘驱动器(HDD)等、半导体存储设备、光存储设备、磁光存储设备等。
通用通信I/F7620是一种通用通信I/F,其协调与外部环境7750中存在的各种装置的通信。通用通信I/F 7620可以实现蜂窝通信协议,例如全球移动通信系统(GSM(注册商标))、全球微波接入互操作性(WiMAX(注册商标,或者另一无线通信协议,例如无线LAN(也称为无线保真(Wi-Fi(注册商标))、蓝牙(注册商标)等。例如,通用通信I/F 7620可以通过基站或接入点连接到外部网络(例如,互联网、云网络或公司专用网络)上的装置(例如,应用服务器或控制服务器)。此外,例如,通用通信I/F 7620可以通过使用对等(P2P)技术连接到存在于车辆附近的终端(例如,该终端是驾驶员、行人或商店的终端或机器类型通信(MTC)终端)。
专用通信I/F 7630是一种支持开发用于车辆中的通信协议的通信I/F。例如,专用通信I/F 7630可以实现标准协议,例如车辆环境中的无线接入(WAVE),其是电气和电子工程师协会(IEEE)802.11p作为较低层和IEEE 1609作为较高层的组合、专用短程通信(DSRC)或蜂窝通信协议。专用通信I/F 7630通常将V2X通信作为包括车辆和车辆之间的通信(车辆到车辆)、道路和车辆之间的通信(车辆到基础设施)、车辆和住宅之间的通信(车辆到住宅)以及行人和车辆之间的通信(车辆到行人)中的一个或多个的概念来执行。
例如,定位部分7640通过接收来自GNSS卫星的全球导航卫星系统(GNSS)信号(例如,来自全球定位系统(GPS)卫星的GPS信号)来执行定位,并且生成包括车辆的纬度、经度和高度的位置信息。顺便提及,定位部分7640可以通过与无线接入点交换信号来识别当前位置,或者可以从诸如移动电话、个人手持电话系统(PHS)或具有定位功能的智能电话的终端获得位置信息。
例如,信标接收部分7650接收从在道路等上安装的无线电台发送的无线电波或电磁波,从而获得关于当前位置、拥堵、封闭道路、必要时间等的信息。顺便提及,信标接收部分7650的功能可以包括在上述专用通信I/F 7630中。
车载设备I/F 7660是协调微型计算机7610和存在于车辆内部的各种车载设备7760之间的连接的通信接口。车载设备I/F 7660可以使用无线通信协议建立无线连接,例如无线LAN、蓝牙(注册商标)、近场通信(NFC)或无线通用串行总线(WUSB)。此外,车载设备I/F 7660可以经由连接终端(图中未示出)(以及必要时的电缆)通过通用串行总线(USB)、高清多媒体接口(HDMI(注册商标))、移动高清晰度链路(MHL)等建立有线连接。例如,车载设备7760可以包括由乘客拥有的移动设备和可穿戴设备、以及被携带到车辆中或附接到车辆的信息设备中的至少一者。车载设备7760还可以包括搜索到任意目的地的路径的导航设备。车载设备I/F 7660与这些车载设备7760交换控制信号或数据信号。
车载网络I/F 7680是调解微型计算机7610和通信网络7010之间的通信的接口。车载网络I/F 7680根据通信网络7010支持的规定协议发送和接收信号等。
集成控制单元7600的微型计算机7610根据基于经由通用通信I/F7620、专用通信I/F 7630、定位部分7640、信标接收部分7650、车载设备I/F 7660和车载网络I/F 7680中的至少一个获得的信息的各种程序来控制车辆控制系统7000。例如,基于获得的关于车辆的内部和外部的信息,微型计算机7610可以计算驱动力生成设备、转向机构或制动设备的控制目标值,并且向驱动系统控制单元7100输出控制命令。例如,微型计算机7610可以执行旨在实现高级驾驶员辅助系统(ADAS)功能的协作控制,该功能包括为车辆避免碰撞或减轻冲击,基于跟随距离的驾驶,保持车速的驾驶,车辆碰撞的警告,车辆偏离车道的警告等。此外,微型计算机7610可以基于获得的关于车辆周围的信息,通过控制驱动力生成设备,转向机构,制动设备等来执行旨在用于自动驾驶的协同控制,该协同控制使车辆不依赖于驾驶员的操作而自主地行驶。
微型计算机7610可以基于经由通用通信I/F 7620、专用通信I/F 7630、定位部分7640、信标接收部分7650、车载设备I/F 7660或车载网络I/F 7680中的至少一个获得的信息来生成车辆与物体(例如周围建筑物或人)之间的三维距离信息,并且生成包括关于车辆当前位置的周围信息的本地地图信息。此外,基于所获得的信息,微型计算机7610可以预测危险,例如车辆的碰撞、行人的接近等、或者进入封闭道路等,并生成警告信号。例如,警告信号可以是用于产生警告声音或打开警告灯的信号。
声音/图像输出部分7670将声音和图像中的至少一个的输出信号发送到能够以视觉或听觉方式将信息通知给车辆的乘员或车辆的外部的输出设备。在图10的示例中,音频扬声器7710,显示部分7720和仪表板7730被示出为输出设备。例如,显示部分7720可以包括车载显示器和平视显示器中的至少一者。显示部分7720可以具有增强现实(AR)显示功能。输出设备可以是这些设备之外的其他设备,并且可以是另一设备,例如耳机、可穿戴设备,例如由乘客佩戴的眼镜型显示器等、投影仪、灯等。在输出设备是显示设备的情况下,显示设备以诸如文本、图像、表格、图表等的各种格式可视地显示由微型计算机7610执行的各种类型的处理获得的结果或从其它控制单元接收的信息。此外,在输出设备是音频输出设备的情况下,音频输出设备将由再现的音频数据或声音数据等构成的音频信号转换为模拟信号,以音频地方式输出模拟信号。
顺便提及,在图10所示的示例中,经由通信网络7010彼此连接的至少两个控制单元可以集成到一个控制单元中。可替代地,每个单独的控制单元可以包括多个控制单元。此外,车辆控制系统7000可以包括图中未示出的另一控制单元。此外,由上述描述中的一个控制单元执行的部分或全部功能可以被分配给另一个控制单元。也就是说,只要经由通信网络7010发送和接收信息,就可以由任何控制单元执行预定的算术处理。类似地,连接到控制单元之一的传感器或设备可以连接到另一个控制单元,并且多个控制单元可以经由通信网络7010相互发送和接收检测信息。
顺便提及,根据本公开的用于实现物体识别电路或物体识别训练电路的功能的计算机程序可以在控制单元等中的一个中实施。此外,还可以提供存储这样的计算机程序的计算机可读记录介质。记录介质例如是磁盘、光盘、磁光盘、闪存等。此外,例如,可以在不使用记录介质的情况下经由网络分发上述计算机程序。
在上述车辆控制系统7000中,本公开的物体识别电路可以应用于图10中描绘的应用示例中的集成控制单元7600。
此外,物体识别电路的至少一部分组成元件可以在用于图10中描绘的集成控制单元7600的模块(例如,用单个管芯形成的集成电路模块)中实施。可替代地,可以由图10中描绘的车辆控制系统7000的多个控制单元来实施物体识别电路。
图12以框图的形式描绘了根据本公开的物体识别训练方法100。
在101,从存储多个深度图像存储器获得真实ToF数据。
在102,从存储指示模拟物体的合成覆盖图像数据的存储器获得合成覆盖图像数据102。
在103,如本文所讨论的,基于二值化、侵蚀和模糊生成掩模。此外,如本文所讨论的,基于随机亮度变化、均匀亮度噪声的应用以及基于背景来平衡合成覆盖图像数据来生成掩模。
在104,将掩模应用于合成覆盖图像数据。
在105,如本文所讨论的,组合真实的和合成的ToF数据,使得所得到的ToF数据指示待识别的物体(基于模拟的ToF数据)和背景(基于真实的ToF数据)。
因此,在106,生成ToF训练数据,其进一步包括边界框信息和像素精确掩模信息,并且其中,ToF训练数据表示深度图像数据和置信度数据两者。
在106,如本文所讨论的,基于随机数据增强和超参数调整,进一步生成ToF训练数据,其中,应用早期停止。
在107,如本文所讨论的,在CNN中生成用于基于ToF训练数据识别真实物体的算法。如本文所讨论的,进一步基于早期停止生成算法。
在108,识别作为真实物体的手的手势以验证算法。
应当认识到,实施例描述了具有方法步骤的示例性排序的方法。然而,仅仅是出于说明的目的而给出方法步骤的特定顺序,不应该被解释为具有约束力。例如,可以互换图2的实施例中的12和13的顺序。此外,可以互换图12的实施例中的101和102的顺序。方法步骤的顺序的其他变化对于本领域技术人员来说可能是显而易见的。
请注意,将物体检测电路87划分为单元88和89仅出于说明目的,并且本公开不限于特定单元中的任何特定功能划分。例如,物体检测电路87可以通过相应的编程处理器、现场可编程门阵列(FPGA)等来实施。
如果没有另外说明,则在本说明书中描述的和在所附权利要求中要求的所有单元和实体可以实施为集成电路逻辑,例如在芯片上,并且如果没有另外说明,可以通过软件实施由这些单元和实体提供的功能。
就至少部分使用软件控制的数据处理装置来实现上述公开的实施例而言,将会理解,提供这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或其他介质被设想为本公开的方面。
注意,本技术也可以被配置为如下所述。
(1)一种用于飞行时间相机数据的物体识别方法,包括:
基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
(2)根据(1)的物体识别方法,其中,掩模基于模拟物体的二值化、模拟物体的侵蚀和模拟物体的模糊中的至少一者。
(3)根据(1)或(2)的物体识别方法,其中,掩模基于对模拟物体的以下至少一者的应用:随机亮度变化、均匀亮度噪声、以及基于背景来平衡合成覆盖图像数据。
(4)根据(1)至(3)中任一项的物体识别方法,其中,预训练算法基于生成对抗网络、卷积神经网络、递归神经网络和卷积神经网络中的至少一者,与具有长短期记忆的神经网络相组合。
(5)根据(1)至(4)中任一项的物体识别方法,其中,飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。
(6)根据(1)至(5)中任一项的物体识别方法,其中,飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。
(7)根据(1)至(6)中任一项的物体识别方法,其中,飞行时间训练数据进一步基于随机数据增强和超参数调整中的至少一者。
(8)根据(1)至(7)中任一项的物体识别方法,其中,基于早期停止来进一步训练预训练算法。
(9)根据(1)至(8)中任一项的物体识别方法,其中,真实物体包括手。
(10)根据(1)至(9)中任一项的物体识别方法,该方法进一步包括:
识别手的手势。
(11)一种计算机程序,包括当在计算机上执行时使计算机执行根据(1)至(10)中任一项的方法的程序代码。
(12)一种非暂时性计算机可读记录介质,其中存储计算机程序代码产品,当由处理器执行时,使得执行根据(1)至(10)中任一项的方法。
(13)一种飞行时间物体识别电路,用于识别飞行时间相机数据中的物体,所述飞行时间物体识别电路被配置为:
基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练预训练算法,其中,基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
(14)根据(13)的飞行时间物体识别电路,其中,掩模基于模拟物体的二值化、模拟物体的侵蚀和模拟物体的模糊中的至少一者。
(15)根据(13)或(14)的飞行时间物体识别电路,其中,掩模基于对模拟物体的以下至少一者的应用:随机亮度变化、均匀亮度噪声、以及基于背景来平衡合成覆盖图像数据。
(16)根据(13)至(15)中任一项的飞行时间物体识别电路,其中,预训练算法基于生成对抗网络、卷积神经网络、递归神经网络和卷积神经网络中的至少一者,与具有长短期记忆的神经网络相组合。
(17)根据(13)至(16)中任一项的飞行时间物体识别电路,其中,飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。
(18)根据(13)至(17)中任一项的飞行时间物体识别电路,其中,飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。
(19)根据(13)至(18)中任一项的飞行时间物体识别电路,其中,飞行时间训练数据进一步基于随机数据增强和超参数调整中的至少一者。
(20)根据(13)至(19)中任一项的飞行时间物体识别电路,其中,基于早期停止来进一步训练预训练算法。
(21)根据(13)至(20)中任一项的飞行时间物体识别电路,其中,真实物体包括手。
(22)根据(21)的飞行时间物体识别电路,进一步被配置为:
识别手的手势。
(23)一种用于飞行时间相机数据的物体识别训练方法,包括:
基于指示背景的实时飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合来生成飞行时间训练数据,从而生成掩模的模拟物体,掩模是基于合成覆盖图像数据生成的。
(24)根据(23)的物体识别训练方法,进一步包括:
获得实时飞行时间数据。
(25)根据(23)或(24)的物体识别方法,进一步包括:
获得合成覆盖图像数据。
(26)根据(25)的物体识别训练方法,进一步包括:
基于合成覆盖图像数据生成掩模。
(27)根据(26)的物体识别训练方法,进一步包括:
基于模拟物体的二值化、模拟物体的侵蚀和模拟物体的模糊中的至少一者来生成掩模。
(28)根据(26)或(27)的物体识别训练方法,进一步包括:
基于对模拟物体的以下至少一者的应用来生成掩模:随机亮度变化、均匀亮度噪声、以及基于背景来平衡合成覆盖图像数据。
(29)根据(26)至(28)中任一项的物体识别训练方法,进一步包括:
在合成覆盖图像数据上应用掩模,从而生成模拟飞行时间数据。
(30)根据(23)至(29)中任一项的物体识别训练方法,进一步包括:
将真实飞行时间数据和模拟飞行时间数据组合,从而生成飞行时间训练数据。
(31)根据(23)至(30)中任一项的物体识别训练方法,进一步包括:
基于生成对抗网络、卷积神经网络、递归神经网络和卷积神经网络中的至少一者,与具有长短期记忆的神经网络相组合,生成用于基于飞行时间训练数据识别真实物体的算法。
(32)根据(23)至(31)中任一项的物体识别训练方法,其中,飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。
(33)根据(23)至(32)中任一项的物体识别训练方法,其中,飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。
(34)根据(23)至(33)中任一项的物体识别训练方法,进一步包括:
进一步基于随机数据增强和超参数调整中的至少一个来生成飞行时间训练数据。
(35)根据(23)至(34)中任一项的物体识别训练方法,进一步包括:
生成用于基于早期停止来识别真实物体的算法。
(36)根据(23)至(35)中任一项的物体识别训练方法,其中,真实物体包括手。
(37)根据(36)的物体识别训练方法,该方法进一步包括:
识别手的手势。
(38)一种计算机程序,包括当在计算机上执行时使计算机执行根据(21)至(37)中任一项的方法的程序代码。
(39)一种非暂时性计算机可读记录介质,其中,存储计算机程序代码产品,当由处理器执行时,使得执行根据(21)至(37)中任一项的方法。

Claims (20)

1.一种用于飞行时间相机数据的物体识别方法,包括:
基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练所述预训练算法,其中,基于指示背景的真实飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合,来生成所述飞行时间训练数据,从而生成掩模的模拟物体,所述掩模是基于所述合成覆盖图像数据生成的。
2.根据权利要求1所述的物体识别方法,其中,所述掩模基于所述模拟物体的二值化、所述模拟物体的侵蚀和所述模拟物体的模糊中的至少一者。
3.根据权利要求1所述的物体识别方法,其中,所述掩模基于对所述模拟物体应用以下至少一者:随机亮度变化、均匀亮度噪声、以及基于所述背景来平衡所述合成覆盖图像数据。
4.根据权利要求1所述的物体识别方法,其中,所述预训练算法是基于生成对抗网络、卷积神经网络、递归神经网络和与具有长短期记忆的神经网络相组合的卷积神经网络中的至少一者的。
5.根据权利要求1所述的物体识别方法,其中,所述飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。
6.根据权利要求1所述的物体识别方法,其中,所述飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。
7.根据权利要求1所述的物体识别方法,其中,所述飞行时间训练数据进一步基于随机数据增强和超参数调整中的至少一者。
8.根据权利要求1所述的物体识别方法,其中,基于早期停止来进一步训练所述预训练算法。
9.根据权利要求1所述的物体识别方法,其中,所述真实物体包括手。
10.根据权利要求9所述的物体识别方法,所述方法进一步包括:识别所述手的手势。
11.一种飞行时间物体识别电路,用于识别飞行时间相机数据中的物体,所述飞行时间物体识别电路被配置为:
基于预训练算法识别真实物体,其中,基于飞行时间训练数据来训练所述预训练算法,其中,基于指示背景的真实飞行时间数据和通过在表示模拟物体的合成覆盖图像数据上应用掩模而生成的模拟飞行时间数据的组合,来生成所述飞行时间训练数据,从而生成掩模的模拟物体,所述掩模是基于所述合成覆盖图像数据生成的。
12.根据权利要求11所述的飞行时间物体识别电路,其中,所述掩模基于所述模拟物体的二值化、所述模拟物体的侵蚀和所述模拟物体的模糊中的至少一者。
13.根据权利要求11所述的飞行时间物体识别电路,其中,所述掩模基于对所述模拟物体应用以下至少一者:随机亮度变化、均匀亮度噪声、以及基于所述背景来平衡所述合成覆盖图像数据。
14.根据权利要求11所述的飞行时间物体识别电路,其中,所述预训练算法基于生成对抗网络、卷积神经网络、递归神经网络和与具有长短期记忆的神经网络相组合的卷积神经网络中的至少一者。
15.根据权利要求11所述的飞行时间物体识别电路,其中,所述飞行时间训练数据进一步包括边界框信息和像素精确掩模信息中的至少一者。
16.根据权利要求11所述的飞行时间物体识别电路,其中,所述飞行时间训练数据表示飞行时间图像数据和飞行时间置信度数据中的至少一者。
17.根据权利要求11所述的飞行时间物体识别电路,其中,所述飞行时间训练数据进一步基于随机数据增强和超参数调整中的至少一者。
18.根据权利要求11所述的飞行时间物体识别电路,其中,基于早期停止来进一步训练所述预训练算法。
19.根据权利要求11所述的飞行时间物体识别电路,其中,所述真实物体包括手。
20.根据权利要求19所述的飞行时间物体识别电路,进一步被配置为:
识别所述手的手势。
CN202280009429.XA 2021-01-15 2022-01-13 物体识别方法和飞行时间物体识别电路 Pending CN116710971A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21151753 2021-01-15
EP21151753.7 2021-01-15
PCT/EP2022/050645 WO2022152792A1 (en) 2021-01-15 2022-01-13 Object recognition method and time-of-flight object recognition circuitry

Publications (1)

Publication Number Publication Date
CN116710971A true CN116710971A (zh) 2023-09-05

Family

ID=74184562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280009429.XA Pending CN116710971A (zh) 2021-01-15 2022-01-13 物体识别方法和飞行时间物体识别电路

Country Status (5)

Country Link
US (1) US20240071122A1 (zh)
EP (1) EP4278330A1 (zh)
JP (1) JP2024503389A (zh)
CN (1) CN116710971A (zh)
WO (1) WO2022152792A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022178287A1 (en) * 2021-02-19 2022-08-25 Covera Health Uncertainty-aware deep reinforcement learning for anatomical landmark detection in medical images

Also Published As

Publication number Publication date
US20240071122A1 (en) 2024-02-29
JP2024503389A (ja) 2024-01-25
EP4278330A1 (en) 2023-11-22
WO2022152792A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
JP6984215B2 (ja) 信号処理装置、および信号処理方法、プログラム、並びに移動体
CN108572663B (zh) 目标跟踪
JP7043755B2 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
JP7351293B2 (ja) 信号処理装置、および信号処理方法、プログラム、並びに移動体
US20200409387A1 (en) Image processing apparatus, image processing method, and program
WO2019130945A1 (ja) 情報処理装置、情報処理方法、プログラム、及び移動体
JP7143857B2 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
CN110691986B (zh) 用于计算机视觉的设备、方法和非暂时性计算机可读记录介质
JP7180670B2 (ja) 制御装置、制御方法、並びにプログラム
JP2023126642A (ja) 情報処理装置、情報処理方法、及び、情報処理システム
JP7497298B2 (ja) 情報処理装置、情報処理方法、プログラム、移動体制御装置、及び、移動体
KR20200043391A (ko) 화상 블러 보정을 위한 화상 처리, 화상 처리 방법 및 프로그램
US20220397675A1 (en) Imaging systems, devices and methods
EP4160526A1 (en) Information processing device, information processing method, information processing system, and program
US20240071122A1 (en) Object recognition method and time-of-flight object recognition circuitry
WO2021193103A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7487178B2 (ja) 情報処理方法、プログラム、及び、情報処理装置
CN115128566A (zh) 雷达数据确定电路及雷达数据确定方法
CN113614782A (zh) 信息处理装置、信息处理方法和程序
US20240004075A1 (en) Time-of-flight object detection circuitry and time-of-flight object detection method
WO2023021755A1 (ja) 情報処理装置、情報処理システム、モデル及びモデルの生成方法
WO2024024471A1 (ja) 情報処理装置、情報処理方法、及び、情報処理システム
US11645364B2 (en) Systems and methods for object detection using stereovision information
WO2024009739A1 (ja) 光学式測距センサ、及び光学式測距システム
WO2023053718A1 (ja) 情報処理装置及び情報処理方法、学習装置及び学習方法、並びにコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination