CN110969079A - 运载工具的对象检测系统 - Google Patents

运载工具的对象检测系统 Download PDF

Info

Publication number
CN110969079A
CN110969079A CN201910923803.7A CN201910923803A CN110969079A CN 110969079 A CN110969079 A CN 110969079A CN 201910923803 A CN201910923803 A CN 201910923803A CN 110969079 A CN110969079 A CN 110969079A
Authority
CN
China
Prior art keywords
image signal
detection system
object detection
image
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910923803.7A
Other languages
English (en)
Other versions
CN110969079B (zh
Inventor
郑阳
I·H·伊扎特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delphi Technologies Inc
Original Assignee
Delphi Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delphi Technologies Inc filed Critical Delphi Technologies Inc
Publication of CN110969079A publication Critical patent/CN110969079A/zh
Application granted granted Critical
Publication of CN110969079B publication Critical patent/CN110969079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/13Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths with multiple sensors
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/865Combination of radar systems with lidar systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0242Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using non-visible light signals, e.g. IR or UV signals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Optics & Photonics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

对象检测系统(20)包括彩色相机(28)和红外相机(30)、控制器电路(26)以及指令(40)。彩色相机(28)和红外相机(30)被配置成用于输出相应的彩色图像信号(34)以及红外图像信号(36)。控制器电路(26)与相机(28、30)通信,并且包括处理器(33)以及存储介质(35)。处理器(33)被配置成用于接收彩色图像信号(34)以及红外图像信号(36)并将其转换成与所检测的对象(39)相关联的分类数据(41)以及位置数据(43)。指令(40)被存储在至少一个存储介质(35)中并且由至少一个处理器(33)执行,并且被配置成用于利用彩色图像信号(34)以及红外图像信号(36)来形成相应的第一图(50A)和第二图(50B)。第一图(50A)具有第一多个层(54A‑64A),并且第二图(50B)具有第二多个层(54B‑64B)。从每一个图中所选择的层被配对并且融合以便形成促进分类数据(41)和位置数据(43)的表达的特征金字塔(48)。

Description

运载工具的对象检测系统
相关申请的交叉引用
本专利申请要求于2018年9月28日提交的美国临时专利申请第62/737970号的优先权,该临时专利申请的全部内容通过引用结合于此。
背景技术
本公开涉及对象检测系统,并且更具体地,涉及行人检测系统以及操作的方法。
行人检测是许多应用的任务,包括例如运载工具的自主驾驶的领域。在运载工具可被部署在城市街道上前,行人的检测是自主运载工具的重要属性。当前,人工智能已经在行人检测的研究中取得了进展。然而,进一步改进是期望的,尤其是在诸如微弱照明、距离较远并且行人被遮挡的环境中。
因此,期望进一步开发并且改进对象检测系统。
发明内容
根据本公开的一个非限制性示例性实施例的对象检测系统包括彩色相机以及红外相机、控制器电路以及指令。彩色相机和红外相机被配置成用于输出相应的彩色图像信号以及红外图像信号。控制器电路与相机通信,并且包括处理器以及存储介质。处理器被配置成用于接收彩色图像信号以及红外图像信号并将其转换成与所检测的对象相关联的分类数据以及位置数据。指令被存储在至少一个存储介质中并且由至少一个处理器执行,并且被配置成用于利用彩色图像信号以及红外图像信号来形成相应的第一图和第二图。第一图具有第一多个层,并且第二图具有第二多个层。从每一个图中所选择的层被配对并且融合以便形成促进分类数据和位置数据的表达的特征金字塔。
根据另一实施例,用于检测行人的方法包括从视觉图像传感器处接收指示区域的视觉图像的视觉图像信号的步骤。下一步骤包括从热图像传感器处接收指示区域的热图像的热图像信号。随后通过处理器执行应用门控融合单元以便检测区域中的行人的指令来将视觉图像信号以及热图像信号转换为分类数据以及定位数据。
根据另一实施例,控制器电路促进对象的检测。控制器电路包括至少一个处理器以及至少一个存储介质。处理器被配置成用于接收分别从彩色相机以及图像设备接收到的彩色图像信号以及第二图像信号。处理器执行指令以便将彩色图像信号以及第二图像信号转换为相应的第一图和第二图。第一图具有第一多个特征层,并且第二图具有第二多个特征层。使用门控融合将从第一图和第二图选择的特征层配对并且融合以便至少部分地形成特征金字塔,该特征金字塔促进从彩色图像信号以及第二图像信号到与所检测的对象相关联的分类数据和位置数据的转换。存储介质被配置成用于存储由至少一个处理器检取的可执行指令。
根据下文结合附图进行的说明,这些和其他优点以及特征将变得更加明显。
附图简述
在本说明书结尾处的权利要求书中特别指出并明确要求了被视为本发明的主题。通过结合所附附图的以下具体描述本发明的上述的以及其他特征和优势是显而易见的,在附图中:
图1是利用对象检测系统的运载工具的示意性图示;
图2是对象检测系统的融合架构的示意性图示;
图3是对象检测系统的门控融合单元的示意性图示;
图4是门控融合单元的第二实施例的示意性图示;
图5是融合架构的第二实施例的示意性图示;
图6是融合架构的第三实施例的示意性图示;
图7是融合架构的第四实施例的示意性图示;以及
图8是融合架构的第五实施例的示意性图示。
具体实施方式
现在将详细参照实施例,在附图中示出这些实施例的示例。在以下详细描述中,阐述了众多具体细节以便提供对各个所描述的实施例的透彻理解。然而,对本领域的普通技术人员将显而易见的是,无需这些具体细节就可实践所描述的各种实施例。在其它实例中,并未对公知方法、程序、组件、电路以及网络进行详细描述以免不必要地模糊各实施例的各方面。
现在参考附图,其中本发明将会参照特定实施例描述但并不限于此,系统20可包括运载工具22(其可以是自主运载工具)以及对象检测系统24(例如,行人检测系统),该对象检测系统24可如图1中所示被包括为运载工具22的一部分。尽管被示出为在道路上行驶的运载工具,运载工具22可以是针对人和/或货物的运输的任意形式,包括海上运载工具、空中运载工具等。
运载工具22可包括至少一个控制器电路26以及多个传感器或检测器(即,三个,分别被示出为28、30、32)。控制器电路26包括一个或多个处理器33以及一个或多个电子存储介质35。处理器33是中央处理单元(CPU)、多处理器、微控制器单元(MCU)、数字信号处理器(DSP)、专用集成电路、以及能够执行软件指令或能以其他方式控制来根据预先确定的逻辑运转的其他中的一个或多个的任意组合。存储介质35可选的是读写存储器(RAM)和只读存储器(ROM)的任意组合。存储介质35也可包括持久性存储,其可以是固态存储器、磁性存储器以及存储着具有软件指令的电脑程序(即,应用)的光学存储器中的任意一个或其组合。在一个示例中,存储介质35可以是非瞬态的。
多个传感器可包括可见光成像传感器28(即,彩色相机)、红外或热成像传感器30(即,长波红外传感器)、雷达传感器或检测器32等。传感器28、30、32可将相应的信号(见箭头34、36、38)传送至控制器电路26,并且可分别用于多个功能。例如,传感器28、30、32中的一个或多个可以是系统20或运载工具22的各种系统的部分或由系统20或运载工具22的各种系统利用。此类系统可包括导航系统(例如,基于卫星的、GPS)、计算机视觉系统、雷达系统、光检测和测距(LiDAR)系统、陆基系统(例如,信标站)等。所设想以及所理解的是,可使用LiDAR传感器代替红外传感器30。
对象检测系统24可被配置成用于识别对象39(例如,行人)的存在并且相对于运载工具22定位对象。在一个实施例中,整个对象检测系统24可由运载工具22承载。在其他实施例中,计算机指令方面和计算机处理和/或数据存储可远离运载工具22进行(作为远程服务器功能的一部分执行,例如,云)。
在一个实施例中,对象检测系统24包括多个传感器28、30、32中的至少两个、计算机指令和/或可执行代码40以及数据文件42。在一个示例中,对象检测系统24包括(或利用)可见光成像传感器28以及热成像传感器30。对象检测系统24包括处理器33或至少利用处理器,以便执行计算机指令40,并且包括存储介质35或至少利用存储介质35,以便存储计算机指令40和数据文件42。
在对象检测系统24的操作中,来自相应传感器28和30的信号34和36由控制器电路26接收,并且由处理器33利用存储在存储介质35中的计算机指令40以及数据文件42来处理并且转换。处理器33可经由对象检测系统24的指令40将信号34、36转换为作为数据文件42(见图2)的一部分的对象分类41和对象位置43(即,分类数据以及位置数据)。对象分类41是将每一个候选(candidate)或对象分为前景或背景类别的分类。对象位置43是在特征图(将在下文描述)上的位置。
(至少部分地)利用从所转换的输入信号34、36中导出的分类数据41和位置数据43,控制器电路26可随后将信号44(例如,命令信号、信息信号等)输出至可能在控制器电路26外部的一个或多个设备46。此类设备的示例可包括由运载工具22的乘坐者查看的信息显示屏、转向设备、制动设备、加速设备等。
传感器28、30是深度神经网络检测器(DNND)或者是深度神经网络检测器的一部分,并且可应用一个阶段的方法(即,与两个阶段相对)。即,在一个示例中,DNND 28、30可通常利用单发检测器(SSD)50A、50B(即,每一个SSD 50A、50B是或包括一系列特征图),其消除了建议生成(proposal generation)以及随后的特征重采样,并且将所有的计算封装在单个网络中。每一个SSD 50A、50B采用其金字塔结构中的骨干网络(例如,VGG16,即,见图2中的卷积层54A或54B)特征来检测具有不同尺度的对象。即,VGG16或卷积层54A、54B生成若干层,并且SSD将卷积层54A、54B扩展为若干更多的层56A-64A以及56B-64B。
特征是在金字塔结构中表达的,该金字塔结构中包括高级别语义信息以及低级别定位上下文。这对于从浅层中检测小对象以及从深层中检测大对象是有益的。所理解的并且所设想是,一个示例中的传感器28、30分别是彩色相机和热成像检测器或相机,并且当与计算机指令40以及数据文件42的至少部分结合时通常被视为DNND和/或SSD。
在若干现代对象检测器中通常存在着准确度和速度之间的权衡,这可能展示了一般结论,即两阶段检测器实现了更高的准确度,而一阶段检测器(即,SSD)在速度上表现得更好。在本公开以及自主驾驶应用(其通常需求实时准确的检测)中,系统20的网络架构是基于一阶段检测器并且改进了系统的准确度,使得系统的准确度与更为常规的两阶段检测器的准确度是相当的,或者更优。
整体门控融合、双SSD、架构:
SSD与Faster-RCNN的不同之处在于,它的特征金字塔是由从早期到晚期的卷积层的多个特征图构建的。典型的“融合”方法是将从颜色到热模式的所有特征图连结起来,这将使最终分类层的锚(anchor)的数量加倍。这被称为“堆叠融合”。
对象检测系统24的“门控融合”结构利用了促进或充当例如彩色SSD和热SSD之间的中间桥的门控融合单元(GFU),其采用来自两个特征图的输出并且在不改变大小的情况下输出联合特征图。GFU的操作是基于门控机制,该门控机制努力保持由可靠特征传递的信息,同时减轻减弱特征的影响。
参考图1和图2,SSD 50A、50B采用其数据文件42的特征图的分层金字塔48的形成。分层金字塔48通常由卷积层54A-64A以及54B-64B组成,其中任意单层形成特征图。即,层是相对于模型结构,并且特征图是在被提供输入数据时从层中生成的。
信号34(例如,彩色图像)与SSD 50A相关联并且由SSD 50A评估,并且信号36(例如,热图像)与SSD 50B相关联并且由SSD 50B评估。具有小接收场以及高分辨率的浅层54A、54B侧重于小对象位置,而具有大接收场的深层64A、64B则相对更适合于大对象预测。这确保了系统在快速一阶段检测器(即,SSD)中处理多尺度对象的能力。DSSD通过向高级别特征图添加去卷积层56A、56B来增加它们的分辨率以扩展SSD。
更具体地,从高分辨率到低分辨率,特征图或层54A-64A以及54B-64B的大小是不同的。例如,层54A、54B均为300x300,并且层64A、64B均为20x20。由于它们是从相同的图像处理而来,故对象以不同的尺度(即,分辨率)存在于所有层中。
参考图2,对于具有例如300x300输入图像大小的SSD 50A、50B,特征金字塔48是由层输出或与图50A相关联的卷积层54A、56A、58A、60A、62A、64A以及与图50B相关联的卷积层54B、56B、58B、60B、62B、64B构建的。图50A通常镜像映射图50B,因为它们各自与相同数量的层相关联。对于门控融合架构,如图2中最佳地示出的,来自相应的彩色图像信号34以及热图像信号36的各个图50A、50B的协调层被输入至相应的GFU 66、68、70、72、74、76。更具体地,层54A、54B被输入至GFU 66;层56A、56B被输入至GFU 68;层58A、58B被输入至GFU 70;层60A、60B被输入至GFU72;层62A、62B被输入至GFU 74;并且层64A、64B被输入至GFU 76。
每一个GFU 66、68、70、72、74、76被配置成用于将相应输出78、80、82、84、86、88输出至特征金字塔48。GFU输出是SSD 50A、50B的联合组合,并且其尺寸等于一个输入的尺寸。因此,来自GFD-SSD的锚的数量(即,GFD的数量)与单个SSD保持相同。
尽管并未具体地示出,但锚是为图像中的对象预先设置的潜在位置和大小。位置编号可以是数百、数千或是更多。在过程中,编号被减少,并且位置和大小被更新。
门控融合单元:
GFU 66、68、70、72、74、76(或具有多个输出的单GFU)是调整两个模式之间的特征图组合以便形成特征金字塔48的关键组件。参考图3,FC和FT是与彩色SSD 28以及热SSD 30或信号34、36相关联的或来自彩色SSD 28以及热SSD 30或信号34、36的对应的特征图50A、50B,并且FG是FC和FT的连结。
在该示例中,两个3×3的内核(wC、bC)以及(wT、bT)被分别应用在FG上,之后则是在每一条路径上的整流线性单元(ReLU)激活函数。AC以及AT表示激活输出。然后分别对AC和AT与FC和FT执行逐元素求和。FF表示两个求和的连结,其随后被传递至1×1内核(wJ、bJ)以便生成联合特征输出FJ。该方法与更为传统的方法之间的不同在于,该方法使用ReLU替代S形(sigmoid)激活函数以便生成AC和AT,并且随后执行逐元素求和,而不是在FC和FT上执行更为传统的乘积操作。由于S形函数的输出范围是(0,1),因此在更为传统的输入特征图上乘以(0,1)值是加权机制的复杂形式。本公开通过使用GFU外的顶部检测层等效地将其完成。本方法由此通过将S形函数替换为具有(0,+∞)的输出范围的ReLU以及将随后的乘积操作替换为求和来突破(0,1)约束。图3中的两个3×3内核(wC、bC)以及(wT、bT)被应用在连结的特征图FG上。
有关图3的GFU的操作在下述方程中总结:
FG=FC⊙FT
AC=ReLU(wC*FG+bC)
AT=ReLU(wT*FG+bT)
FF=(FCΩAC)⊙(FTΩAT)
FJ=ReLU(wJ*FF+bJ)
参考图4,示出了(多个)GFU的第二实施例。在该实施例中,两个3×3内核(wC、bC)以及(wT、bT)并未应用在连结的特征图FG上,而是单独地应用在FC和FT上。该替代设计的直觉是图3中表示的GFU保持原始输入,并且从它们的组合中学习操作调整,而图4中表示的GFU直接从原始输入中学习调整。
有关图4的GFU的操作在下述方程中总结:
FG=FC⊙FT
AC=ReLU(wC*FC+bC)
AT=ReLU(wT*FT+bT)
FF=(FGΩAC)⊙(FGΩAT)
FJ=ReLU(wJ*FF+bJ)
其中,“⊙”是连结;“Ω”是逐元素求和;“FC、FT、FG、FF、FJ”是相应的特征图(即,层54A-64A以及54B-64B);“AC和AT”是ReLU激活输出;“wC、wT以及wJ”是内核权重,并且“bC、bT以及bJ”是内核偏置。
混合融合变型:
图2中示出的门控融合结构在SSD 50A、50B内(即,在金字塔结构内)的特征图50A、50B的所有层54A-64A以及54B-64B上应用GFU 66、68、70、72、74、76。替代地,并且参考图5-图8,混合融合针对门控融合选择特征图的子集并且将剩余特征保持在堆叠融合中。在一个实施例中,图5中示出了混合偶数融合。在另一实施例中,图6中示出了混合奇数融合。在另一实施例中,图7中示出了混合早期融合。在又另一实施例中,图8中示出了混合晚期融合。每一个实施例是取决于哪些层被选择来使用GFU。
例如,图5中示出的混合偶数融合将GFU 66、70、74应用至相应的层56A、56B、58A、58B、62A、62B(即,对层进行门控),并且层56A、56B、60A、60B、64A、64B是堆叠的。图6中示出的混合奇数融合将GFU68、72、76应用至相应的层56A、56B、60A、60B、64A、64B,并且层54A、54B、58A、58B、62A、62B是堆叠的。图7中示出的混合早期融合将GFU应用于浅特征图(即,层)并且图8中示出的混合晚期融合将GFU应用于更深的层。由于SSD 28、30使用与特征金字塔48相关联的预先设置的锚,混合融合变型能够导致不同数量的锚。
更多数量的锚提供更多潜在的对象候选,也增加了所需的计算资源。作为一个示例,针对512×512的输入图像大小,单个SSD在特征金字塔48中具有额外卷积层(未示出)。因此,我们使该额外卷积层在混合奇数以及混合晚期融合架构中被门控,并且在混合奇数以及混合早期融合结构中堆叠。
上文描述的各种功能可以由计算机程序来实现或支持,该计算机程序由计算机可读程序代码形成,并且体现在非瞬态计算机可读介质中。计算机可读程序代码可包括源代码、目标代码、可执行代码,等等。计算机可读介质可以是能够由计算机访问的任何类型的介质,并且可包括只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、压缩盘(CD)、数字视频盘(DVD)或其他非瞬态形式。
在对本文中各个所描述的实施例的描述中所使用的术语仅出于描述特定实施例的目的,而非旨在构成限定。如在对各个所描述的实施例和所附权利要求的描述中所使用的,单数形式“一(a)”、“一(an)”和“所述(the)”旨在也包括复数形式,除非上下文另外明确指出。还将理解的是,本文所使用的术语“和/或”是指并且包含相关联的所列项目中的任一个以及相关联的所列项目中的一个或更多个的所有可能的组合。将进一步理解的是,术语“包括(includes)”、“包括有(including)”、“包含(comprises)”和/或“包含有(comprising)”当在本申请文件中使用时指明所陈述的特征、整数、步骤、操作、要素和/或组件的存在,但并不排除一个或多个其它特征、整数、步骤、操作、要素、组件和/或其群组的存在或添加。
如本文中所使用的,取决于上下文,术语“如果(if)”可选地被解释为表示“当…时或“在…时”或“响应于确定”或“响应于检测到”。类似地,取决于上下文,短语“如果被确定”或“如果检测到(所陈述的状况或事件)”被可选地解释为表示“在确定…后”或“响应于确定”或“在检测到(所陈述的状况或事件)后”或“响应于检测到(所陈述的状况或事件)”。
本文所使用的诸如组件、应用、模块、系统等术语旨在指代计算机相关实体,或者是硬件、硬件与软件的组合、或者是软件执行。作为示例,应用可以是但不限于在处理器上运行的进程、处理器、对象、可执行程序、执行线程、程序和/或计算机。在服务器和该服务器上运行的应用可以是组件。一个或多个应用可以驻留在进程和/或执行线程内,并且可将应用局部化在一个计算机上和/或分布在两个或更多个计算机之间。
虽然已结合仅有限数量的实施例详细描述的本发明,但是应当容易理解,本发明不限于此类所公开的实施例。相反,可修改发明以并入目前为止未描述的但与本发明的精神和范围相称的任何数量的变型、更改、替换或等效布置。此外,虽然已描述了本发明的各实施例,但是将理解的是,本发明的各方面可以包括所描述的实施例中的仅一些。因此,本发明不应被视为由前述说明书限制。

Claims (21)

1.一种对象检测系统(20),包括:
彩色相机(28),所述彩色相机(28)被配置成用于呈现区域的彩色图像,所述彩色图像被表征为指示来自所述区域并且由所述彩色相机(28)作为彩色图像信号(34)输出的可见光;
红外相机(30),所述红外相机(30)被配置成用于呈现所述区域的红外图像,所述红外图像被表征为指示来自所述区域并且由所述红外相机(30)作为红外图像信号(34)输出的红外光;以及
控制器电路(26),所述控制器电路(26)与所述彩色相机(28)以及所述红外相机(30)通信,所述控制器电路(26)包括至少一个处理器(33)以及至少一个存储介质(35),所述至少一个处理器(33)被配置成用于接收所述彩色图像信号(34)以及所述红外图像信号(36)并将其转换成与所检测的对象(39)相关联的分类数据(41)以及位置数据(43);以及
指令(40),所述指令(40)存储在所述至少一个存储介质(35)中,并且由所述至少一个处理器(33)执行,所述指令(40)被配置成用于利用所述彩色图像信号(34)以及所述红外图像信号(36)来形成相应的第一图(50A)和第二图(50B),所述第一图(50A)具有第一多个特征层(54A-64A)并且所述第二图(50B)具有第二多个特征层(54B-64B),并且使用门控融合将来自所述第一图(50A)和所述第二图(50B)的所选择的特征层配对并且融合以便至少部分地形成促进所述分类数据(41)以及所述位置数据(43)的表达的特征金字塔(48)。
2.根据权利要求1所述的对象检测系统,其特征在于,所述特征金字塔(48)与所述彩色图像以及所述红外图像中的至少一个具有相同的尺寸。
3.根据权利要求2所述的对象检测系统,其特征在于,所述对象检测系统(20)是行人检测系统。
4.根据权利要求2所述的对象检测系统,其特征在于,所述红外相机(30)是热成像传感器。
5.根据权利要求2所述的对象检测系统,其特征在于,所述红外相机(30)在7.5微米到13微米的波长范围内。
6.根据权利要求2所述的对象检测系统,其特征在于,所述红外相机(30)在0.75微米到1.3微米的波长范围内。
7.根据权利要求2所述的对象检测系统,其特征在于,所述彩色相机(28)以及所述红外相机(30)各自是深度神经网络检测器(DNND)的至少部分。
8.根据权利要求7所述的对象检测系统,其特征在于,所述第一图(50A)以及所述第二图(50B)为单发检测器SSD。
9.根据权利要求8所述的对象检测系统,其特征在于,每一个SSD采用金字塔结构中的骨干网络特征以便检测具有不同尺度的对象。
10.根据权利要求8所述的对象检测系统,其特征在于,所述指令(40)与至少一个门控融合单元(68-76)相关联,所述至少一个门控融合单元(68-76)被配置成用于融合从所述第一图(50A)以及所述第二图(50B)中的每一个选择的层以便至少部分地形成所述特征金字塔(48)。
11.根据权利要求10所述的对象检测系统,其特征在于,所述门控融合单元(68-76)适用下述公式:
FG=FC⊙FT
AC=ReLU(wC*FG+bC)
AT=ReLU(wT*FG+bT)
FF=(FCΩAC)⊙(FTΩAT)
FJ=ReLU(wJ*FF+bJ)。
12.根据权利要求10所述的对象检测系统,其特征在于,所述门控融合单元(68-76)适用下述公式:
FG=FC⊙FT
AC=ReLU(wC*FC+bC)
AT=ReLU(wT*FT+bT)
FF=(FGΩAC)⊙(FGΩAT)
FJ=ReLU(wJ*FF+bJ)。
13.一种检测行人(39)的方法,所述方法包括:
从视觉图像传感器(28)处接收视觉图像信号(34),所述视觉图像信号(34)指示区域的视觉图像;
从热图像传感器(30)处接收热图像信号(36),所述热图像信号(36)指示所述区域的热图像;所述
由处理器(33)执行指令(40)来将所述视觉图像信号(34)以及所述热图像信号(36)转换成分类数据(41)和定位数据(43),所述指令(40)应用至少一个门控融合单元(66-76)以便检测所述区域中的所述行人(39)。
14.根据权利要求13所述的方法,进一步包括:
由所述指令(40)使用卷积层将所述视觉图像信号(34)以及所述热图像信号(36)转换成相应的第一多个特征层(54A-64A)以及第二多个特征层(54B-64B);
在所述第一多个卷积层和所述第二多个卷积层之间配对所述特征层(54A-64A、54B-64B)的至少部分;以及
将所述至少一个门控融合单元(66-76)应用于经配对的层以便生成至少一个融合层对(78-88)。
15.根据权利要求14所述的方法,进一步包括:
由所述至少一个门控融合单元(66-76)将所述至少一个融合层对(78-88)输出至特征金字塔(48)。
16.一种控制器电路(26),所述控制器电路(26)被适配以用于促进对象(39)的检测,所述控制器电路包括:
至少一个处理器(33),所述至少一个处理器(33)被配置成用于接收分别从彩色相机(28)以及图像设备(30)接收到的彩色图像信号(34)以及第二图像信号(36);执行可执行指令(40)以便将所述彩色图像信号(34)以及所述第二图像信号(36)转换成相应的第一图(50A)以及第二图(50B),所述第一图(50A)具有第一多个特征层(54A-64A),并且所述第二图(50B)具有第二多个特征层(54B-64B),并且使用门控融合将来自所述第一图(50A)以及所述第二图(50B)的所选择的特征层配对并且融合,以便至少部分地形成特征金字塔(48),从而促进从所述彩色图像信号(34)以及所述第二图像信号(36)到与所检测的对象(39)相关联的分类数据(41)以及位置数据(43)的转换;以及
至少一个存储介质(35),所述至少一个存储介质(35)被配置成用于存储由所述至少一个处理器(33)检取的所述可执行指令(40)。
17.根据权利要求16所述的控制器电路,其特征在于,所述特征金字塔(48)与指示所述彩色图像信号(34)的彩色图像以及指示所述第二图像信号(36)的第二图像中的至少一个具有相同的尺寸。
18.根据权利要求17所述的控制器电路,其特征在于,所述第二图像是由充当所述图像设备(30)的LiDAR设备拍摄的LiDAR图像。
19.根据权利要求17所述的控制器电路,其特征在于,所述第二图像是由充当所述图像设备(30)的热成像相机拍摄的热图像。
20.根据权利要求17所述的控制器电路,其特征在于,所述至少一个门控融合单元(66-76)适用下述公式:
FG=FC⊙FT
AC=ReLU(wC*FG+bC)
AT=ReLU(wT*FG+bT)
FF=(FCΩAC)⊙(FTΩAT)
FJ=ReLU(wJ*FF+bJ)。
21.根据权利要求17所述的控制器电路,其特征在于,所述至少一个门控融合单元(66-76)适用下述公式:
FG=FC⊙FT
AC=ReLU(wC*FC+bC)
AT=ReLU(wT*FT+bT)
FF=(FGΩAC)⊙(FGΩAT)
FJ=ReLU(wJ*FF+bJ)。
CN201910923803.7A 2018-09-28 2019-09-27 运载工具的对象检测系统 Active CN110969079B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862737970P 2018-09-28 2018-09-28
US62/737,970 2018-09-28
US16/270,105 US10936861B2 (en) 2018-09-28 2019-02-07 Object detection system of a vehicle
US16/270,105 2019-02-07

Publications (2)

Publication Number Publication Date
CN110969079A true CN110969079A (zh) 2020-04-07
CN110969079B CN110969079B (zh) 2023-09-19

Family

ID=67770449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910923803.7A Active CN110969079B (zh) 2018-09-28 2019-09-27 运载工具的对象检测系统

Country Status (3)

Country Link
US (1) US10936861B2 (zh)
EP (1) EP3629231A1 (zh)
CN (1) CN110969079B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11532168B2 (en) * 2019-11-15 2022-12-20 Nvidia Corporation Multi-view deep neural network for LiDAR perception
CN111080724B (zh) * 2019-12-17 2023-04-28 大连理工大学 一种红外和可见光的融合方法
EP3943969A1 (en) * 2020-07-24 2022-01-26 Aptiv Technologies Limited Methods and systems for predicting a trajectory of an object
KR20220085481A (ko) * 2020-12-15 2022-06-22 삼성전자주식회사 영상 처리 방법 및 영상 처리 장치
KR102590622B1 (ko) * 2021-04-02 2023-10-17 세종대학교산학협력단 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치
CN113361322B (zh) * 2021-04-23 2022-09-27 山东大学 一种基于加权反卷积层数改进dssd算法的输电线目标检测方法、设备及存储介质
CN113955136B (zh) * 2021-09-02 2024-04-05 浙江图盛输变电工程有限公司温州科技分公司 一种电网自动巡检无人机目标挂点校准中转站
CN113743521B (zh) * 2021-09-10 2023-06-27 中国科学院软件研究所 一种基于多尺度上下文感知的目标检测方法
CN116310764B (zh) * 2023-05-18 2023-07-21 西南交通大学 一种路面井盖智能检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100226011A1 (en) * 2009-03-05 2010-09-09 Raytheon Company Method and Apparatus for Accurate Imaging with an Extended Depth of Field
CA3155273A1 (en) * 2009-07-10 2011-01-13 Medicaltree Patent Ltd. IMPLANTABLE LUBRICATION DEVICE AND METHOD OF TREATING A HUMAN OR MAMMALIAN PATIENT USING THE DEVICE
CN103455036A (zh) * 2012-06-05 2013-12-18 国家电网公司 一种场景空中巡视方法和飞行器
CN103713843A (zh) * 2012-10-09 2014-04-09 三星电子株式会社 用于在移动装置中产生任务推荐图标的方法和设备
CN105432072A (zh) * 2013-06-20 2016-03-23 微软技术许可有限责任公司 用于感兴趣区域捕捉的多模图像感测
AU2016100246A4 (en) * 2015-03-08 2016-04-07 Apple Inc. Device, method, and user interface for processing intensity of touch contacts
CN105917354A (zh) * 2014-10-09 2016-08-31 微软技术许可有限责任公司 用于图像处理的空间金字塔池化网络
CA2992880A1 (en) * 2017-02-01 2018-08-01 Opentv, Inc. Menu modification based on controller manipulation data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8929600B2 (en) * 2012-12-19 2015-01-06 Microsoft Corporation Action recognition based on depth maps
US10935978B2 (en) * 2017-10-30 2021-03-02 Nio Usa, Inc. Vehicle self-localization using particle filters and visual odometry
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US11221413B2 (en) * 2018-03-14 2022-01-11 Uatc, Llc Three-dimensional object detection

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100226011A1 (en) * 2009-03-05 2010-09-09 Raytheon Company Method and Apparatus for Accurate Imaging with an Extended Depth of Field
CA3155273A1 (en) * 2009-07-10 2011-01-13 Medicaltree Patent Ltd. IMPLANTABLE LUBRICATION DEVICE AND METHOD OF TREATING A HUMAN OR MAMMALIAN PATIENT USING THE DEVICE
CN103455036A (zh) * 2012-06-05 2013-12-18 国家电网公司 一种场景空中巡视方法和飞行器
CN103713843A (zh) * 2012-10-09 2014-04-09 三星电子株式会社 用于在移动装置中产生任务推荐图标的方法和设备
CN105432072A (zh) * 2013-06-20 2016-03-23 微软技术许可有限责任公司 用于感兴趣区域捕捉的多模图像感测
CN105917354A (zh) * 2014-10-09 2016-08-31 微软技术许可有限责任公司 用于图像处理的空间金字塔池化网络
AU2016100246A4 (en) * 2015-03-08 2016-04-07 Apple Inc. Device, method, and user interface for processing intensity of touch contacts
CA2992880A1 (en) * 2017-02-01 2018-08-01 Opentv, Inc. Menu modification based on controller manipulation data

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
I. A. KHLUSOV: "《Granulocyte-macrophage progenitor cells response to magnetite nanoparticles in a static magnetic field》", 《JOURNAL OF MAGNETISM AND MAGNETIC MATERIALS》, pages 84 *
JAEKYUM KIM: "《Robust Camera Lidar Sensor Fusion Via Deep Gated Information Fusion Network》", pages 1620 *
周文军: "《基于红外和超声波传感器的行人过街信号系统的研究》", 《广西民族大学学报(自然科学版)》, no. 2, pages 61 *

Also Published As

Publication number Publication date
EP3629231A1 (en) 2020-04-01
CN110969079B (zh) 2023-09-19
US10936861B2 (en) 2021-03-02
US20200104584A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
CN110969079B (zh) 运载工具的对象检测系统
Choi et al. Gaussian yolov3: An accurate and fast object detector using localization uncertainty for autonomous driving
Xu et al. Car Detection from Low‐Altitude UAV Imagery with the Faster R‐CNN
Breitenstein et al. Systematization of corner cases for visual perception in automated driving
US11386637B2 (en) Method and apparatus for detecting object
US20230035475A1 (en) Methods and systems for semantic segmentation of a point cloud
US8285655B1 (en) Method for object recongnition using multi-layered swarm sweep algorithms
EP4196820A1 (en) Enhanced static object classification using lidar
Guo et al. Traffic-sign spotting in the wild via deep features
Liang et al. Car detection and classification using cascade model
US20220120858A1 (en) Method and device for detecting objects
Li et al. Detection of road objects based on camera sensors for autonomous driving in various traffic situations
Zhang et al. CE-RetinaNet: A channel enhancement method for infrared wildlife detection in UAV images
Yan et al. Mvfan: Multi-view feature assisted network for 4d radar object detection
Friedlander et al. Deep learning model-based algorithm for SAR ATR
CN112396086A (zh) 使用神经网络进行可靠分类的方法和系统
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN114997264A (zh) 训练数据生成、模型训练及检测方法、装置及电子设备
Sommer et al. Systematic evaluation of deep learning based detection frameworks for aerial imagery
US20200370893A1 (en) Device and method for compensating for route of autonomous vehicle
Zhang et al. Gaussian Function Fusing Fully Convolutional Network and Region Proposal‐Based Network for Ship Target Detection in SAR Images
Priya et al. Vehicle Detection in Autonomous Vehicles Using Computer Vision Check for updates
US11768920B2 (en) Apparatus and method for performing heterogeneous sensor fusion
KR102681856B1 (ko) 상황 정보 기반의 객체 검출 정확도 보정 방법 및 시스템
Kaskela Temporal Depth Completion for Autonomous Vehicle Lidar Depth Sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant