CN113723170A - 危险检测整合架构系统和方法 - Google Patents
危险检测整合架构系统和方法 Download PDFInfo
- Publication number
- CN113723170A CN113723170A CN202110557511.3A CN202110557511A CN113723170A CN 113723170 A CN113723170 A CN 113723170A CN 202110557511 A CN202110557511 A CN 202110557511A CN 113723170 A CN113723170 A CN 113723170A
- Authority
- CN
- China
- Prior art keywords
- channel
- image
- layers
- hazards
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 title abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 22
- 230000010354 integration Effects 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 abstract description 44
- 238000012896 Statistical algorithm Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000011176 pooling Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 12
- 230000004927 fusion Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000272165 Charadriidae Species 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
危险检测整合架构系统和方法。公开了一种系统和方法,其可以采用整合方法的集合,所述整合方法的集合包括用于危险检测的多个机器学习算法或统计算法。该系统和方法可以使用多个深度学习算法将图像、立体和环境信息组合,以准确地检测危险。该系统和方法可以将深度通道并入图像的红色、绿色和蓝色(RGB)通道,以创建四通道RGBD图像。该系统和方法还可以用深度通道的颜色图覆盖RGB图像。该系统和方法可以进一步将感兴趣区域(ROI)联接到图像的RGB通道。最后,该系统和方法可以并入用于可驾驶空间上的多任务学习事件的辅助语义分割解码器。
Description
技术领域
本公开涉及一种用于检测立体图像内的危险的整合(ensemble)架构。
背景技术
在美国,道路碎片导致每年许多报道的撞车事故。针对道路碎片或危险(hazard)的稳健的高级检测和告警系统和方法——无论是在自主驾驶系统中还是在常规的(即,人类控制的)驾驶系统中实现——可能是合期望的。
发明内容
公开了一种用于检测具有红色通道、蓝色通道和绿色通道的立体图像内的危险的系统和方法。红色通道、蓝色通道和绿色通道产生3通道RGB图像。该系统和方法可以包括具有一个或多个卷积层、批标准层、YOLO层和上采样层的整合网络。设想,整合网络可以使用YOLOv3 Tiny或Mask R-CNN架构来设计。
整合网络可以可操作来通过将深度通道与红色通道、蓝色通道和绿色通道联接来确定立体图像内的一个或多个危险,其中该联接产生4通道RGBD图像。整合网络还可以可操作来增加红色通道、蓝色通道和绿色通道中的每一个内的比特数,以产生修改的3通道RGB图像。然后,修改的3通道RGB图像可以与深度通道的颜色图重叠。
整合网络还可以通过从标签图提取感兴趣区域并将该感兴趣区域与红色通道、蓝色通道和绿色通道联接来确定立体图像内的一个或多个危险,其中该联接产生4通道图像。整合网络还可以通过将来自语义分割算法的输出分类与红色通道、蓝色通道和绿色通道联接来确定立体图像内的一个或多个危险,其中该联接产生4通道图像。
整合网络可以进一步包括第一RGB编码器网络和第二深度编码器网络,第一RGB编码器网络具有多个融合层,并且来自多个编码器网络层的输出值被添加到所述多个融合层。最后,可以包括辅助语义分割解码器,以迫使整合网络学习可驾驶空间的一个或多个特征,从而确定立体图像内的一个或多个危险。
附图说明
图1图示了示例性计算系统。
图2图示了示例性的卷积神经网络。
图3A和图3B图示了用于检测危险的示例性整合机器学习架构。
图4图示了控制至少部分自主机器人的计算系统。
具体实施方式
本文描述了本公开的实施例。然而,将理解,公开的实施例仅仅是示例,并且其他实施例可以采取各种形式和替代形式。各图不一定是按比例的;一些特征可以被放大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅作为教导本领域技术人员以不同方式采用实施例的代表性基础。如本领域普通技术人员将理解的那样,参考任何一个附图图示和描述的各种特征可以与一个或多个其他附图中图示的特征相组合,以产生未被明确图示或描述的实施例。图示特征的组合为典型应用提供了代表性实施例。然而,与本公开的教导一致的特征的各种组合和修改对于特定的应用或实现可以是期望的。
在美国,道路碎片导致每年许多警方报道的撞车事故。因此,对于自主驾驶系统或常规驾驶系统二者合期望的是能够进行高级检测告警,并对道路危险/碎片进行响应。虽然设想现有系统可以操作来检测对象(例如,行人检测或交通灯/标志检测),但危险检测系统不那么容易使用,尽管车辆控制器通常不被设计成检测它们。
为了解决危险检测的问题,可以采用一个或多个计算机视觉算法(例如,立体视觉和光流)。或者,遮挡边缘图(occlusion edge map)也可以用来帮助检测小的危险。在像素级度量上,在使用丢失和找到的数据集经历训练过程之后,也可以采用一个或多个深度学习算法。
例如,将丢失和找到的数据集与基于立体视觉的算法相组合的快速直接平面假设检验(FPHT)可以用于危险检测。理解,丢失和找到的数据集可以是用于训练危险检测机器学习算法的已知基准。FPHT算法可以基于对于可驾驶空间和障碍物来自立体相机的视差图的统计分析。如果存在以计算上稳健且高效方式的对象,则FPHT算法可以通过执行假设检验来操作。深度学习算法也可以可操作用于基于外观的小道路危险检测。设想,然后可以使用一个或多个已知的机器学习架构(例如,GoogLeNet)将预测的FPHT Stixel与从语义分割网络提取的Stixel融合。
另一危险检测算法可以采用语义分割方法(例如,MergeNet),其具有与FPHT融合提供的潜在操作性能相同的潜在操作性能。设想,语义分割可以采用RGB图像和常规导出的视差图二者。MergeNet过程也可以采用两到三个语义分割网络。一个附加的且相对浅的网络可以用于融合不同的语义图。通常,在全分辨率RGB图像上操作的一个语义分割网络可以与在图像的垂直条纹上运行的另一个网络相组合。
异常检测算法也可以用于通过使用诸如受限玻尔兹曼机器(RBM)或自动编码器之类的压缩网络重构道路来检测危险。设想,生成性对抗网络(GAN)也可以用于检测意外的危险。语义分割然后可以用作GAN的输入以重新合成原始图。然后可以将生成的图像与输入图像进行比较,以检测差异。
计算深度(即,视差图)的立体视觉算法,其需要更少的计算时间(即,更快)但可能对遮挡和传感器噪声更敏感。因此设想,在深度学习中利用与RGB图像相组合的视差信息纯粹作为第四通道可能是具有挑战性的,因为早期的融合方法可能对噪声敏感。计算系统102可以可操作来克服利用该方法的潜在挑战,因为深度可以用替代方法来表示,或者可以采用替代的后期融合架构和新颖的深度数据增强技术。还设想,可以附加地使用中期融合策略来采用FuseNet方法。计算系统102因此可以可操作来采用中期或后期融合算法。
多任务学习算法也被设想用于危险检测,其中多个计算机视觉任务可以用一个联合神经网络来求解。该方法可以采用对象检测和语义分割二者,但是这些技术可以不排除二维任务。由于共享计算,组合网络可能比独立网络更便宜,并且多任务学习算法也可以提供改进的泛化能力。
虽然这些算法中的一个或多个可以用于危险检测,但是仍然存在潜在的挑战。例如,可能存在的一个挑战与“等级不平衡”有关,在这种情况下——与交通标志、车辆或行人检测任务不同——危险检测问题可能更困难,因为道路危险可能不太常见。虽然不太常见,但道路危险仍然是每年大量事故的原因(例如,仅在美国就有大约50000起事故)。但是不太常见的是,具有可用于训练机器学习算法的危险的自然驾驶数据集通常不太可用,并且训练过程可能比对于平衡检测任务而言更昂贵。
可能存在的另一个挑战与“环境”有关,在“环境”中,对象可能被视为危险,这取决于它是否在车辆的潜在行驶路径中。就机器学习算法而言,挑战不仅涉及检测对象,而且还涉及开发一种算法,该算法可以确定那些对象在给定其当前位置的情况下是否可能有问题。例如,当且仅当对象位于车辆的潜在行驶路径内时,合理大小的给定对象(例如,坑洼)可以被视为危险。
可能存在的另外挑战与对象的“多样性”有关。由于可能存在可以被分类为危险的无数的对象,因此处理危险检测的机器学习算法应该能够预测在训练集中可能不可用的事物。例如,来自汽车碰撞的碎片、掉落的货物、道路上的裂缝和玩具可能是多样的潜在危险,它们在形状、颜色或成分上不具有任何一致性。此外,以危险为特征的驾驶场景可能极其不同——既在现实中又在公开可用的数据集中。危险的多样性(即,可变性)使得获取足够的数据具有挑战性,并且可能影响机器学习算法在以高召回率和精确度检测危险中的实时操作效率。
可能存在的最后挑战与对象的“度量”有关。例如,常规的对象检测或语义分割度量可能不完全捕获用于危险检测的算法的质量。度量空间中最近的工作似乎也与实例级的度量不相关。因此,存在对提出关于危险检测的一致度量集的需要。
关于这些挑战,使用逐像素的预测算法检测路面危险可以提供准确的结果,而语义分割算法可能在计算上昂贵,并且具有随着时间推移跟踪对象的困难。此外,危险检测可能不需要预测像素准确的轮廓。取而代之,危险检测可以用作对象检测或实例分割的子集。因此设想,在开始检测危险时,可以使用对象检测或实例分割架构。
通过将对象/实例检测算法用于危险检测,可以减少潜在的召回率-精确度权衡和随着时间推移跟踪对象。也可以采用置信阈值,并且置信阈值可以是可调谐的,从而允许跨应用的更大灵活性以及在满足给定应用的需求方面的改进性能。
虽然从语义分割算法实现类似的性能也可以是可能的,但是这样的解决方案实现起来可能更复杂,并且在训练过程期间可能需要对损失进行更大的调整。此外,为了在不同的实例之间进行区分,存在对跟踪具有不同轨迹的对象的需要。设想,卡尔曼滤波算法可以用来进行这些区分。
还设想对于给定的应用(例如,自主车辆),危险可能需要在增加的距离处被可靠地检测到,因为危险将正在以高速度接近。此外,当与自主车辆的操作控制策略一起采用或作为其一部分被采用时,机器学习算法可能需要避免假阳性。
还设想,机器学习算法可能需要针对多样的危险集进行操作,所述多样的危险集仅在它们出现在“正确的”环境中的情况下才可能是危险——如上面关于与危险检测相关联的挑战所解释的那样。此外,尽管存在对于高等级不平衡的潜在性,但是机器学习算法可能需要被训练并可操作以检测“潜在”危险(例如,“存在潜在危险的东西躺在道路上”)。
因此设想,可以采用一个或多个机器学习算法和统计算法来提供道路(例如,高速公路、小巷、停车场)中的意外的、未定义的危险的检测,所述危险可以是各种形状(例如,汽车、卡车和行人)和大小(例如,具有在5厘米和1米之间大小的对象)。机器学习和统计算法也可以采用多任务学习来改进检测危险中的泛化能力。由于对计算资源的潜在限制(例如,嵌入式应用),因此机器学习和统计算法也可以被优化以提供对于给定应用必需的功能。进一步设想,可以以减少的计算量来设计机器学习和统计算法。
图1图示了示例性系统100,其可以用于采用一个或多个机器学习算法和统计算法来检测意外的、未定义的危险。系统100可以包括至少一个计算设备102。计算系统102可以包括可操作地连接到存储单元108的至少一个处理器104。处理器104可以是实现处理单元(PU)106的功能的一个或多个集成电路。PU 106可以是商业上可获得的中央处理单元(CPU),其实现诸如x86、ARM、Power或MIPS指令集家族之一的指令。或者,处理单元106可以是商业上可获得的图形处理单元(GPU),其由可操作来同时处理大量并行任务(即,并行计算)的数百个核组成。
在操作期间,PU 106可以执行从存储器单元108检索的存储的程序指令。存储的程序指令可以包括控制PU 106的操作以执行本文描述的操作的软件。在一些示例中,处理器104可以是片上系统(SoC),其将PU 106、存储器单元108、网络接口和输入/输出接口的功能集成到单个集成设备中。计算系统102可以实现用于管理操作的各个方面的操作系统。
存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器,诸如NAND闪存、磁和光存储介质,或者当计算系统102被停用或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(RAM)。例如,存储器单元108可以存储机器学习模型110或算法、机器学习模型110的训练数据集112和/或原始源数据115。
计算系统102可以包括网络接口设备122,该网络接口设备122被配置为提供与外部系统和设备的通信。例如,网络接口设备122可以包括如由电气和电子工程师协会(IEEE)802.11标准家族定义的有线和/或无线以太网接口。网络接口设备122可以包括用于与蜂窝网络(例如,3G,4G,5G)通信的蜂窝通信接口。网络接口设备122可以进一步被配置为向外部网络124或云提供通信接口。
外部网络124可以被称为万维网或因特网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许信息和数据在计算设备和网络之间容易地交换。一个或多个服务器130可以与外部网络124通信。
计算系统102可以包括输入/输出(I/O)接口120,该输入/输出(I/O)接口120可以被配置为提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备通信的附加串行接口(例如,通用串行总线(USB)接口)。
计算系统102可以包括人机界面(HMI)设备118,该人机界面(HMI)设备118可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备的人机界面输入。计算系统102可以包括显示设备132。计算系统102可以包括用于向显示设备132输出图形和文本信息的硬件和软件。显示设备132可以包括电子显示屏、投影仪、打印机或用于向用户或操作员显示信息的其他合适的设备。计算系统102可以进一步被配置为允许经由网络接口设备122与远程HMI和远程显示设备进行交互。
系统100可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所描述的特征的单个计算系统102,但意图是各种特征和功能可以由彼此进行通信的多个计算单元来分离和实现。选择的架构可以取决于多种因素。
系统100可以实现一个或多个机器学习算法110,其被配置为分析原始源数据115(或数据集)。原始源数据115可以包括原始的或未处理的传感器数据,其可以代表机器学习系统的输入数据集。原始源数据115可以包括视频、视频片段、图像和原始或部分处理的传感器数据(例如,来自数码相机或LiDAR传感器的数据)。在一些示例中,机器学习算法110可以是神经网络算法(例如,变换器、CNN、RNN或DNN),其可以被设计成执行预定的功能。
例如,图2图示了CNN 200的非限制性示例,其包括:输入数据集210;一个或多个卷积层220-240;一个或多个池化层250-270;全连接层280;和softmax层290。
输入数据集210可以包括原始图像、语音数据或文本数据。输入数据集210还可以包括从一个或多个传感器接收的测量值。替代地,输入数据集210可以在被提供给CNN 200之前被轻微处理。卷积层220-240也可以可操作来从输入数据集210提取特征。一般地理解到,卷积层220-240可以可操作来在将结果传递给CNN 200的另一层之前应用滤波操作(例如,内核)。例如,对于给定的数据集(例如,彩色图像),卷积层可以执行滤波例程来执行诸如图像识别、图像边缘检测和图像锐化之类的操作。
还设想,CNN可以包括一个或多个池化层250-270,该一个或多个池化层250-270从相应的卷积层220-240接收卷积数据。池化层250-270可以包括一个或多个池化层单元,该一个或多个池化层单元使用池化函数将池化函数应用于在不同频带计算的一个或多个卷积层输出。例如,池化层250可以对从卷积层220接收的内核输出应用池化函数。由池化层250-270实现的池化函数可以是平均值或最大值函数或者将多个值聚整合单个值的任何其他函数。
全连接层280还可以可操作来学习对于从卷积层220-240和池化层250-270接收的输出数据中的高级特征的非线性组合。最后,CNN 200可以包括softmax层290,该softmax层290使用softmax函数来组合全连接层280的输出。设想,图2所示的神经网络算法可以被配置用于在汽车应用内操作以根据从数字相机提供的图像和/或来自LiDAR传感器的深度图识别对象(例如,行人)。
机器学习算法200可以可操作将图像、立体和环境信息组合,以提供改进的检测准确度和计算速度。例如,机器学习算法200可以采用利用附加信息补充RGB的对象检测架构。机器学习算法也可以使用已知的或定制的架构(例如,Mask R-CNN、DeepLabV3+、YOLOv3Tiny)来设计,所述架构可以提供具成本效益的可部署的实时应用。第一策略集可以包含视差,并且第二策略集可以被设计成实现对可驾驶空间的更好理解。
机器学习算法200还可以经历采用一个或多个数据集(例如,丢失和找到数据集、KITTI、MS Coco、ImageNet、Cityscape)的训练过程。理解,丢失和找到数据集可以是立体视觉数据集,其包含通过半全局块匹配获得的一个或多个预计算的视差图。还设想,丢失和找到数据集可以提供包括可驾驶空间和危险的用于分割的标签图。丢失和找到数据集的格式通常也可以遵循Cityscape数据集的结构。
机器学习算法200还可以可操作来通过联接作为数据115接收的一个或多个图像的深度通道来检测危险。设想,可以采用联接,因为它可以被认为是用于并入深度的天真方法。
例如,图3A图示了可以由计算系统102采用的机器学习架构300的实施例。设想,机器学习架构300可以被可操作地设计成像YOLOv3 Tiny架构。如图示的,机器学习架构300可以接收RGB图像302和深度图像304作为数据115。机器学习架构300然后可以包括一个或多个层306-326,该一个或多个层306-326操作来将深度通道联接到图像的红色、绿色和蓝色通道,从而产生4通道RGBD图像。
设想,层306-316可以包括一个或多个卷积层、批标准层、leaky ReLU激活函数和最大池化层。层318-320同样可以包括一个或多个卷积层、批标准层和leaky ReLU激活函数。但是,层318-320可以不包括一个或多个最大池化层。层322和326可以包括一个或多个卷积层、批标准层、leaky ReLU激活函数和YOLO(你仅看一次)层。设想,YOLO层可以包括卷积层、YOLO输出处理和成本函数。最后,层324可以包括一个或多个卷积层、批标准层、leakyReLU激活函数以及一个或多个上采样层。还设想可以采用一个或多个跳跃架构。例如,层314的输出可以被提供作为至层326的输入。同样,层320的输出可以被提供作为至层324的输入。图3A还图示了联接的数量(例如,1、1/2/ 14等)以及激活之后的求和次数(例如,32、64、128等)。
还设想,机器学习200可以在替代方法中并入深度。例如,通过增加每个RGB通道中的位数,可以用深度通道的颜色图覆盖RGB图像302。或者,机器学习架构300可以通过将感兴趣区域(RoI)联接为第四通道来检测危险。例如,机器学习算法200可以从标签图提取RoI。还设想,在运行时处理期间,机器学习算法可以可操作来联接语义分割算法的输出。例如,可能已经在车辆控制器内采用语义分割算法。机器学习架构300可以接收车辆控制器已经采用的语义分割算法的输出,以在降低的成本下提供危险检测。然而,还设想,所产生的位级联接可以产生与通道联接类似的结果。
替代地,如图3B所示,可以采用深度中期融合架构来执行危险检测。例如,第一编码器340(即,RGB编码器)和第二编码器342。设想,第二编码器342可以附加地添加到YOLOv3Tiny架构上(即,第一编码器340)以提供一个或多个单通道视差作为至第一编码器340的输入。
如所示的,第一编码器340可以包括层344-364。设想,层344-354可以包括一个或多个卷积层、批标准层、leaky ReLU激活函数、最大池化层和融合层。层356-358可以包括一个或多个卷积层、批标准层和leaky ReLU激活函数。但是,层356-358可以不包括一个或多个最大池化层,也不包括融合层。层360和364可以包括一个或多个卷积层、批标准层、leakyReLU激活函数和YOLO层。最后,层362可以包括一个或多个卷积层、批标准层、ReLU激活函数以及一个或多个上采样层。还设想,可以采用一个或多个跳跃架构。例如,层352的输出可以被提供作为至层364的输入。同样,层358的输出可以被提供作为至层362的输入。图3B还图示了联接的数量(例如,1、1/2/ 14等)以及激活之后的求和次数(例如,32、64、128等)。
第二编码器342可以包括层366-376。设想,层366-374可以包括一个或多个卷积层、批标准层、leaky ReLU激活函数和最大池化层。层376可以包括一个或多个卷积层、批标准层和leaky ReLU激活函数。但是,层376可以不包括一个或多个最大池化层,也不包括融合层。还设想,层366-376的输出可以相应地被提供作为至层344-354的输入。换句话说,在第二编码器342的每个激活层之后,第二编码器342(即,深度编码器)的值被添加到第一编码器340(即,RGB编码器)的值。还设想,第二编码器342可以被随机初始化。但是也设想,预训练的(即,在训练过程期间建立的)权重可以用于初始化所有其他层344-364。
设想,YOLOv3架构可能不针对具有高级别不平衡的应用进行高度优化。还设想,对象相对于无对象的不平衡可以随着输入图像(即,图像302)的宽度/高度二次方地增加。例如,当在具有2048×1024像素(92160个潜在预测)而不是416×416像素(7605个可能预测)的输入图像上应用九个锚时,YOLOv3网络可以系统地预测与其对于正确预测的概率相比更低的置信度得分。为了补偿,图3B图示的机器学习算法200(即,深度中期融合架构)可以采用下面方程(1)所示的损失函数:
其中Lxy可以是原始YOLOv3边界框中心损失,并且LGIoU可以是广义的交并比(GIoU)损失。设想,项Lxy可能不是必需的,因为边界框预测的中心也由LGIoU项覆盖。无论如何,项Lxy都可以被包括来减少时期数,直到训练过程收敛。项Lobj也可以标示二进制交叉熵损失,其用逆类频率的次方加权。可以包括项,因为当采用逆类频率(k=1)时,训练可能变得不稳定。为了帮助调整,可以采用项,其中Nc可以是小批的对象/无对象标签的数量。还设想,对于方程(1),损失项可以由相应的“”超参数来平衡。还设想,可以使用聚焦损失算法来采用图3B图示的深度中期融合架构。然而,对于某些分类应用(例如,二进制分类),与如方程(1)应用的Lobj项相比,聚焦损失算法的使用可能不提供改进的性能。
最后,机器学习算法200可以在可驾驶空间上采用多任务学习算法来执行危险检测。辅助语义分割解码器可以可操作来迫使机器学习网络200学习可驾驶空间的特征。设想,SegNet解码器(例如,MergeNet)可以被多任务学习算法采用。但是也设想,辅助语义分割解码器可能不需要用于对象检测的机器学习算法200的部署。此外,当采用多任务学习算法时,项Lsem可以包括在方程(1)的总体成本中。由于道路的特征可以被认为更相关,因此多任务算法可以使用未加权交叉熵作为辅助语义分割输出。该方法作为与辅助语义分割的中期融合。
因此设想,为了改进的危险检测,可以采用整合方法的集合(即,可以获得比可以单独从任何一个组成学习算法获得的更好预测性能的多个学习算法)。已经公开了组合到单个预测中的各种危险检测器。实例分割和对象检测算法的整合可以用于克服危险检测的许多潜在挑战。此外,在计算上昂贵的机器学习算法(例如,Mask R-CNN)与在计算上不太昂贵的机器学习算法(例如,YOLOv3 Tiny)的整合可以用于危险检测。将类似的机器学习算法与不同的“主干”(例如,不同的编码器架构和预训练数据集)进行组合的整合也可以用于危险检测。最后,被训练来分类道路(即,对道路是什么的良好理解)的将类似的机器学习算法融合的整合也可以用于危险检测。
图4图示了示例性计算系统440,其可以用于检测危险并控制例如是部分自主车辆400的部分自主机器人。计算系统440可以像图1中描述的系统100。传感器430可以包括一个或多个视频/相机传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR传感器和/或一个或多个位置传感器(像例如,GPS)。一些或所有这些传感器是更优选的,但不一定集成在车辆400中。
替代地,传感器430可以包括用于确定致动器系统状态的信息系统。传感器430可以收集计算系统440要使用的传感器数据或其他信息。使用输入信号x,系统可以例如检测在至少部分自主机器人附近的危险。输出信号y可以包括表征对象在至少部分自主机器人附近何处的信息。然后可以根据该信息确定控制命令A,以例如避免与所述检测到的对象碰撞。
可以集成在车辆400中的致动器410可以由车辆400的制动器、推进系统、发动机、传动系统或转向系统提供。可以确定致动器控制命令,使得致动器(或多个致动器)410被控制,使得车辆400避免与所述检测到的对象碰撞。检测到的危险也可以根据机器学习算法200认为它们最有可能是什么——例如行人或树木——来分类,并且致动器控制命令A可以取决于分类来被确定。
本文公开的过程、方法或算法可以可递送到处理设备、控制器或计算机/由处理设备、控制器或计算机实现,所述处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,过程、方法或算法可以以多种形式存储为可由控制器或计算机执行的数据和指令,包括但不限于永久存储在诸如ROM设备的不可写存储介质上的信息和可替换地存储在诸如软盘、磁带、CD、RAM设备以及其他磁性和光学介质的可写存储介质上的信息。所述过程、方法或算法也可以在软件可执行对象中实现。替代地,可以使用合适的硬件部件、诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器,或其他硬件部件或设备,或者硬件、软件和固件部件的组合,来整体或部分地体现所述过程、方法或算法。
虽然上面描述了示例性实施例,但是不旨在这些实施例描述权利要求所包含的所有可能的形式。说明书中使用的词语是描述的词语,而不是限制的词语,并且理解,可以在不脱离本公开的精神和范围的情况下做出各种改变。如先前描述的,各种实施例的特征可以被组合以形成可能未被明确描述或图示的本发明的另外的实施例。虽然各种实施例可能已经被描述为在一个或多个期望的特性方面提供了优于其他实施例或现有技术实现的优点或者比其他实施例或现有技术实现优选,但是本领域的普通技术人员认识到,一个或多个特征或特性可以取决于具体的应用和实现被折衷以实现期望的总体系统属性。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、大小、适用性、重量、可制造性、组装容易性等。照此,在任何实施例都被描述为在一个或多个特征方面与其他实施例或现有技术实现相比不太合期望的程度上,这些实施例不在本公开的范围之外,并且对于特定应用可以是合期望的。
Claims (20)
1.一种用于检测危险的方法,包括:
接收具有红色通道、蓝色通道和绿色通道的立体图像,其中红色通道、蓝色通道和绿色通道产生3通道RGB图像;和
使用具有一个或多个卷积层、批标准层、YOLO层和上采样层的整合网络来确定立体图像内的一个或多个危险。
2.根据权利要求1所述的方法,其中所述整合网络通过将深度通道与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道RGBD图像。
3.根据权利要求1所述的方法,进一步包括:
增加红色通道、蓝色通道和绿色通道中的每一个内的位数,以产生修改的3通道RGB图像;和
用深度通道的颜色图覆盖修改的3通道RGB图像。
4.根据权利要求1所述的方法,进一步包括:其中所述整合网络通过从标签图提取感兴趣区域并将所述感兴趣区域与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道图像。
5.根据权利要求1所述的方法,其中所述整合网络通过将来自语义分割算法的输出分类与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道图像。
6.根据权利要求1所述的方法,其中所述整合网络包括第一RGB编码器网络和第二深度编码器网络,所述第一RGB编码器网络具有多个融合层,并且来自多个编码器网络层的输出值被添加到所述多个融合层。
7.根据权利要求1所述的方法,其中辅助语义分割解码器迫使整合网络学习可驾驶空间的一个或多个特征,以确定立体图像内的所述一个或多个危险。
8.根据权利要求1所述的方法,其中,所述整合网络包括YOLOv3 Tiny架构。
9.根据权利要求1所述的方法,其中,所述整合网络包括Mask R-CNN架构。
10.一种用于检测危险的系统,包括:
立体相机,可操作来接收具有红色通道、蓝色通道和绿色通道的立体图像,其中红色通道、蓝色通道和绿色通道产生3通道RGB图像;和
处理器,可操作来使用具有一个或多个卷积层、批标准层、YOLO层和上采样层的整合网络来确定立体图像内的一个或多个危险。
11.根据权利要求10所述的系统,其中所述处理器可操作来通过将深度通道与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道RGBD图像。
12.根据权利要求10所述的系统,其中所述处理器可操作用于:
增加红色通道、蓝色通道和绿色通道中的每一个内的位数,以产生修改的3通道RGB图像;和
用深度通道的颜色图覆盖修改的3通道RGB图像。
13.根据权利要求10所述的系统,其中所述处理器可操作用于通过从标签图提取感兴趣区域并将所述感兴趣区域与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道图像。
14.根据权利要求10所述的系统,其中所述处理器可操作用于通过将来自语义分割算法的输出分类与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道图像。
15.根据权利要求10所述的系统,其中所述整合网络包括第一RGB编码器网络和第二深度编码器网络,所述第一RGB编码器网络具有多个融合层,并且来自多个编码器网络层的输出值被添加到所述多个融合层。
16.根据权利要求10所述的系统,其中辅助语义分割解码器迫使整合网络学习可驾驶空间的一个或多个特征,以确定立体图像内的所述一个或多个危险。
17.一种可操作来采用整合网络的非暂时性计算机可读介质,所述非暂时性计算机可读介质具有存储在其上的计算机可读指令,所述计算机可读指令可操作来被执行以执行以下功能:
接收具有红色通道、蓝色通道和绿色通道的立体图像,其中红色通道、蓝色通道和绿色通道产生3通道RGB图像;和
使用具有一个或多个卷积层、批标准层、YOLO层和上采样层的整合网络来确定立体图像内的一个或多个危险。
18.根据权利要求17所述的非暂时性计算机可读介质,其中所述整合网络通过将深度通道与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道RGBD图像。
19.根据权利要求17所述的非暂时性计算机可读介质,其中所述整合网络通过从标签图提取感兴趣区域并将所述感兴趣区域与红色通道、蓝色通道和绿色通道联接来确定立体图像内的所述一个或多个危险,其中所述联接产生4通道图像。
20.根据权利要求17所述的非暂时性计算机可读介质,其中所述整合网络包括第一RGB编码器网络和第二深度编码器网络,所述第一RGB编码器网络具有多个融合层,并且来自多个编码器网络层的输出值被添加到所述多个融合层。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/881581 | 2020-05-22 | ||
US16/881,581 US12008743B2 (en) | 2020-05-22 | Hazard detection ensemble architecture system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723170A true CN113723170A (zh) | 2021-11-30 |
Family
ID=78408794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110557511.3A Pending CN113723170A (zh) | 2020-05-22 | 2021-05-21 | 危险检测整合架构系统和方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113723170A (zh) |
DE (1) | DE102021205230A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999892A (zh) * | 2012-12-03 | 2013-03-27 | 东华大学 | 基于区域遮罩的深度图像与rgb图像的智能融合方法 |
CN108229366A (zh) * | 2017-12-28 | 2018-06-29 | 北京航空航天大学 | 基于雷达和图像数据融合的深度学习车载障碍物检测方法 |
CN110555475A (zh) * | 2019-08-29 | 2019-12-10 | 华南理工大学 | 一种基于语义信息融合的少样本目标检测方法 |
-
2021
- 2021-05-21 DE DE102021205230.4A patent/DE102021205230A1/de active Pending
- 2021-05-21 CN CN202110557511.3A patent/CN113723170A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999892A (zh) * | 2012-12-03 | 2013-03-27 | 东华大学 | 基于区域遮罩的深度图像与rgb图像的智能融合方法 |
CN108229366A (zh) * | 2017-12-28 | 2018-06-29 | 北京航空航天大学 | 基于雷达和图像数据融合的深度学习车载障碍物检测方法 |
CN110555475A (zh) * | 2019-08-29 | 2019-12-10 | 华南理工大学 | 一种基于语义信息融合的少样本目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
DE102021205230A1 (de) | 2021-11-25 |
US20210366096A1 (en) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111095291B (zh) | 由自动驾驶车辆实时检测车道和边界 | |
CN110494863B (zh) | 确定自主车辆的可驾驶自由空间 | |
US10796201B2 (en) | Fusing predictions for end-to-end panoptic segmentation | |
US20210005018A1 (en) | Inferring locations of 3d objects in a spatial environment | |
US10990820B2 (en) | Heterogeneous convolutional neural network for multi-problem solving | |
CN114902295A (zh) | 用于自主驾驶应用的三维路口结构预测 | |
KR20190026116A (ko) | 객체 인식 방법 및 장치 | |
Broggi et al. | Vehicle detection for autonomous parking using a Soft-Cascade AdaBoost classifier | |
US10964033B2 (en) | Decoupled motion models for object tracking | |
Hoang et al. | Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning | |
CN110832497B (zh) | 用于自治系统的对象过滤和统一表示形式的系统和方法 | |
JP7317009B2 (ja) | 高速物体認識用のシルエットの使用 | |
KR20190131206A (ko) | 영상의 전역 문맥 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 시스템 | |
Yeol Baek et al. | Scene understanding networks for autonomous driving based on around view monitoring system | |
KR20210005395A (ko) | 자율주행차량의 유턴 전략 결정 장치 및 그 방법 | |
Dheekonda et al. | Object detection from a vehicle using deep learning network and future integration with multi-sensor fusion algorithm | |
Alkhorshid et al. | Road detection through supervised classification | |
CN117015792A (zh) | 有凹图像放大用于自动驾驶生成物体检测标签的系统和方法 | |
Huu et al. | Proposing lane and obstacle detection algorithm using YOLO to control self-driving cars on advanced networks | |
Hodges et al. | Deep learning for driverless vehicles | |
Aditya et al. | Collision Detection: An Improved Deep Learning Approach Using SENet and ResNext | |
US11200438B2 (en) | Sequential training method for heterogeneous convolutional neural network | |
Ouyang et al. | Multiview cnn model for sensor fusion based vehicle detection | |
CN111144361A (zh) | 一种基于二值化cgan网络的公路车道检测方法 | |
US12008743B2 (en) | Hazard detection ensemble architecture system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |