CN110008978A

CN110008978A - 危险分级训练方法、危险分级方法、辅助或自动车辆驾驶系统

Info

Publication number: CN110008978A
Application number: CN201811493457.5A
Authority: CN
Inventors: 兹米特里·特西什库; 雷米·班达昂
Original assignee: Billion Dollar Europe Ltd By Share Ltd
Current assignee: Billion Dollar Europe Ltd By Share Ltd; IMRA Europe SAS
Priority date: 2017-12-07
Filing date: 2018-12-07
Publication date: 2019-07-12
Also published as: JP7217138B2; US20190180144A1; EP3495992A1; US11281941B2; JP2019153277A

Abstract

本发明涉及危险分级训练方法、危险分级方法、辅助或自动车辆驾驶系统。危险分级训练方法包括：训练用于通用图像内的通用对象识别的第一深度神经网络；训练用于与特定应用相关的图像内的特定对象识别的第二深度神经网络；训练用于与特定应用相关的图像序列内的特定场景流预测的第三深度神经网络；使用至少一种人类经训练的危险标记方法训练用于与特定应用相关的图像或图像序列内的潜在危险区域定位的第四深度神经网络；训练用于与特定应用相关的图像或图像序列内的不可见特定对象预期和/或可见特定对象预测的第五深度神经网络；以及使用作为五个深度神经网络的迁移学习序列的端到端深度神经网络确定该图像或图像序列内的至少一个危险像素。

Description

危险分级训练方法、危险分级方法、辅助或自动车辆驾驶系统

技术领域

本发明总体上涉及机器学习技术，更具体地，涉及一种危险分级训练方法、危险分级方法、辅助或自动车辆驾驶系统，更具体地，涉及深度神经网络(DNN)，例如用于处理空间信息的深度卷积神经网络(CNN)和用于处理时间信息的递归神经网络(RNN)/长短期记忆(LSTM)。特别地，本发明涉及用于学习如何在训练图像或训练图像序列内检测危险的危险分级训练方法，以及用于检测实时图像或实时图像序列内的危险的经训练的危险分级方法。

这种方法尤其适用于使用传感器进行障碍物检测与闪避的人工辅助或自动驾驶车辆领域，以便安全地在其环境中驾驶。

背景技术

题为“Atomic Scenes for Scalable Traffic Scene Recognition inMonocular Videos(单目视频中的可扩展交通场景识别的原子场景)”的Chen等人的出版物公开了由四个主要部分组成的系统：对象识别、交通场景识别、预测与特定对象相关的驾驶状况(例如，前方车辆的突然停止)和提出安全路径的运动规划(http://www.nec- labs.com/uploads/images/Department-Images/MediaAnalytics/papers/wacv16_ atomicscenes.pdf)。

这种系统的缺点在于本质上是被分解为原子级和高阶级的基于规则的系统。这种系统无法应对现实世界中前所未见的、无法用规则或规则组合来解释的驾驶状况。虽然，这种系统将预定危险等级归咎于对潜在碰撞负主要责任的特定对象，然而，无法将不同的危险等级归咎于驾驶场景中的所有对象，尤其是在没有任何行动者发生严重危险的场景中。虽然这种原子场景的方法可以在90％的日常驾驶场景中提供足够的危险预测准确度，但它无法应对罕见的和前所未见的情况，这些情况是人类失败的主要原因。

题为“End to End Learning for Self-Driving Cars(自动驾驶汽车的端到端学习)”的Bojarski等人的出版物(https://arxiv.org/pdf/1604.07316.pdf)公开了一种用于将单个前置摄像头的原始像素直接映射到转向命令的经训练的卷积神经网络(CNN)。

这种系统的缺点在于：自动学习必要处理步骤的内部表示，例如仅用人的转向角作为训练信号检测有用的道路特征；以及激活图可以表明这些特征及其位置对做出车辆控制决策的重要性。但是，如果没有提供与危险相关的标签，这种系统就无法在没有人类监督的情况下自行学习通用的危险相关特征集。

题为“Probabilistic Grid-based Collision Risk Prediction for DrivingApplication(基于概率网格的驾驶应用的碰撞风险预测)”的Rummelhard等人的出版物(https://hal.inria.fr/hal-01011808/document)公开了一种新的基于网格的碰撞风险预测方法。

这种系统无法应对与场景中不可见的对象相关的未来状态的估计，或者这种系统无法有效地估计与可见静态对象相关的危险等级。

题为“Agent-Centric Risk Assessment:Accident Anticipation and RiskyRegionLocalization(以代理为中心的风险评估：事故预期与风险区域定位)”的Zeng等人的出版物(https://arxiv.org/pdf/1705.06560.pdf)公开了一种以代理为中心的研究事故预期和风险区域定位任务的方法。

这种系统无法应对稀疏标签，并且在没有风险事件发生的情况下无法估计危险等级。这种系统需要单个对象的注释，并且不能同时支持对多个潜在危险对象的不同风险级别的评估。

题为“Visual Forecasting by Imitating Dynamics in Natural Sequences(通过模仿自然序列中的动力学的视觉预测)”的Zeng等人的出版物介绍了视觉预测的总体框架，该框架直接模仿视觉序列而无需额外的监督(http://ai.stanford.edu/～dahuang/ papers/iccv17-vfid.pdf)。

这种方法的缺点在于只能提供语义关键字作为预测结果，并且它不能生成精细级的危险分级任务所需要的密集像素级图。

题为“DESIRE:Distant Future Prediction in Dynamic Scenes withInteracting Agents(期望：具有交互代理的动态场景中的远期预测)”的Lee等人的出版物介绍了深度随机的IOC1RNN编码器/解码器框架，期望用于动态场景中多个交互代理的未来预测任务(http://www.nec-labs.com/uploads/images/Department-Images/ MediaAnalytics/papers/cvpr17_futureprediction.pdf)。

这种系统的缺点在于仅使用具有可用的显著持续时间的过去轨迹的可见移动对象以便生成未来预测。这种系统不能用于预测场景中静态或不可见的对象的未来状态，因此如果使用这种预测作为主要输入，则危险等级图将是不完整的。

题为“Generating the Future with Adversarial Transformers(使用对抗变压器生成未来)”的Vondrick等人的出版物(http://carlvondrick.com/transformer.pdf)公开了在视频中生成近期未来的学习模型。

该文未提及生成未来视频以及对该视频中的对象进行分类以获得危险图的可能性。所描述的方法不能解决将不同危险等级归因于不同对象的问题，以及如何将危险等级归因于包括无法识别的对象上的那些像素的所有像素的问题。

题为“Predicting Motivations of Actions by Leveraging Text(通过利用文本预测行为动机)”的Vondrick等人的出版物(http://carlvondrick.com/intention.pdf)公开了将人类行为理解为计算机视觉中的关键问题。

该文未提及预测对象动机以获得危险图的可能性。无论如何，这种模型仅限于可识别的对象。此外，由于标签在边界框级别考虑对象，因此将不能高精度地确定诸如道路之类的复杂对象的位置。

题为“Predicting Actions from Static Scenes(从静态场景预测动作)”的Vu等人的出版物旨在发现大量场景类别的动作场景相关性，并将这种相关性用于动作预测(http://www.di.ens.fr/willow/research/actionsfromscenes/paper/eccv14_ actionsfromscenes.pdf)。

该文未提及预测动作以获取危险图的可能性。该模型仅给出语义关键词作为预测结果，因此不能用于生成精细级轨迹控制所需的密集像素级图。

题为“CAD2RL:Real Single-Image Flight Without a Single Real Image(CAD²RL：没有单个真实图像的真实单图像飞行)”的Sadeghi等人的出版物(https:// arxiv.org/pdf/1611.04201.pdf)提出了一种学习方法CAD²RL，该学习方法可用于在现实世界中执行无碰撞的室内飞行，同时在3D CAD模型上进行完全的训练。

这种系统的缺点在于输出仅基于可见对象检测的自由空间概率图，并且无法应对与对象的未来状态相关的危险。

题为“Knowledge Transfer for Scene-specific Motion Prediction(特定场景运动预测的知识迁移)”的Ballan等人的出版物(https://arxiv.org/pdf/ 1603.06987v2.pdf)介绍了一种利用场景特定的知识进行轨迹预测的动态贝叶斯网络。

这种方法的缺点在于依赖于具有运动对象的场景的长期数据采集。这种方法无法应对稀疏标签和用于收集训练数据的动态摄像机运动。它需要非常长的时间来获取不同情况下的训练数据，并且无法应对静态对象或者罕见事件。

发明内容

本发明旨在解决现有技术的上述缺点，更具体地，首先，本发明旨在提出一种能够检测与任何特定应用相关的图像或图像序列中的危险的危险分级训练方法。本发明还旨在提出一种危险分级训练方法，使用经训练的方法检测与特定应用相关的实时图像或图像序列中的危险，并评估危险等级，即，每种危险被定位并且对于每种应用具有同等/一致的等级。

本发明的第一方面涉及一种与特定应用相关的图像或图像序列内的危险分级训练方法，所述危险分级训练方法包括以下步骤：

训练第一深度神经网络(DNN-A)，所述第一深度神经网络(DNN-A)用于通用图像内的通用对象识别；

训练第二深度神经网络(DNN-B)，所述第二深度神经网络(DNN-B)用于与特定应用相关的图像内的特定对象识别；

训练第三深度神经网络(DNN-C)，所述第三深度神经网络(DNN-C)用于与特定应用相关的图像序列内的特定场景流预测；

使用至少一种用于捕获人类如何反应和/或分析环境的人类经训练的标记方法训练第四深度神经网络(DNN-E)，所述第四深度神经网络(DNN-E)用于与特定应用相关的图像或图像序列内的潜在危险区域定位；以及

使用人类经训练的危险标记方法，利用端到端深度神经网络(E2E DNN-4)确定与特定应用相关的图像或图像序列内的至少一个危险像素，所述端到端深度神经网络(E2EDNN-4)为四个深度神经网络的迁移学习序列，所述端到端深度神经网络(E2E DNN-4)之后是至少一个端到端特定层，优选地是至少一个顶层(E2E TL)。

这种危险分级训练方法能够训练端到端深度神经网络，以便在与特定应用相关的图像或图像序列中确定至少一个危险像素，优选地，表示图像或图像序列中最危险的像素。由于包括通用和特定的图像识别、特定场景流预测和潜在的危险区域定位的不同的训练步骤，因此可以达到这样的成就。实际上，图像识别步骤允许训练方法学习如何对任何对象进行分类，尤其是与特定应用相关的任何对象。场景流预测步骤确保学习对象在环境中的移动方式。潜在危险区域定位步骤训练了学习人类如何反应和/或分析环境的方法(例如在汽车应用的驾驶场景中)，其中，这些场景中的一些场景可能包含潜在的危险并且人类的反应将特定于该危险。因此，我们学习如何通过使用人类反应作为标签来区分潜在危险驾驶场景。最后，端到端深度神经网络(E2E DNN-4)还包括一个或多个端到端顶层，所述一个或多个端到端顶层接收针对每个先前知识的经训练特征。这些顶层还学习其自身的危险分级步骤的特定特征以及重复使用从先前步骤中学习的特征。这种端到端深度神经网络通过复制人类在图像或图像序列所代表的情况下检测危险区域的方式来训练用于学习危险分级的方法，并且通过要求人类根据针对所有图像或图像序列的危险协议的相同级别定义对危险进行标记，以系统的方式收集基于人类的危险等级标签，从而评估危险等级。

这种方法考虑了罕见的事件：即通过引入多个知识迁移，它显著降低了罕见事件的概率，因为在每个知识等级上，罕见事件可能是另一个知识等级的通用事件，因此，罕见事件仅限于在知识等级的每个组合中事件罕见的极少数情况。

此外，使用这种训练方法，可以通过将特征从一个网络迁移到另一个网络来使用相同的DNN架构独立地训练每个深度神经网络(DNN)。

有利地，对于确定步骤，训练方法使用了端到端深度神经网络(E2EDNN-A-B-C-E)，所述端到端深度神经网络(E2E DNN-A-B-C-E)为所述第一、第二、第三和第四深度神经网络的迁移学习序列，之后是至少一个端到端顶层(E2E TL)。

实际上，训练样本/标签的数量对于第一DNN非常重要，因此表示结构化知识，并且对于第二、第三和第四DNN中的每一项而言，训练样本/标签的数量显著降低，直到表示非结构化知识。因此，每个个体DNN的这种训练顺序受益于先前更具有结构化的知识。

有利地，危险分级训练方法还包括训练第五深度神经网络(DNN-D)的步骤，所述第五深度神经网络(DNN-D)用于与特定应用相关的图像或图像序列内的不可见特定对象或区域预期和/或可见特定对象或区域预测；并且其中，对于确定步骤，使用作为五个深度神经网络的迁移学习序列的端到端深度神经网络(E2E DNN-5)。优选地，对于确定步骤，训练方法使用端到端深度神经网络(E2E DNN-A-B-C-D-E)，所述端到端深度神经网络(E2E DNN-A-B-C-D-E)为所述第一、第二、第三、第五和第四深度神经网络的迁移学习序列，之后是至少一个端到端顶层(E2E TL)。

训练不可见对象/区域有助于：预测/预期对象/区域将改变其状态或预期对象/区域将来在特定持续时间内在特定位置的出现，尤其是在对象级别丢失标签但在像素或区域级别使用标签的情况下。更普遍地，预测/预期至少涉及预测/预期位置、出现持续时间、运动方向、形状变形类型、当前对象/区域可能移动到的目标对象的选择、以及任何其他可能的状态变化及其组合。在特定对象受训练数据集限制的特定情况下(特定于关注的应用)，预测和预期步骤中使用的对象以及他们从当前状态到未来状态或各种潜在状态变化的轨迹仍然可以以非监督的方式自动被发现。

DNN-D的训练进一步带来不可见对象/区域和/或可见特定对象或区域的关注特征，以预测/预期图像或图像序列中的位置、状态等。

在第三和第四个体网络之间训练第五个体网络完全适合于序列，以便从先前更结构化的知识中受益。

有利地，危险分级训练方法还包括下述步骤：训练端到端多任务学习深度神经网络(E2E MTL DNN-1)，所述端到端多任务学习深度神经网络(E2E MTL DNN-1)包括使用五个深度神经网络的迁移学习序列的、代表一个知识块的所述端到端深度神经网络(E2E DNN-5)和以下各项之中代表至少另一个知识块的至少另一个深度神经网络的组合知识：(i)在第一、第二、第三、第四或第五深度神经网络中的任一个深度神经网络(DNN-1)，(ii)任一个端到端深度神经网络(E2E DNN-2)，所述任一个端到端深度神经网络(E2E DNN-2)为第一、第二、第三、第四或第五深度神经网络中两个深度神经网络的迁移学习序列，(iii)任一个端到端深度神经网络(E2E DNN-3)，所述任一个端到端深度神经网络(E2E DNN-3)为第一、第二、第三、第四或第五深度神经网络中三个深度神经网络的迁移学习序列，以及(iv)任一个端到端深度神经网络(E2E DNN-4)，所述任一个端到端深度神经网络(E2E DNN-4)为第一、第二、第三、第四或第五深度神经网络中四个深度神经网络的迁移学习序列，以及其中，对于所述确定步骤，使用端到端多任务学习深度神经网络(E2E MTL DNN-1)的组合知识，之后是至少一个端到端顶层(E2E TL)。

更优选地，危险分级训练方法还包括以下步骤：训练端到端多任务学习深度神经网络(E2E MTL DNN-2)，所述端到端多任务学习深度神经网络(E2E MTL DNN-2)包括使用第一、第二、第三、第四和第五深度神经网络的迁移学习序列的、代表一个知识块的所述端到端深度神经网络(E2E DNN-A-B-C-D-E)和以下各项之中代表至少另一个知识块的至少另一个深度神经网络的组合知识：(i)所述第一深度神经网络(DNN-A)，(ii)端到端深度神经网络(E2E DNN-A-B)，所述端到端深度神经网络(E2E DNN-A-B)为第一和第二深度神经网络的迁移学习序列，(iii)端到端深度神经网络(E2E DNN-A-B-C)，所述端到端深度神经网络(E2E DNN-A-B-C)为第一、第二和第三深度神经网络的迁移学习序列，以及(iv)端到端深度神经网络(E2E DNN-A-B-C-D)，所述端到端深度神经网络(E2E DNN-A-B-C-D)为第一、第二、第三和第四深度神经网络的迁移学习序列，以及其中，对于所述确定步骤，使用端到端多任务学习深度神经网络(E2E MTL DNN-2)的组合知识，之后是至少一个端到端顶层(E2E TL)。

这种训练方法的优势在于：通过将特征从一个知识块迁移到另一个知识块来使用相同的DNN架构独立训练每个知识块，并将所有知识块组合成单个端到端多任务DNN，并共享对高级特征的访问，从而基于多个知识的组合来学习像素级的危险分级。

有利地，标记通用对象和特定对象中的所有像素，标记特定场景流内的所有对象并标记所有潜在危险区域。

根据另一个目的，本发明的第二方面涉及一种与特定应用相关的图像或图像序列内的危险分级方法，包括以下步骤：提供图像或图像序列；使用根据第一方面训练的危险分级训练方法绘制危险分级图，其中，危险分级图显示图像或图像序列内的任何危险等级。

这种方法结合了来自多个人类个体的稀疏/密集标签；因此，最终经训练的端到端深度神经网络将所有这些个体人类经验重新组合成单一的多专家经验，使其与单个人类的经验相比更加强大。例如，如果某些危险标签来自一个总是在下雪的条件下行驶的人，而其他标签来自在干燥条件下行驶的人，则经训练的组合端到端网络同时在这两种情况下的表现将至少和这两位驾驶员一样出色，而人类只有在有显著经验的情况下才会表现出色。通过这种方式，端到端网络重组并整合了所有驾驶情况下所有驾驶员的经验。因此，这种方法提供了组合的端到端深度神经网络，所述组合的端到端深度神经网络将单个图像或时间序列图像作为输入，并且生成危险分级图像图作为输出，考虑在所有情况下的人类危险感知并使得能够在不受限制的场景中估计危险等级。因此，这提供了经训练方法的高级别的自主权。

有利的是，危险分级图是表示所述图像或图像序列内的每个像素的危险等级的危险分级像素等级图。

同样地，这种方法提供了一种端到端深度神经网络，所述端到端深度神经网络采用单个图像或时间序列图像作为输入，并生成像素级危险分级图像图作为输出。此外，像素级危险图不受分割图像或图像序列的传感器质量的限制。另外，危险分级像素等级图为每个图像像素提供相对于当前情况的危险等级(危险分级)(对于类似场景是统一的)。具有更多标签并具有更密集的标签可以提高训练精确度，但也会增加数据处理和标记时间以及训练时间。事实证明，所提出的方法仅通过使用稀疏标签在估计危险等级方面就非常有效，因为组合的端到端深度神经网络继承了仅使用稀疏标签进行训练的能力，并在实时驾驶场景中生成密集的危险分级图。

有利地，特定应用是辅助或自动车辆驾驶系统，并且危险分级方法还包括利用安装在车辆上的图像传感器单元捕获车辆周围环境的图像或图像序列的步骤。

对于这种应用，危险分级像素级图针对每个图像像素提供关于当前驾驶状况的危险等级(对于类似驾驶场景是统一的)。这种图是高度辅助/自动驾驶车辆控制系统的关键要素，该高度辅助/自动驾驶车辆控制系统需要尤其是在罕见/独特的驾驶场景的情况下实现轨迹控制的安全且有效的路径规划。

或者，特定应用是敏感区域的控制系统，并且危险分级方法还包括利用安装在敏感区域中或敏感区域周围的至少一个视频监视设备捕获图像或图像序列的步骤。

例如，这些敏感区域是医院内的重症监护区、监狱中的高安全性区域或核电站中的高安全区域等。

根据另一个目的，本发明还涉及一种辅助或自动车辆驾驶系统，包括：至少一个图像传感器单元，用于捕获车辆周围环境的图像或图像序列；处理单元，用于根据第二方面方法计算危险分级图；以及控制单元，用于根据危险分级图控制车辆驾驶系统。

有利的，处理单元还用于与预定危险阈值比较，评估所述危险分级图的危险等级；并且其中，车辆驾驶系统还包括至少一个用于显示危险警报的显示单元；以及驾驶单元，用于规划降低危险等级的安全行车路径；并且其中，所述控制单元用于当危险等级高于预定危险阈值时，控制所述显示单元和/或所述驾驶单元。

这种用于辅助或自动车辆驾驶系统的应用通过以危险分级图的形式考虑环境中的任何潜在危险来增加驾驶系统的安全性，该危险分级图示出人类可能感知到的潜在危险区域，包括例如即将到来的不可见对象。

根据另一个目的，本发明还涉及一种车辆网络，包括多个车辆，所述多个车辆配备有根据第三方面所述的辅助或自动车辆驾驶系统，其中，每个车辆的驾驶系统还包括实施有自适应导航高清图的导航单元，其中，所述自适应导航高清图包括基于车辆网络的至少两个车辆的危险分级图的危险层。

这种车辆网络增加了每个车辆驾驶系统的安全性，这得益于网络中其他车辆的危险分级图。

附图说明

本发明的其他特征和优点将从以下由附图所示出的本发明的特定非限制性示例的详细描述中更清楚地显现，在附图中：

图1表示根据本发明的两个优选实施例的危险分级训练方法；

图2表示迁移知识学习的通用流程图；

图3表示根据本发明的优选实施例的危险分级方法；

图4表示知识组合的通用流程图；

图5表示配备有实施根据本发明的方法的必要单元的车辆。

具体实施方式

在更详细地描述本发明的不同实施例之前，这里是一些通用性陈述，这些通用性陈述将有助于理解主要描述自动驾驶汽车的应用的描述的其余部分。然而，人们将理解，本发明可以完美地迁移到具有敏感区域的控制系统的其他特定应用，例如医院内的重症监护区域、监狱中的高安全性区域或核电站中的高安全性区域等。

本发明的一个方面旨在引入危险分级像素级图，该危险分级像素级图针对每个图像像素提供关于当前驾驶状况的危险等级(即分级)(对于类似驾驶场景是统一的)。这种图是高度辅助/自动驾驶车辆控制系统的关键要素，该高度辅助/自动驾驶车辆控制系统需要实现轨迹控制的安全且有效的路径规划，尤其是在罕见/独特的驾驶场景的情况下。

图1表示根据本发明的两个优选实施例的危险分级训练方法。

在将这种危险分级方法实施到车辆驾驶系统之前，训练这种算法是关键。为简单起见，图1中表示的训练方法涉及辅助或自动驾驶汽车的应用。

根据第一变体，危险分级训练方法包括以下步骤。

S1：训练第一深度神经网络(DNN-A)，该第一深度神经网络(DNN-A)用于通用图像内的通用对象识别。

S2：训练第二深度神经网络(DNN-B)，该第二深度神经网络(DNN-B)用于与特定应用相关的图像内的特定对象识别。

S3a：训练第三深度神经网络(DNN-C)，该第三深度神经网络(DNN-C)用于与特定应用相关的图像序列内的特定场景流预测。

S4：使用至少一种用于捕捉人类在驾驶场景中或在离线再现或模拟驾驶场景的情况下如何反应和/或分析环境的标记法训练第四深度神经网络(DNN-E)，该第四深度神经网络(DNN-E)用于与特定应用相关的图像或图像序列内的潜在危险区域定位。

S5：使用至少一种人类经训练的危险标记方法，利用端到端深度神经网络(E2EDNN-A-B-C-E-)确定与特定应用相关的图像或图像序列内的至少一个危险像素，该端到端深度神经网络(E2E DNN-4)为第一、第二、第三和第四深度神经网络的迁移学习序列，所述端到端深度神经网络(E2E DNN-A-B-C-E-)之后是一个或多个端到端顶层(E2E TL)。

根据第二变体，危险分级训练方法还包括步骤S3a和S4之间的步骤S3b。

S3b：训练第五深度神经网络(DNN-D)，该第五深度神经网络(DNN-D)用于与特定应用相关的图像或图像序列内的不可见特定对象或区域预期和/或可见特定对象或区域预测。

因此，步骤S5适用如下。

S5：使用至少一种人类驾驶危险标记方法，利用下述端到端深度神经网络(E2EDNN-A-B-C-D-E)确定与特定应用相关的图像或图像序列内的至少一个危险像素，所述端到端深度神经网络为第一、第二、第三、第五和第四深度神经网络的迁移学习序列，所述端到端深度神经网络之后是一个或多个端到端顶层(E2E TL)。

更具体地，通过提供数据集和对应于那些数据集的标签来完成每个神经网络的训练。

训练用于通用对象识别的第一深度神经网络(DNN-A)通过以下步骤完成。

提供包含通用对象(数据集-A)和通用对象标签(标签-A)的通用图像；以及

输出至少一个类通用特征空间(Conv-A)和至少一个类通用决策空间(FC-A)，用于将通用图像的通用对象分类为通用对象标签。

该第一网络DNN-A的目标是学习是什么让一个对象与另一个对象不同。这种训练提供了健壮的低级和高级视觉特征。对于迁移学习，它能够针对每个对象类别生成健壮且唯一的响应。

训练用于特定对象识别的第二深度神经网络(DNN-B)通过以下步骤完成。

提供包含至少一个特定对象(数据集-B)和特定对象标签(Label-B)的特定图像；

输出至少一个类特定特征空间(Conv-B)和至少一个类特定决策空间(FC-B)，用于将特定图像的特定对象分类为特定对象标签。

该第二网络DNN-B的目标是学习将图像分割成像素级别的类别。这种训练提供了驾驶场景中特定对象的类别和位置的知识。对于迁移学习，它将图像的分割迁移到语义类别的可重复区域和驾驶环境先验。

训练用于特定场景流预测的第三深度神经网络(DNN-C)通过以下步骤完成。

提供包含至少一个特定对象和特定运动或场景流标签(标签-C)的特定图像序列(数据集-B)；

输出至少一个类特定特征空间(Conv-C)和至少一个类特定决策空间(FC-C)，用于将特定图像序列的特定场景流预测到特定的场景流标签中。

该第三网络DNN-C的目标是学习如何估算密集的光学低深度图。这种训练提供了对象的移动方向、速度和距离的知识。对于迁移学习，它迁移对于可观察驾驶场景的与传感器位置无关的理解。

用于不可见特定对象/动作或区域预测或可见特定对象/动作或区域预测的第四深度神经网络(DNN-D)的训练通过以下步骤完成。

提供包含至少一个特定对象和特定不可见对象标签(标签-D)的特定图像或特定图像序列(数据集-D)；

输出至少一个类特定特征空间(Conv-D)和至少一个类特定决策空间(FC-D)，用于预期/预测特定图像或特定图像序列上的不可见或可见特定对象/动作或区域的出现。

该第四网络DNN-D的目标是学习如何预测对象的类别、对象的主要依赖于环境的行为和位置。这种训练提供了驾驶场景中对象的潜在类别和位置的知识。对于迁移学习，它迁移对于预测驾驶场景的与传感器位置无关的理解。在当前驾驶场景中没有看到对象时关注潜在危险图像区域所需的对特定对象的未来状态的对象/动作预测导致分类和定位。

训练用于潜在危险区域的特定眼动跟踪定位的第五深度神经网络(DNN-E)通过以下步骤完成。

提供包含至少一个可见或不可见特定对象的特定图像序列(数据集-E)和由人类专家标记的特定危险标记标签(标签-E)；

-输出至少一个类特定特征空间(Conv-E)和至少一个类特定决策空间(FC-E)，用于定位如人类专家所教导的特定图像序列中的潜在危险区域。

该第五网络DNN-E的目标是复制驾驶员的经验，仅关注少数图像区域。这种训练使得能够区分每个驾驶场景的重要/明显的对象或区域。对于迁移学习，它迁移对驾驶场景的每个对象或区域的可察觉级别的估计。特别是，需要进行眼动跟踪定位以过滤掉人们可察觉的图像区域。特别地，汽车眼动跟踪定位对于进一步过滤对于驾驶潜在重要的图像区域是重要的。

通过第一、第二、第三、第五和第四深度神经网络的迁移学习的序列，接着是一个或多个端到端顶层(E2E TL)完成的端到端深度神经网络(E2E DNN-A-B-C-D-E)的训练是通过以下步骤完成的。

提供包含至少一个可见或不可见特定对象的特定图像序列(数据集-E2E)和由人类专家标记的特定危险标记标签(标签-E2E)；

确定至少一个危险像素。

该端到端网络的目标是估计与驾驶场景内每个对象或区域的碰撞风险等级。这种训练提供了危险分级图的知识。对于迁移学习，它将基于单个图像的像素级危险分级图例如作为输入迁移到其他时间序列深度神经网络(LSTM、RNN等)。危险水平分级和定位的特定知识对于过滤驾驶重要区域中对危险估计重要的图像区域是重要的。

图2表示适用于DNN A-E的迁移知识学习的通用流程图。从图中可以很容易地理解，网络A具有最结构化的知识，并且获得比网络B更多数量的训练样本和标签，接着网络B获得比网络C更多的训练样本和标签，接着网络C获得比网络D更多的训练样本和标签，而网络D又获得比具有最多非结构化知识的网络E更多的训练样本和标签。

每个个体模型或者网络A到E的训练从之前更加结构化的知识中受益。

对于汽车应用，用于训练目的的所选数据集可以是例如下列数据集。

数据集-A：ImageNet；

数据集-B：Cytiscapes；

数据集-C：KITTI

数据集-D：KITTI

数据集-E：CAT2000或DriveEye

E2E数据集：Cytiscapes

在训练之后，目标是将这种方法直接嵌入到用于汽车应用的辅助/自动驾驶汽车的驾驶系统中。

图3表示根据本发明的一个优选实施例的危险分级方法。

深度神经网络A到E和E2E与训练方法的不同之处仅在于它们是经训练的。因此，通过接收驾驶状况的输入图像并输出像素级危险图的经训练的端到端DNN-A-B-C-D-E-TL完成知识迁移，该像素级危险图中的每个像素值对应于危险等级。

我们证实，通过在每个图像只标记一个像素的训练数据上训练端到端深度神经网络，并进行一系列迁移，可以学习成功地将对象识别知识(在迁移步骤中学习的)与危险知识(在当前步骤中学习的，非常稀疏的标记数据)相结合；如果使用一系列迁移学习步骤，则可以通过对非常稀疏(每个图像1个像素)的训练数据进行训练来获得密集的危险分级图。无需标记所有有危险的像素-标记时间的大幅加速。

我们证实，端到端深度神经网络能够将多种经验(由同一个人注释，但是各种图像是在几周的持续时间内进行标记的)整合到一个解决方案中；虽然每个图像只注释了一个对象，但该网络指示场景中多个对象的高危险级别；多个专家的数据组合也应该是可行的。

图4表示根据本发明优选实施例的知识组合的通用流程图。

从该图中可以很容易地理解，通过使用DNN的多任务训练，人们不仅可以通过访问由网络的端到端卷积部分提取的特征来训练危险分级图，也可以通过访问由去卷积部分中的每个迁移学习块(即A、A-B、A-B-C、A-B-C-D和A-B-C-D-E)提取的特征来训练危险分级图。这将使得能够通过逐个移除迁移块并比较多任务危险分级精确度来对每个迁移块对危险分级的重要性进行基准测试。这还应该使得能够可视化激活图，该激活图显示多任务危险分级和个体迁移学习图之间的连接的位置和强度。连接强度越高，危险分级越依赖于每个特定图像像素的迁移学习图。这使得能够理解：对于每个图像区域，危险分级从哪里获取信息以做出决策，迁移学习模块的哪种组合在哪种情况下最强。这些信息对于不断改进危险分级训练方法和危险分级方法非常重要。

此外，以这种方式，训练过程可以减少到使用特定或通用的知识训练一个个体深度神经网络，并且训练一个端到端深度神经网络来对图像或图像序列的像素的危险等级进行分级，类似地，训练过程可以扩展到任何合理数量的知识迁移序列，随后是端到端多任务学习深度神经网络(E2E MTL DNN-1)的组合知识，再随后是至少一个端到端顶层(E2E TL)。

图5示出了配备有至少一个摄像机200的车辆，该摄像机指向前方道路或车辆环境以拍摄视频或连续系列图像(图像序列)。车辆100还包括处理单元和电子控制单元(300)、显示单元和自动驾驶单元(400、410)。

处理单元被设置成评估与预定危险阈值相比的危险分级图的危险等级；以及控制单元被设置成在危险等级高于预定危险阈值时控制显示单元和/或驾驶单元，使得显示单元可以显示危险警报和/或驾驶单元可以规划安全行车路径，以降低危险等级。

应当理解，在不脱离由所附权利要求限定的本发明的范围的情况下，可以对本说明书中描述的本发明的不同实施例进行对本领域技术人员显而易见的各种修改和/或改进。

Claims

1.一种在与特定应用相关的图像或图像序列内的危险分级训练方法，包括以下步骤：

训练第三深度神经网络(DNN-C)，所述第三深度神经网络(DNN-C)用于与所述特定应用相关的图像序列内的特定场景流预测；

使用至少一种用于捕捉人类如何反应和/或分析与所述特定应用相关的图像或图像序列中的环境的标记方法训练第四深度神经网络(DNN-E)，所述第四深度神经网络用于所述图像或图像序列内的潜在危险区域定位；

使用至少一种人类经训练的危险标记方法，利用端到端深度神经网络(E2E DNN-4)确定与所述特定应用相关的图像或图像序列内的至少一个危险像素，所述端到端深度神经网络(E2E DNN-4)为四个深度神经网络的迁移学习序列，之后是至少一个端到端顶层(E2ETL)。

2.根据权利要求1所述的危险分级训练方法，其中，对于所述确定步骤，使用下述端到端深度神经网络(E2E DNN-A-B-C-E-)，所述端到端深度神经网络(E2E DNN-A-B-C-E-)为所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络和所述第四深度神经网络的迁移学习序列，之后是所述至少一个端到端顶层(E2E TL)。

3.根据权利要求1所述的危险分级训练方法，还包括以下步骤：

训练第五深度神经网络(DNN-D)，所述第五深度神经网络(DNN-D)用于与所述特定应用相关的图像或图像序列内的不可见特定对象/动作或区域预期和/或可见特定对象或区域预测；以及

其中，对于所述确定步骤，使用下述端到端深度神经网络(E2E DNN-5)，所述端到端深度神经网络(E2E DNN-5)为五个深度神经网络的迁移学习序列，之后是所述至少一个端到端顶层(E2E TL)。

4.根据权利要求3所述的危险分级训练方法，其中，对于所述确定步骤，使用下述端到端深度神经网络(E2E DNN-A-B-C-D-E)，所述端到端深度神经网络(E2E DNN-A-B-C-D-E)为所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络、所述第五深度神经网络和所述第四深度神经网络的迁移学习序列，之后是所述至少一个端到端顶层(E2ETL)。

5.根据权利要求3所述的危险分级训练方法，还包括以下步骤：

训练端到端多任务学习深度神经网络(E2E MTL DNN-1)，所述端到端多任务学习深度神经网络(E2E MTL DNN-1)包括使用五个深度神经网络的迁移学习序列的所述端到端深度神经网络(E2E DNN-5)和以下各项之中至少另一个深度神经网络的组合知识：

所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络、所述第四深度神经网络或所述第五深度神经网络中的任一个深度神经网络(DNN-1)，

作为所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络、所述第四深度神经网络或所述第五深度神经网络中的两个深度神经网络的迁移学习序列的任一个端到端深度神经网络(E2E DNN-2)，

作为所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络、所述第四深度神经网络或所述第五深度神经网络中的三个深度神经网络的迁移学习序列的任一个端到端深度神经网络(E2E DNN-3)，以及

作为所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络、所述第四深度神经网络或所述第五深度神经网络中的四个深度神经网络的迁移学习序列的任一个端到端深度神经网络(E2E DNN-4)，以及

其中，对于所述确定步骤，使用所述端到端多任务学习深度神经网络(E2E MTL DNN-1)的组合知识，之后是所述至少一个端到端顶层(E2E TL)。

6.根据权利要求4所述的危险分级训练方法，还包括以下步骤：

训练端到端多任务学习深度神经网络(E2E MTL DNN-2)，所述端到端多任务学习深度神经网络(E2E MTL DNN-2)包括使用所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络、所述第四深度神经网络和所述第五深度神经网络的迁移学习序列的所述端到端深度神经网络(E2E DNN-A-B-C-D-E)和以下各项之中至少另一个深度神经网络的组合知识：

所述第一深度神经网络(DNN-A)，

作为所述第一深度神经网络和所述第二深度神经网络的迁移学习序列的端到端深度神经网络(E2E DNN-A-B)，

作为所述第一深度神经网络、所述第二深度神经网络和所述第三深度神经网络的迁移学习序列的端到端深度神经网络(E2E DNN-A-B-C)，以及

作为所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络和所述第四深度神经网络的迁移学习序列的端到端深度神经网络(E2E DNN-A-B-C-D)，以及

其中，对于所述确定步骤，使用所述端到端多任务学习深度神经网络(E2E MTL DNN-2)的组合知识，之后是所述至少一个端到端顶层(E2E TL)。

7.根据权利要求1至6中任一项所述的危险分级训练方法，其中，

标记所述通用对象和所述特定对象中的像素，

标记所述特定场景流内的对象，

标记潜在危险区域。

8.一种在与特定应用相关的图像或图像序列内的危险分级方法，包括以下步骤：

提供图像或图像序列；

使用经训练的根据权利要求1至7中任一项所述的危险分级训练方法绘制危险分级图，其中，所述危险分级图显示所述图像或图像序列内的任何危险等级。

9.根据权利要求8所述的危险分级方法，其中，所述危险分级图是表示所述图像或图像序列内的每个像素的危险等级的危险分级像素等级图。

10.根据权利要求8或9所述的危险分级方法，其中，所述特定应用是辅助或自动车辆驾驶系统，并且其中，所述危险分级方法还包括以下步骤：

使用安装在车辆上的图像传感器单元捕获车辆周围环境的图像或图像序列。

11.根据权利要求8或9所述的危险分级方法，其中，所述特定应用是敏感区域的控制系统，并且其中，所述危险分级方法还包括以下步骤：

使用安装在所述敏感区域内或所述敏感区域周围的至少一个视频监视设备捕获图像或图像序列。

12.一种辅助或自动车辆驾驶系统，包括：

至少一个图像传感器单元，用于捕获车辆周围环境的图像或图像序列；

处理单元，用于根据权利要求8或9所述的方法计算危险分级图；以及

控制单元，用于基于所述危险分级图控制所述车辆驾驶系统。

13.根据权利要求12所述的辅助或自动车辆驾驶系统，其中，所述处理单元还用于与预定危险阈值进行比较来评估所述危险分级图的危险等级；并且其中，所述车辆驾驶系统还包括以下各项中的至少一项：

显示单元，用于显示危险警报；以及

驾驶单元，用于规划安全行车路径，以降低危险等级；

并且其中，所述控制单元用于当所述危险等级高于所述预定危险阈值时，控制所述显示单元和/或所述驾驶单元。

14.一种车辆网络，包括多个车辆，所述多个车辆配备有根据权利要求12或13所述的辅助或自动车辆驾驶系统，其中，每个车辆的驾驶系统还包括实施有自适应导航高清图的导航单元，其中，所述自适应导航高清图包括基于所述车辆网络的至少两个车辆的危险分级图的危险层。