CN112699724A

CN112699724A - 基于来自相机和雷达传感器的数据执行对象和活动识别

Info

Publication number: CN112699724A
Application number: CN202011130873.6A
Authority: CN
Inventors: R·贾纳德哈纳; K·M·钦尼
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-10-22
Filing date: 2020-10-21
Publication date: 2021-04-23
Also published as: US11361554B2; US20210117701A1; DE102020212799A1

Abstract

一种用于基于来自相机和雷达传感器的数据执行对象和活动识别的系统。该系统包括相机、雷达传感器和电子处理器。电子处理器被配置成从相机接收图像并且确定包括对象的图像的部分。电子处理器还被配置成从雷达传感器接收雷达数据并且确定来自雷达传感器的与来自相机的图像中的对象相关联的雷达数据。电子处理器还被配置成将与对象相关联的雷达数据转换为时间‑频率图像，并且分析时间‑频率图像和对象的图像以对对象和由对象执行的活动进行分类。

Description

基于来自相机和雷达传感器的数据执行对象和活动识别

技术领域

实施例涉及对象检测和识别。

背景技术

现代车辆包括各种部分自主的驾驶功能，例如自适应巡航控制、碰撞避免系统、自动泊车等。完全自主驾驶是目标，但是至少在市场上现成的、商业上可行的规模上还没有实现。

发明内容

为了实现完全自主驾驶，需要对象和活动分类方面的改进。对对象和那些对象正在执行的活动进行分类允许车辆基于车辆的周围环境来执行自主驾驶功能。在一个示例中，车辆可以将其周围环境中的对象分类为相邻车辆，并且可以将相邻车辆正执行的活动分类为车辆前方的车道并线。响应于检测到相邻车辆正在车辆前方并线，车辆可以减速以允许相邻车辆并线。在另一示例中，车辆可以检测到车辆周围环境中的对象是行人，并且行人正在执行的活动是在车辆前方穿过街道。响应于检测到行人正在车辆前方穿过街道，车辆可以减速或停止。

当前，执行对象和活动识别的许多系统使用来自雷达传感器的雷达数据来这样做。雷达传感器通常是鲁棒的，并且在许多情况和天气条件下提供关于车辆周围环境的准确数据。在现有系统中，可以根据从雷达传感器接收的输入来确定对象位置和速度信息，但是仅使用雷达来分类对象的类型是困难的。

还存在利用来自相机的图像数据来执行对象和活动分类的许多当前系统。尽管在理想条件下使用图像数据对对象进行分类不困难，但是在非理想条件下（例如，下雨或下雪天气），图像数据不太可靠。另外，利用图像数据确定对象的速度信息是困难的。

因此，除其他之外，本文的实施例尤其描述了用于基于来自相机和雷达传感器的数据来执行对象和活动识别的系统和方法。将来自雷达传感器的雷达数据和来自相机的图像数据两者同时提供给神经网络允许对车辆周围环境中的对象以及对象正在执行的活动的更准确分类。

例如，一个实施例提供了一种用于基于来自相机和雷达传感器的数据来执行对象和活动识别的系统。该系统包括相机、雷达传感器和电子处理器。电子处理器被配置成从相机接收图像并且确定包括对象的图像的部分。电子处理器还被配置成从雷达传感器接收雷达数据，并且确定来自雷达传感器的与来自相机的图像中的对象相关联的雷达数据。电子处理器还被配置成将与对象相关联的雷达数据转换为时间-频率图像，并且分析时间-频率图像和对象的图像以对对象和由对象执行的活动进行分类。

另一实施例提供了一种用于基于来自相机和雷达传感器的数据来执行对象和活动识别的方法。该方法包括用电子处理器从相机接收图像，并且用电子处理器确定包括对象的图像的部分。该方法还包括用电子处理器从雷达传感器接收雷达数据，并且用电子处理器确定来自雷达传感器的与来自相机的图像中的对象相关联的雷达数据。该方法还包括用电子处理器将与对象相关联的雷达数据转换为时间-频率图像，并且用电子处理器分析时间-频率图像和对象的图像以对对象和由对象执行的活动进行分类。

通过考虑详细描述和附图，其他方面、特征和实施例将变得显而易见。

附图说明

图1是根据一个实施例的用于基于来自相机和雷达传感器的数据执行对象和活动识别的系统的框图；

图2是根据一个实施例的图1的系统的电子控制器的框图；

图3是根据一个实施例的包括在图1的系统的车辆中的车辆控制系统的框图；

图4是根据一个实施例的使用图1的系统来基于来自相机和雷达传感器的数据执行对象和活动识别的方法的流程图；

图5是根据一个实施例的雷达数据及其对应的时间-频率图像的图示；

图6是根据一个实施例的用于执行图4的方法的神经网络的框图。

具体实施方式

在详细解释任何实施例之前，应当理解，本公开不打算将其应用局限于在以下描述中阐述的或在以下附图中示出的组件的构造和布置的细节。实施例能够实现其他配置并且能够以各种方式实践或执行。

多个基于硬件和软件的设备以及多个不同的结构组件可以用来实现各种实施例。另外，实施例可以包括硬件、软件和电子组件或模块，为了讨论的目的，可以将其图示和描述为好像大多数组件仅以硬件实现。然而，本领域普通技术人员基于对该详细描述的阅读将认识到，在至少一个实施例中，本发明的基于电子的方面可以以可由一个或多个处理器执行的软件（例如，存储在非暂时性计算机可读介质上）来实现。例如，在说明书中描述的“控制单元”和“控制器”可以包括一个或多个电子处理器、包括非暂时性计算机可读介质的一个或多个存储器模块、一个或多个通信接口、一个或多个专用集成电路（ASIC）、以及连接各种组件的各种连接（例如，系统总线）。

图1示出了用于基于来自相机和雷达传感器的数据来执行对象和活动识别的系统100。在所提供的示例中，系统100包括车辆105。尽管图示为四轮车辆，但是车辆105也可以包括各种类型和设计的车辆。例如，车辆105可以是汽车、摩托车、卡车、公共汽车、半牵引车等。车辆105包括至少一些自主功能，但也可能需要驾驶员或操作者来执行驾驶功能。

在所示的示例中，车辆105包括若干硬件组件，包括车辆控制系统110、电子控制器115、相机120和雷达传感器125。可以存在多于一个的相机120和雷达传感器125中的每一者，并且它们可以位于车辆105的内部或外部的不同位置处。例如，相机120或其组件可以外部地安装到车辆105的部分（诸如在侧镜或行李箱门上）。或者，相机120或其组件可内部安装在车辆105内（例如，通过后视镜定位）。优选地，相机120和雷达传感器125具有对准的视场（例如，具有相同中心点的视场）。在一些实施例中，为了确保相机120和雷达传感器125具有对准的视场，相机120和雷达传感器125被安装在车辆105上的邻近位置处并且在相同方向上定向。在其他实施例中，相机120和雷达传感器125被安装在车辆105上基本不同的位置处，并且被定向成使得它们具有对准的视场。

电子控制器115可以经由各种有线或无线连接而通信地连接到车辆控制系统110、相机120和雷达传感器125。例如，在一些实施例中，电子控制器115经由专用线直接耦合到车辆105的以上列出的组件中的每一个。在其他实施例中，电子控制器115经由共享的通信链路（例如车辆通信总线（例如，控域网（CAN）总线）或无线连接）通信地耦合到一个或多个组件。应当理解，车辆105的每个组件可以使用各种通信协议与电子控制器115通信。图1中所示的实施例仅提供了车辆105的组件和连接的一个示例。因此，车辆105的组件和连接可以以不同于本文所示和所述的方式构造。

图2是图1的系统100的电子控制器115的一个示例性实施例的框图。电子控制器115包括多个电气和电子组件，其向电子控制器115内的组件和模块提供功率、操作控制和保护。除其他之外，电子控制器115尤其包括电子处理器200（诸如可编程电子微处理器、微控制器或类似设备）、存储器205（例如，非暂时性机器可读存储器）和通信接口210。电子处理器200通信地连接到存储器205和通信接口210。电子处理器200与存储器205和通信接口210协作地被配置成实现尤其是本文所述的方法。

电子控制器115可以以若干独立的控制器（例如，可编程电子控制器）来实现，每个控制器被配置成执行特定功能或子功能。另外，电子控制器115可以包含子模块，所述子模块包括附加的电子处理器、存储器或专用集成电路（ASIC），以用于处理通信功能、信号的处理和下面列出的方法的应用。在其他实施例中，电子控制器115包括附加的、更少的或不同的组件。

电子控制器115的存储器205包括当由电子处理器200执行时使得电子处理器200执行图4中所示的方法400的软件。例如，图2中所示的存储器205包括神经网络215、对象检测软件220和雷达数据处理软件225。神经网络215可以是深度神经网络（例如，卷积神经网络（CNN）或递归神经网络（RNN））。在一个示例中，神经网络215包括两个输入通道，从而允许神经网络215同时分析图像数据和雷达数据两者以对车辆周围环境中的对象和由该对象执行的动作进行分类。在一些实施例中，神经网络215可以包括与本文所示和所述的两个通道不同数量的通道。例如，神经网络215可以包括第三通道，从而允许神经网络215除了分析图像数据和雷达数据之外还分析例如激光雷达（lidar）数据。在一些实施例中，神经网络215被训练成对对象和它们正在执行的动作进行分类。在一个示例中，使用多对图像的训练集来执行训练。包括在训练集中的每对图像中的第一图像可以是来自相机的对象的图像。每对图像中的第二图像可以是基于与对象相关联的雷达数据的时间-频率图像。在一些实施例中，电子处理器200在执行对象检测软件220时使用机器学习技术来在从相机120接收的图像中检测可能影响车辆105的运动的对象。例如，对象检测软件220可以包括已被训练成识别车辆、人、动物、前述的组合等的卷积神经网络。电子处理器200在执行雷达数据处理软件225时确定来自雷达传感器125的雷达数据，该雷达数据与使用对象检测软件220在来自相机120的图像中检测到的对象相关联。当确定了与来自相机120的图像数据中的对象相关联的雷达数据时，使用诸如短期傅里叶变换（STFT）、小波等之类的时间-频率分析技术来将雷达数据转换为时间-频率图像。

图3示出了车辆控制系统110的示例。车辆控制系统110包括在车辆105的自主或手动控制中涉及的组件。例如，在一些实施例中，车辆控制系统110包括转向系统300、制动器305和加速器310。图3中所示的实施例仅提供了车辆控制系统110的组件的一个示例。在其他实施例中，车辆控制系统110包括附加的、更少的或不同的组件。

图4图示了基于来自相机和雷达传感器的数据执行对象和活动识别的示例性方法400。在步骤405，电子处理器200从相机（例如，相机120）接收图像。在步骤410，电子处理器200使用诸如CNN之类的对象识别技术来确定包括对象的图像的部分。一旦标识了包括对象的图像的部分，电子处理器200就裁剪该图像，使得图像的部分（例如图像的大部分）描绘该对象。在步骤415，电子处理器200还从雷达传感器125接收雷达数据。在步骤420，执行雷达数据处理软件225的电子处理器200确定来自雷达传感器125的与来自相机120的图像中检测到的对象相关联的雷达数据。例如，雷达传感器125可以接收与车辆105的周围环境中的多个对象相关联的雷达数据。如上所述，相机120和雷达传感器125的视场被对准。为了确定来自雷达传感器125的仅与图像中检测到的对象相关联的雷达数据，电子处理器200确定检测到的图像在相机120的视场中的位置，并且将相机120的视场中的确定的位置与雷达传感器125的视场中的位置进行匹配。从雷达传感器125的视场中的位置接收的雷达数据是与来自相机120的图像中检测到的对象相关联的雷达数据。

在步骤425，电子处理器200将与对象相关联的雷达数据转换为时间-频率图像。例如，电子处理器200通过将诸如短时傅立叶变换、小波变换、双线性时间-频率分布函数、修正的Wigner分布函数、希尔伯特-黄变换等之类的时间-频率分析技术应用于与对象相关联的雷达数据来将雷达数据转换为图像。图5是雷达数据转换为图像的示例性图示。图5的图表500示出了与图像中的对象相关联的雷达数据。如图表500所示，在一个示例中，雷达数据是随时间（在图表500的x轴510上测量）接收的多普勒信号（在图表500的y轴505上测量）。图表515示出了将时间-频率分析技术应用于图表500中所包括的雷达数据而得到的时间-频率图像520。图表515的y轴525表示频率（以赫兹为单位测量），并且图表515的x轴530表示时间（以秒为单位测量）。

在步骤430，电子处理器200分析时间-频率图像和对象的图像以对对象和由对象执行的活动进行分类。在一些实施例中，电子处理器200使用神经网络215来同时分析对象的图像和时间-频率图像，尽管不是在所有情况下都需要同时分析。图6示出了执行对象的图像和时间-频率图像的分析的一个示例性实施例。在图6所示的示例中，神经网络215被示为具有两个输入通道的卷积神经网络。在图6所示的示例中，时间-频率图像520经由第一通道600馈送到神经网络215，并且对象的图像605经由第二通道610馈送到神经网络215。

神经网络215具有多个层，包括特征提取层615和分类层620。存在两种类型的特征提取层615——卷积层和池化或子采样层。每个卷积层对图像605和时间-频率图像520应用滤波器。在某些实施例中，滤波器是权重值的矩阵。通过训练神经网络215来设置滤波器的权重值。子采样层减小神经网络215所处理的图像的大小。子采样层通过创建具有对较大图像中的像素组进行表示的像素的较小图像来从较大图像创建较小图像。例如，最大池化层使用具有较大图像中的像素组中的像素之中的最大值的像素来表示较小图像中的像素组。在另一示例中，平均池化层使用被分配了较大图像中的像素组中的每个像素的值的平均值的像素来表示较小图像中的像素组。分类层620负责使用图像605和时间-频率图像520的所提取的特征来对对象和由对象执行的动作进行分类。

在一些实施例中，一旦对象和由对象执行的活动被分类，电子处理器200就利用车辆控制系统110来基于对象和与对象相关联的活动的分类执行自动驾驶功能。在一个示例中，如果对象被分类为骑自行车的人，并且骑自行车的人正在执行的动作是以比车辆105慢的速率在路肩上平行于车辆105移动，则电子处理器200可以利用制动器305在车辆105经过骑自行车的人时使车辆105减速，利用转向系统300来远些避开骑自行车的人，或两者。在另一示例中，如果对象被分类为行人并且行人正在执行的动作是正站在车辆105正在其上行进的道路的边缘处，则电子处理器200可以利用制动器305在车辆105经过行人时使车辆105减速。

在一些实施例中，车辆105的周围环境中的多个对象的分类和对象正在执行的动作的分类被电子处理器200用来确定要执行的自主驾驶动作。例如，如果第一对象是在车辆105的左手侧平行于车辆105移动的骑自行车的人，并且第二对象是在车辆105的右手侧平行于车辆105移动的车辆，则电子处理器200可以确定车辆105应在车辆105经过骑自行车的人时减速，但不应为了远些避开骑自行车的人而跨入车辆105的右手侧的车道中。这防止了车辆105与在车辆105的右手侧平行于车辆105行进的车辆发生碰撞。

在一些实施例中，电子处理器200在执行对象检测软件220时在从相机120接收的图像中检测到多个对象。在该场景下，电子处理器200可以针对在来自相机120的图像中检测到的每个对象执行方法400的步骤415-430。在一些实施例中，系统100包括多对相机和雷达传感器，每对具有不同的视场，并且电子处理器200从每对接收图像和雷达数据。从不同对的相机和雷达传感器接收的数据可以被顺序地或并行地分析。例如，系统100中的每对相机和雷达传感器可以与类似于图2中所示的电子控制器115的电子控制器相关联，并且每个电子控制器可以使用从其相关联的相机和雷达传感器对接收到的图像和雷达数据来执行方法400。

在前述说明书中，已经描述了具体实施例和示例。然而，本领域普通技术人员应当理解到，在不偏离如所附权利要求中阐述的本发明范围的情况下，可以进行各种修改和改变。因此，说明书和附图应被认为是说明性的而非限制性的，并且所有这样的修改旨在被包括在本教导的范围内。

在本文档中，诸如第一和第二、顶部和底部等之类的关系术语可以仅用于将一个实体或动作与另一实体或动作区分开，而不必要求或暗示在这样的实体或动作之间的任何实际的这样的关系或顺序。术语“包括”、“包括有”、“具有”、“有”、“包含”、“包含有”、“含有”、“容纳有”或其任何其他变型旨在覆盖非排他性的包括，使得包括、具有、包含、含有元素列表的过程、方法、物品或装置不仅包括那些元素，而且还可以包括未明确列出的或对于这样的过程、方法、物品或装置固有的其他元素。前面有“包括…一”、“具有…一”、“包含…一”、或“含有…一”的元素在没有更多约束的情况下不排除在包括、具有、包含、含有该元素的过程、方法、物品或装置中存在附加的相同元素。术语“一”和“一个”被定义为一个或多个，除非在此明确地另外声明。术语“基本上”、“本质上”、“大约”、“约”或其任何其他版本被定义为接近本领域普通技术人员所理解的，并且在一个非限制性实施例中，该术语被定义为在10%内，在另一个实施例中被定义为在5%内，在另一个实施例中被定义为在1%内，并且在另一个实施例中被定义为在0.5%内。这里使用的术语“耦合”被定义为连接，尽管不必是直接连接，也不必是机械连接。以某种方式“配置”的设备或结构至少以该方式配置，但也可以以未列出的方式配置。

在所附权利要求中阐述了各种特征、优点和实施例。

Claims

1.一种用于基于来自相机和雷达传感器的数据执行对象和活动识别的系统，所述系统包括：

相机；

雷达传感器；以及

电子处理器，所述电子处理器被配置成：

从所述相机接收图像；

确定所述图像的包括对象的部分；

从所述雷达传感器接收雷达数据；

确定来自所述雷达传感器的与来自所述相机的所述图像中的所述对象相关联的雷达数据；

将与所述对象相关联的所述雷达数据转换为时间-频率图像；以及

分析所述时间-频率图像和所述对象的图像以对所述对象和由所述对象执行的活动进行分类。

2.根据权利要求1所述的系统，其中，所述相机、雷达传感器和电子处理器被包括在车辆中，并且所述对象位于所述车辆的周围环境中并且影响所述车辆的移动。

3.根据权利要求1所述的系统，其中，所述电子处理器被配置成通过使用机器学习技术确定对象在所述图像中的位置并且裁剪所述图像使得所述图像的大部分描绘所述对象来确定所述图像的包括所述对象的部分。

4.根据权利要求1所述的系统，其中，所述电子处理器被配置成通过将时间-频率分析技术应用于所述雷达数据来将所述雷达数据转换为时间-频率图像。

5.根据权利要求1所述的系统，其中，所述电子处理器被配置成使用深度神经网络同时分析与所述雷达数据相关联的图像和所述对象的图像以对所述对象和由所述对象执行的活动进行分类。

6.根据权利要求5所述的系统，其中，所述深度神经网络包括两个输入通道，并且所述雷达数据的图像经由第一通道被输入到所述深度神经网络，并且来自所述相机的图像经由第二通道被输入到所述深度神经网络。

7.根据权利要求5所述的系统，其中，所述深度神经网络被训练为使用多对图像来对所述对象和所述活动进行分类，每对图像中的第一图像是对象的来自相机的图像，并且第二图像是与所述对象相关联的时间-频率图像。

8.根据权利要求1所述的系统，其中，所述电子处理器还被配置成基于所述对象和由所述对象执行的活动的分类来执行自动驾驶功能。

9.根据权利要求1所述的系统，其中，所述相机的视场的中心点与所述雷达传感器的视场的中心点对准。

10.一种用于基于来自相机和雷达传感器的数据执行对象和活动识别的方法，所述方法包括：

用电子处理器从相机接收图像；

用所述电子处理器确定所述图像的包括对象的部分；

用所述电子处理器从雷达传感器接收雷达数据；

用所述电子处理器确定来自所述雷达传感器的与来自所述相机的所述图像中的所述对象相关联的雷达数据；

用所述电子处理器将与所述对象相关联的所述雷达数据转换为时间-频率图像；以及

用所述电子处理器分析所述时间-频率图像和所述对象的图像以对所述对象和由所述对象执行的活动进行分类。

11.根据权利要求10所述的方法，其中，所述相机、雷达传感器和电子处理器被包括在车辆中，并且所述对象位于所述车辆的周围环境中并且影响所述车辆的移动。

12.根据权利要求10所述的方法，其中，确定所述图像的包括对象的部分包括：

使用机器学习技术来确定所述对象在所述图像中的位置；以及

裁剪所述图像使得所述图像的大部分描绘所述对象。

13.根据权利要求10所述的方法，其中，用所述电子处理器将与所述对象相关联的所述雷达数据转换为时间-频率图像包括将时间-频率分析技术应用于所述雷达数据。

14.根据权利要求10所述的方法，其中，用所述电子处理器分析所述时间-频率图像和所述对象的图像以对所述对象和由所述对象执行的活动进行分类包括使用深度神经网络同时分析所述时间-频率图像和所述对象的图像以对所述对象和由所述对象执行的活动进行分类。

15.根据权利要求14所述的方法，其中，所述深度神经网络包括两个输入通道，并且所述雷达数据的图像经由第一通道被输入到所述深度神经网络，并且来自所述相机的图像经由第二通道被输入到所述深度神经网络。

16.根据权利要求14所述的方法，其中，所述深度神经网络被训练为使用多对图像来对所述对象和所述活动进行分类，每对图像中的第一图像是对象的来自相机的图像，并且第二图像是与所述对象相关联的时间-频率图像。

17.根据权利要求10所述的方法，所述方法还包括基于所述对象和由所述对象执行的活动的分类来执行自动驾驶功能。

18.根据权利要求10所述的方法，其中，所述相机的视场的中心点与所述雷达传感器的视场的中心点对准。