CN109284653A

CN109284653A - 基于计算机视觉的细长物体检测

Info

Publication number: CN109284653A
Application number: CN201710597328.XA
Authority: CN
Inventors: 华刚; 杨蛟龙; 赵春水; 周辰
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2019-01-29
Also published as: EP3639192A1; US20200226392A1; WO2019018065A1

Abstract

根据本公开的实现，提出了一种基于计算机视觉的细长物体检测方案。在该方案中，包含待检测的至少一个细长物体的多个图像被获取。多个图像中的多个边缘被提取，并且多个边缘的相应深度被确定。此外，包含在多个图像中的至少一个细长物体基于多个边缘的相应深度而被标识，经标识的至少一个细长物体由多个边缘中的至少一个边缘表示。该至少一个细长物体是横截面积与长度的比值显著较小的物体。这种细长物体在传统检测方案中往往难以被检测到，但是本公开的实现有效地解决了这一难题。

Description

基于计算机视觉的细长物体检测

背景技术

对于诸如自动驾驶车辆和无人机之类的移动机器人平台而言，安全至关重要。为了进行障碍物检测和避免碰撞，一些传统解决方案利用主动传感器来测量平台与周围物体的距离。主动传感器包括例如激光雷达、声纳、各种类型的深度相机等。然而，由于测量分辨率有限，这些主动传感器很容易漏掉具有细长结构的障碍物，诸如绳索、线缆或者树枝等，从而引发安全问题。另一些传统方案基于由诸如立体相机捕获的图像来进行障碍物检测。立体相机能够提供具有高空间分辨率的图像，但是由于细长障碍物在图像中仅具有极小的覆盖面积以及图像可能存在的杂乱背景，在立体匹配期间细长障碍物很容易被漏掉。

发明内容

根据本公开的实现，提出了一种基于计算机视觉技术的细长物体检测方案。该方案通过运动的单目相机或者立体相机来捕获包含待检测的至少一个细长物体的多个图像。该方案通过对多个图像中的多个边缘进行检测和三维重建，标识包含在多个图像中的至少一个细长物体。经标识的该至少一个细长物体可以由多个边缘中的至少一些边缘来表示。通过本公开的方案，能够利用有限的计算资源高效地实现对细长障碍物的检测。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的实现的基于单目相机的细长物体检测系统的框图；

图3示出了根据本公开的实现的深度图的示例表示；

图4示出了根据本公开的实现的基于立体相机的细长物体检测系统的框图；以及

图5示出了根据本公开一些实现的用于检测细长物体的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语 “第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

问题概述

在当前传统的障碍物检测系统中，针对细长物体的检测往往未被注意到。在此所述的“细长物体”通常指代其横截面积与长度的比值较小的物体。例如，细长物体可以是横截面积小于第一阈值且长度大于第二阈值的物体，其中第一阈值可以是0.2平方厘米并且第二阈值可以是5厘米。细长物体可以具有类似柱体的形状，例如但不限于圆柱体、棱柱体、薄片等。细长物体的示例可以包括但不限于细线、绳索、树枝等等。

然而，对于诸如自动驾驶车辆和无人机之类的移动机器人平台而言，针对细长物体的检测至关重要。例如，在无人机应用中，与线缆或者树枝等发生碰撞已经成为无人机事故的主要原因。此外，针对细长物体的检测可以显著地增强诸如自动驾驶汽车或者室内机器人的安全性。针对细长物体的检测对于现有的传统障碍物检测系统而言是困难的。如之前所提到的，由于细长物体本身的种种特点，在基于主动传感器或者基于图像区域来进行障碍物检测的方案中细长物体往往难以被检测到。

发明人通过研究认识到，关于细长物体检测存在三个目标需要实现：(1)足够完整的边缘提取：细长物体的边缘应当被足够完整地提取，使得细长物体不被遗漏；(2)足够准确的深度恢复：边缘的三维坐标应当被足够准确地恢复，使得后续的诸如碰撞避免的动作能够被安全地执行；(3)足够高的执行效率：算法需要足够高效，使得能够利用有限的计算资源被实现在嵌入式系统中以进行实时障碍物检测。

这三个目标中的第二和第三目标对于传统障碍物检测系统而言可能是常见的，而第一目标在传统障碍物检测方案中往往难以实现。例如，对于基于图像区域的障碍物检测系统而言，其通常针对具有规则形状的障碍物。因此，在这样的系统中，漏掉物体的某些部分可能是可以接受的，只要围绕物体的边界大体上能够被保留。然而，完整的边缘提取对于细长物体的检测至关重要。例如，在一些情况下，诸如细线或者线缆的障碍物可能贯穿整个图像。倘若检测过程中漏掉细线或者线缆的一部分，则可能导致碰撞发生。

以下参考附图来说明本公开的基本原理和若干示例实现。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器 120、存储设备130、一个或多个通信单元140、一个或多个输入设备 150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括自动驾驶汽车、飞行器、机器人、移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、数码相机/摄像机、定位设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120 中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括图像处理模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。图像处理模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

计算设备100还可以根据需要与一个或多个外部设备(未示出) 进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备 100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备、图像输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100 还可以根据需要通过通信单元140与一个或多个外部设备(未示出) 进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100 与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

计算设备100可以用于实施本公开的多种实现中的物体检测。在执行物体检测时，输入设备150可以接收由运动的相机捕获的一个或多个图像102，并将其提供作为对存储器120中的图像处理模块122 的输入。图像102由图像处理模块122处理以检测其中出现的一个或多个物体。检测结果104被提供给输出设备160。在一些示例中，检测结果104被表示为具有由粗线指示的检测物体的一个或多个图像。在图1所示的示例中，如图1所示，粗线106用于指示图像中出现的线缆。应当理解，图像序列102和104仅仅出于说明的目的而被呈现，其无意于限制本公开的范围。

注意，尽管在图1中图像处理模块122被示为在执行时被加载到存储器120中的软件模块，但是这仅仅是示例性的。在其他实现中，图像处理模块122的至少部分可以借助于专用集成电路、芯片或者其他硬件模块的硬件手段来实现。

系统架构和工作原理

如以上所提到的，为了实现针对细长物体的检测，存在三个目标需要实现：(1)足够完整的边缘提取；(2)足够准确的深度恢复；以及(3)足够高的执行效率。

为了解决上述问题以及其他潜在问题中的一个或者多个，根据本公开的示例实现，提出了基于计算机视觉技术的细长物体检测方案。该方案利用视频帧中的边缘来表示物体，例如边缘由呈现较大梯度的图像像素组成。在该方案中，通过运动的单目相机或者立体相机来捕获关于周围物体的视频。所捕获的视频可以包括多个图像。该方案通过对多个图像中的多个边缘进行检测和三维重建，检测包含在多个图像中的细长物体。细长物体可以由多个边缘中的至少一些边缘来表示。

基于图像中的边缘来进行物体检测的方案存在两方面益处。首先，诸如细线、绳索、树枝等的细长物体难以通过基于图像区域或图像分块的方法来被检测，因为细长物体在图像中通常具有极小的覆盖面积。相反，这些物体更容易通过适当的边缘检测器来检测。其次，由于图像的边缘保留了图像所描述场景的重要结构信息，因此基于图像的边缘来进行物体检测能够实现较高的计算效率。这对于嵌入式系统而言至关重要。因此，本公开的方案能够利用有限的计算资源高效地实现对细长障碍物的检测，并且能够被实现在嵌入式系统中以进行实时障碍物检测。

由于本公开的方案通过对物体的边缘进行三维重建来实现对物体的检测，因此除了能够检测细长物体之外，本公开的方案也能够用于检测具有纹理边缘的一般物体。此外，通过与适合于检测较大的无明显纹理或透明物体的主动传感器相结合，根据本公开的方案能够可靠地且鲁棒地实现针对各种类型的物体的检测。应当理解，尽管在本文的描述中主要针对细长物体的检测来阐述本公开的实现，但是本公开的范围在此方面不受限制。

在下文中，将位于图像中的边缘上的像素称为边缘像素，例如边缘像素可以是呈现较大梯度的图像像素。边缘像素可以利用四元组 e＝{p,g,d,σ}来表示，其中p表示边缘像素在图像中的坐标并且g表示与边缘像素相关联的梯度。d反映边缘像素的深度，并且σ反映深度的方差。在一些示例中，为了便于计算，d例如可以等于边缘像素的深度的倒数(也称为“反深度”)并且σ可以等于反深度的方差。然而，应当理解，这仅是出于便于计算的目的，而无意于限制本公开的范围。在另一些示例中，d和σ也可以利用其他形式来表示。假设由运动的相机所捕获的图像包括两个连续帧，则与两个连续帧相对应的相机的运动可以由六维向量ξ＝{w,v}来表示。具体地，w表示相机的转动，并且w∈so(3),so(3)表示三维旋转群。v表示相机的平移，并且即v属于三维欧式空间。R＝exp(w)(R∈so(3))表示旋转矩阵。特别地，假设前一帧中的三维点的坐标为p_c，则在后一帧中该三维点的对应坐标p_c＝Rp_c+v。可以利用六维向量ξ＝{w,v}作为欧式变换的表示，其中ξ∈se(3)，se(3)表示欧式运动群。

以下将结合附图来分别描述根据本公开的实现的基于单目相机的细长物体检测方案和基于立体相机的细长物体检测方案的一些示例实现。

基于单目相机的细长物体检测

图2示出了根据本公开的实现的基于单目相机的细长物体检测系统200的框图。在一些实现中，系统200可以被实现为图1的计算设备100的图像处理模块122的至少一部分，也即，被实现为计算机程序模块。备选地，在其他实现中，系统200也可以部分或者全部地通过硬件设备来实现。

如图2所示，系统200可以包括边缘提取部分210、深度确定部分230和物体标识部分250。在图2所示的实现中，系统200获得的多个输入图像102是由运动的单目相机捕获的视频中的多个连续帧。例如，多个输入图像102涉及待检测的细长物体，诸如线缆等。在一些实现中，输入图像102可以具有任何尺寸和/或格式。

边缘提取

根据本公开的实现，期望检测包含在输入图像102中的细长物体。在如图2所示的示例中，边缘提取部分210可以提取包含在多个输入图像102中的多个边缘。在一些实现中，边缘提取部分210可以基于DoG技术和Canny边缘检测算法的组合来提取包含在多个输入图像102中的多个边缘。

根据本公开的实现的DoG技术的原理是：利用带有不同标准差的高斯核与原始图像进行卷积，以得到不同的高斯模糊图像。通过将不同的高斯模糊图像相减来确定原始图像中的每个像素属于边缘像素的可能性。在一些实现中，边缘提取部分210可以基于DoG技术来确定每个输入图像102中的像素属于边缘像素的可能性。例如，该可能性可以由与该像素相关联的得分来指示。

在一些实现中，边缘提取部分210可以至少部分地利用Canny 边缘检测技术、基于所确定的与输入图像102中的每个像素相关联的得分来确定该像素是否属于多个边缘。具体地，Canny边缘检测技术提供双阈值判断机制，双阈值包括用于确定像素是否属于边缘像素的较高阈值和较低阈值。如果该像素的得分小于较低阈值，则该像素可以被确定为不属于边缘像素。如果该像素的得分大于较高阈值，则该像素可以被确定为属于边缘像素(该像素可以被称为“强边缘像素”)。如果该像素的得分在较低阈值与较高阈值之间，边缘提取部分210可以进一步确定在该像素的附近是否存在强边缘像素。当该像素的附近存在强边缘像素时，该像素可以被认为是与强边缘像素相连，并且因此也属于边缘像素；否则，该像素被确定为属于非边缘像素。

基于DoG技术和Canny边缘检测算法来提取多个边缘的优点在于：DoG技术提供较好的回归精度，能够稳定地确定每个像素属于边缘像素的可能性。Canny边缘检测技术能够减少假边缘的数量，并且提高较不明显的边缘的检测率。以此方式，边缘提取部分210能够有效地提取包含在多个输入图像102中的多个边缘。

应当理解，边缘提取部分210还可以利用任何已知或者将要开发的边缘检测技术来进行边缘提取，包括但不限于梯度分析法、微分算子法、样板匹配法、小波检测法、神经网络法或者其组合。本公开的范围在此方面不受限制。

在一些实现中，边缘提取部分210可以将所提取的多个边缘表示在分别与多个输入图像102相对应的多个边缘图220中。例如，边缘图220中的每一个可以标识相应输入图像102中的边缘像素。在一些实现中，边缘图220可以是二值图像。例如，边缘图220中的每个像素值可以为‘0’或者‘1’，其中‘0’表示相应输入图像102中与该像素值相对应的像素为非边缘像素，而‘1’则表示相应输入图像102中与该像素值相对应的像素为边缘像素。

基于VO技术的边缘三维重建

由边缘提取部分210生成的多个边缘图220可以被提供给深度确定部分230。在一些实现中，深度确定部分230可以通过确定所提取的多个边缘的深度，来将所提取的多个边缘重建到三维空间中。在一些实现中，深度确定部分230可以利用例如视觉测程(VisualOdometry，简称VO)技术来进行多个边缘的三维重建，其中每个边缘像素的深度由高斯分布(即，深度均值和方差)来表示。例如，深度确定部分230可以通过跟踪和映射两个步骤来对多个边缘进行三维重建，其中跟踪步骤用于确定相机的运动，而映射步骤用于生成分别与多个边缘图220相对应的、指示多个边缘的相应深度的多个深度图 240。下文将对这两个步骤作进一步的详细说明。

如前所述，输入图像102是由单目相机捕获的视频中的多个连续帧。不失一般性地，假设多个连续帧包括两个紧邻的帧，称为“第一帧”和“第二帧”。由边缘提取部分210生成的多个边缘图220可以包括与第一帧相对应的边缘图(本文中称为“第一边缘图”)和与第二帧相对应的边缘图(本文中称为“第二边缘图”)。在一些实现中，与第一帧到第二帧的变化相对应的相机的运动可以通过从第一边缘图向第二边缘图的拟合来确定。理想情况下，经由该相机的运动，由第一边缘图指示的第一帧中的边缘像素将被投影到第二帧中的对应边缘像素上。因此，深度确定部分230可以基于第一边缘图和第二边缘图来建立度量该投影误差的目标函数，通过使得该投影误差最小化来确定与第一帧到第二帧的变化相对应的相机的运动。

例如，根据本公开的一些实现，目标函数的示例可以如下表示：

其中ξ＝{w,v}表示与第一帧到第二帧的变化相对应的相机的运动，其是待确定的六维向量。具体地，w表示与第一帧到第二帧的变化相对应的相机的转动。v表示与第一帧到第二帧的变化相对应的相机的平移。W表示用于将第一帧中的第i个边缘像素p_i投影到第二帧中的翘曲函数。d_i表示边缘像素p_i的深度。表示第二帧中与边缘像素p_i相对应的边缘像素，其可以通过沿边缘像素p_i的梯度方向搜索第二边缘图而得到。表示边缘像素的梯度方向。ρ表示预定义的针对投影误差的惩罚函数。

在一些实现中，深度确定部分230可以通过对上述公式(1)进行最小化来确定与第一帧到第二帧的变化相对应的相机的运动(也即，w和v)。例如，该最小化可以利用Levenberg-Marquardt(简称L-M)算法来实现，其中该算法的初始点可以基于假设的恒定值来确定。

单目相机通常无法提供确切的尺度信息。在一些实现中，例如，可以通过向深度确定部分230提供关于相机的初始绝对位置的信息来解决单目相机的尺度模糊的问题。附加地或者备选地，在另一些实施例中，可以通过引入与相机相关联的惯性测量数据来解决单目相机的尺度模糊的问题。例如，深度确定部分230可以从与相机一同安装在相同硬件平台(诸如，无人机、移动机器人等)上的惯性测量单元获取与相机相关联的惯性测量数据。

在一些实现中，来自惯性测量单元的惯性测量数据可以提供关于相机的运动的初始化信息。附加地或者备选地，在另一些实施例中，可以利用惯性测量数据为上述公式(1)增加惩罚项，以惩罚与最小化目标的偏离。

例如，根据本公开的另一些实现的示例目标函数可如下表示：

E(w，v)＝E_o(w，v)+λ_w||w-w₀||²+λ_v||v-v₀||² (2)

其中E₀(w,v)表示根据公式(1)计算的原始几何误差，两个平方项是用以使最终解更接近(w₀,v₀)的先验。(w₀,v₀)是从惯性测量数据获得的、与第一帧到第二帧的变化相对应的相机的运动，其中w₀表示相机的转动而v₀表示相机的平移。λ_W和λ_V分别表示相应的平方项在目标函数中的权重，它们可以是预定义的常数。

在一些实现中，深度确定部分230可以通过对上述公式(2)进行最小化来确定与第一帧到第二帧的变化相对应的相机的运动(也即，w和v)。例如，该最小化可以利用L-M算法来实现，其中可以利用(w₀,v₀)作为该算法的初始点。

一旦确定了相机的运动，深度确定部分230可以通过映射步骤来生成分别与多个边缘图220相对应的、指示多个边缘的相应深度的多个深度图240。在一些实现中，深度确定部分230可以利用极线搜索(epipolar search)技术针对第二边缘图和第一边缘图执行边缘匹配。例如，深度确定部分230可以通过极线搜索将第二帧中的边缘像素与第一帧中的边缘像素进行匹配。边缘匹配的标准例如可以基于梯度方向和/或以上所确定的相机的运动来确定。极线搜索的结果可以被用于多个深度图240的生成。

不失一般性地，假设与第一边缘图相对应的深度图(本文中称为“第一深度图”)已被确定(例如，初始帧的深度图可以基于假设的恒定值来确定)。在一些实现中，深度确定部分230可以基于第一深度图、所确定的与第一帧到第二帧的变化相对应的相机的运动和极线搜索的结果来生成与第二边缘图相对应的深度图(本文中称为“第二深度图”)。例如，深度确定部分230可以基于第一深度图和所确定的相机的运动来估计第二深度图(在本文中，所估计的第二深度图也被称为“中间深度图”)。进一步地，深度确定部分230可以利用极线搜索的结果对中间深度图进行校正，以生成最终的第二深度图。上述生成第二深度图的过程例如可以利用扩展卡尔曼滤波(EKF)算法来实现，其中利用极线搜索的结果对所估计的第二深度图进行校正的过程也被称为数据融合过程。在EKF算法的执行过程中，极线搜索的结果可以作为观察变量来校正中间深度图。

由于孔径问题(aperture problem)以及缺乏有效的匹配描述符，基于极线搜索的边缘匹配通常是困难的。当初始的相机运动和/或深度估计不准确时，错误的匹配非常常见，并且在搜索范围内可能存在多个类似的边缘。为了解决上述问题，在一些实现中，在针对第二帧中的边缘像素而在第一边缘图中搜索与之匹配的边缘像素时，深度确定部分230可以首先确定满足边缘匹配标准(如上所述，边缘匹配标准可以基于梯度方向和/或所确定的相机的运动来被确定)的所有候选边缘像素，然后计算它们沿极线方向的位置方差。

如果候选边缘像素的数量较少，则该位置方差较小，其指示较确定的匹配。如果候选边缘像素的数量较多，该位置方差较大，其指示较不确定的匹配。该位置方差可以决定候选边缘像素在校正中间深度图时的影响。例如，较小的位置方差可以决定候选边缘像素对于上述数据融合过程具有较大影响，而较大的位置方差可以决定候选边缘像素对于上述数据融合过程具有较小影响。以此方式，本公开的实现能够有效地提高边缘匹配的有效性。

在一些实现中，深度确定部分230可以将所生成的多个深度图 240中的每一个表示为具有不同颜色的图像。深度确定部分230可以利用不同的颜色来表示边缘像素的不同深度。例如，与距离相机较远的边缘相对应的边缘像素可以利用较冷的颜色来表示；而与距离相机较近的边缘相对应的边缘像素可以利用较暖的颜色来表示。

例如，图3示出了根据本公开的实现的深度图的示例表示。在此示例中，图像310可以是输入图像102中的一帧，而深度图320是由深度确定部分230所生成的与图像310相对应的深度图。如图3所示，在图像310中由虚线框311指示了一段线缆，在深度图320中由虚线框 321指示了与该段线缆相对应的边缘像素的深度表示。

物体标识

由深度确定部分230生成的多个深度图240被提供给物体标识部分250。在一些实现中，物体标识部分250可以基于多个深度图240 来标识属于细长物体的至少一个边缘。理想情况下，落入预定义三维体积S内的边缘像素可以被标识为属于细长物体，其中预定义三维体积S可以是预定义用于检测细长物体的空间范围。然而，原始的深度图通常是具有噪声的。因此，在一些实现中，物体标识部分250可以将跨多个帧匹配的、具有稳定深度的边缘标识为属于要识别的细长物体。具体地，针对每个边缘像素e_i，除了其图像位置p_i和深度d_i以外，物体标识部分250还可以将其方差σ_i和其成功被匹配的帧数t_i作为标识细长物体的标准(例如，方差σ_i应小于阈值σ_th且被成功匹配的帧数t_i应大于阈值t_th)。

在一些实现中，考虑到具有噪声的边缘通常被分散在深度图中，物体标识部分250可以对已经标识的属于细长物体的边缘组合进行滤波。在下文中，“属于细长物体的边缘”也被称为“物体边缘”；并且“属于细长物体的边缘像素”也被称为“物体像素”。出于执行效率的考虑，该滤波过程例如可以在已经标识的物体边缘的数量低于阈值cnt_l或者高于阈值cnt_h时不被执行，其中物体边缘的数量低于阈值 cnt_l指示图像中不太可能存在细长物体，而物体边缘的数量高于阈值 cnt_h指示图像中极有可能存在细长物体。

在一些实现中，该滤波过程可以滤除已经标识的物体边缘中属于噪声的边缘组合。属于噪声的边缘组合可以是一些尺寸较小的物体边缘组合。例如，距离小于阈值n_t(单位：像素)的两个物体像素可以被定义为是相连的，也即属于相同的物体边缘组合。在一些实现中，物体边缘组合的尺寸可以基于该物体边缘组合中的物体像素的数目来被确定。例如，当物体边缘组合的尺寸小于某个阈值时，该物体边缘组合可以被认为属于噪声。

附加地或者备选地，出于执行效率的考虑，该滤波过程可以通过在由大小为n_t的缩放因子对深度图240中的每个深度图进行缩放而得到的相应图像I_r上搜索相连的物体边缘组合来实现。例如，图像I_r中的每个像素值可以等于在原始深度图的n_t×n_t大小的对应块中的物体像素的数目。因此，可以通过对图像I_r中的相连的像素的值进行求和来确定原始图像中的相应物体边缘组合的大小。

以下的表1示出了标识细长物体的上述过程的程序伪码的示例，其中上述滤除已经标识的物体边缘中属于噪声的边缘组合的滤波过程被表示为函数FILTER()，π表示将相机坐标系中的点投影到图像坐标系中的投影函数，并且π^-1表示π的反函数。

表1：标识属于细长物体的边缘像素的算法

基于所识别到的属于细长物体的边缘，物体标识部分250可以输出检测结果104。在一些示例中，检测结果104可以被表示为具有由例如粗线指示的检测物体的多个输出图像。例如，多个输出图像104 可以具有与多个输入图像102相同的尺寸和/或格式。如图2所示，粗线106用于指示所识别到的细长物体。

以上阐述了根据本公开的实现的基于单目相机的细长物体检测方案。以下结合附图来阐述根据本公开的实现的基于立体相机的细长物体检测方案。

基于多目相机的细长物体检测

图4示出了根据本公开的实现的基于立体相机的细长物体检测系统400的框图。系统400可以被实现在图1的计算设备100的图像处理模块122处。如图4所示，系统400可以包括边缘提取部分210、深度确定部分230、立体匹配部分430、深度融合部分450和物体标识部分250。

在图4的示例中，系统400获得的多个输入图像102是由运动的立体相机捕获的视频中的多个连续帧。捕获多个输入图像102的立体相机至少可以包括第一相机(例如，左相机)和第二相机(例如，右相机)。在此所述的“立体相机”可以被认为是经过校正的立体相机。也即，第一相机和第二相机的X-Y平面共面且两个相机的X轴均与两个相机的光心的连线(也被称为“基线”)重合，使得第一相机和第二相机在三维空间中仅存在X轴方向上的平移。例如，多个输入图像102可以包括由第一相机捕获的第一组图像411和由第二相机捕获的第二组图像412。在一些实现中，第一组图像411和第二组图像412可以具有任何尺寸和/或格式。特别地，第一组图像411和第二组图像412可以是涉及同一待检测细长物体(例如，线缆)的图像。根据本公开的实现，期望检测包含在输入图像102中的细长物体。

边缘提取

在如图4所示的示例中，边缘提取部分210可以提取包含在第一组图像411和第二组图像412中的多个边缘。边缘提取的方式与关于图2所描述的边缘提取的方式类似，在此不再赘述。

在一些实现中，边缘提取部分210可以将针对第一组图像411 所提取的第一组边缘表示在与第一组图像411相对应的第一组边缘图 421中。类似地，边缘提取部分210可以将针对第二组图像412所提取的第二组边缘表示在与第二组图像412相对应的第二组边缘图422 中。

基于VO技术的边缘三维重建

两组图像411和412中的一组图像(例如，第一组图像411)可以被当作参考图像。与参考图像411相对应的第一组边缘图421可以被提供给深度确定部分230。深度确定部分230可以通过确定所提取的第一组边缘的深度，来将第一组边缘重建到三维空间中。与关于图 2所描述的边缘三维重建的方式类似，深度确定部分230可以利用例如基于边缘的VO技术来进行第一组边缘的三维重建，其中第一组边缘中的每个边缘像素的深度由高斯分布(即，深度均值和方差)来表示。与关于图2所描述的边缘三维重建的方式不同的是，由于立体相机能够通过视差来提供尺度信息，因此在第一组边缘的三维重建过程中，惯性测量数据的引入是可选的。以此方式，深度确定部分230可以生成与第一组边缘图421相对应的、指示第一组边缘的相应深度的第一组深度图441。

基于立体匹配的边缘三维重建

在一些实现中，第一组边缘图421和第二组边缘图422还可以一起被提供给立体匹配部分430。立体匹配部分430可以对第一组边缘图421和第二组边缘图422执行立体匹配，以生成用于校正第一组深度图441的第二组深度图442。

根据本公开的实现的立体匹配的原理是：通过找到由经校正的立体相机捕获的每对图像间的对应关系，根据三角测量原理来生成描述两者之间的视差信息的视差图。视差图与深度图之间可以互相转换。如以上所描述的，每个边缘像素的深度可以由高斯分布(即，深度均值和方差)来表示。假设某个边缘像素的深度为d且方差为σ，则与该边缘像素相关联的立体视差值u可以被确定为：u＝Bfd，其中B 表示第一相机和第二相机的光心之间的距离，f表示立体相机的焦距 (第一相机的焦距和第二相机的焦距通常相同)。类似地，与该边缘像素相关联的视差方差σ_u＝Bfσ。以下将进一步地详细描述立体匹配的过程。

如前所述，第一组图像411是由立体相机中的第一相机捕获的视频中的多个连续帧，而第二组图像412是由立体相机中的第二相机捕获的视频中的多个连续帧。不失一般性地，假设第一组图像411包括由第一相机捕获的帧(本文中称为“第三帧”)，而第二组图像412 包括与第三帧相对应的由第二相机捕获的帧(本文中称为“第四帧”)。由边缘提取部分210生成的第一组边缘图421可以包括与第三帧相对应的边缘图(本文中称为“第三边缘图”)，而第二组边缘图422可以包括与第四帧相对应的边缘图(本文中称为“第四边缘图”)。由深度确定部分230确定的第一组深度图441可以包括与第三边缘图相对应的深度图(本文中称为“第三深度图”)。

在一些实现中，立体匹配部分430可以通过对第三边缘图和第四边缘图执行立体匹配，来生成描述两者之间的视差信息的视差图。该视差图可以被转换为与之对应的深度图(本文中称为“第四深度图”)，以用于校正第三深度图。在对第三边缘图和第四边缘图执行立体匹配的过程中，与第三边缘图相对应的第三深度图可以被用于约束立体匹配中的立体搜索的范围。第三深度图可以根据上述视差图与深度图之间的关系而被转换成与之对应的视差图。例如，针对第三深度图中的具有深度为d且方差为σ的边缘像素，立体匹配部分430可以仅在第四边缘图中在极线方向上的[u-2σ_u,u+2σ_u]的范围内搜索匹配的边缘像素。针对方差较小的边缘像素，立体匹配的搜索范围显著减小，从而能够明显提高立体匹配的效率。边缘匹配的标准例如可以与关于图2所描述的边缘匹配标准类似，在此不再赘述。

以此方式，立体匹配部分430可以通过对第一组边缘图421和第二组边缘图422执行立体匹配来生成描述它们之间的相应视差信息的一组视差图，而该组视差图可以进一步被转换为第二组深度图442。

深度融合

由深度确定部分230生成的第一组深度图441和由立体匹配部分430生成的第二组深度图442可以被提供给深度融合部分450。在一些实现中，深度融合部分450可以基于EKF算法来融合第二组深度图442和第一组深度图441以生成第三组深度图443。在EKF算法的执行过程中，由立体匹配部分430生成的第二组深度图442可以作为观察变量来校正由深度确定部分230生成的第一组深度图441。

物体标识

第三组深度图443可以被提供给物体标识部分250。物体标识部分250可以基于第三组深度图443来标识属于细长物体的至少一个边缘。基于所识别到的属于细长物体的边缘，物体标识部分250 可以输出检测结果104。细长物体的标识方式与关于图2所描述的细长物体的标识方式类似，在此不再赘述。

示例过程

图5示出了根据本公开一些实现的用于检测细长物体的过程500 的流程图。过程500可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的图像处理模块122处。在510，图像处理模块122获取包含待检测的至少一个细长物体的多个图像。在 520，图像处理模块122提取多个图像中的多个边缘。在530，图像处理模块122确定多个边缘的相应深度。在540，图像处理模块122基于多个边缘的相应深度来标识多个图像中的至少一个细长物体。经标识的至少一个细长物体由多个边缘中的至少一个边缘表示。

在一些实现中，至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值，其中第一阈值是0.2平方厘米，并且第二阈值是5厘米。

在一些实现中，提取多个图像中的多个边缘包括：生成分别与多个图像相对应的、标识多个边缘的多个边缘图。确定多个边缘的相应深度包括：基于多个边缘图来生成分别与多个边缘图相对应的、指示多个边缘的相应深度的多个深度图。标识多个图像中的至少一个细长物体包括：基于多个深度图来标识多个边缘中属于至少一个细长物体的至少一个边缘。

在一些实现中，提取多个图像中的多个边缘包括：确定多个图像中的像素属于多个边缘的可能性；以及至少基于该可能性来确定该像素是否属于所述多个边缘。

在一些实现中，多个图像包括由相机捕获的视频中的第一帧和第一帧的后续第二帧，多个边缘图包括与第一帧相对应的第一边缘图和与第二帧相对应的第二边缘图。生成多个深度图包括：确定与第一边缘图相对应的第一深度图；至少基于第一边缘图和第二边缘图，确定与第一帧到第二帧的变化相对应的、相机的运动；以及至少基于第一深度图和相机的运动，生成与第二边缘图相对应的第二深度图。

在一些实现中，确定相机的运动包括：执行第一边缘图向第二边缘图的第一边缘匹配；以及基于第一边缘匹配的结果，确定相机的运动。

在一些实现中，确定相机的运动还包括：获取与相机相关联的惯性测量数据；以及基于第一边缘图、第二边缘图和惯性测量数据，确定相机的运动。

在一些实现中，生成第二深度图包括：基于第一深度图和相机的运动，生成与第二边缘图相对应的中间深度图；基于相机的运动，执行第二边缘图向第一边缘图的第二边缘匹配；以及基于中间深度图和第二边缘匹配的结果，生成第二深度图。

在一些实现中，多个图像由立体相机捕获，立体相机至少包括第一相机和第二相机，多个图像至少包括由第一相机捕获的第一组图像和由第二相机捕获的第二组图像。提取多个图像中的多个边缘包括：提取第一组图像中的第一组边缘和第二组图像中的第二组边缘。确定多个边缘的相应深度包括：确定第一组边缘的相应深度；对第一组边缘和第二组边缘执行立体匹配；以及基于立体匹配的结果，更新第一组边缘的相应深度。标识多个图像中的至少一个细长物体：基于经更新的相应深度，标识多个图像中的至少一个细长物体。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种设备。该设备包括：处理单元；存储器，该存储器被耦合到处理单元并且存储用于由处理单元执行的指令，该指令当由处理单元执行时，使得该设备执行动作，动作包括：获取包含待检测的至少一个细长物体的多个图像；提取多个图像中的多个边缘；确定多个边缘的相应深度；以及基于多个边缘的相应深度，标识多个图像中的至少一个细长物体，经标识的至少一个细长物体由多个边缘中的至少一个边缘表示。

在另一方面，本公开提供了一种方法。该方法包括：获取包含待检测的至少一个细长物体的多个图像；提取多个图像中的多个边缘；确定多个边缘的相应深度；以及基于多个边缘的相应深度，标识多个图像中的至少一个细长物体，经标识的至少一个细长物体由多个边缘中的至少一个边缘表示。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括计算机可执行指令，计算机可执行指令在由设备执行时使设备执行以上方面中的方法。

在又一方面，本公开提供了一种计算机可读介质，其上存储有计算机可执行指令，计算机可执行指令在由设备执行时使设备执行以上方面中的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器 (CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种设备，包括：

处理单元；

存储器，所述存储器被耦合到所述处理单元并且存储用于由所述处理单元执行的指令，所述指令当由所述处理单元执行时，使得所述设备执行动作，所述动作包括：

获取包含待检测的至少一个细长物体的多个图像；

提取所述多个图像中的多个边缘；

确定所述多个边缘的相应深度；以及

基于所述多个边缘的所述相应深度，标识所述多个图像中的所述至少一个细长物体，经标识的所述至少一个细长物体由所述多个边缘中的至少一个边缘表示。

2.根据权利要求1所述的设备，其中所述至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值，所述第一阈值是0.2平方厘米，并且所述第二阈值是5厘米。

3.根据权利要求1所述的设备，其中：

提取所述多个图像中的多个边缘包括生成分别与所述多个图像相对应的、标识所述多个边缘的多个边缘图；

确定所述多个边缘的相应深度包括基于所述多个边缘图来生成分别与所述多个边缘图相对应的、指示所述多个边缘的所述相应深度的多个深度图；并且

标识所述多个图像中的所述至少一个细长物体包括基于所述多个深度图来标识所述多个边缘中属于所述至少一个细长物体的所述至少一个边缘。

4.根据权利要求1所述的设备，其中提取所述多个图像中的所述多个边缘包括：

确定所述多个图像中的像素属于所述多个边缘的可能性；以及

至少基于所述可能性来确定所述像素是否属于所述多个边缘。

5.根据权利要求3所述的设备，其中所述多个图像包括由相机捕获的视频中的第一帧和所述第一帧的后续第二帧，所述多个边缘图包括与所述第一帧相对应的第一边缘图和与所述第二帧相对应的第二边缘图，并且生成所述多个深度图包括：

确定与所述第一边缘图相对应的第一深度图；

至少基于所述第一边缘图和所述第二边缘图，确定与所述第一帧到所述第二帧的变化相对应的、所述相机的运动；以及

至少基于所述第一深度图和所述相机的所述运动，生成与所述第二边缘图相对应的第二深度图。

6.根据权利要求5所述的设备，其中确定所述相机的所述运动包括：

执行第一边缘图向第二边缘图的第一边缘匹配；以及

基于所述第一边缘匹配的结果，确定所述相机的所述运动。

7.根据权利要求5所述的设备，其中确定所述相机的所述运动还包括：

获取与所述相机相关联的惯性测量数据；以及

基于所述第一边缘图、所述第二边缘图和所述惯性测量数据，确定所述相机的所述运动。

8.根据权利要求5所述的设备，其中生成所述第二深度图包括：

基于所述第一深度图和所述相机的所述运动，生成与所述第二边缘图相对应的中间深度图；

基于所述相机的所述运动，执行第二边缘图向第一边缘图的第二边缘匹配；以及

基于所述中间深度图和所述第二边缘匹配的结果，生成所述第二深度图。

9.根据权利要求1所述的设备，其中所述多个图像由立体相机捕获，所述立体相机至少包括第一相机和第二相机，所述多个图像至少包括由所述第一相机捕获的第一组图像和由所述第二相机捕获的第二组图像，并且

提取所述多个图像中的多个边缘包括：

提取所述第一组图像中的第一组边缘和所述第二组图像中的第二组边缘；

确定所述多个边缘的相应深度包括：

确定所述第一组边缘的相应深度；

对所述第一组边缘和所述第二组边缘执行立体匹配；以及

基于所述立体匹配的结果，更新所述第一组边缘的所述相应深度；并且

标识所述多个图像中的所述至少一个细长物体包括：

基于经更新的所述相应深度，标识所述多个图像中的所述至少一个细长物体。

10.一种计算机实现的方法，包括

获取包含待检测的至少一个细长物体的多个图像；

提取所述多个图像中的多个边缘；

确定所述多个边缘的相应深度；以及

11.根据权利要求10所述的方法，其中所述至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值，所述第一阈值是0.2平方厘米，并且所述第二阈值是5厘米。

12.根据权利要求10所述的方法，其中：

13.根据权利要求10所述的方法，其中提取所述多个图像中的所述多个边缘包括：

14.根据权利要求12所述的方法，其中所述多个图像包括由相机捕获的视频中的第一帧和所述第一帧的后续第二帧，所述多个边缘图包括与所述第一帧相对应的第一边缘图和与所述第二帧相对应的第二边缘图，并且生成所述多个深度图包括：

确定与所述第一边缘图相对应的第一深度图；

15.根据权利要求14所述的方法，其中确定所述相机的所述运动包括：

执行第一边缘图向第二边缘图的第一边缘匹配；以及

基于所述第一边缘匹配的结果，确定所述相机的所述运动。

16.根据权利要求14所述的方法，其中确定所述相机的所述运动还包括：

获取与所述相机相关联的惯性测量数据；以及

17.根据权利要求14所述的方法，其中生成所述第二深度图包括：

18.根据权利要求10所述的方法，其中所述多个图像由立体相机捕获，所述立体相机至少包括第一相机和第二相机，所述多个图像至少包括由所述第一相机捕获的第一组图像和由所述第二相机捕获的第二组图像，并且

提取所述多个图像中的多个边缘包括：

确定所述多个边缘的相应深度包括：

确定所述第一组边缘的相应深度；

对所述第一组边缘和所述第二组边缘执行立体匹配；以及

标识所述多个图像中的所述至少一个细长物体包括：

19.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行动作，所述动作包括：

获取包含待检测的至少一个细长物体的多个图像；

提取所述多个图像中的多个边缘；

确定所述多个边缘的相应深度；以及

20.根据权利要求19所述的计算机程序产品，其中所述至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值，所述第一阈值是0.2平方厘米，并且所述第二阈值是5厘米。