CN109284653A - 基于计算机视觉的细长物体检测 - Google Patents

基于计算机视觉的细长物体检测 Download PDF

Info

Publication number
CN109284653A
CN109284653A CN201710597328.XA CN201710597328A CN109284653A CN 109284653 A CN109284653 A CN 109284653A CN 201710597328 A CN201710597328 A CN 201710597328A CN 109284653 A CN109284653 A CN 109284653A
Authority
CN
China
Prior art keywords
edge
camera
depth
slender body
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710597328.XA
Other languages
English (en)
Inventor
华刚
杨蛟龙
赵春水
周辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201710597328.XA priority Critical patent/CN109284653A/zh
Priority to PCT/US2018/034813 priority patent/WO2019018065A1/en
Priority to EP18732210.2A priority patent/EP3639192A1/en
Priority to US16/631,935 priority patent/US20200226392A1/en
Publication of CN109284653A publication Critical patent/CN109284653A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0085Motion estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

根据本公开的实现,提出了一种基于计算机视觉的细长物体检测方案。在该方案中,包含待检测的至少一个细长物体的多个图像被获取。多个图像中的多个边缘被提取,并且多个边缘的相应深度被确定。此外,包含在多个图像中的至少一个细长物体基于多个边缘的相应深度而被标识,经标识的至少一个细长物体由多个边缘中的至少一个边缘表示。该至少一个细长物体是横截面积与长度的比值显著较小的物体。这种细长物体在传统检测方案中往往难以被检测到,但是本公开的实现有效地解决了这一难题。

Description

基于计算机视觉的细长物体检测
背景技术
对于诸如自动驾驶车辆和无人机之类的移动机器人平台而言, 安全至关重要。为了进行障碍物检测和避免碰撞,一些传统解决方案 利用主动传感器来测量平台与周围物体的距离。主动传感器包括例如 激光雷达、声纳、各种类型的深度相机等。然而,由于测量分辨率有 限,这些主动传感器很容易漏掉具有细长结构的障碍物,诸如绳索、 线缆或者树枝等,从而引发安全问题。另一些传统方案基于由诸如立 体相机捕获的图像来进行障碍物检测。立体相机能够提供具有高空间 分辨率的图像,但是由于细长障碍物在图像中仅具有极小的覆盖面积 以及图像可能存在的杂乱背景,在立体匹配期间细长障碍物很容易被 漏掉。
发明内容
根据本公开的实现,提出了一种基于计算机视觉技术的细长物 体检测方案。该方案通过运动的单目相机或者立体相机来捕获包含待 检测的至少一个细长物体的多个图像。该方案通过对多个图像中的多 个边缘进行检测和三维重建,标识包含在多个图像中的至少一个细长 物体。经标识的该至少一个细长物体可以由多个边缘中的至少一些边 缘来表示。通过本公开的方案,能够利用有限的计算资源高效地实现 对细长障碍物的检测。
提供发明内容部分是为了以简化的形式来介绍对概念的选择, 其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识 要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题 的范围。
附图说明
图1示出了能够实施本公开的多个实现的计算设备的框图;
图2示出了根据本公开的实现的基于单目相机的细长物体检测 系统的框图;
图3示出了根据本公开的实现的深度图的示例表示;
图4示出了根据本公开的实现的基于立体相机的细长物体检测 系统的框图;以及
图5示出了根据本公开一些实现的用于检测细长物体的过程的 流程图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这 些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实 现本公开,而不是暗示对本主题的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包 括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地 基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实 现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语 “第一”、“第二”等等可以指代不同的或相同的对象。下文还可能 包括其他明确的和隐含的定义。
问题概述
在当前传统的障碍物检测系统中,针对细长物体的检测往往未 被注意到。在此所述的“细长物体”通常指代其横截面积与长度的比 值较小的物体。例如,细长物体可以是横截面积小于第一阈值且长度 大于第二阈值的物体,其中第一阈值可以是0.2平方厘米并且第二阈 值可以是5厘米。细长物体可以具有类似柱体的形状,例如但不限于 圆柱体、棱柱体、薄片等。细长物体的示例可以包括但不限于细线、 绳索、树枝等等。
然而,对于诸如自动驾驶车辆和无人机之类的移动机器人平台 而言,针对细长物体的检测至关重要。例如,在无人机应用中,与线 缆或者树枝等发生碰撞已经成为无人机事故的主要原因。此外,针对 细长物体的检测可以显著地增强诸如自动驾驶汽车或者室内机器人 的安全性。针对细长物体的检测对于现有的传统障碍物检测系统而言 是困难的。如之前所提到的,由于细长物体本身的种种特点,在基于 主动传感器或者基于图像区域来进行障碍物检测的方案中细长物体 往往难以被检测到。
发明人通过研究认识到,关于细长物体检测存在三个目标需要 实现:(1)足够完整的边缘提取:细长物体的边缘应当被足够完整 地提取,使得细长物体不被遗漏;(2)足够准确的深度恢复:边缘 的三维坐标应当被足够准确地恢复,使得后续的诸如碰撞避免的动作 能够被安全地执行;(3)足够高的执行效率:算法需要足够高效, 使得能够利用有限的计算资源被实现在嵌入式系统中以进行实时障 碍物检测。
这三个目标中的第二和第三目标对于传统障碍物检测系统而言 可能是常见的,而第一目标在传统障碍物检测方案中往往难以实现。 例如,对于基于图像区域的障碍物检测系统而言,其通常针对具有规 则形状的障碍物。因此,在这样的系统中,漏掉物体的某些部分可能 是可以接受的,只要围绕物体的边界大体上能够被保留。然而,完整 的边缘提取对于细长物体的检测至关重要。例如,在一些情况下,诸 如细线或者线缆的障碍物可能贯穿整个图像。倘若检测过程中漏掉细 线或者线缆的一部分,则可能导致碰撞发生。
以下参考附图来说明本公开的基本原理和若干示例实现。
示例环境
图1示出了能够实施本公开的多个实现的计算设备100的框图。 应当理解,图1所示出的计算设备100仅仅是示例性的,而不应当构 成对本公开所描述的实现的功能和范围的任何限制。如图1所示,计 算设备100包括通用计算设备形式的计算设备100。计算设备100的 组件可以包括但不限于一个或多个处理器或处理单元110、存储器 120、存储设备130、一个或多个通信单元140、一个或多个输入设备 150以及一个或多个输出设备160。
在一些实现中,计算设备100可以被实现为具有计算能力的各 种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务 器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终 端或便携式终端,包括自动驾驶汽车、飞行器、机器人、移动手机、 多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝 上型计算机、平板计算机、个人通信系统(PCS)设备、个人导航设 备、个人数字助理(PDA)、数码相机/摄像机、定位设备、游戏设备 或者其任意组合,包括这些设备的配件和外设或者其任意组合。
处理单元110可以是实际或虚拟处理器并且能够根据存储器120 中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并 行执行计算机可执行指令,以提高计算设备100的并行处理能力。处 理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、 微控制器。
计算设备100通常包括多个计算机存储介质。这样的介质可以 是计算设备100可访问的任何可以获得的介质,包括但不限于易失性 和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性 存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储 器(EEPROM)、闪存)或其某种组合。存储器120可以包括图像处 理模块122,这些程序模块被配置为执行本文所描述的各种实现的功 能。图像处理模块122可以由处理单元110访问和运行,以实现相应 功能。
存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括 机器可读介质,其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、 易失性/非易失性存储介质。尽管未在图1中示出,可以提供用于从可 拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非 易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可 以由一个或多个数据介质接口被连接至总线(未示出)。
通信单元140实现通过通信介质与另外的计算设备进行通信。 附加地,计算设备100的组件的功能可以以单个计算集群或多个计算 机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算 设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者 另一个一般网络节点的逻辑连接来在联网环境中进行操作。
计算设备100还可以根据需要与一个或多个外部设备(未示出) 进行通信,外部设备诸如存储设备、显示设备等等,与一个或多个使 得用户与计算设备100交互的设备进行通信,或者与使得计算设备 100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制 解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未 示出)来执行。
输入设备150可以是一个或多个各种输入设备,例如鼠标、键 盘、追踪球、语音输入设备、图像输入设备等。输出设备160可以是 一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备100 还可以根据需要通过通信单元140与一个或多个外部设备(未示出) 进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得 用户与计算设备100交互的设备进行通信,或者与使得计算设备100 与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调 器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示 出)来执行。
计算设备100可以用于实施本公开的多种实现中的物体检测。 在执行物体检测时,输入设备150可以接收由运动的相机捕获的一个 或多个图像102,并将其提供作为对存储器120中的图像处理模块122 的输入。图像102由图像处理模块122处理以检测其中出现的一个或 多个物体。检测结果104被提供给输出设备160。在一些示例中,检 测结果104被表示为具有由粗线指示的检测物体的一个或多个图像。 在图1所示的示例中,如图1所示,粗线106用于指示图像中出现的 线缆。应当理解,图像序列102和104仅仅出于说明的目的而被呈现, 其无意于限制本公开的范围。
注意,尽管在图1中图像处理模块122被示为在执行时被加载 到存储器120中的软件模块,但是这仅仅是示例性的。在其他实现中, 图像处理模块122的至少部分可以借助于专用集成电路、芯片或者其 他硬件模块的硬件手段来实现。
系统架构和工作原理
如以上所提到的,为了实现针对细长物体的检测,存在三个目 标需要实现:(1)足够完整的边缘提取;(2)足够准确的深度恢复; 以及(3)足够高的执行效率。
为了解决上述问题以及其他潜在问题中的一个或者多个,根据 本公开的示例实现,提出了基于计算机视觉技术的细长物体检测方 案。该方案利用视频帧中的边缘来表示物体,例如边缘由呈现较大梯 度的图像像素组成。在该方案中,通过运动的单目相机或者立体相机 来捕获关于周围物体的视频。所捕获的视频可以包括多个图像。该方 案通过对多个图像中的多个边缘进行检测和三维重建,检测包含在多 个图像中的细长物体。细长物体可以由多个边缘中的至少一些边缘来 表示。
基于图像中的边缘来进行物体检测的方案存在两方面益处。首 先,诸如细线、绳索、树枝等的细长物体难以通过基于图像区域或图 像分块的方法来被检测,因为细长物体在图像中通常具有极小的覆盖 面积。相反,这些物体更容易通过适当的边缘检测器来检测。其次, 由于图像的边缘保留了图像所描述场景的重要结构信息,因此基于图 像的边缘来进行物体检测能够实现较高的计算效率。这对于嵌入式系 统而言至关重要。因此,本公开的方案能够利用有限的计算资源高效 地实现对细长障碍物的检测,并且能够被实现在嵌入式系统中以进行 实时障碍物检测。
由于本公开的方案通过对物体的边缘进行三维重建来实现对物 体的检测,因此除了能够检测细长物体之外,本公开的方案也能够用 于检测具有纹理边缘的一般物体。此外,通过与适合于检测较大的无 明显纹理或透明物体的主动传感器相结合,根据本公开的方案能够可 靠地且鲁棒地实现针对各种类型的物体的检测。应当理解,尽管在本 文的描述中主要针对细长物体的检测来阐述本公开的实现,但是本公 开的范围在此方面不受限制。
在下文中,将位于图像中的边缘上的像素称为边缘像素,例如 边缘像素可以是呈现较大梯度的图像像素。边缘像素可以利用四元组 e={p,g,d,σ}来表示,其中p表示边缘像素在图像中的坐标并且g表 示与边缘像素相关联的梯度。d反映边缘像素的深度,并且σ反映深 度的方差。在一些示例中,为了便于计算,d例如可以等于边缘像素 的深度的倒数(也称为“反深度”)并且σ可以等于反深度的方差。 然而,应当理解,这仅是出于便于计算的目的,而无意于限制本公开 的范围。在另一些示例中,d和σ也可以利用其他形式来表示。假设 由运动的相机所捕获的图像包括两个连续帧,则与两个连续帧相对应 的相机的运动可以由六维向量ξ={w,v}来表示。具体地,w表示相机 的转动,并且w∈so(3),so(3)表示三维旋转群。v表示相机的平移,并 且即v属于三维欧式空间。R=exp(w)(R∈so(3))表示旋转矩 阵。特别地,假设前一帧中的三维点的坐标为pc,则在后一帧中该三 维点的对应坐标pc=Rpc+v。可以利用六维向量ξ={w,v}作为欧式变 换的表示,其中ξ∈se(3),se(3)表示欧式运动群。
以下将结合附图来分别描述根据本公开的实现的基于单目相机 的细长物体检测方案和基于立体相机的细长物体检测方案的一些示 例实现。
基于单目相机的细长物体检测
图2示出了根据本公开的实现的基于单目相机的细长物体检测 系统200的框图。在一些实现中,系统200可以被实现为图1的计算 设备100的图像处理模块122的至少一部分,也即,被实现为计算机 程序模块。备选地,在其他实现中,系统200也可以部分或者全部地 通过硬件设备来实现。
如图2所示,系统200可以包括边缘提取部分210、深度确定部 分230和物体标识部分250。在图2所示的实现中,系统200获得的 多个输入图像102是由运动的单目相机捕获的视频中的多个连续帧。 例如,多个输入图像102涉及待检测的细长物体,诸如线缆等。在一些实现中,输入图像102可以具有任何尺寸和/或格式。
边缘提取
根据本公开的实现,期望检测包含在输入图像102中的细长物 体。在如图2所示的示例中,边缘提取部分210可以提取包含在多个 输入图像102中的多个边缘。在一些实现中,边缘提取部分210可以 基于DoG技术和Canny边缘检测算法的组合来提取包含在多个输入 图像102中的多个边缘。
根据本公开的实现的DoG技术的原理是:利用带有不同标准差 的高斯核与原始图像进行卷积,以得到不同的高斯模糊图像。通过将 不同的高斯模糊图像相减来确定原始图像中的每个像素属于边缘像 素的可能性。在一些实现中,边缘提取部分210可以基于DoG技术 来确定每个输入图像102中的像素属于边缘像素的可能性。例如,该 可能性可以由与该像素相关联的得分来指示。
在一些实现中,边缘提取部分210可以至少部分地利用Canny 边缘检测技术、基于所确定的与输入图像102中的每个像素相关联的 得分来确定该像素是否属于多个边缘。具体地,Canny边缘检测技术 提供双阈值判断机制,双阈值包括用于确定像素是否属于边缘像素的 较高阈值和较低阈值。如果该像素的得分小于较低阈值,则该像素可 以被确定为不属于边缘像素。如果该像素的得分大于较高阈值,则该 像素可以被确定为属于边缘像素(该像素可以被称为“强边缘像素”)。 如果该像素的得分在较低阈值与较高阈值之间,边缘提取部分210可 以进一步确定在该像素的附近是否存在强边缘像素。当该像素的附近 存在强边缘像素时,该像素可以被认为是与强边缘像素相连,并且因 此也属于边缘像素;否则,该像素被确定为属于非边缘像素。
基于DoG技术和Canny边缘检测算法来提取多个边缘的优点在 于:DoG技术提供较好的回归精度,能够稳定地确定每个像素属于边 缘像素的可能性。Canny边缘检测技术能够减少假边缘的数量,并且 提高较不明显的边缘的检测率。以此方式,边缘提取部分210能够有 效地提取包含在多个输入图像102中的多个边缘。
应当理解,边缘提取部分210还可以利用任何已知或者将要开 发的边缘检测技术来进行边缘提取,包括但不限于梯度分析法、微分 算子法、样板匹配法、小波检测法、神经网络法或者其组合。本公开 的范围在此方面不受限制。
在一些实现中,边缘提取部分210可以将所提取的多个边缘表 示在分别与多个输入图像102相对应的多个边缘图220中。例如,边 缘图220中的每一个可以标识相应输入图像102中的边缘像素。在一 些实现中,边缘图220可以是二值图像。例如,边缘图220中的每个 像素值可以为‘0’或者‘1’,其中‘0’表示相应输入图像102中 与该像素值相对应的像素为非边缘像素,而‘1’则表示相应输入图 像102中与该像素值相对应的像素为边缘像素。
基于VO技术的边缘三维重建
由边缘提取部分210生成的多个边缘图220可以被提供给深度 确定部分230。在一些实现中,深度确定部分230可以通过确定所提 取的多个边缘的深度,来将所提取的多个边缘重建到三维空间中。在 一些实现中,深度确定部分230可以利用例如视觉测程(VisualOdometry,简称VO)技术来进行多个边缘的三维重建,其中每个边 缘像素的深度由高斯分布(即,深度均值和方差)来表示。例如,深 度确定部分230可以通过跟踪和映射两个步骤来对多个边缘进行三维 重建,其中跟踪步骤用于确定相机的运动,而映射步骤用于生成分别与多个边缘图220相对应的、指示多个边缘的相应深度的多个深度图 240。下文将对这两个步骤作进一步的详细说明。
如前所述,输入图像102是由单目相机捕获的视频中的多个连 续帧。不失一般性地,假设多个连续帧包括两个紧邻的帧,称为“第 一帧”和“第二帧”。由边缘提取部分210生成的多个边缘图220可 以包括与第一帧相对应的边缘图(本文中称为“第一边缘图”)和与第二帧相对应的边缘图(本文中称为“第二边缘图”)。在一些实现 中,与第一帧到第二帧的变化相对应的相机的运动可以通过从第一边 缘图向第二边缘图的拟合来确定。理想情况下,经由该相机的运动, 由第一边缘图指示的第一帧中的边缘像素将被投影到第二帧中的对 应边缘像素上。因此,深度确定部分230可以基于第一边缘图和第二 边缘图来建立度量该投影误差的目标函数,通过使得该投影误差最小 化来确定与第一帧到第二帧的变化相对应的相机的运动。
例如,根据本公开的一些实现,目标函数的示例可以如下表示:
其中ξ={w,v}表示与第一帧到第二帧的变化相对应的相机的运动,其 是待确定的六维向量。具体地,w表示与第一帧到第二帧的变化相对 应的相机的转动。v表示与第一帧到第二帧的变化相对应的相机的平 移。W表示用于将第一帧中的第i个边缘像素pi投影到第二帧中的翘 曲函数。di表示边缘像素pi的深度。表示第二帧中与边缘像素pi相对应的边缘像素,其可以通过沿边缘像素pi的梯度方向搜索第二边 缘图而得到。表示边缘像素的梯度方向。ρ表示预定义的针对投 影误差的惩罚函数。
在一些实现中,深度确定部分230可以通过对上述公式(1)进 行最小化来确定与第一帧到第二帧的变化相对应的相机的运动(也 即,w和v)。例如,该最小化可以利用Levenberg-Marquardt(简称L-M)算法来实现,其中该算法的初始点可以基于假设的恒定值来确 定。
单目相机通常无法提供确切的尺度信息。在一些实现中,例如, 可以通过向深度确定部分230提供关于相机的初始绝对位置的信息来 解决单目相机的尺度模糊的问题。附加地或者备选地,在另一些实施 例中,可以通过引入与相机相关联的惯性测量数据来解决单目相机的 尺度模糊的问题。例如,深度确定部分230可以从与相机一同安装在 相同硬件平台(诸如,无人机、移动机器人等)上的惯性测量单元获 取与相机相关联的惯性测量数据。
在一些实现中,来自惯性测量单元的惯性测量数据可以提供关 于相机的运动的初始化信息。附加地或者备选地,在另一些实施例中, 可以利用惯性测量数据为上述公式(1)增加惩罚项,以惩罚与最小 化目标的偏离。
例如,根据本公开的另一些实现的示例目标函数可如下表示:
E(w,v)=Eo(w,v)+λw||w-w0||2v||v-v0||2 (2)
其中E0(w,v)表示根据公式(1)计算的原始几何误差,两个平方项是 用以使最终解更接近(w0,v0)的先验。(w0,v0)是从惯性测量数据 获得的、与第一帧到第二帧的变化相对应的相机的运动,其中w0表 示相机的转动而v0表示相机的平移。λW和λV分别表示相应的平方项 在目标函数中的权重,它们可以是预定义的常数。
在一些实现中,深度确定部分230可以通过对上述公式(2)进 行最小化来确定与第一帧到第二帧的变化相对应的相机的运动(也 即,w和v)。例如,该最小化可以利用L-M算法来实现,其中可以 利用(w0,v0)作为该算法的初始点。
一旦确定了相机的运动,深度确定部分230可以通过映射步骤 来生成分别与多个边缘图220相对应的、指示多个边缘的相应深度的 多个深度图240。在一些实现中,深度确定部分230可以利用极线搜 索(epipolar search)技术针对第二边缘图和第一边缘图执行边缘匹配。 例如,深度确定部分230可以通过极线搜索将第二帧中的边缘像素与 第一帧中的边缘像素进行匹配。边缘匹配的标准例如可以基于梯度方 向和/或以上所确定的相机的运动来确定。极线搜索的结果可以被用于 多个深度图240的生成。
不失一般性地,假设与第一边缘图相对应的深度图(本文中称 为“第一深度图”)已被确定(例如,初始帧的深度图可以基于假设 的恒定值来确定)。在一些实现中,深度确定部分230可以基于第一 深度图、所确定的与第一帧到第二帧的变化相对应的相机的运动和极 线搜索的结果来生成与第二边缘图相对应的深度图(本文中称为“第 二深度图”)。例如,深度确定部分230可以基于第一深度图和所确 定的相机的运动来估计第二深度图(在本文中,所估计的第二深度图 也被称为“中间深度图”)。进一步地,深度确定部分230可以利用 极线搜索的结果对中间深度图进行校正,以生成最终的第二深度图。 上述生成第二深度图的过程例如可以利用扩展卡尔曼滤波(EKF)算 法来实现,其中利用极线搜索的结果对所估计的第二深度图进行校正 的过程也被称为数据融合过程。在EKF算法的执行过程中,极线搜 索的结果可以作为观察变量来校正中间深度图。
由于孔径问题(aperture problem)以及缺乏有效的匹配描述符, 基于极线搜索的边缘匹配通常是困难的。当初始的相机运动和/或深度 估计不准确时,错误的匹配非常常见,并且在搜索范围内可能存在多 个类似的边缘。为了解决上述问题,在一些实现中,在针对第二帧中 的边缘像素而在第一边缘图中搜索与之匹配的边缘像素时,深度确定 部分230可以首先确定满足边缘匹配标准(如上所述,边缘匹配标准 可以基于梯度方向和/或所确定的相机的运动来被确定)的所有候选边 缘像素,然后计算它们沿极线方向的位置方差。
如果候选边缘像素的数量较少,则该位置方差较小,其指示较 确定的匹配。如果候选边缘像素的数量较多,该位置方差较大,其指 示较不确定的匹配。该位置方差可以决定候选边缘像素在校正中间深 度图时的影响。例如,较小的位置方差可以决定候选边缘像素对于上 述数据融合过程具有较大影响,而较大的位置方差可以决定候选边缘 像素对于上述数据融合过程具有较小影响。以此方式,本公开的实现 能够有效地提高边缘匹配的有效性。
在一些实现中,深度确定部分230可以将所生成的多个深度图 240中的每一个表示为具有不同颜色的图像。深度确定部分230可以 利用不同的颜色来表示边缘像素的不同深度。例如,与距离相机较远 的边缘相对应的边缘像素可以利用较冷的颜色来表示;而与距离相机 较近的边缘相对应的边缘像素可以利用较暖的颜色来表示。
例如,图3示出了根据本公开的实现的深度图的示例表示。在此示例 中,图像310可以是输入图像102中的一帧,而深度图320是由深度 确定部分230所生成的与图像310相对应的深度图。如图3所示,在 图像310中由虚线框311指示了一段线缆,在深度图320中由虚线框 321指示了与该段线缆相对应的边缘像素的深度表示。
物体标识
由深度确定部分230生成的多个深度图240被提供给物体标识 部分250。在一些实现中,物体标识部分250可以基于多个深度图240 来标识属于细长物体的至少一个边缘。理想情况下,落入预定义三维 体积S内的边缘像素可以被标识为属于细长物体,其中预定义三维体 积S可以是预定义用于检测细长物体的空间范围。然而,原始的深度 图通常是具有噪声的。因此,在一些实现中,物体标识部分250可以 将跨多个帧匹配的、具有稳定深度的边缘标识为属于要识别的细长物 体。具体地,针对每个边缘像素ei,除了其图像位置pi和深度di以外, 物体标识部分250还可以将其方差σi和其成功被匹配的帧数ti作为标 识细长物体的标准(例如,方差σi应小于阈值σth且被成功匹配的帧 数ti应大于阈值tth)。
在一些实现中,考虑到具有噪声的边缘通常被分散在深度图中, 物体标识部分250可以对已经标识的属于细长物体的边缘组合进行滤 波。在下文中,“属于细长物体的边缘”也被称为“物体边缘”;并 且“属于细长物体的边缘像素”也被称为“物体像素”。出于执行效 率的考虑,该滤波过程例如可以在已经标识的物体边缘的数量低于阈 值cntl或者高于阈值cnth时不被执行,其中物体边缘的数量低于阈值 cntl指示图像中不太可能存在细长物体,而物体边缘的数量高于阈值 cnth指示图像中极有可能存在细长物体。
在一些实现中,该滤波过程可以滤除已经标识的物体边缘中属 于噪声的边缘组合。属于噪声的边缘组合可以是一些尺寸较小的物体 边缘组合。例如,距离小于阈值nt(单位:像素)的两个物体像素可 以被定义为是相连的,也即属于相同的物体边缘组合。在一些实现中, 物体边缘组合的尺寸可以基于该物体边缘组合中的物体像素的数目 来被确定。例如,当物体边缘组合的尺寸小于某个阈值时,该物体边 缘组合可以被认为属于噪声。
附加地或者备选地,出于执行效率的考虑,该滤波过程可以通 过在由大小为nt的缩放因子对深度图240中的每个深度图进行缩放而 得到的相应图像Ir上搜索相连的物体边缘组合来实现。例如,图像Ir中的每个像素值可以等于在原始深度图的nt×nt大小的对应块中的物 体像素的数目。因此,可以通过对图像Ir中的相连的像素的值进行求 和来确定原始图像中的相应物体边缘组合的大小。
以下的表1示出了标识细长物体的上述过程的程序伪码的示例, 其中上述滤除已经标识的物体边缘中属于噪声的边缘组合的滤波过 程被表示为函数FILTER(),π表示将相机坐标系中的点投影到图像坐 标系中的投影函数,并且π-1表示π的反函数。
表1:标识属于细长物体的边缘像素的算法
基于所识别到的属于细长物体的边缘,物体标识部分250可以 输出检测结果104。在一些示例中,检测结果104可以被表示为具有 由例如粗线指示的检测物体的多个输出图像。例如,多个输出图像104 可以具有与多个输入图像102相同的尺寸和/或格式。如图2所示,粗 线106用于指示所识别到的细长物体。
以上阐述了根据本公开的实现的基于单目相机的细长物体检测 方案。以下结合附图来阐述根据本公开的实现的基于立体相机的细长 物体检测方案。
基于多目相机的细长物体检测
图4示出了根据本公开的实现的基于立体相机的细长物体检测 系统400的框图。系统400可以被实现在图1的计算设备100的图像 处理模块122处。如图4所示,系统400可以包括边缘提取部分210、 深度确定部分230、立体匹配部分430、深度融合部分450和物体标识部分250。
在图4的示例中,系统400获得的多个输入图像102是由运动 的立体相机捕获的视频中的多个连续帧。捕获多个输入图像102的立 体相机至少可以包括第一相机(例如,左相机)和第二相机(例如, 右相机)。在此所述的“立体相机”可以被认为是经过校正的立体相机。也即,第一相机和第二相机的X-Y平面共面且两个相机的X轴 均与两个相机的光心的连线(也被称为“基线”)重合,使得第一相 机和第二相机在三维空间中仅存在X轴方向上的平移。例如,多个输 入图像102可以包括由第一相机捕获的第一组图像411和由第二相机 捕获的第二组图像412。在一些实现中,第一组图像411和第二组图 像412可以具有任何尺寸和/或格式。特别地,第一组图像411和第二 组图像412可以是涉及同一待检测细长物体(例如,线缆)的图像。 根据本公开的实现,期望检测包含在输入图像102中的细长物体。
边缘提取
在如图4所示的示例中,边缘提取部分210可以提取包含在第 一组图像411和第二组图像412中的多个边缘。边缘提取的方式与关 于图2所描述的边缘提取的方式类似,在此不再赘述。
在一些实现中,边缘提取部分210可以将针对第一组图像411 所提取的第一组边缘表示在与第一组图像411相对应的第一组边缘图 421中。类似地,边缘提取部分210可以将针对第二组图像412所提 取的第二组边缘表示在与第二组图像412相对应的第二组边缘图422 中。
基于VO技术的边缘三维重建
两组图像411和412中的一组图像(例如,第一组图像411)可 以被当作参考图像。与参考图像411相对应的第一组边缘图421可以 被提供给深度确定部分230。深度确定部分230可以通过确定所提取 的第一组边缘的深度,来将第一组边缘重建到三维空间中。与关于图 2所描述的边缘三维重建的方式类似,深度确定部分230可以利用例 如基于边缘的VO技术来进行第一组边缘的三维重建,其中第一组边 缘中的每个边缘像素的深度由高斯分布(即,深度均值和方差)来表 示。与关于图2所描述的边缘三维重建的方式不同的是,由于立体相 机能够通过视差来提供尺度信息,因此在第一组边缘的三维重建过程 中,惯性测量数据的引入是可选的。以此方式,深度确定部分230可 以生成与第一组边缘图421相对应的、指示第一组边缘的相应深度的 第一组深度图441。
基于立体匹配的边缘三维重建
在一些实现中,第一组边缘图421和第二组边缘图422还可以 一起被提供给立体匹配部分430。立体匹配部分430可以对第一组边 缘图421和第二组边缘图422执行立体匹配,以生成用于校正第一组 深度图441的第二组深度图442。
根据本公开的实现的立体匹配的原理是:通过找到由经校正的 立体相机捕获的每对图像间的对应关系,根据三角测量原理来生成描 述两者之间的视差信息的视差图。视差图与深度图之间可以互相转 换。如以上所描述的,每个边缘像素的深度可以由高斯分布(即,深 度均值和方差)来表示。假设某个边缘像素的深度为d且方差为σ, 则与该边缘像素相关联的立体视差值u可以被确定为:u=Bfd,其中B 表示第一相机和第二相机的光心之间的距离,f表示立体相机的焦距 (第一相机的焦距和第二相机的焦距通常相同)。类似地,与该边缘 像素相关联的视差方差σu=Bfσ。以下将进一步地详细描述立体匹配 的过程。
如前所述,第一组图像411是由立体相机中的第一相机捕获的 视频中的多个连续帧,而第二组图像412是由立体相机中的第二相机 捕获的视频中的多个连续帧。不失一般性地,假设第一组图像411包 括由第一相机捕获的帧(本文中称为“第三帧”),而第二组图像412 包括与第三帧相对应的由第二相机捕获的帧(本文中称为“第四帧”)。 由边缘提取部分210生成的第一组边缘图421可以包括与第三帧相对 应的边缘图(本文中称为“第三边缘图”),而第二组边缘图422可 以包括与第四帧相对应的边缘图(本文中称为“第四边缘图”)。由 深度确定部分230确定的第一组深度图441可以包括与第三边缘图相 对应的深度图(本文中称为“第三深度图”)。
在一些实现中,立体匹配部分430可以通过对第三边缘图和第 四边缘图执行立体匹配,来生成描述两者之间的视差信息的视差图。 该视差图可以被转换为与之对应的深度图(本文中称为“第四深度 图”),以用于校正第三深度图。在对第三边缘图和第四边缘图执行 立体匹配的过程中,与第三边缘图相对应的第三深度图可以被用于约 束立体匹配中的立体搜索的范围。第三深度图可以根据上述视差图与 深度图之间的关系而被转换成与之对应的视差图。例如,针对第三深 度图中的具有深度为d且方差为σ的边缘像素,立体匹配部分430可 以仅在第四边缘图中在极线方向上的[u-2σu,u+2σu]的范围内搜索 匹配的边缘像素。针对方差较小的边缘像素,立体匹配的搜索范围显 著减小,从而能够明显提高立体匹配的效率。边缘匹配的标准例如可 以与关于图2所描述的边缘匹配标准类似,在此不再赘述。
以此方式,立体匹配部分430可以通过对第一组边缘图421和 第二组边缘图422执行立体匹配来生成描述它们之间的相应视差信息 的一组视差图,而该组视差图可以进一步被转换为第二组深度图442。
深度融合
由深度确定部分230生成的第一组深度图441和由立体匹配部 分430生成的第二组深度图442可以被提供给深度融合部分450。在 一些实现中,深度融合部分450可以基于EKF算法来融合第二组深 度图442和第一组深度图441以生成第三组深度图443。在EKF算法的执行过程中,由立体匹配部分430生成的第二组深度图442可以作 为观察变量来校正由深度确定部分230生成的第一组深度图441。
物体标识
第三组深度图443可以被提供给物体标识部分250。物体标识 部分250可以基于第三组深度图443来标识属于细长物体的至少一 个边缘。基于所识别到的属于细长物体的边缘,物体标识部分250 可以输出检测结果104。细长物体的标识方式与关于图2所描述的细长物体的标识方式类似,在此不再赘述。
示例过程
图5示出了根据本公开一些实现的用于检测细长物体的过程500 的流程图。过程500可以由计算设备100来实现,例如可以被实现在 计算设备100的存储器120中的图像处理模块122处。在510,图像 处理模块122获取包含待检测的至少一个细长物体的多个图像。在 520,图像处理模块122提取多个图像中的多个边缘。在530,图像处 理模块122确定多个边缘的相应深度。在540,图像处理模块122基 于多个边缘的相应深度来标识多个图像中的至少一个细长物体。经标 识的至少一个细长物体由多个边缘中的至少一个边缘表示。
在一些实现中,至少一个细长物体的横截面积小于第一阈值并 且长度大于第二阈值,其中第一阈值是0.2平方厘米,并且第二阈值 是5厘米。
在一些实现中,提取多个图像中的多个边缘包括:生成分别与 多个图像相对应的、标识多个边缘的多个边缘图。确定多个边缘的相 应深度包括:基于多个边缘图来生成分别与多个边缘图相对应的、指 示多个边缘的相应深度的多个深度图。标识多个图像中的至少一个细 长物体包括:基于多个深度图来标识多个边缘中属于至少一个细长物 体的至少一个边缘。
在一些实现中,提取多个图像中的多个边缘包括:确定多个图 像中的像素属于多个边缘的可能性;以及至少基于该可能性来确定该 像素是否属于所述多个边缘。
在一些实现中,多个图像包括由相机捕获的视频中的第一帧和 第一帧的后续第二帧,多个边缘图包括与第一帧相对应的第一边缘图 和与第二帧相对应的第二边缘图。生成多个深度图包括:确定与第一 边缘图相对应的第一深度图;至少基于第一边缘图和第二边缘图,确 定与第一帧到第二帧的变化相对应的、相机的运动;以及至少基于第 一深度图和相机的运动,生成与第二边缘图相对应的第二深度图。
在一些实现中,确定相机的运动包括:执行第一边缘图向第二 边缘图的第一边缘匹配;以及基于第一边缘匹配的结果,确定相机的 运动。
在一些实现中,确定相机的运动还包括:获取与相机相关联的 惯性测量数据;以及基于第一边缘图、第二边缘图和惯性测量数据, 确定相机的运动。
在一些实现中,生成第二深度图包括:基于第一深度图和相机 的运动,生成与第二边缘图相对应的中间深度图;基于相机的运动, 执行第二边缘图向第一边缘图的第二边缘匹配;以及基于中间深度图 和第二边缘匹配的结果,生成第二深度图。
在一些实现中,多个图像由立体相机捕获,立体相机至少包括 第一相机和第二相机,多个图像至少包括由第一相机捕获的第一组图 像和由第二相机捕获的第二组图像。提取多个图像中的多个边缘包 括:提取第一组图像中的第一组边缘和第二组图像中的第二组边缘。 确定多个边缘的相应深度包括:确定第一组边缘的相应深度;对第一 组边缘和第二组边缘执行立体匹配;以及基于立体匹配的结果,更新 第一组边缘的相应深度。标识多个图像中的至少一个细长物体:基于 经更新的相应深度,标识多个图像中的至少一个细长物体。
示例实现方式
以下列出了本公开的一些示例实现方式。
在一方面,本公开提供了一种设备。该设备包括:处理单元; 存储器,该存储器被耦合到处理单元并且存储用于由处理单元执行的 指令,该指令当由处理单元执行时,使得该设备执行动作,动作包括: 获取包含待检测的至少一个细长物体的多个图像;提取多个图像中的 多个边缘;确定多个边缘的相应深度;以及基于多个边缘的相应深度, 标识多个图像中的至少一个细长物体,经标识的至少一个细长物体由 多个边缘中的至少一个边缘表示。
在一些实现中,至少一个细长物体的横截面积小于第一阈值并 且长度大于第二阈值,其中第一阈值是0.2平方厘米,并且第二阈值 是5厘米。
在一些实现中,提取多个图像中的多个边缘包括:生成分别与 多个图像相对应的、标识多个边缘的多个边缘图。确定多个边缘的相 应深度包括:基于多个边缘图来生成分别与多个边缘图相对应的、指 示多个边缘的相应深度的多个深度图。标识多个图像中的至少一个细 长物体包括:基于多个深度图来标识多个边缘中属于至少一个细长物 体的至少一个边缘。
在一些实现中,提取多个图像中的多个边缘包括:确定多个图 像中的像素属于多个边缘的可能性;以及至少基于该可能性来确定该 像素是否属于所述多个边缘。
在一些实现中,多个图像包括由相机捕获的视频中的第一帧和 第一帧的后续第二帧,多个边缘图包括与第一帧相对应的第一边缘图 和与第二帧相对应的第二边缘图。生成多个深度图包括:确定与第一 边缘图相对应的第一深度图;至少基于第一边缘图和第二边缘图,确 定与第一帧到第二帧的变化相对应的、相机的运动;以及至少基于第 一深度图和相机的运动,生成与第二边缘图相对应的第二深度图。
在一些实现中,确定相机的运动包括:执行第一边缘图向第二 边缘图的第一边缘匹配;以及基于第一边缘匹配的结果,确定相机的 运动。
在一些实现中,确定相机的运动还包括:获取与相机相关联的 惯性测量数据;以及基于第一边缘图、第二边缘图和惯性测量数据, 确定相机的运动。
在一些实现中,生成第二深度图包括:基于第一深度图和相机 的运动,生成与第二边缘图相对应的中间深度图;基于相机的运动, 执行第二边缘图向第一边缘图的第二边缘匹配;以及基于中间深度图 和第二边缘匹配的结果,生成第二深度图。
在一些实现中,多个图像由立体相机捕获,立体相机至少包括 第一相机和第二相机,多个图像至少包括由第一相机捕获的第一组图 像和由第二相机捕获的第二组图像。提取多个图像中的多个边缘包 括:提取第一组图像中的第一组边缘和第二组图像中的第二组边缘。 确定多个边缘的相应深度包括:确定第一组边缘的相应深度;对第一 组边缘和第二组边缘执行立体匹配;以及基于立体匹配的结果,更新 第一组边缘的相应深度。标识多个图像中的至少一个细长物体:基于 经更新的相应深度,标识多个图像中的至少一个细长物体。
在另一方面,本公开提供了一种方法。该方法包括:获取包含 待检测的至少一个细长物体的多个图像;提取多个图像中的多个边 缘;确定多个边缘的相应深度;以及基于多个边缘的相应深度,标识 多个图像中的至少一个细长物体,经标识的至少一个细长物体由多个 边缘中的至少一个边缘表示。
在一些实现中,至少一个细长物体的横截面积小于第一阈值并 且长度大于第二阈值,其中第一阈值是0.2平方厘米,并且第二阈值 是5厘米。
在一些实现中,提取多个图像中的多个边缘包括:生成分别与 多个图像相对应的、标识多个边缘的多个边缘图。确定多个边缘的相 应深度包括:基于多个边缘图来生成分别与多个边缘图相对应的、指 示多个边缘的相应深度的多个深度图。标识多个图像中的至少一个细 长物体包括:基于多个深度图来标识多个边缘中属于至少一个细长物 体的至少一个边缘。
在一些实现中,提取多个图像中的多个边缘包括:确定多个图 像中的像素属于多个边缘的可能性;以及至少基于该可能性来确定该 像素是否属于所述多个边缘。
在一些实现中,多个图像包括由相机捕获的视频中的第一帧和 第一帧的后续第二帧,多个边缘图包括与第一帧相对应的第一边缘图 和与第二帧相对应的第二边缘图。生成多个深度图包括:确定与第一 边缘图相对应的第一深度图;至少基于第一边缘图和第二边缘图,确 定与第一帧到第二帧的变化相对应的、相机的运动;以及至少基于第 一深度图和相机的运动,生成与第二边缘图相对应的第二深度图。
在一些实现中,确定相机的运动包括:执行第一边缘图向第二 边缘图的第一边缘匹配;以及基于第一边缘匹配的结果,确定相机的 运动。
在一些实现中,确定相机的运动还包括:获取与相机相关联的 惯性测量数据;以及基于第一边缘图、第二边缘图和惯性测量数据, 确定相机的运动。
在一些实现中,生成第二深度图包括:基于第一深度图和相机 的运动,生成与第二边缘图相对应的中间深度图;基于相机的运动, 执行第二边缘图向第一边缘图的第二边缘匹配;以及基于中间深度图 和第二边缘匹配的结果,生成第二深度图。
在一些实现中,多个图像由立体相机捕获,立体相机至少包括 第一相机和第二相机,多个图像至少包括由第一相机捕获的第一组图 像和由第二相机捕获的第二组图像。提取多个图像中的多个边缘包 括:提取第一组图像中的第一组边缘和第二组图像中的第二组边缘。 确定多个边缘的相应深度包括:确定第一组边缘的相应深度;对第一 组边缘和第二组边缘执行立体匹配;以及基于立体匹配的结果,更新 第一组边缘的相应深度。标识多个图像中的至少一个细长物体:基于 经更新的相应深度,标识多个图像中的至少一个细长物体。
在又一方面,本公开提供了一种计算机程序产品,计算机程序 产品被有形地存储在非瞬态计算机存储介质中并且包括计算机可执 行指令,计算机可执行指令在由设备执行时使设备执行以上方面中的 方法。
在又一方面,本公开提供了一种计算机可读介质,其上存储有 计算机可执行指令,计算机可执行指令在由设备执行时使设备执行以 上方面中的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑 部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部 件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用 标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑 设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语 言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计 算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当 由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被 实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为 独立软件包部分地在机器上执行且部分地在远程机器上执行或完全 在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可 以包含或存储以供指令执行系统、装置或设备使用或与指令执行系 统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信 号介质或机器可读储存介质。机器可读介质可以包括但不限于电子 的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备, 或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包 括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取 存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器 (CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适 组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要 求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图 示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行 处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现 细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实 现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反 地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合 适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了 本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上 面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅 是实现权利要求书的示例形式。

Claims (20)

1.一种设备,包括:
处理单元;
存储器,所述存储器被耦合到所述处理单元并且存储用于由所述处理单元执行的指令,所述指令当由所述处理单元执行时,使得所述设备执行动作,所述动作包括:
获取包含待检测的至少一个细长物体的多个图像;
提取所述多个图像中的多个边缘;
确定所述多个边缘的相应深度;以及
基于所述多个边缘的所述相应深度,标识所述多个图像中的所述至少一个细长物体,经标识的所述至少一个细长物体由所述多个边缘中的至少一个边缘表示。
2.根据权利要求1所述的设备,其中所述至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值,所述第一阈值是0.2平方厘米,并且所述第二阈值是5厘米。
3.根据权利要求1所述的设备,其中:
提取所述多个图像中的多个边缘包括生成分别与所述多个图像相对应的、标识所述多个边缘的多个边缘图;
确定所述多个边缘的相应深度包括基于所述多个边缘图来生成分别与所述多个边缘图相对应的、指示所述多个边缘的所述相应深度的多个深度图;并且
标识所述多个图像中的所述至少一个细长物体包括基于所述多个深度图来标识所述多个边缘中属于所述至少一个细长物体的所述至少一个边缘。
4.根据权利要求1所述的设备,其中提取所述多个图像中的所述多个边缘包括:
确定所述多个图像中的像素属于所述多个边缘的可能性;以及
至少基于所述可能性来确定所述像素是否属于所述多个边缘。
5.根据权利要求3所述的设备,其中所述多个图像包括由相机捕获的视频中的第一帧和所述第一帧的后续第二帧,所述多个边缘图包括与所述第一帧相对应的第一边缘图和与所述第二帧相对应的第二边缘图,并且生成所述多个深度图包括:
确定与所述第一边缘图相对应的第一深度图;
至少基于所述第一边缘图和所述第二边缘图,确定与所述第一帧到所述第二帧的变化相对应的、所述相机的运动;以及
至少基于所述第一深度图和所述相机的所述运动,生成与所述第二边缘图相对应的第二深度图。
6.根据权利要求5所述的设备,其中确定所述相机的所述运动包括:
执行第一边缘图向第二边缘图的第一边缘匹配;以及
基于所述第一边缘匹配的结果,确定所述相机的所述运动。
7.根据权利要求5所述的设备,其中确定所述相机的所述运动还包括:
获取与所述相机相关联的惯性测量数据;以及
基于所述第一边缘图、所述第二边缘图和所述惯性测量数据,确定所述相机的所述运动。
8.根据权利要求5所述的设备,其中生成所述第二深度图包括:
基于所述第一深度图和所述相机的所述运动,生成与所述第二边缘图相对应的中间深度图;
基于所述相机的所述运动,执行第二边缘图向第一边缘图的第二边缘匹配;以及
基于所述中间深度图和所述第二边缘匹配的结果,生成所述第二深度图。
9.根据权利要求1所述的设备,其中所述多个图像由立体相机捕获,所述立体相机至少包括第一相机和第二相机,所述多个图像至少包括由所述第一相机捕获的第一组图像和由所述第二相机捕获的第二组图像,并且
提取所述多个图像中的多个边缘包括:
提取所述第一组图像中的第一组边缘和所述第二组图像中的第二组边缘;
确定所述多个边缘的相应深度包括:
确定所述第一组边缘的相应深度;
对所述第一组边缘和所述第二组边缘执行立体匹配;以及
基于所述立体匹配的结果,更新所述第一组边缘的所述相应深度;并且
标识所述多个图像中的所述至少一个细长物体包括:
基于经更新的所述相应深度,标识所述多个图像中的所述至少一个细长物体。
10.一种计算机实现的方法,包括
获取包含待检测的至少一个细长物体的多个图像;
提取所述多个图像中的多个边缘;
确定所述多个边缘的相应深度;以及
基于所述多个边缘的所述相应深度,标识所述多个图像中的所述至少一个细长物体,经标识的所述至少一个细长物体由所述多个边缘中的至少一个边缘表示。
11.根据权利要求10所述的方法,其中所述至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值,所述第一阈值是0.2平方厘米,并且所述第二阈值是5厘米。
12.根据权利要求10所述的方法,其中:
提取所述多个图像中的多个边缘包括生成分别与所述多个图像相对应的、标识所述多个边缘的多个边缘图;
确定所述多个边缘的相应深度包括基于所述多个边缘图来生成分别与所述多个边缘图相对应的、指示所述多个边缘的所述相应深度的多个深度图;并且
标识所述多个图像中的所述至少一个细长物体包括基于所述多个深度图来标识所述多个边缘中属于所述至少一个细长物体的所述至少一个边缘。
13.根据权利要求10所述的方法,其中提取所述多个图像中的所述多个边缘包括:
确定所述多个图像中的像素属于所述多个边缘的可能性;以及
至少基于所述可能性来确定所述像素是否属于所述多个边缘。
14.根据权利要求12所述的方法,其中所述多个图像包括由相机捕获的视频中的第一帧和所述第一帧的后续第二帧,所述多个边缘图包括与所述第一帧相对应的第一边缘图和与所述第二帧相对应的第二边缘图,并且生成所述多个深度图包括:
确定与所述第一边缘图相对应的第一深度图;
至少基于所述第一边缘图和所述第二边缘图,确定与所述第一帧到所述第二帧的变化相对应的、所述相机的运动;以及
至少基于所述第一深度图和所述相机的所述运动,生成与所述第二边缘图相对应的第二深度图。
15.根据权利要求14所述的方法,其中确定所述相机的所述运动包括:
执行第一边缘图向第二边缘图的第一边缘匹配;以及
基于所述第一边缘匹配的结果,确定所述相机的所述运动。
16.根据权利要求14所述的方法,其中确定所述相机的所述运动还包括:
获取与所述相机相关联的惯性测量数据;以及
基于所述第一边缘图、所述第二边缘图和所述惯性测量数据,确定所述相机的所述运动。
17.根据权利要求14所述的方法,其中生成所述第二深度图包括:
基于所述第一深度图和所述相机的所述运动,生成与所述第二边缘图相对应的中间深度图;
基于所述相机的所述运动,执行第二边缘图向第一边缘图的第二边缘匹配;以及
基于所述中间深度图和所述第二边缘匹配的结果,生成所述第二深度图。
18.根据权利要求10所述的方法,其中所述多个图像由立体相机捕获,所述立体相机至少包括第一相机和第二相机,所述多个图像至少包括由所述第一相机捕获的第一组图像和由所述第二相机捕获的第二组图像,并且
提取所述多个图像中的多个边缘包括:
提取所述第一组图像中的第一组边缘和所述第二组图像中的第二组边缘;
确定所述多个边缘的相应深度包括:
确定所述第一组边缘的相应深度;
对所述第一组边缘和所述第二组边缘执行立体匹配;以及
基于所述立体匹配的结果,更新所述第一组边缘的所述相应深度;并且
标识所述多个图像中的所述至少一个细长物体包括:
基于经更新的所述相应深度,标识所述多个图像中的所述至少一个细长物体。
19.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行动作,所述动作包括:
获取包含待检测的至少一个细长物体的多个图像;
提取所述多个图像中的多个边缘;
确定所述多个边缘的相应深度;以及
基于所述多个边缘的所述相应深度,标识所述多个图像中的所述至少一个细长物体,经标识的所述至少一个细长物体由所述多个边缘中的至少一个边缘表示。
20.根据权利要求19所述的计算机程序产品,其中所述至少一个细长物体的横截面积小于第一阈值并且长度大于第二阈值,所述第一阈值是0.2平方厘米,并且所述第二阈值是5厘米。
CN201710597328.XA 2017-07-20 2017-07-20 基于计算机视觉的细长物体检测 Pending CN109284653A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710597328.XA CN109284653A (zh) 2017-07-20 2017-07-20 基于计算机视觉的细长物体检测
PCT/US2018/034813 WO2019018065A1 (en) 2017-07-20 2018-05-23 THIN OBJECT DETECTION BASED ON VISION BY COMPUTER
EP18732210.2A EP3639192A1 (en) 2017-07-20 2018-05-23 Computer vision-based thin object detection
US16/631,935 US20200226392A1 (en) 2017-07-20 2018-05-23 Computer vision-based thin object detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710597328.XA CN109284653A (zh) 2017-07-20 2017-07-20 基于计算机视觉的细长物体检测

Publications (1)

Publication Number Publication Date
CN109284653A true CN109284653A (zh) 2019-01-29

Family

ID=62636289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710597328.XA Pending CN109284653A (zh) 2017-07-20 2017-07-20 基于计算机视觉的细长物体检测

Country Status (4)

Country Link
US (1) US20200226392A1 (zh)
EP (1) EP3639192A1 (zh)
CN (1) CN109284653A (zh)
WO (1) WO2019018065A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708568A (zh) * 2019-10-30 2020-01-17 北京奇艺世纪科技有限公司 一种视频内容突变检测方法及装置
CN111862230A (zh) * 2020-06-05 2020-10-30 北京中科慧眼科技有限公司 一种双目相机的调校方法和装置
CN112001857A (zh) * 2020-08-04 2020-11-27 北京中科慧眼科技有限公司 一种基于双目相机的图像校正方法、系统、设备和可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7240115B2 (ja) * 2018-08-31 2023-03-15 キヤノン株式会社 情報処理装置及びその方法及びコンピュータプログラム
GB2581957B (en) * 2019-02-20 2022-11-09 Imperial College Innovations Ltd Image processing to determine object thickness
JP2021052293A (ja) * 2019-09-24 2021-04-01 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908230A (zh) * 2010-07-23 2010-12-08 东南大学 一种基于区域深度边缘检测和双目立体匹配的三维重建方法
CN102385237A (zh) * 2010-09-08 2012-03-21 微软公司 基于结构化光和立体视觉的深度相机
CN106878668A (zh) * 2015-12-10 2017-06-20 微软技术许可有限责任公司 对物体的移动检测

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908230A (zh) * 2010-07-23 2010-12-08 东南大学 一种基于区域深度边缘检测和双目立体匹配的三维重建方法
CN102385237A (zh) * 2010-09-08 2012-03-21 微软公司 基于结构化光和立体视觉的深度相机
CN106878668A (zh) * 2015-12-10 2017-06-20 微软技术许可有限责任公司 对物体的移动检测

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A. BROGGI ET.AL: "Obstacle Detection with Stereo Vision for Off-Road Vehicle Navigation", 《2005 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR"05) – WORKSHOPS》 *
JUAN JOSÉ TARRIO ET.AL: "Realtime edge-based visual odometry for a monocular camera", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
邓祥: "基于双目视觉的清洁机器人障碍检测设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708568A (zh) * 2019-10-30 2020-01-17 北京奇艺世纪科技有限公司 一种视频内容突变检测方法及装置
CN111862230A (zh) * 2020-06-05 2020-10-30 北京中科慧眼科技有限公司 一种双目相机的调校方法和装置
CN111862230B (zh) * 2020-06-05 2024-01-12 北京中科慧眼科技有限公司 一种双目相机的调校方法和装置
CN112001857A (zh) * 2020-08-04 2020-11-27 北京中科慧眼科技有限公司 一种基于双目相机的图像校正方法、系统、设备和可读存储介质

Also Published As

Publication number Publication date
EP3639192A1 (en) 2020-04-22
US20200226392A1 (en) 2020-07-16
WO2019018065A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
US11668571B2 (en) Simultaneous localization and mapping (SLAM) using dual event cameras
CN109084746B (zh) 用于具有辅助传感器的自主平台引导系统的单目模式
CN109284653A (zh) 基于计算机视觉的细长物体检测
US11151739B2 (en) Simultaneous localization and mapping with an event camera
CN108369741B (zh) 用于配准数据的方法和系统
US11720766B2 (en) Systems and methods for text and barcode reading under perspective distortion
US9420265B2 (en) Tracking poses of 3D camera using points and planes
Kadambi et al. 3d depth cameras in vision: Benefits and limitations of the hardware: With an emphasis on the first-and second-generation kinect models
Herrera et al. Dt-slam: Deferred triangulation for robust slam
CN112602116A (zh) 使用视频数据映射对象实例
Usenko et al. Reconstructing street-scenes in real-time from a driving car
WO2021114776A1 (en) Object detection method, object detection device, terminal device, and medium
CN109213202A (zh) 基于光学伺服的货物摆放方法、装置、设备和存储介质
AliAkbarpour et al. Parallax-tolerant aerial image georegistration and efficient camera pose refinement—without piecewise homographies
CN112150518B (zh) 一种基于注意力机制的图像立体匹配方法及双目设备
Harvent et al. Multi-view dense 3D modelling of untextured objects from a moving projector-cameras system
Aliakbarpour et al. Multi-sensor 3D volumetric reconstruction using CUDA
WO2023076913A1 (en) Methods, storage media, and systems for generating a three-dimensional line segment
CN116151320A (zh) 一种抗动态目标干扰的视觉里程计方法及视觉里程计装置
WO2021114775A1 (en) Object detection method, object detection device, terminal device, and medium
KR20120056668A (ko) 3차원 정보 복원 장치 및 그 방법
Troutman et al. Registration and localization of unknown moving objects in monocular SLAM
Ruf et al. FaSS-MVS--Fast Multi-View Stereo with Surface-Aware Semi-Global Matching from UAV-borne Monocular Imagery
Laganière et al. Visual reconstruction of ground plane obstacles in a sparse view robot environment
Barrera et al. Piecewise planar decomposition of 3D point clouds obtained from multiple static rgb-d cameras

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190129