CN104933730A - 使用半穷举搜索的多视图人检测 - Google Patents

使用半穷举搜索的多视图人检测 Download PDF

Info

Publication number
CN104933730A
CN104933730A CN201410183445.8A CN201410183445A CN104933730A CN 104933730 A CN104933730 A CN 104933730A CN 201410183445 A CN201410183445 A CN 201410183445A CN 104933730 A CN104933730 A CN 104933730A
Authority
CN
China
Prior art keywords
people
image
picture frame
frame
workspace areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410183445.8A
Other languages
English (en)
Other versions
CN104933730B (zh
Inventor
K.金
C.郑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Priority to CN201510270863.5A priority Critical patent/CN104935879B/zh
Publication of CN104933730A publication Critical patent/CN104933730A/zh
Application granted granted Critical
Publication of CN104933730B publication Critical patent/CN104933730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种使用半穷举搜索的多视图人检测。人监测系统包括多个相机和视觉处理器。所述多个相机围绕工作空间区域布置,在该区域中每个相机配置为捕捉包括多个图像帧的视频传送,并且所述多个图像帧在各相机之间时间同步。所述视觉处理器配置为从多个基于视觉的成像装置接收多个图像帧并且使用在输入图像上进行的图样匹配从所述多个图像帧的至少一个检测人的存在。用于图样匹配的输入图像是图像帧的滑动窗口部分,该部分与校正的坐标系对齐,使得工作空间区域中的竖直轴线与输入图像的竖直轴线对齐。

Description

使用半穷举搜索的多视图人检测
技术领域
本发明总体涉及用于追踪人的视觉监测系统。
背景技术
工厂自动化被用于许多装配环境中。为了实现更灵活的制造过程,系统被要求允许机器人与人自然地并有效地配合,以进行不必重复的任务。人-机器人相互作用要求机器认知的新的水平,该水平超越典型的记录/回放式控制,在该记录/回放式控制中,所有的部件从已知的位置开始。以该方式,机器人的控制系统必须理解人的位置和行为,并且从而必须基于人的动作改变机器人的行为。
发明内容
人监测系统包括多个相机和视觉处理器。多个相机围绕工作空间区域布置,在该工作空间区域中,每个相机配置为捕捉包括多个图像帧的视频传送(video feed),并且多个图像帧在多各相机之间时间同步。
视觉处理器配置为从多个基于视觉的图像装置接收多个图像帧,并且使用在输入图像上进行的图样匹配,从所述多个图像帧的至少一个检测人的存在。用于图样匹配的输入图像是图像帧的滑动窗口部分,该滑动窗口与校正坐标系对齐,使得工作空间区域中的竖直轴线与输入图像的竖直轴线对齐。
如果检测到人接近自动化可运动设备,则系统可提供警告和/或改变自动化可运动设备的行为。
在一种配置中,校正坐标系可以根据至少一个图像帧中的工作空间区域的角度和至少一个图像帧的消隐点的至少一个建立。
图样匹配包括支持向量机和神经网络中的至少一个,并且可配置为除了检测图像帧中的人的存在以外还检测人的姿势。姿势可包括站立、行走、伸手和蹲伏中的至少一种。
在一种配置中,视觉处理器配置为从至少一个图像帧的感兴趣区域中选择滑动窗口。感兴趣区域是至少一个图像帧的子集,该子集是人可能位于的地方。感兴趣区域包括能够从图像帧中观察到的工作空间区域的地面部分。滑动窗口可在检测后续的图像帧中的人的存在之前横穿第一图像帧的整个感兴趣区域。在一种配置中,视觉处理器可使用在第一图像帧中被检测到的人的速度和位置以区分在后续的图像帧中的检测的优先次序。
视觉处理器还配置为将来自多个视图的时间同步图像帧融合至共同的坐标系,比如地平面。一旦在共同的坐标系中,视觉处理器可通过将来自多个视图的人的图示映射到共同的坐标系中,并通过确定被映射的图示的相交点而识别检测到的人的位置。然后,视觉处理器可于是根据跨多个连续的图像帧而识别出的位置组合检测到的人的运动轨迹。
在一种配置中,视觉处理器可将确定的运动轨迹与预定、预期的运动轨迹比较。然后,如果运动轨迹与预期的运动轨迹不相似,则视觉处理器提供警告。
当结合附图时,本发明的上述特征和优势,以及其他特征和优势从下面对用于实现本发明的最佳模式的详细描述变得显而易见。
附图说明
图1是人监测系统的示意性框图。
图2是关于工作空间区域定位的多个成像装置的示意性示图。
图3是活动监测过程的示意性框图。
图4是使用多个关于工作空间区域定位的成像装置的检测人的运动的示意性过程流程图。
图5A是图像帧的示意图,该图像帧包括在图像坐标空间中横越图像帧的模式匹配算法的滑动窗口输入。
图5B是图像帧的示意图,该图像帧包括在校正的坐标空间中横越图像帧的模式匹配算法的滑动窗口输入。
图5C是图5B的图像帧的示意图,其中滑动窗口输入从感兴趣的特定区域中选择。
图6是示出将检测到的人的多个图示融合到共同的坐标系中的方式的示意图,其中所述多个图示每个来自不同的相机。
图7是使用人监测系统进行活动顺序监测的方法的高度示意流程图。
图8是使用人监测系统进行活动顺序监测的方法的详细示意性流程图。
图9是跨多个工作空间区域使用的人监测系统的示意图。
图10是使用多个传感器视图的三维定位示意图。
具体实施方式
参见附图,其中几个视图中相似的附图标记用于表示相似或者相同的部件,图1示意性地示出用于监测组装、制造或相似过程的工作空间区域的人监测系统10的流程图。人监测系统10包括多个用于捕捉指定的工作空间区域的视觉图像的多个基于视觉的成像装置12。如图2所示,多个基于视觉的成像装置12定位在环绕自动化可运动设备的不同的位置和高度。优选地,使用广角镜或类似的广视场装置以在视觉方面覆盖更多的工作空间区域。每个基于视觉的成像装置大体上彼此偏置,以大体上从不同于其他各成像装置的各观察点捕捉工作空间区域的图像。这容许从围绕工作空间区域的不同的观察点捕捉不同的视频流图像,以将人从环绕的设备识别出。由于工作空间区域中的物体和设备造成的视觉障碍(即,遮蔽),多个观察点提高了工作空间区域中出现遮蔽时,在一个或多个图像中捕捉人的可能性。
如图2所示,第一基于视觉的成像装置14和第二基于视觉的成像装置16在头顶上的位置处大体上彼此间隔,使得每个装置捕捉高角度视图。成像装置14和16提供高角的规范视图(canonical view)或参考视图。优选地,成像装置14和16提供基于立体的三维场景分析和追踪。成像装置14和16可包括视觉成像、LIDAR检测、红外检测和/或可以用于在区域内检测实物的任何其他类型的成像。额外的成像装置可被定位在头顶上,并且与第一基于视觉的成像装置14和第二基于视觉的成像装置16间隔开,以获得额外的俯视图。为了简化描述,成像装置14和16可以一般地称作“相机”,尽管应意识到这种相机不必须是可见光谱相机,除非另有描述。
多个其他的基于视觉的成像装置17(“相机”)定位在监测的工作空间区域的视觉角落或侧面以捕捉中角度视图和/或低角度视图。应理解的是,因为系统能够与任何数量的成像装置一起工作,所以基于视觉的成像装置是可重新配置的,因而可以使用比图2中示出的更多或更少的成像装置。然而,应指出的是,随着冗余的成像装置的数量的增大,完整性和冗余可靠性水平提高。每个基于视觉的成像装置12彼此间隔,以从彼此不同的观察点捕捉图像,从而产生在工作空间区域中的一个或多个人的三维追踪。由多个基于视觉的成像装置12捕捉的不同视图共同地提供工作空间区域的可选图像,该可选图像使得人监测系统10能够识别工作空间区域中的每个人。这些不同的观察点提供了在三维空间中追踪遍及工作空间区域的每个人的机会,并且增强了他们移动通过工作空间区域时对每个人的追踪和定位,以检测在工作空间区域中运动的自动化设备与每个相关的人之间的潜在的不需要的相互作用。
再次参见图1,由多个基于视觉的成像装置12捕捉的图像经由通讯媒介20传输到处理单元18。通讯媒介20可以是通讯总线、以太网、或其他通讯连接(包括无线)。
处理单元18优选地为实施为具有商品部件的主机(像个人计算机)或者类似装置,其被合适地封装以用于其操作环境。处理单元18可还包括图像采集系统(可能由帧接收器和/或网络图像采集软件构成),其用于捕捉图像流,以将图像流处理并记录为时间同步数据。多个处理单元能够使用确保信息完整性的协议,诸如以太网-安全协议,在数据网络上互连。指示由其他处理单元监管的邻接空间的状态的数据能够以可靠的方式交换,该可靠方式包括用于从区域到区域或横跨多个系统的多个区运动的人、物的追踪状态数据传输、提示和信号。处理单元18利用主处理程序和多个子处理程序(即,一个字处理程序用于每个基于视觉的成像装置)。每个相应的子处理程序专用于相应的成像装置,以处理由相应的成像装置捕捉的图像。主处理程序基于累积的由每个子处理程序处理的捕捉的图像进行多视图整合,以进行工作空间区域的实时监测。
在图1中,工作空间区域中的工人的检测由使用多个数据库22的子处理程序得以促进,该子程序在工作空间区域中存在其他可移动设备的情况下共同地检测并识别人。多个数据库储存用于检测物体、从被检测的物体识别人、并且在工作空间区域中追踪被识别的人的数据。多个数据库包括但不限于校准数据库24、背景数据库25、分类数据库26、消失点数据库27、追踪数据库28、和单应性数据库30。包括在这些数据库中的数据由子处理程序用于检测、识别和追踪工作空间区域中的人。
校准数据库24提供基于图样的相机校准参数(固有的和外在的),以使失真的物体去失真。在一种配置中,校准参数可使用诸如棋盘的规则图样确定,该棋盘显示为与相机的视场正交。校准程序从而使用棋盘以估计固有的且未失真的参数,其可用于使由广角镜导致的筒形畸变去失真。
背景数据库25储存用于不同视图的背景模型,背景模型用于将图像分为其背景和前景区域组成部分。背景模型可通过在安装任何自动化机器或将任何动态物体放置于工作空间之前捕捉图像/视频来获得。
分类数据库26包括级联的分类器和用以自动地将人和非人分类的相关的参数。
消隐点数据库27包括每个相机视图的消隐点信息,并且被用于进行消隐点校正,以使人在校正的图像中直立地呈现。
追踪数据库28保持用于每个被监测的人的踪迹,当新的人进入该场景时,新的踪迹被加入到数据库,当他们离开场景时,这些踪迹被删除。追踪数据库还具有关于每个人的外观模型的信息,从而存在的踪迹能够容易地与在不同时间阶段的踪迹相关联。
单应性数据库30包括跨不同视图和规范视图的单应性转换参数。当人行走进入邻接区域中时,来自一个或多个数据库的适当的数据能够传输到监管邻接区域的系统,使得能够实现从区域到区域的跨多个系统的追踪人的无缝过渡。
每个上述的数据库可包括作为系统的安装和/或维护期间进行的多个初始化程序的结果的参数。这些参数可以例如在操作期间处理器能够容易获取的格式,比如XML文件格式储存。在一种配置中,在初始化设置/初始化程序期间,系统可进行镜头校准程序,比如通过将棋盘图像置于每个相机的视场中。通过使用棋盘图像,镜头校准程序可确定移除任何鱼眼失真所需的要求的校正量。这些校正参数可储存在校准数据库24中。
在镜头校准程序之后,系统可接着确定单应性转换参数,单应性转换参数可被记录在单应性数据库30中。该程序可包括将基准物体置于工作空间区域中,使得它们能够被多个相机观察到。通过使不同视图之间的物体的位置相互关联(并同时已知相机或物体的固定位置),不同的二维图像可被映射到3D空间。
此外,每个相机的消隐点可通过将多个竖直参考标记置于工作空间内的不同位置,并通过分析这些标记在工作空间中如何描绘而确定。相机的透视本质可导致各竖直标记的图示会聚到共同的消隐点,该消隐点可被记录在消隐点数据库27中。
图3示出了包括动态系统完整性监测的工厂监测过程流程的高度概括框图。
在框32中,数据流从捕捉时间同步图像数据的基于视觉的成像装置12收集。在框33中,执行系统完整性监测。视觉处理单元针对部件故障和阻止监测系统正确地操作并完成其预期目的的状况而检查系统的完整性。该“动态完整性监测”将检测这些退化或故障状况并且在系统可能不能启动安全模式的情况下触发一种模式,在该模式中,系统完整性因而被恢复且过程相互作用能够返回正常而除了进行修理所需的停工时间之外没有任何不期望的后果。
在一种配置中,基准目标能够用于几何校准和完整性。这些基准目标中的一些可能是主动性的,比如一个或多个传感器的视场中的闪烁的红外灯塔。在一种配置中,例如,红外灯塔可以以各自的速率闪烁。监测系统可从而确定图像中的灯塔检测是否与红外灯塔实际上闪烁的期忘速率实际上吻合。如果不吻合,则自动化设备可能不能启动安全模式,错误视图可能被忽略或被无效,或者设备可被调节以在安全模式中操作。
基准目标的性能的非预期的变化也可导致调节设备以在安全模式操作中工作。例如,如果基准目标是被追踪的运动的目标,并且其在系统检测到它从预期的退出位置离开工作空间区域之前消失,则可采取类似的预防措施。运动的基准目标的非预期的变化的另一个示例是当基准目标出现在第一位置,然后以无法解释的很快的速度(即,距离对时间的比超过预定的限制)重新出现在第二位置。在图3的框34中,如果视觉处理单元确定完整性问题存在,则系统进入故障自驱安全(fail-to-safe)模式,在该情况下警告被启动,并且系统被关闭。如果视觉处理单元确定不存在完整性问题,则按顺序开始框35-39。
在一种配置中,系统完整性监测33可包括以动态的方式量化地评估每个基于视觉的成像装置的完整性。例如,完整性监测可连续地分析每个视频输入,以测量输入中的噪音量或者在一段时间范围内识别图像中的不连续性。在一种配置中,系统可使用绝对像素差值、全面的/局部的直方图差值、和/或绝对边缘差值中的至少一个以量化图像的完整性(即,确定范围从0.0(无可靠性)至1.0(相当可靠的)的相对“完整性分数”)。上述差值可相对于预先建立的参考帧/图像(例如,在初始化程序期间获得的一个)或在被测量的帧的刚好之前获得的帧确定。当与预先建立的参考帧/图像比较时,该算法可特定地关注图像背景的一个或多个部分(而不是动态地改变前景部分)。
背景消除在框35中进行,并且所得的图像是前景区域。背景消除使得系统能够识别图像的能够运动的方面。图像帧的这些部分接着被传到后续的模块用于进一步分析。
在框36中,进行人验证,以从捕捉的图像中检测人。在该步骤中,识别的前景图像被处理以检测/识别前景的最像人的部分。
在框37中,执行如前所述的外观匹配和追踪,这使用其不同的数据库将人从检测的物体中识别出,并且在工作空间区域中追踪被识别出的人。
在框38中,三维处理被应用到捕捉的数据以获得用于工作空间区域中的物体的3D范围信息。3D范围信息允许我们形成减少错误警告的3D占据栅格和体素化并允许我们在3D中追踪物体。3D测量处理可例如使用立体头顶相机(例如,相机14、16)进行,或可从每个成角度的相机17的投影使用立体像素构造技术进行。
在框39中,匹配的踪迹被提供至多视图融合和物体定位模块。多视图融合模块39可将多个视图融合到一起以形成工作空间中每个人的位置的概率地图。此外,如图10所示,来自基于视觉的成像装置的三维处理提供至多视图融合和目标定位模块,以确定在工作空间区域中的每个人的位置、方向、速度、占有率和密度。针对与工作空间区域中的可移动设备的潜在的相互作用,追踪被识别的人。
图4示出了使用人监测系统检测、识别和追踪人的过程流程图。在框40中,系统被主处理程序初始化,以进行在监测的工作空间区域中进行多视图整合。主处理程序初始化并启动子处理程序。提供相应的子处理程序,以处理被相应的成像装置捕捉的数据。每个子处理程序并行地操作。如这里描述的,随后的处理框被主处理程序同步以确保被捕捉的图像彼此时间同步。主处理程序在进行多视图整合前等待每个子处理程序完成他们各自的捕捉的数据的处理。每个相应的子处理程序的处理时间优选地不超过100-200毫秒。在系统初始化时还进行了系统完整性检查(见图3,框33)。如果确定系统完整性检查失效,则系统立即开启提示并且进入故障自驱安全模式,在该模式中,系统被关闭直到进行校正动作。
再次重新参见图4,在框41中,流式图像数据被每个基于视觉的成像装置捕捉。被每个成像装置捕捉的数据是(或被转换到)像素格式。在框42中,捕捉的图像数据提供至图像缓冲器,在图像缓冲器中,图像等待处理以用于检测物体,更具体地说,用于检测在运动的自动化设备之间的工作空间区域中的人。每个捕捉的图像被赋以时间标记,从而每个捕捉的图像被同步,以用于同时处理。
在框43中,自动校准应用到捕捉的图像,用于使捕捉的图像中的物体去失真。校准数据库基于用于使失真的物体去失真的图样提供校准参数。由广角镜导致的图像失真要求图像通过相机校准的应用而去失真。这是必要的,因为任何主要的图像失真使得图像装置的视图与外观模型之间的单应性映射功能不准确。成像校准是一次性的过程,然而,当成像装置设置被更改时,需要重新校准。图像校准还可被动态完整性监测子系统周期性地检查,以检测成像装置由于某种原因被从其校准的视场运动的状况。
在框44和45中,背景建模和前景检测分别被初始化。背景训练用于将背景图像与前景图像区分。结果被储存在背景数据库中以被每个子处理程序用于区分背景和前景。所有去失真的图像被背景过滤,以在数字化的图像中获得前景像素。为了在捕捉的图像中区别背景,背景参数应通过使用空的工作空间视图区域的图像被训练,从而当存在运动的物体时,背景像素能够被容易地区分。背景数据应该随着时间而更新。当在捕捉的图像中检测并追踪人时,背景像素被从图像数据过滤,以检测前景像素。检测的前景像素通过使用噪音过滤和斑点尺寸过滤的连通区域分析被转换成斑点(blob)。
在框46中,斑点分析被初始化。在各自的工作空间区域中,不仅是运动的人可被检测到,而且诸如机器人臂、手推车或箱等其他运动物体可被检测到。因此,斑点分析涉及检测所有前景像素和确定哪些前景图像(例如斑点)是人以及哪些前景图像是非人的运动物体。
斑点可被限定为连通的像素(例如,接触像素)区域。斑点分析涉及捕捉的图像中的各像素区域的识别和分析。图像通过数值来区分像素。像素接着被区分为前景或背景。具有非零数值的像素被认为是前景,具有零值的像素被认为是背景。斑点分析通常考虑多个因素,该多个因素可包括但不限于斑点的位置、斑点的区域、斑点的外周(例如,边缘)、斑点的形状、斑点的直径、长度或宽度以及取向。用于图像或数据段的技术不限于2D图像,而是还能够利用来自提供IR图像和/或3D体积数据的其他传感器类型的输出数据。
在框47中,进行人检测/验证以从人斑点过滤掉非人斑点,作为斑点分析的一部分。在一种配置中,该验证可通过使用群集域分类器技术进行。
在另一种配置中,系统可使用诸如支持向量机(SVM)或神经网络的图样匹配算法,以图样匹配前景斑点和训练的人姿势的模型。替代地,系统可使用诸如图5A中大体示出的局部滑动窗口62扫描图像帧60,而不是尝试作为一个整体来处理整个图像。这可降低处理复杂性并且提高检测的鲁棒性和特异性。滑动窗口62可于是出于识别的目的用作SVM的输入。
进行人检测的模型可使用以不同的姿势(即,站立、蹲伏、跪着等)定位和面对不同方向的不同的人的图像训练。当训练模型时,可提供有代表性的图像,使得人大体上与图像的竖直轴线对齐。然而,如图5A所示,成像的人64的身体轴线可根据图像的透视角和消隐点而成一定角度,其不一定是竖直地。如果检测模型的输入是与图像坐标系对齐的窗口,则成角度的图示的人可能不利地影响检测精度。
为了考虑图像中的人的歪斜本质,滑动窗口62可从校正的空间而非图像坐标空间截取。校正的空间可将透视图映射到与地平面对齐的正交视图。换种方式说,校正空间可将工作空间区域中的竖直线映射为在调整的图像中垂直地对齐。这在图5B中示意性地示出,其中校正的窗口66扫描图像帧60,并且能够将成角度的人64映射为提供在正交空间70中的竖直对齐的图示68。当使用SVM分析时,该竖直地对齐的图示68可于是提供更高的置信度检测。在一种配置中,校正的滑动窗口66可通过能够在例如极坐标系与正交坐标系之间映射的相关系数矩阵更加方便。
虽然在一种配置中系统可在整个图像帧范围使用上述的滑动窗口搜索策略进行穷举搜索,但是该策略可能涉及搜索图像的人可能没有实际上位于的区域。因此,在另一种配置中,系统可限制搜索空间至仅特定的感兴趣区域(ROI)72,比如图5C所示。在一种配置中,ROI72可代表在图像帧60中可观察到的地面空间,加上边际容差以说明站立在地面空间的极限边缘的人。
在又一种配置中,计算要求可通过将可能期望发现人斑点的ROI72周围部分的搜索区分优先次序而被进一步降低。在该配置中,系统可基于对于图像处理器可用的附加信息,使用提示来约束搜索或将搜索区分优先次序。该附加信息可包括在图像帧中的运动检测、来自之前识别的人斑点的轨迹信息和来自多相机阵列中的其他相机的数据融合。例如,在对融合的地参考系上的人的位置验证后,追踪算法形成人踪迹,并且在接下来的帧中保持该踪迹历史。在一种情况下,如果环境障碍使人定位失效,则系统可迅速地通过推算之前追踪的人位置的轨迹来将校正搜索集中在ROI72中,而找回人位置。如果斑点在几帧中没有被重新识别,则系统可报告目标人已消失。
再次参见图4,一旦人斑点在不同的视图中被检测到,则在框48中对每个检测到的人斑点执行身体轴线估算。使用图像中的消隐点(从消隐点数据库中获得)确定每个人斑点的主要身体轴线。在一种配置中,身体轴线可由两个感兴趣点限定。第一点是识别到的人斑点的形心点,第二点(即,消隐点)是靠近身体底部的相应的点(即,不必须是斑点底部,并可能在斑点外)。更具体地,身体轴线是将形心点连接到消隐点的虚拟线。确定每个相应的相机视图中每个人斑点的各竖直的身体轴线,如图6中80、82和84处大体示出的。总体来说,该直线将在从头到脚趾的直线上横切人的图像。人检测分数可用于协助对应的身体轴线的确定。该分数提供了与人匹配已经成功并且应该使用对应的身体轴线的置信度水平。每个竖直的身体轴线将由单应性映射用以确定人的定位,并且将在下文中详细讨论。
再次参见图4,颜色分布在框49中执行。提供颜色外观模型以在每个视图中匹配相同的人。颜色分布在每个捕捉的图像中辨别和保持相应的人的识别。在一种配置中,颜色分布是身体轴线和斑点的边界框的平均颜色值的矢量。
在框50和51中,执行单应性映射和多视图整合程序以分别协调不同的视图,并将人位置映射到共同的平面。单应性(如在此所述)是数学概念,其中可逆的转换将物体从一个坐标系映射到直线或平面。
单应性映射模块50可包括身体轴线子模块和协同子模块中的至少一个。总的来说,身体轴线子模块可使用单应性以将检测的/计算的身体轴线映射到从俯视透视图观察到的共同的平面。在一种配置中,该平面是与工作空间的地面重合的地平面。该映射经由图6中86处的地平面图示意性地示出。一旦映射到共同的地平面,各个身体轴线可相交在平面中的单个位置点87处或附近。在身体轴线没有完美地相交的情况中,系统可使用最小平均二乘法或最小二乘中位数法识别位置点87的最匹配的近似值。该位置点可表示在工作空间内人的地平面位置的一个估计。在另一个实施例中,位置点87可以通过加权最小二乘法确定,在该方法中,每条线可通过使用完整性分数单独地加权,该完整性分数针对从其确定直线的帧/视图而被确定。
协同子模块可类似于身体轴线子模块操作,因为协同子模块使用单应性将来自不同图像视图的内容映射到多个平面中,每个平面从俯视透视角观察。然而,代替映射单条线(即,身体轴线),协同子模块相反地将整个检测到的前景斑点映射到平面。更具体地,协同子模块使用单应性以将前景斑点映射到协同地图88中。该协同地图88是多个平面,该多个平面全部平行,并且每个在相对于工作空间的地面的不同的高度。从每个视图中检测到的斑点可通过单应性被映射到每一个相应的平面中。例如,在一种配置中,协同地图88可包括地平面、中平面和顶平面。在另外的构造中,可使用更多或更少的平面。
在将来自各相应视图的前景斑点映射到共同的平面期间,可能存在多个斑点映射重合的区域。换种方式说,当在一个视图中观察到的斑点的像素被映射到平面时,原始视图的每个像素在所述平面中具有对应的像素。当多个视图都被投影到平面时,它们可能在一个区域处相交,使得来自相交区域或在相交区域内的平面的像素可映射到多个原始视图中。在平面中的该重合区域反映了人在该位置和高度出现的高的可能性。以与身体轴线子模块类似的方式,完整性分数可用于将来自每个视图的斑点到协同地图88的投影加权。这样,原始图像的清晰度可影响高可能性区域的具体边界。
一旦来自每个视图的斑点被映射到相应的平面,高可能性区域可被分离,并且沿着共同的竖直轴线的区域可被聚集在一起。通过分离这些在不同高度的高可能性区域,系统可构造封装被检测的人形状的边界包络线(bounding envelope)。该边界包络线的位置、速度和/或加速度可于是用于改变邻近的诸如组装机器人等自动化设备的行为,或例如如果人步入或到达限定的保护区域中,则提供警告。例如,如果边界包络线与指定的限制空间重合或侵犯该空间,则系统可改变限制空间中的自动化装置的行为(例如,可使机器人减速或停止)。附加地,系统可通过监测物体的速度和/或加速度预测物体的运动,并且如果预测到碰撞或相互作用,则系统可改变自动化装置的行为。
除了仅识别边界包络线之外,该包络线整体(和/或每个平面的整体)可被向下映射到地平面以确定被占据的可能的地面区域。在一种配置中,该被占据的地面区域可被用于验证由身体轴线子模块确定的位置点87。例如,如果位置点处于由协同子模块所确定的高可能性占据的地面区域,则位置点87可被验证。相反地,如果该点87位于该区域外,则系统可识别错误或拒绝位置点87。
在另一种配置中,主轴线可通过边界包线绘出,使得该轴线在工作空间中大体上是竖直的(即,大体上垂直于地平面)。主轴线可在边界包线内的中间位置绘出,并且可在第二位置点与地平面相交。该第二位置点可与经由身体轴线子模块确定的位置点87融合。
在一种配置中,多视图整合51可将多个不同类型的信息融合在一起以增加准确检测的可能性。例如,如图6所示,地平面图86中的信息和协同地图88中的信息可被融合在一起以形成合并的概率地图92。为了进一步细化概率地图92,系统10可另外融合工作空间的3D立体像或构造的立体像素图示94到概率估计中。在该配置中,3D立体图可使用尺度不变特征变换法(SIFT)以首先获得特征和它们的对应关系。系统可然后基于已知的相机固有参数和特征对应关系对立体像对进行极线校正。视差(景深)地图可于是使用在例如OpenCV中提供的块匹配方法实时获得。
类似地,立体像素图示使用从背景消隐获得的图像廓形来产生景深图示。系统将3D立体像素投影到(使用的多个相机的)所有的图像平面上并且确定该投影是否在多数图像中与该廓形(前景像素)重合。因为某些图像可能由于机器人或工厂设备而被遮挡,因此系统可使用不直接需要来自所有图像的重合协议的投票方案。3D立体像和立体像素结果提供关于物体如何占据3D空间的信息,该信息可用于提高概率地图92.
通过将不同类型的数据融合在一起以完善概率地图92可以几个不同的方式实现。最简单的是“简单加权平均整合”方法,其应用加权系数至每种数据类型(即,身体轴线投影、协同地图88、3D立体景深投影、和/或立体像素图示)。此外,身体轴线投影可进一步包括关于每条身体轴线的高斯分布,其中每条高斯分布图示了斑点像素关于相应的身体轴线的分布。当投影到地平面时,这些分布可重合,这可有助于确定位置点87或可与协同地图结合。
融合的第二方法可以将3D立体和/或立体像素表示的景深图与前景斑点投影一起使用,以预过滤图像。一旦预过滤,系统可在那些过滤的区域中进行多平面身体轴线分析,以提供在每个视图中的身体轴线的更高置信度提取。
再次参见图4,在框52中,一个或多个运动踪迹可基于确定的多视图单应性信息和颜色分布被组合。这些运动踪迹可图示被检测的人在整个工作空间中的有序的运动。在一种配置中,运动踪迹可使用卡尔曼滤波而过滤。在卡尔曼滤波中,状态变量是人的地面位置和速度。
在框53中,系统可确定用户踪迹是否匹配对于特定的过程预期的或可接受的踪迹。额外地,系统还可尝试“预测”人继续在某个方向上行走的意图。该意图信息可被用于其他模块中以计算人和检测区之间的时间和距离的接近比率(这对于改善区域检测潜伏期特别重要,其中动态检测区域跟随诸如机器人、运送机、铲车和其他移动设备的运动)。这也是能够预测人运动进入邻接的监测区域中的重要信息,人的数据能够被传送在该区域中,并且接收系统能够准备注意机构,以迅速地获取个体在所进入的监测区域中的追踪。
如果人的确定的活动没有被验证或者在可接受的步骤之外,或者如果人被预测离开预定的“安全区”,则系统在框54中可提供警告,将警示传递至用户。例如,当人走过工作空间区域中的预定安全区、警示区和危险区时,警告可被显示在显示装置上。当人已经进入相应的区域并且导致设备变慢、停止或以其他方式避免人时,警示区和危险区(以及希望配置在系统中的任何其他区,包括动态区)是提供警告的操作区域,如在框54中开始的。警示区是人被第一次警告其已经进入某个区域并且很接近可运动设备并且可能导致该设备停止的区域。危险区是设计在警示区中的位置(例如,包络线)。当人在危险区中时,可发出更危险的警告,从而人能够意识到他们的位置在危险区中或者被请求离开该危险区。提供这些警告以通过防止由没有意识到他们的接近的人随意进入警示而导致的令人讨厌的设备停止运作,从而提高过程系统的产率。这些警告也可以在诸如从该过程常规加载或卸载零件的预期的相互作用间隔期间被系统静音。还可能暂时静止的人将在沿着他的方向运动的动态区的路径中被检测到。
除了当在相应区中时向人提供警告,警告可根据预测的人在工作空间区域中的行走的路径而更改或改变接近的自动化设备的运动(例如,该设备可被停止、加速或减速)。也就是说,自动化设备的运动将在一组程序下操作,该组程序具有在预定速度下的预定运动。通过追踪并预测人在工作空间区域中的运动,自动化设备的运动可被更改(即,减速或加速)以避免与工作空间区域中的人的任何潜在的接触。这允许设备保持操作而不必须使组装/制造过程关闭。电流失效保护操作由基于风险评估的任务结果管理,并且当人在危险区中被检测到时,通常需要工厂自动化设备完全地停止。启动步骤需要设备的操作者重新设定控制以重新启动组装/制造过程。在该过程中这样的非预期的停止通常导致停工时间和生产率的损失。
活动顺序监测
在一种配置中,上述系统可用于监测用户进行的一系列操作,并且校验被监测的过程是否正合适地进行。除了仅仅分析视频传送,系统还可监测诸如扭矩枪、螺帽扳手、或螺丝刀等辅助设备的使用和时间选择。
图7总体示出了使用上述系统进行活动顺序监测的方法100。如图所示,输入视频在102处被处理,以产生捕捉诸如场景运动、活动等的不同类型的信息的内部图示104。该图示用于在106处获知分离器,该分离器产生动作标记和动作相似度分数。该信息被整理到一起并且在108处转换为语义描述,该语义描述然后被在110处与已知的活动模板比较,以产生防错分数。语义和视频简介被存档以用于以后的参考。如果与模板的匹配产生了低的分数,该低的分数表示执行的顺序与预期的工作任务进展不相似,则在112处发出警告。
该过程可用于通过确定某些动作在何时何地进行以及它们的进行次序而验证操作者的活动。例如,如果系统识别到操作者手伸入特别放置的箱体、朝组装线上的车辆的拐角走去、蹲下并且致动螺帽扳手,则系统可确定存在操作者固定车辆的轮的高可能性。但是,如果该顺序以仅三个轮被固定而结束,则系统可能指示/警告该过程没有完成,因为需要第四轮。以类似的方式,系统可使动作与车辆清单匹配以确保特定的车辆需要的硬件选项被安装。例如,如果系统检测到操作者伸手拿具有错误的颜色的挡板,则系统可警告用户在继续之前检验这部分。以该方式,人监测系统可用作防错工具,以确保在组装过程期间进行要求的动作。
系统可具有足够的灵活性以适应多个进行一连串的任务的不同的方法,并且可验证该过程,只要在预置的车辆位置最终的人踪迹和活动列表完成了预置的目标。虽然效率可能不会包括在是否一连串的动作正确实现组装台的目标内,但是其可以被单独记录。以该方式,实际的运动踪迹和活动记录表可以与较佳的运动踪迹比较,以量化总偏差,该总偏差可用于建议过程效率改良(例如,经由显示或打印的活动报告)。
图8提供了更详细的活动监测方案框图120。如图所示,可在框32中从相机收集视频数据流。在33处,这些数据流被传送经过检验图像处于正常操作状态的系统完整性监测模块。如果视频传送不处于正常操作状态,则错误被发出,并且系统没有进入安全模式。在系统完整性监测后的下一步骤是人检测器-追踪器模块122,其总体描绘在图4中上方。该模块122获得每个视频传送并且检测在场景中的运动的人。一旦受验的移动斑点可得,则系统可使用分类器处理并过滤出非运动的物体。该模块的最终输出是3D人踪迹。下一步骤涉及在124处从3D人踪迹提取适合的图示。该图示方案是补充的,并且包括活动景象模拟图像像素126、图示场景运动的空间-时间感兴趣点(STIP)128、从背景分离动作者的踪迹130和整合跨多个视图的信息的立体像素132。这些图示方案中的每一个在下文中更详细描述。
一旦信息在104处被提取并且被以上述补充形式图示,则系统提取某些特征并将它们传到对应的预先训练的分类器组。时间SVM分类器134在STIP特征128上操作并且产生诸如站立、蹲、行走、弯曲等的动作标记136。空间SVM分类器138在原始图像像素126上操作并且产生动作标记140,提取的踪迹信息130和动作标记与动态时间规整142一起使用,以将踪迹与典型的预期踪迹比较,并且产生动作相似度分数144。训练人姿势估计分类器146,从而其能够将立体像素图示132用作输入并且产生姿势估计148作为输出。时间、空间、踪迹比较和基于立体像素的姿势的最终组合被放入时间-空间标记图150,该时间-空间标记图150为语义描述模块152的构成框。该信息然后用于将任何活动顺序分解为构成基元动作,并产生AND-OR图154。提取的AND-OR图154然后与规定的活动显示比较,并且在156处产生匹配分数。低的匹配分数用于发出警告,该警告指示观察到的动作不是典型的,而是异常的。语义和视觉简介在158处产生并存档。
图示动作的时间空间感兴趣点(STIP)
STIP128是检测到的特征,其在跨空间和/或时间的图像特性中表现出明显的局部变化。这些感兴趣点中的许多在人执行动作期间产生。使用STIP128,系统能够尝试确定在观察到的视频顺序中发生哪些动作。每个提取的STIP特征128在134处被传到SVM分类器组,并且投票机构确定哪个动作与该特征最可能相关。滑动窗口然后基于时间窗口内的检测到的STIP的分类确定每个帧中的检测到的动作。因为存在多个视图,因此该窗口考虑来自所有视图的所有检测到的特征。形式为每帧的动作的最终信息能够被压缩为显示一连串检测到的动作的图。最终,该图可与在SVM训练阶段期间产生的图进行匹配,以检验检测到的动作顺序的正确性。
在一个示例中,当观察人跨平台运动以在车的特定区域使用扭矩枪时可产生STIP128。该动作可涉及人从行走姿势过渡到许多钻孔姿势中的一种、保持该姿势片刻以及转变回行走姿势。因为STIP是基于感兴趣点的运动,因此产生的去往或来自每个姿势的STIP是将动作彼此区分之物。
动态时间规整
动态时间规整(DTW)(在142处进行)是用于测量可随时间或速度变化的两个顺序的相似度的算法。例如,两个踪迹之间的行走图样的相似度将经由DTW检测,即使在一个顺序中人行走得更慢且在另一个中人走得更快,或者即使存在加速度、减速度或多个短暂的停止,或者即使两个顺序在一个观察过程期间时间线上有移位。DTW能够可靠地找到两个给定的顺序(例如,时间系列)之间的最优的匹配。该顺序在时间维度中被非线性地“规整”,以独立于某些时间维度中的非线性变量确定它们的相似度度的测量。DTW算法使用动态编程技术以解决该问题。第一步是将一个信号中的每个点与第二信号中的每个点进行比较,产生矩阵。第二步是对该矩阵进行处理,从左下角(对应于两个顺序的开端)开始,并且在右上角(两个顺序的结尾)结束。对于每个单元,通过选取在矩阵中左方或下方的具有最低累计距离的邻近单元,以及将该值加至该关注单元的距离来计算。当该过程完成时,根据通过该矩阵最有效的路径,右上方单元的值表示两个顺序信号之间的距离。
DTW能够仅使用踪迹或施加踪迹加位置标记测量相似度。在车辆组装的情形中,可使用六个位置标记:FD、MD、RD、RP、FP和行走,其中F、R、M表示车的前、中和后,D和P分别表示驾驶员侧和乘客侧。DTW的距离成本被计算为:
cost=αE+(1-α)L,0≤α≤1
其中,E是在两个踪迹上的两点之间的欧拉距离,L是某个时间窗口中的位置的直方图差值;α是重量,并且如果两个踪迹和位置标记都用于DTW测量,则被设置为0.8。否则,对于只有一个踪迹的测量,α等于1。
使用空间分类器的动作标记
单图像识别系统可用于在数据中可见的多个可能的肉眼可见动作(例如,行走、弯腰、蹲伏和伸手)之间的区分。这些动作标记可通过使用尺度不变特征变换法(SIFT)和SVM分类器确定。大多数分类技术的最低的水平是用对可能在图像形成过程中出现的不同的烦扰(光、姿势、观察点和遮蔽)不敏感的方法对图像进行编码。SIFT描述子在现有技术中已知为对照明不敏感、对姿势和观察点的小的变化稳定、并且能对尺度和取向变化不变化。SIFT描述子在以特定尺度围绕一点的圆形图像区域中计算,其确定必备图像模糊和域的半径。在使图像模糊后,梯度取向和大小被得到,并且空间箱体的网格覆盖圆形图像域。最终的描述子是被空间箱体分隔的由大小加权的梯度取向的归一化直方图(且高斯权重从中心下降)。因此,如果空间箱体网格是4×4的,则存在8个取向箱体,该描述子具有大小4*4*8=128个箱体。虽然SIFT描述子的位置、尺度和取向能够以对姿势和观察点不变的方式选择,但是大多数现有技术分类方法使用固定尺度和取向,并且将描述子布置在重叠域的网格中。这不仅推升了性能,其还允许图像中的所有的描述子的非常快速的计算。
为了概括视觉分类,类别的成员间必须具有一些视觉相似度,当与非成员比较时,必须具有一些区别性。此外,任何一大组图像将具有各种冗余数据(墙壁、地面等)。这导致“视觉词语”的概念-使用诸如k平均算法的矢量量化技术从训练描述子的整个集合获取的一小组原型描述符。一旦该组视觉词语被计算-已知为编码本-图像可仅能够以哪些词语在哪里和哪个频率出现来描述。我们使用k平均算法来形成编码本。该算法在数据空间内寻求k中心,每个中心代表在该空间中落入最接近其的数据点的集合。
在图像被分解为SIFT描述子和视觉词语后,那些视觉词语能够被用于形成整个图像的描述子,其仅是在图像中所有视觉词语的直方图。可选地,图像能够被分解为空间箱体并且这些图像直方图能够以SIFT描述子被计算的相同的方式被空间地分隔。这增加了一些零散几何结构到从原始像素信息学习动作的过程中。
学习视觉分类的过程的最后的步骤是训练支持矢量机(SVM)以在它们的图像直方图的给定类别的示例中进行区分。
在本情况下,基于图像的技术可用于辨别某些人动作,比如弯腰、蹲伏和伸手。每个“动作”可涉及归类到一起的连续帧的集合,并且系统可仅使用其中存在感兴趣的人的图像的的部分。当我们具有多个同时的视图时,系统可对每个视图训练一个SVM,其中每个视图的SVM评估动作的每个帧(或用动作的每个帧进行训练)。投票统计可在特定的动作的所有视图上跨所有SVM帧计算。该动作被分类为具有最高总投票的类别。
系统可然后使用人追踪器模块以确定人在任何时候任何视图中的位置以及决定哪一帧与分类过程相关。首先,地踪迹可用于确定在帧中的人何时进行感兴趣的动作。因为人能够明显地运动的唯一的方法是行走,我们假设任何对应于地上的大的运动的帧包括人行走的图像。因此,我们不需要用基于图像的分类器将这些帧分类。
当分析运动踪迹时,在运动周期之间中的长周期的小运动表示人在进行行走以外的动作的帧。对应于长周期的小运动的帧被分组,其中的每个由未知的动作(或标记的动作,如果用于训练)构成。在这些帧中,人追踪器提供指定图像的哪个部分包括人的边界框。如上所述,边界框可被指定在校正的图像空间中,以有利于更准确的训练和辨别。
一旦感兴趣的帧和边界框通过人追踪器找到,用于SVM的训练的步骤与传统的情况非常相似。SIFT描述子跨所有帧和所有视图在每个动作图像边界框中计算。在每个视图中,那些属于某一动作(即,以时间归类的)图像被SVM训练的指针标记。k平均算法建立编码本,该编码本然后用于产生每个边界框的图像直方图。从视图获得的图像直方图用于训练其SVM。在例如具有六个相机的系统中,存在六个SVM,每个SVM将三个可能的动作分类。
给定新的顺序,多个未标记的动作以上述的方式提取。这些帧和边界框每一个使用合适的基于视图的SVM分类。每个SVM产生用于动作顺序的每个帧的分数。它们被加到一起以跨所有帧和所有视图计算动作的累积分数。具有最高分数的动作(类型)被选作动作顺序的标签。
在不同时间,人可在特定的视图中被遮蔽,但是在其他的视图中可见。被遮蔽的视图对所有的类型的投票都等于0。我们通过使用一个顺序用于标记的训练,4个不同的顺序用于测试,以实现提高的准确性。注意在训练期间发展的相同的编码本在测试时间使用是重要的,否则SVM将不能分类所得的图像直方图。
系统可采用基于立体像素的重建方法,该重建方法通过将3D立体像素投影到每个图像平面上并且确定投影是否与前景物体的相应廓形重叠而使用来自从多个视图的前景运动物体。一旦3D重建完成,则系统可例如将柱形模型适合不同的部分并且使用参数以训练估计人的姿势的分类器。
图6的框图中的图示和学习步骤然后与诸如可从一个或多个辅助工具(例如,扭矩枪、螺帽扳手、或螺丝刀等)输出的任何外部信号组合,以形成时间空间标记。该组合的信息然后用于在154处建立AND-OR图。总体来说,AND-OR图能够相对于简单的树形图描述更复杂的情形。该图由两种节点构成:与典型的树形图中的节点相同的“或”节点,和允许在树下的路径分成多个同时的路径的“和”节点。我们使用该结构以描述发生在一个场景中的动作的可接受的顺序。在该情况中的“和”节点允许我们描述诸如动作A发生、然后动作B和C同时发生或D发生等事件,这是标准树形图所不能描述的。
在另一种配置中,代替在154处的AND-OR图,系统可采用有限状态机以描述用户活动。有限状态机器通常用于描述具有几个状态和状态之间过渡的情况的系统。在活动识别系统将顺序以时间分割为基本动作后,系统可评估该顺序以确定其是否其与准许的一组动作顺序一致。该准许的顺序组也可从数据中学习,比如通过从训练数据构建有限状态机(FSM),并且通过将任何顺序通过FSM来测试任何顺序。
形成表示所有有效的动作顺序组的FSM是直观的。给定一队训练顺序(已经通过动作辨别系统被分类),首先通过跨所有训练顺序找出所有独特的动作标记的集合来产生FSM的节点。一旦节点被产生,则系统可从节点A向节点B放置定向的边缘,如果节点B在任何训练顺序中在节点A紧后面。
测试给定的顺序也是同等地直观的:将该顺序传送通过机器以确定其是否达到退出状态。如果达到退出状态,则该顺序是有效的,否则,其是无效的。
因为当进行每个活动时,系统已知人的位置,其也可在FSM的结构中包括空间信息。这增加了额外的细节和从位置方面而不仅是事件的顺序方面评估活动的可能性。
视频简介
图8的视频简介模块158获取输入视频顺序并以非常有效且紧凑的形式表示动态活动,以用于诠释和归档。所得的简介通过同时显示多个活动而使信息最大化。在一种方法中,背景视图被选择并且选择的帧的前景物体被提取并且混入基础视图。该帧选择是基于通过系统获得的动作标记的,并且允许我们选取发生感兴趣的一些动作的子顺序。
多个工作空间
在此描述的人监测系统从多个不同的观察点全面地检测并监测工作空间区域的人,使得人在一个或多个观察点的遮挡不影响对人的追踪。此外,人监测系统能够调节并动态地重新配置自动化可运动工厂设备,以避免与工作空间区域内的人潜在的相互作用,而无须停止自动化设备。这可包括确定并经过自动化可运动设备的新的行进路线。人监测系统能够在工作空间区域中追踪多个人,将追踪传递至负责监视邻接区域的其他系统,并且可限定用于工作空间区域中的多个地点的多个区。
图9示出了多个工作空间区域的图示。用于各工作空间区域的传感装置12联接至专用于相应的工作空间区域的相应的处理单元18。每个相应的处理单元识别并追踪在人的相应的工作空间区域中转变的人的接近,并且通过网络链路170彼此通讯,从而个体能够在他们从一个工作区域转变到另一个工作区域时被追踪。结果,多个视觉监督系统能够被链接用于在当个体在多个工作空间区域中相互作用时追踪个体。
应理解的是在上述的工厂环境中使用视觉监测系统仅是能够采用视觉监视系统的一个示例,并且应理解本视觉监视系统具有应用到工厂环境之外的任何应用中,其中人在某个区域中的活动被追踪并且运动和活动被记录。
视觉监测系统在自动化时间和活动的运动研究中是有效的,其中该视觉监测系统能够用于监测性能并提供用于改善工作单元活动效率和生产率的数据。该能力还允许规定的顺序中的活动监测,其中顺序的偏差能够被识别、记录,并且能够对人任务错误的检测产生警告。该“防错”能力能够用于防止由于规定的任务的顺序或合适的材料选择的错误而使任务错误传播至下游操作和导致质量和生产率问题。
还应理解的是,在此所述的该系统的人监测能力变化是监测受限的区域,该受限的区域可具有相当的自动化的或仅要求周期性的保养或进入的其他设备活动。该系统将监测到这些区域的进入控制的完整性并由于未授权的进入引发警告。因为在该区域中的保养和日常维护可能需要开关的转变或其他停工时间,因此系统将监测人(或人们)授权的进入和操作,并且如果活动由于意外或医疗紧急情况而非预期地停止,则系统将局部地以及通过远程监测站引发警告。这种能力能提高这些类型任务的生产率,其中该系统可被认为是“伙伴系统”的部分。
尽管已经对执行本发明的较佳模式进行了详尽的描述,但是熟悉本发明相关领域的技术人员可得知在所附的权利要求的范围内的用来实施本发明的许多替换设计和实施例。应将包含在上述描述或在附图中示出的全部内容理解为仅作说明目的,而非限制性的。

Claims (10)

1.一种用于监测具有自动化可运动设备的工作空间区域的人监测系统,所述系统包括:
多个相机,其围绕工作空间区域布置,每个相机配置为捕捉包括多个图像帧的视频传送;
视觉处理器,其被配置为:
从所述多个相机接收多个图像帧;
使用在输入图像上进行的图样匹配,从所述多个图像帧的至少一个检测人的存在;
其中用于所述图样匹配的输入图像是所述至少一个图像帧的滑动窗口部分;
其中所述滑动窗口部分与校正的坐标系对齐,使得所述工作空间区域中的竖直轴线与所述输入图像的竖直轴线对齐;和
如果检测到的人接近所述自动化可运动设备,则提供警告。
2.如权利要求1所述的系统,其中所述校正的坐标系根据所述至少一个图像帧中的工作空间区域的透视角的至少一个和所述至少一个图像帧的消隐点而建立。
3.如权利要求1所述的系统,其中所述图样匹配包括支持向量机和神经网络中的至少一个。
4.如权利要求1所述的系统,其中所述图样匹配能够进一步检测人的姿势,并且其中所述姿势包括站立、行走、伸手和蹲伏中的至少一个。
5.如权利要求1所述的系统,其中所述视觉处理器进一步配置为从所述至少一个图像帧内的感兴趣区域选择滑动窗口;
其中感兴趣区域是所述至少一个图像帧的人将位于的可能区域的子集;和
其中感兴趣区域包括工作空间区域中地面的部分。
6.如权利要求5所述的系统,其中所述滑动窗口在检测随后的图像帧的人的出现之前横穿第一图像帧中的整个感兴趣区域。
7.如权利要求1所述的系统,其中所述视觉处理器使用在第一帧中检测到的人的速度和位置来将随后帧中的检测区分优先次序。
8.如权利要求1所述的系统,其中所述视觉处理器还配置为将来自多个视图的时间同步图像帧融合至共同的坐标系中;并且
其中视觉处理器配置为通过将人的图示从所述多个视图映射到共同的坐标系以及通过确定映射的图示的相交点来识别检测到的人在共同坐标系中的位置。
9.如权利要求8所述的系统,其中视觉处理器还配置为根据跨多个连续的图像帧而识别的位置组合检测到的人的运动踪迹。
10.如权利要求9所述的系统,其中所述视觉处理器还配置为:
将运动踪迹与预定的、预期的运动踪迹比较;和
如果所述运动踪迹不与预期的运动踪迹类似,则提供警告。
CN201410183445.8A 2014-03-19 2014-04-30 使用半穷举搜索的多视图人检测 Active CN104933730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510270863.5A CN104935879B (zh) 2014-03-19 2014-04-30 用于活动顺序验证的基于视觉的监视系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/219,109 2014-03-19
US14/219,109 US9524426B2 (en) 2014-03-19 2014-03-19 Multi-view human detection using semi-exhaustive search

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510270863.5A Division CN104935879B (zh) 2014-03-19 2014-04-30 用于活动顺序验证的基于视觉的监视系统

Publications (2)

Publication Number Publication Date
CN104933730A true CN104933730A (zh) 2015-09-23
CN104933730B CN104933730B (zh) 2018-04-20

Family

ID=54053500

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510270863.5A Active CN104935879B (zh) 2014-03-19 2014-04-30 用于活动顺序验证的基于视觉的监视系统
CN201410183445.8A Active CN104933730B (zh) 2014-03-19 2014-04-30 使用半穷举搜索的多视图人检测

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201510270863.5A Active CN104935879B (zh) 2014-03-19 2014-04-30 用于活动顺序验证的基于视觉的监视系统

Country Status (3)

Country Link
US (1) US9524426B2 (zh)
CN (2) CN104935879B (zh)
DE (1) DE102014105351B4 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107249096A (zh) * 2016-06-14 2017-10-13 杭州海康威视数字技术股份有限公司 全景摄像机及其拍摄方法
CN107877512A (zh) * 2017-09-29 2018-04-06 北京理工大学 一种机器鼠与实验鼠运动相似性评价方法
CN108184098A (zh) * 2018-01-16 2018-06-19 珠海市俊凯机械科技有限公司 安全区域的监控方法以及系统
CN110611746A (zh) * 2019-09-03 2019-12-24 苏宁云计算有限公司 一种多摄像头同步方法及分布式系统
CN110782495A (zh) * 2018-07-27 2020-02-11 弗劳恩霍夫应用研究促进协会 用于在工作空间中产生和监控安全区域的装置和方法
CN111277825A (zh) * 2020-01-19 2020-06-12 浙江工业大学 一种基于海思芯片的码流控制方法
CN111476827A (zh) * 2019-01-24 2020-07-31 曜科智能科技(上海)有限公司 目标跟踪方法、系统、电子装置及存储介质
CN114120761A (zh) * 2021-11-29 2022-03-01 海南安博教育科技有限公司 实训操作的培训方法、装置、介质和电子设备
US11386636B2 (en) * 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9530101B1 (en) * 2013-11-20 2016-12-27 The United States Of America As Represented By The Secretary Of The Navy Method for calculating sensor performance of a sensor grid using dynamic path aggregation
US10674139B2 (en) * 2015-06-03 2020-06-02 University Of Connecticut Methods and systems for human action recognition using 3D integral imaging
WO2017000988A1 (en) * 2015-06-30 2017-01-05 Brainlab Ag Medical image fusion with reduced search space
CN106864368B (zh) * 2015-12-11 2021-12-21 罗伯特·博世有限公司 应用于车辆的警示方法及系统
CN106919893A (zh) * 2015-12-28 2017-07-04 中国移动通信集团公司 一种目标行为的识别方法及装置
JP6666744B2 (ja) * 2016-02-22 2020-03-18 株式会社ブロードリーフ コンピュータプログラム、作業分析支援方法及び作業分析支援装置
US10360905B1 (en) * 2016-03-11 2019-07-23 Gracenote, Inc. Robust audio identification with interference cancellation
CN105809136A (zh) 2016-03-14 2016-07-27 中磊电子(苏州)有限公司 影像数据处理方法及影像数据处理系统
CN106228744A (zh) * 2016-08-29 2016-12-14 苏州大学 一种装配线电动拧紧枪防错系统
US10607070B2 (en) * 2016-09-30 2020-03-31 Intel Corporation Human search and identification in complex scenarios
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN110023962B (zh) * 2016-12-22 2024-03-12 英特尔公司 人类体验到机器人和其他自主机器的高效传递
US11518051B2 (en) 2017-02-07 2022-12-06 Veo Robotics, Inc. Dynamic, interactive signaling of safety-related conditions in a monitored environment
US11541543B2 (en) 2017-02-07 2023-01-03 Veo Robotics, Inc. Dynamic, interactive signaling of safety-related conditions in a monitored environment
US11820025B2 (en) 2017-02-07 2023-11-21 Veo Robotics, Inc. Safe motion planning for machinery operation
CA3052961A1 (en) 2017-02-07 2018-08-16 Veo Robotics, Inc. Workspace safety monitoring and equipment control
CN109427073B (zh) * 2017-08-31 2020-12-11 杭州海康威视数字技术股份有限公司 一种运动目标确定方法、装置及电子设备
US10638109B2 (en) * 2017-09-15 2020-04-28 Elphel, Inc. Method for the FPGA-based long range multi-view stereo with differential image rectification
US10460214B2 (en) * 2017-10-31 2019-10-29 Adobe Inc. Deep salient content neural networks for efficient digital object segmentation
US11566993B2 (en) 2018-01-24 2023-01-31 University Of Connecticut Automated cell identification using shearing interferometry
US11269294B2 (en) 2018-02-15 2022-03-08 University Of Connecticut Portable common path shearing interferometry-based holographic microscopy system with augmented reality visualization
EP3534294B1 (en) 2018-03-02 2023-09-06 Akademia Gorniczo-Hutnicza im. Stanislawa Staszica w Krakowie Computer implemented method for processing a frame sequence, digital frame processing device computer program product and monitoring system
WO2019183727A1 (en) * 2018-03-27 2019-10-03 Avidbots Corp Safety systems for semi-autonomous devices and methods of using the same
CN108519547B (zh) * 2018-03-28 2020-04-24 中国工程物理研究院电子工程研究所 基于DTW和SVM的SiC-GTO器件状态监测方法
CN108960139A (zh) * 2018-07-03 2018-12-07 百度在线网络技术(北京)有限公司 人物行为识别方法、装置及存储介质
EP3825805B1 (en) * 2018-07-20 2023-09-13 Sony Group Corporation Agent, presence probability map creation method, agent action control method, and program
US11461592B2 (en) 2018-08-10 2022-10-04 University Of Connecticut Methods and systems for object recognition in low illumination conditions
WO2020047064A1 (en) * 2018-08-30 2020-03-05 Veo Robotics, Inc. Systems and methods for automatic sensor registration and configuration
CN109068278B (zh) * 2018-08-31 2023-02-28 平安科技(深圳)有限公司 室内避障方法、装置、计算机设备及存储介质
US11258987B2 (en) * 2018-09-21 2022-02-22 Microsoft Technology Licensing, Llc Anti-collision and motion control systems and methods
EP3867560B1 (de) * 2018-12-17 2023-03-01 Siemens Aktiengesellschaft Verfahren zum anpassen einer schutzfunktion während eines betriebs einer maschine durch erzeugen eines unüberwachten fensterbereichs mit nicht trennenden schutzeinrichtungen sowie schutzvorrichtung
KR20210128424A (ko) * 2019-02-12 2021-10-26 커먼웰쓰 사이언티픽 앤드 인더스트리얼 리서치 오가니제이션 상황 인식 모니터링
US11200691B2 (en) 2019-05-31 2021-12-14 University Of Connecticut System and method for optical sensing, visualization, and detection in turbid water using multi-dimensional integral imaging
US11815598B2 (en) * 2019-06-10 2023-11-14 Microsoft Technology Licensing, Llc Anti-collision and motion monitoring, control, and alerting systems and methods
TWI706676B (zh) * 2019-07-01 2020-10-01 微星科技股份有限公司 多攝影機監控追蹤系統及其方法
WO2021042277A1 (zh) * 2019-09-03 2021-03-11 浙江大学 基于神经网络的三维物体法向量、几何及材质获取方法
CN110675354B (zh) * 2019-09-11 2022-03-22 北京大学 发育生物学的图像处理方法、系统及存储介质
CN111144423B (zh) * 2019-12-26 2023-05-05 哈尔滨工业大学 基于一维组卷积神经网络的高光谱遥感数据多尺度光谱特征提取方法
CN111507231B (zh) * 2020-04-10 2023-06-23 盛景智能科技(嘉兴)有限公司 工序步骤正确性自动化检测方法和系统
CN111488835B (zh) * 2020-04-13 2023-10-10 北京爱笔科技有限公司 一种同行人员的识别方法及装置
AU2021316910A1 (en) * 2020-07-29 2023-03-02 Soilmec S.P.A Foundation machine equiped with a system for the recognition of a human figure
US11335004B2 (en) 2020-08-07 2022-05-17 Adobe Inc. Generating refined segmentation masks based on uncertain pixels
US11348355B1 (en) 2020-12-11 2022-05-31 Ford Global Technologies, Llc Method and system for monitoring manufacturing operations using computer vision for human performed tasks
US11676279B2 (en) 2020-12-18 2023-06-13 Adobe Inc. Utilizing a segmentation neural network to process initial object segmentations and object user indicators within a digital image to generate improved object segmentations
US11875510B2 (en) 2021-03-12 2024-01-16 Adobe Inc. Generating refined segmentations masks via meticulous object segmentation
CN113408496B (zh) * 2021-07-30 2023-06-16 浙江大华技术股份有限公司 图像确定方法和装置、存储介质及电子设备
US20230069482A1 (en) * 2021-08-31 2023-03-02 Siemens Aktiengesellschaft Machine learning-based environment fail-safes through multiple camera views
DE102021211764A1 (de) 2021-10-19 2023-04-20 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Erkennen eines Hintergrunds einer Verkehrsszene
CN116309590B (zh) * 2023-05-22 2023-08-04 四川新迎顺信息技术股份有限公司 一种基于人工智能的视觉计算方法、系统、电子设备和介质
CN116704268B (zh) * 2023-08-04 2023-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 面向动态变化复杂场景的强鲁棒目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100208063A1 (en) * 2009-02-19 2010-08-19 Panasonic Corporation System and methods for improving accuracy and robustness of abnormal behavior detection
US20110050878A1 (en) * 2009-08-28 2011-03-03 Gm Global Technology Operations, Inc. Vision System for Monitoring Humans in Dynamic Environments
CN103366171A (zh) * 2012-03-30 2013-10-23 佳能株式会社 物体检测方法和物体检测装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090041297A1 (en) * 2005-05-31 2009-02-12 Objectvideo, Inc. Human detection and tracking for security applications
JP4221011B2 (ja) * 2006-05-31 2009-02-12 株式会社日立製作所 作業動作分析方法、作業動作分析装置および作業動作分析プログラム
KR101260847B1 (ko) * 2007-02-08 2013-05-06 비헤이버럴 레코그니션 시스템즈, 인코포레이티드 행동 인식 시스템
US8285060B2 (en) 2009-08-31 2012-10-09 Behavioral Recognition Systems, Inc. Detecting anomalous trajectories in a video surveillance system
CN102724449A (zh) * 2011-03-31 2012-10-10 青岛海信电器股份有限公司 互动式电视机和利用显示装置实现与用户互动的方法
US20120307051A1 (en) * 2011-06-01 2012-12-06 Sensormatic Electronics, LLC Video enabled electronic article surveillance detection system and method
US9251598B2 (en) * 2014-04-10 2016-02-02 GM Global Technology Operations LLC Vision-based multi-camera factory monitoring with dynamic integrity scoring

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100208063A1 (en) * 2009-02-19 2010-08-19 Panasonic Corporation System and methods for improving accuracy and robustness of abnormal behavior detection
US20110050878A1 (en) * 2009-08-28 2011-03-03 Gm Global Technology Operations, Inc. Vision System for Monitoring Humans in Dynamic Environments
CN103366171A (zh) * 2012-03-30 2013-10-23 佳能株式会社 物体检测方法和物体检测装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107249096A (zh) * 2016-06-14 2017-10-13 杭州海康威视数字技术股份有限公司 全景摄像机及其拍摄方法
US10554882B2 (en) 2016-06-14 2020-02-04 Hangzhou Hikvision Digital Technology Co., Ltd. Panoramic camera and photographing method thereof
CN107249096B (zh) * 2016-06-14 2021-02-26 杭州海康威视数字技术股份有限公司 全景摄像机及其拍摄方法
CN107877512A (zh) * 2017-09-29 2018-04-06 北京理工大学 一种机器鼠与实验鼠运动相似性评价方法
CN108184098A (zh) * 2018-01-16 2018-06-19 珠海市俊凯机械科技有限公司 安全区域的监控方法以及系统
CN108184098B (zh) * 2018-01-16 2021-06-08 智美康民(珠海)健康科技有限公司 安全区域的监控方法以及系统
CN110782495A (zh) * 2018-07-27 2020-02-11 弗劳恩霍夫应用研究促进协会 用于在工作空间中产生和监控安全区域的装置和方法
CN110782495B (zh) * 2018-07-27 2024-03-22 弗劳恩霍夫应用研究促进协会 用于在工作空间中产生和监控安全区域的装置和方法
CN111476827A (zh) * 2019-01-24 2020-07-31 曜科智能科技(上海)有限公司 目标跟踪方法、系统、电子装置及存储介质
CN111476827B (zh) * 2019-01-24 2024-02-02 曜科智能科技(上海)有限公司 目标跟踪方法、系统、电子装置及存储介质
US11386636B2 (en) * 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
CN110611746A (zh) * 2019-09-03 2019-12-24 苏宁云计算有限公司 一种多摄像头同步方法及分布式系统
CN110611746B (zh) * 2019-09-03 2021-06-29 深圳市云网万店电子商务有限公司 一种多摄像头同步方法及分布式系统
CN111277825A (zh) * 2020-01-19 2020-06-12 浙江工业大学 一种基于海思芯片的码流控制方法
CN114120761A (zh) * 2021-11-29 2022-03-01 海南安博教育科技有限公司 实训操作的培训方法、装置、介质和电子设备

Also Published As

Publication number Publication date
DE102014105351A1 (de) 2015-09-24
CN104935879A (zh) 2015-09-23
US20150269427A1 (en) 2015-09-24
DE102014105351B4 (de) 2018-08-09
CN104933730B (zh) 2018-04-20
CN104935879B (zh) 2018-05-22
US9524426B2 (en) 2016-12-20

Similar Documents

Publication Publication Date Title
CN104933730A (zh) 使用半穷举搜索的多视图人检测
US9251598B2 (en) Vision-based multi-camera factory monitoring with dynamic integrity scoring
US20150294143A1 (en) Vision based monitoring system for activity sequency validation
US20150294496A1 (en) Probabilistic person-tracking using multi-view fusion
CN104933436B (zh) 具有动态完整性评分的基于视觉的多摄像头工厂监测
CN104933392A (zh) 使用多视图融合的概率性人追踪
US8253792B2 (en) Vision system for monitoring humans in dynamic environments
Shim et al. An autonomous driving system for unknown environments using a unified map
CN110264495B (zh) 一种目标跟踪方法及装置
CN110602449A (zh) 一种基于视觉的大场景下施工安全智能监控系统方法
WO2008103206A1 (en) Surveillance systems and methods
CN104378582A (zh) 一种基于ptz摄像机巡航的智能视频分析系统及方法
Volkhardt et al. Fallen person detection for mobile robots using 3D depth data
JP2020123336A (ja) 多数の車両によるセンサーフュージョン、v2x通信可能なアプリケーションを利用した協業走行のために周囲に位置するカメラそれぞれに対応するそれぞれの物体検出器によって検出される物体検出情報を統合する方法及び装置
KR20200056068A (ko) Mvs 기반의 무인항공기를 갖춘 객체 추적 시스템
AU2020331567B2 (en) Object moving system
Saputra et al. Casualty detection from 3d point cloud data for autonomous ground mobile rescue robots
CN104112281B (zh) 使用高光谱成像跟踪对象的方法
Morales-Álvarez et al. Automatic analysis of pedestrian’s body language in the interaction with autonomous vehicles
Hata et al. Road geometry classification using ANN
CN113557713A (zh) 情景感知监测
Thupakula Data Fusion Techniques for Object Identification in Airport Environment
JP7360520B1 (ja) オブジェクト追跡統合方法及び統合装置
Halder et al. Anomalous Activity Detection from Ego View Camera of Surveillance Robots
Milella et al. Active surveillance of dynamic environments using a multi-agent system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant