CN107924461A

CN107924461A - 用于多因素图像特征配准和跟踪的方法、电路、设备、系统及相关计算机可执行代码

Info

Publication number: CN107924461A
Application number: CN201680048816.9A
Authority: CN
Inventors: 多尔·吉翁; 约拉姆·埃利沙伊
Original assignee: Gate Warning Co Ltd
Current assignee: Gate Warning Co Ltd
Priority date: 2015-06-26
Filing date: 2016-06-21
Publication date: 2018-04-17
Anticipated expiration: 2036-06-21
Also published as: EP3314528A2; WO2016207786A2; JP2018520595A; US10115203B2; HK1249952A1; US11004210B2; CA2990758C; US20180012366A1; CA2990758A1; JP6471387B2; AU2021202451A1; US20190130581A1; CN110263614A; AU2016284943A1; AU2019201269A1; US9721350B2; JP6622894B2; JP2019075156A; CN107924461B; EP3314528A4

Abstract

公开了用于多因素图像特征配准和跟踪的方法、电路、设备、系统及相关可执行代码，其中，所利用的因素包括视频馈送内的静态参数和动态参数。所评估的因素可以来源于包括视频传感器和音频传感器两者的异构传感器组合。在声学方面获取的场景信息可以补充在光学方面获取的信息。

Description

用于多因素图像特征配准和跟踪的方法、电路、设备、系统及相关计算机可执行代码

发明领域

本发明总体涉及计算机视觉、图像和视频分析以及场景捕获和配准领域。更具体地，一些实施例涉及用于多因素图像特征配准和跟踪的方法、电路、设备、系统及相关可执行代码。

背景

视频内容分析(Video content analysis)(也被称作视频内容分析学(Videocontent analytics)，VCA)是自动分析视频以检测并且确定时间事件和空间事件的能力。正因如此，它可以被看作是生物视觉皮层的自动化等价物。

这一技术能力广泛应用于包括娱乐、医疗保健、零售、汽车、运输、家庭自动化、安全和安保的领域。算法可以在通用机器上作为软件来实现，或者作为专用视频处理单元中的硬件来实现。

在VCA中可以实现许多不同的功能。视频运动检测是其中参考固定的背景场景检测运动的多种较简单形式中的一种形式。较先进的功能包括视频跟踪和自运动估计(egomotion estimation)。

基于VCA在机器中生成的内部表示，可构建其他功能，诸如，识别、行为分析或其他形式的态势感知。

VCA依赖于良好的输入视频，因此它经常与视频增强技术(诸如，视频去噪、图像稳定化、反锐化掩模(unsharp masking)和超分辨率)相结合。

另外，在计算机视觉、图像和视频分析领域以及场景捕获和配准(registration)领域中，仍然存在对可以利用多因素图像特征配准和跟踪(包括视频馈送(video feed)内的静态参数和动态参数两者，并且可选地包括从声学方面获取的场景信息)的技术的需求。

发明概述

本发明包括用于多因素图像特征配准和跟踪的方法、电路、设备、系统及相关可执行代码，其中，所利用的因素包括视频馈送内的静态参数和动态参数。根据一些实施例，所评估的因素可以来源于包括视频传感器和音频传感器两者的异构传感器集合。根据另外的实施例，在声学方面获取的场景信息可以补充在光学方面获取的信息。

根据本发明的实施例，“视频馈送”可以涉及任何实况的或实时的视频流、预先录制的视频馈送、和/或连续的静止图像的任意集合。

根据本发明的一些实施例，用于多因素图像特征配准和跟踪的系统可以包括：(1)相机类型标识模块，用于标识接收到的视频馈送的来源是静态相机还是动态相机；(2)透镜畸变补偿模块，用于数字地校正视频馈送图像畸变；(3)相机位置模块，用于标识相机在场景内的位置和取向；(4)三维(以下称：3D)轨迹跟踪模块，用于将取向向量分配给场景中的动态元素(多个动态元素)和/或分配给场景相机；(5)动态元素分析模块，用于标识和跟踪场景内的动态元素；(6)静态场景特征配准模块，用于基于所跟踪的动态元素(多个动态元素)的运动和/或基于在所跟踪的动态元素(多个动态元素)与场景中的静态元素之间的相互作用来对场景中的静态元素进行配准，和/或用于基于对于场景中图像的配准来构建相对深度场景；和/或(7)行为关联模块，用于使在场景中的动态元素(多个动态元素)的检测到的/测量到的/提取到的运动动态与特征化动作相关联，和/或用于基于它们的运动动态特征数据/轮廓/记录来识别特定的人类个体。

根据一些实施例，该系统还可包括：(8)声场景映射模块，用于利用散射声学回溅进一步映射场景。

附图简述

关于本发明的主题在说明书的结束部分被特别指出并被清楚地要求保护。然而，本发明关于操作的组织和方法以及其目的、特征和优点，在参照附图一起阅读时，通过参考以下详细描述可得到最好的理解，其中：

图1A显示了根据本发明的一些实施例的示例性场景捕获和表征系统的高级图解；

图1B是根据本发明的实施例的由示例性场景捕获和表征系统执行的主要步骤的流程图；

图2A显示了根据本发明的实施例的适于表征视频馈送/视频流并且可选地对视频馈送/视频流进行元标记(meta-tag)的示例性视频馈送或视频流处理引擎的功能框图；

图2B-图2G显示了根据本发明的实施例的举例说明由适于表征视频馈送/视频流并且可选地对视频馈送/视频流进行元标记的示例性视频馈送或视频流处理引擎执行的主要步骤的图示；

图3A是根据本发明实施例的示例性成像路径(透镜或其他元件)畸变补偿方法的主要步骤的流程图；

图3B显示了根据本发明的实施例的示例性畸变补偿方法的示例性效果，包括：原始图像、具有指示区域中的畸变弯曲向量的线的图像、用于补偿的计算出的逆向弯曲向量、以及清洁并且经补偿的图像(clean and compensated image)；

图4是根据本发明的实施例的示例性静态场景元素(即背景)配准方法的主要步骤的流程图，其包括：跟随直线、检查与动态元素的交点、并且根据在不同角度的多个图像迭代地完成3D图；

图5是根据本发明实施例的在场景的视频馈送内进行的示例性动态元素检测和跟踪方法以及对于动态元素所属的实体类型和个体的标识的主要步骤的流程图；

图6是根据本发明的实施例的示例性运动表征方法的主要步骤的流程图，其包括针对动作表选择/挑选实体特定运动；

图7A是根据本发明实施例的示例性声学回溅方法(acoustic splash backmethod)的主要步骤的流程图；

图7B显示了根据本发明的实施例的举例说明作为示例性声学回溅方法的一部分执行的主要步骤的图示，其包括：具有声音输出的场景、具有声音反射的场景、检测到返回、以及以估计出的距离来标记物体的场景；并且

图8是根据本发明的实施例的示例性事件距离检测方法的主要步骤的流程图，包括：听到声脉冲猝发，查看相应的视频，并且计数在观看事件和听到事件之间的偏差的增量。

应当理解，为了说明的简单和清楚，图中所示的元素不一定按比例绘制。例如，为了清楚起见，一些元素的尺寸可能相对于其他元素被放大。此外，在认为适当的情况下，参考数字可在多个图中重复以指示对应的或类似的元素。

详细描述

在以下详细描述中，阐述了许多具体细节以便提供对一些实施例的透彻理解。然而，本领域的普通技术人员将理解的是，可以在没有这些特定细节的情况下实践一些实施例。在其他实例中，公知的方法、程序、组件、单元和/或电路没有详细描述，以便不使本发明模糊。

除非另有特别规定，如从下面的讨论体现的，应认识到，在整个说明书讨论中，利用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”等的术语可指计算机或计算系统或类似的电子计算设备的动作和/或过程，这些设备操作被表示为在计算系统的寄存器和/或存储器内的物理(诸如，电子)量的数据和/或将表示为在计算系统的寄存器和/或存储器内的物理(诸如，电子)量的数据转换成类似地被表示为在计算系统的存储器、寄存器或其它这样的信息储存、传输或显示设备内的物理量的其它数据。

另外，在整个说明书讨论中，使用诸如“储存(storing)”、“托管(hosting)”、“缓存(caching)”、“保存(saving)”等术语可指在计算机或计算系统或类似的电子计算设备上“写入”和“保留”数字信息的动作和/或过程，并且可相互交换使用。整个说明书中术语“多个(plurality)”可以用来描述两个或更多个部件、设备、元素、参数等。

例如，本发明的一些实施例可采取完全硬件实施例、完全软件实施例或包括硬件和软件元素二者的实施例的形式。一些实施例可以以软件实现，该软件包括但不限于固件、常驻软件、微代码等。

此外，本发明的一些实施例可采用可由计算机可用或计算机可读的介质访问的计算机程序产品的形式，该计算机可用或计算机可读的介质提供了由计算机或任何指令执行系统使用或与其结合使用的程序代码。例如，计算机可用或计算机可读的介质可以是或可以包括任何装置，该装置可包含、储存、传送、传播或传输由指令执行系统、装置或设备使用的或与其结合使用的程序。

在一些实施例中，介质可以是电子、磁性、光学、电磁，红外或半导体系统(或装置或设备)或传播介质。计算机可读介质的一些说明性示例可以包括半导体或者固态存储器、磁带、可移动计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、硬磁盘以及光盘。光盘的一些说明性示例包括压缩盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。

在一些实施例中，适于存储和/或执行程序代码的数据处理系统可以包括直接或间接(例如，通过系统总线)耦合到存储器元件的至少一个处理器。存储器元件可以包括例如在程序代码的实际执行期间使用的本地存储器、大容量存储器和可以提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储器检索代码的次数的高速缓冲存储器。

在一些实施例中，输入/输出或I/O设备(包括但不限于键盘、显示器、指向设备等)可直接或通过中间I/O控制器耦合到系统。在一些实施例中，网络适配器可耦合到系统，以使得数据处理系统能够例如通过中间的私有或公共网络耦合到其他数据处理系统或远程打印机或储存设备。在一些实施例中，调制解调器、电缆调制解调器和以太网卡是网络适配器类型的说明性示例。可使用其它合适的部件。

本文中参考一个或更多个实施例所描述的功能、操作、部件和/或特征可与本文中参考一个或更多个其他实施例所描述的一个或更多个其它功能、操作、部件和/或特征相结合，或者可以结合一个或更多个其他实施例所描述的一个或更多个其它功能、操作、部件和/或特征一起使用，反之亦然。

***

本发明包括用于多因素图像特征配准和跟踪的方法、电路、设备、系统和相关联的可执行代码，其中，所利用的因素包括视频馈送内的静态参数和动态参数。根据一些实施例，所评估的因素可以来源于包括视频传感器和音频传感器两者的异构传感器集合。根据另外的实施例，在声学方面获取的场景信息可以补充在光学方面获取的信息。

根据本发明的一些实施例，用于多因素图像特征配准和跟踪的系统可以包括：(1)相机类型标识模块，用于标识接收到的视频馈送的来源是静态相机还是动态相机；(2)透镜畸变补偿模块，用于数字地校正视频馈送图像畸变；(3)相机位置模块，用于标识相机在场景内的位置和取向；(4)三维(以下称：3D)轨迹跟踪模块，用于将取向向量分配给场景中的动态元素(多个动态元素)和/或分配给场景相机；(5)动态元素分析模块，用于标识和跟踪场景内的动态元素；(6)静态场景特征配准模块，用于基于所跟踪的动态元素(多个动态元素)的运动和/或基于在所跟踪的动态元素(多个动态元素)与场景中的静态元素之间的相互作用来对场景中的静态元素进行配准，和/或用于基于对于场景中图像的配准来构建相对深度场景；和/或(7)行为关联模块，用于使在场景中的动态元素(多个动态元素)的检测到的/测量到的/提取到的运动动态与表征的动作相关联，和/或用于基于它们的运动动态特征数据/轮廓/记录来识别特定的人类个体。根据一些实施例，该系统还可包括：(8)声场景映射模块，用于利用散射的声学回溅进一步映射场景。

根据本发明的一些实施例，相机类型标识模块可以：(1)循着视频馈送的两个或更多个帧提取动态图像边缘和静态图像边缘；(2)对循着若干连续的帧重复标识的(“存留”)场景中的静态边缘组进行配准，并且其中静态边缘的相对于彼此的位置在一些时间段/帧内并未改变；和/或(3)如果循着连续的帧，提取的边缘组基本上对齐，则确定相机是静态的，或者如果循着连续的帧，提取的边缘显示基本上不一致的对齐，则确定相机是动态的。

根据本发明的一些实施例，当透镜畸变参数已知时，透镜畸变补偿模块可以：(1)参考相机的透镜的和/或沿着相机的光学通路的其他光学特征(例如，反射镜)的已知的或估计出的畸变轮廓/模型/函数；和/或(2)数字地为每个图像像素或像素组引入反畸变函数/偏移，以补偿畸变。

根据一些实施例，当透镜畸变参数未知时，透镜畸变补偿模块可以使用循着图像的已知背景边缘来计算畸变。在静态相机的情况下，透镜畸变补偿模块可以：(1)使用经过帧的动态元素的变形；和/或(2)标识场景背景的几何形状，并基于图像中的位置(中央/边缘)将它们与期望的几何形状进行比较，以生成估计的畸变轮廓。在动态相机的情况下，透镜畸变补偿模块可以使用场景中的循着相机的3D移动而变形的边缘，以生成估计出的畸变轮廓。

根据本发明的一些实施例，相机位置模块可以通过使已知的背景几何形状的外观和/或取向与“场景的底层”的估计的3D投影和/或其他实况背景平面相关联，来标识相机的位置/取向。根据一些实施例，对于动态对象和/或元素，相机位置模块可以通过根据在视频馈送的多个帧内的位移(例如，在给定方向上的移动)比较外观(例如，尺寸和位置)的变化来计算和跟踪动态对象/元素的轨迹。

根据一些实施例，对于静态相机，可以根据直背景场景边缘来对假定的场景底层进行配准，并且与计算出的动态对象/元素的移动轨迹对齐。根据一些实施例，对于静态相机，基于场景中图像的配准来构建相对深度场景或相对相机视场(FOV)3D场景模型，可以包括：(1)根据直背景场景边缘来对场景底层和/或其他场景平面进行配准；(2)使具有已知几何形状和/或取向的对象的外观与已知几何形状的2维(2D)投影(多个投影)相关联；(3)可以根据其位移的函数(例如，在底层上方的给定方向上的移动/移位)，将FOV帧中的相对尺寸与已知几何形状对象、场景中的动态元素/对象/实体进行比较；和/或(4)针对在随后的帧中的至少一些帧，重复1-3和/或可以与先前的帧(多个帧)的结果进行比较并且相应地进行调整(例如，使得平均)。

根据一些实施例，对于动态的/移动的相机，相机位置模块可以计算在X、Y和Z中找到的场景背景中的直边的2D投影(多个投影)，以找到底层的3D取向。根据一些实施例，对于动态的/移动的相机，基于场景中图像的配准来构建相对深度场景或相对相机视场(FOV)3D场景模型，可以包括：(1)根据直背景场景边缘来对场景底层和/或其他场景平面进行配准；(2)使具有已知几何形状和/或取向的对象的外观与已知几何形状的2D投影(多个投影)相关联；(3)可以根据其位移(例如，在底层上方的给定方向上的移动/移位)，将FOV帧中的相对尺寸与已知几何形状对象、场景中的动态元素/对象/实体进行比较；和/或(4)针对在随后的帧中的至少一些帧，重复1-3，同时在多个随后的/连续的视频馈送帧之间进行三角测量，以用于进一步估计/确定静态/背景场景元素/特征的和/或其部分的位置(基于其先前的帧(多个帧)的位置以及动态相机的当前已知的定位和/或取向)和/或可以与先前的帧(多个帧)的结果进行比较并且相应地进行调整(例如，使得平均)。

根据一些实施例，可以针对包括特定数量的连续帧的每个帧集合中的单个帧，计算场景背景3D边缘变换。针对包括较少数量的帧的集合(例如，每个第5帧而不是每个第10帧)的或者针对每个单个帧计算场景背景3D边缘变换可被用来改善变换的结果。

根据本发明的一些实施例，3D轨迹跟踪模块可以利用视频馈送中的动态元素的3D轨迹跟踪来向它们分配取向向量。根据一些实施例，分配的取向向量可以作为对动态元素的标识的一部分而辅助对动态元素的后续分析。将给定的动态元素的位置与3D场景对齐可以提供动态元素在每个帧中的3D位置和移动方向。

根据一些实施例，基于动态元素的移动/前进的方向，动态元素的某些部分和/或其“拥有的”实体(例如，人、狗)可被预期在帧中显示(例如，面对相机)，并且因此可以改进对动态元素和/或其“拥有的”实体的跟踪和标识(例如，如果期望人类实体的面部，则可以相应地触发/运行面部检测识别算法/系统；和/或可以相应地改变其常规操作、或者其他人类分析/识别算法/功能的操作)。

根据本发明的一些实施例，动态元素分析模块可以：(1)检测可能与场景中被标识的背景边缘不相关的动态边缘；(2)组动态边缘向量(例如，一起移动的边缘向量)；(3)测量(链接的)动态边缘向量组中的边缘向量之间的相对运动动态；(4)按照单元和/或按照链路，将(链接的)动态边缘向量组中的动态边缘向量运动动态与动态元素参考表进行比较；(5)标识(链接的)动态边缘向量组的动态元素(例如，人的手臂、人腿、狗腿)；(6)根据实体参考表(例如，人、狗、汽车、马)标识动态元素所属的实体，和/或如果实体被标识为人类或其他可识别实体类型，则根据个体参考表识别动态元素所属的特定个体/样本；(7)标识实体/个体在视频馈送帧内的取向；和/或(8)基于被标识的实体的被标识的取向来生成跟踪优化参数。

根据本发明的一些实施例，作为表征静态场景元素的参数的一部分，静态场景特征配准模块可以：(1)跟踪场景中的动态元素(多个动态元素)的运动；(2)标识与场景中被跟踪的动态元素中的每个动态元素的运动相关联的重现的几何形状/形式/路径；以及(3)推断场景中的静态元素的大体的形状和位置。根据一些实施例，静态元素的推断出的形状和位置可以被配准到静态场景的3D建模和/或被配准作为动态场景图的一部分。

根据一些实施例，作为标识静态场景元素的边界的一部分，静态场景特征配准模块可以：(1)跟踪场景中的动态元素(多个动态元素)的运动；(2)标识场景中被跟踪的动态元素与静态元素(例如，具有作为表征静态场景元素的参数的一部分而被推断的已知形状/位置的静态元素)的重现的相互作用和/或交叉；以及(3)推断场景中静态元素的边界/边沿。根据一些实施例，静态元素的推断的边界/边沿可以被配准到静态场景的3D建模和/或被配准作为动态场景图的一部分。

根据一些实施例，作为估计静态场景元素的尺寸的一部分，静态场景特征配准模块可以：(1)跟踪场景中的动态元素(多个动态元素)的运动；(2)标识被跟踪的动态元素相对于静态元素(例如，具有作为表征静态场景元素参数和/或标识静态场景元素的边界的一部分而被推断出的已知形状/位置/边界的静态元素)的相对位置；和(3)相对于被跟踪的动态元素的尺寸/大小，推断场景中的静态元素的尺寸/大小。根据一些实施例，场景中的一个或更多个动态元素中的一个或更多个已知的/计算出的/估计的实际尺寸(例如，基于动态元素所属的动态实体的个体标识推导出的(如下文进一步描述的))可用于至少部分地基于推断出的尺寸/大小比来计算/估计场景中的静态元素的尺寸(反之亦然)(已知的静态元素尺寸用于找到动态元素的大小)。根据一些实施例，推断出的静态元素的尺寸/大小可以被配准到静态场景的3D建模和/或被配准作为动态场景图的一部分。

根据一些实施例，在场景中跟踪的动态元素与静态元素的相互作用和/或交叉可以包括：任何类型的可见的/可标识的接触或出现的接触、多个可见的接触或出现的接触、和/或延迟的或延长的接触或出现的接触(在场景中的动态元素(多个动态元素)与可疑的静态元素之间)。

例如：沿同一直线的动态元素的边缘的和/或其一部分的边缘的两个以上的静态暂停/休止可以指示静态元素的边缘或边界；动态元素的边缘的和/或其一部分的边缘的在同一平面上的三个以上的静态暂停/休止可以指示静态元素的表面边界；动态元素的边缘的和/或其一部分的边缘的在同一平面上的多个静态暂停/休止可以采用动态元素“接触”点对静态元素(例如，场景中的对象)的平面进行“着色”，从而定义其形状(例如，覆盖有接触点的区域)和边缘(例如，在接触点覆盖区域与相关平面的其余部分之间的边界)。

根据一些实施例，静态场景特征配准模块可以参考“已知几何形状对象”表或数据库，并且检索可能与表征在场景中的部分被标识(例如，用于实现参考)的静态元素的参数、标识在场景中的部分被标识(例如，用于实现参考)的静态元素的边界和/或估计在场景中的部分被标识(例如，用于实现参考)的静态元素的尺寸相关的几何数据。

根据本发明的一些实施例，作为识别被标识的实体类型的一部分，行为关联模块，可以：(1)基于所跟踪的元素(多个元素)的实体类型/个体运动动态以及其生物特征(例如，大小、尺寸)的联合，建立在动态元素中的至少一些动态元素的轮廓；和/或(2)将所跟踪的动态边缘向量运动动态的轮廓及其生物特征与在系统数据库中预定义的个体参考表(其他轮廓)进行比较，或者分配新的标识参考表(新的轮廓)。

根据一些实施例，作为识别特定行为的一部分并且基于被标识的实体类型(例如，狗、人)，行为关联模块可以：(1)选择表格，以使测量出的运动动态与表征动作(例如，人行走、人倒下、狗跳跃)相关联；以及(2)使所跟踪的动态元素的测量出的运动动态与在所选的表中的条目相关联，使测量出的运动动态与被标识的实体的表征动作相关联。

根据本发明的一些实施例，作为主动地映射/勾勒静态场景并将3D深度值分配给场景内的静态元素的一部分，声场景映射模块，可以使用由相机的扬声器生成的并且由相机的麦克风捕获的声学回溅，以分配在所获取的场景中的散射元素的估计距离和尺寸，同时将真实世界深度值分配给场景的相应3D图。根据一些实施例，基于声学回溅的场景元素(多个场景元素)与相机的距离可以被分配给视频馈送的场景图像内可见的元素。

根据一些实施例，对于特定的相机，声场景映射过程可能需要作为预校准阶段的、在扬声器和麦克风过程之间的声道探测。根据一些实施例，立体声扬声器的使用可以用作实现对于场景中元素的基本精确定位的三角测量装置。

根据一些实施例，穿过场景的动态对象/元素/实体可以触发场景的重新映射，其中，静态场景深度图从重新映射的场景中被减去，以提取分配给在图像平面上的动态对象的动态对象/元素/实体深度值。

根据一些实施例，作为被动事件检测过程的一部分，声场景映射模块可以：(1)监测用于指示事件的声脉冲猝发的场景的音频；(2)分析相应的视频馈送部分，以用于对事件源的视觉指示；和/或(3)计算在视觉事件指示和其声学麦克风拾取实例之间的时间差，该时间差指示声脉冲猝发从场景内的事件的位置到相机的麦克风所行进的距离。

根据本发明的一些实施例，已知的3D场景特征连同循着视频馈送的连续的帧采样的图像处理数据集(例如，颜色、纹理、已知形状、标志、已知场景)可以被利用来估计场景环境，并且可以用于根据视频馈送来优化系统的环境和特征提取能力。例如，基于静态数据集和动态数据集的互相关，可以估计出场景环境。这种示例性互相关可以包括但不限于：移动水+沙子＝沙滩；绿草+树木＝公园；自由女神像＝纽约市；等等。

在图1A中显示了根据本发明的一些实施例的示例性场景捕获和表征系统的高级图解。基于对于透镜畸变轮廓(例如，畸变矩阵)的参考和/或对于经过多个视频馈送图像/帧已畸变的已知几何形状对象的标识，对场景的摄像机视频馈送补偿了透镜畸变和光学设备畸变。视频馈送被分析，以用于对动态元素的标识和跟踪。被标识的动态元素是基于对于已知的动态元素、实体、个体和运动的参考来表征的。对于动态元素的标识是基于对于静态场景特征(可能是已知对象几何形状)的配准来补充的，以基于在动态元素与已配准的静态对象之间的场景中的相互作用来辅助对于动态元素的跟踪。所补偿的数据、分析数据和补充的“静态”数据被用于构建动态场景图。

在图1B中显示了根据本发明的实施例的由示例性场景捕获和表征系统执行的主要步骤的流程图。

在图2A中显示了根据本发明的实施例的适于表征视频馈送/视频流并且可选地对视频馈送/视频流进行元标记(meta-tag)的示例性视频馈送或视频流处理引擎的功能框图。由处理引擎接收实况的或预先录制的视频馈送/视频流。动态边缘检测器标识并且跟踪视频馈送中的动态边缘。边缘向量分组逻辑对被标识的边缘向量进行分组。向量组取向和轨迹标识器找到场景中的边缘向量组的轨迹和取向。内部向量组相对动态分析器提取边缘向量组的动态数据。动态元素比较和标识逻辑参考用于找到在场景中被标识的动态元素的类型的动态元素参考表。动态元素实体标识逻辑参考用于找到在场景中被标识的动态实体的类型的动态实体参考表。动态元素独特个体标识逻辑参考用于找到在场景中被标识的相似实体的个体细节的独特个体参考表。经标识的实体视觉特征分配逻辑在视觉方面对场景中的动态实体进行标记，以改进跟踪。并且，被标识的实体动态动作表征逻辑参考用于找到场景中执行的动态动作的类型的运动动作关联表。

在图2B-图2G中显示了根据本发明的实施例的举例说明由适于表征视频馈送/视频流并且可选地对视频馈送/视频流进行元标记的示例性视频馈送或视频流处理引擎执行的主要步骤的图示。所示的示例步骤包括：静态/动态相机类型决定过程(2B)；透镜畸变补偿过程(2C)；将相机定位在场景内的过程(2D)；动态实体3D取向和轨迹向量估计过程(2E)；动态元素标识和跟踪过程(2F)；以及动态实体识别和行为分析过程(2G)。

在图3A中显示了根据本发明实施例的示例性成像路径(透镜或其他元件)畸变补偿方法的主要步骤的流程图。

在图3B中显示了示例性畸变补偿方法的效果，包括对下列各项的示意性图解：原始图像；具有指示在不同区域中的畸变弯曲向量的线的图像；计算出的用于补偿畸变的逆向弯曲向量的集合；以及干净的并且经补偿的图像(clean and compensated image)。

在图4中显示了根据本发明的实施例的示例性静态场景元素(即背景)配准方法的主要步骤的流程图，其包括：跟随直线，检查与动态元素的交点，并且根据在不同角度的多个图像迭代地完成3D图。

在图5中显示了根据本发明实施例的在场景的视频馈送内进行的示例性动态元素检测和跟踪方法以及对于动态元素所属的实体类型和个体的标识的主要步骤的流程图。

在图6中显示了根据本发明的实施例的示例性运动表征方法的主要步骤的流程图，其包括选择/挑选实体特定运动动作表。

在图7A中显示了根据本发明实施例的示例性声学回溅方法的主要步骤的流程图。

在图7B中显示了举例说明作为示例性声学回溅方法的一部分执行的主要步骤的图示，包括：具有声音输出的场景；具有声音反射的场景；检测到返回；以及以估计出的距离来标记物体的场景。

在图8中显示了根据本发明的实施例的示例性事件距离检测方法的主要步骤的流程图，包括：听到声脉冲猝发；查看相应的视频；馈送；并且计数在观看事件和听到事件之间的偏差的增量。

根据本发明的一些实施例，一种对在视频流的图像帧内一个或更多个特征进行配准的方法可以包括：对连续的一系列图像帧中的基本上每一项执行边缘检测算法，以检测经过连续的一系列图像帧的一个或更多个动态边缘；跟踪并且用参数表示经过连续的一系列图像帧的检测到的动态边缘的移动，以生成运动动态参数集合；以及使运动动态参数与主体类型相关联，并且用主体类型来指定与这一个或更多个动态边缘相邻的像素组。

根据本发明的一些实施例，该方法还可以包括：访问主体类型特定运动数据存储器，并使运动动态参数与数据存储器的记录相关联，其中，该记录指示特定运动类型；访问个体识别特定个体数据存储器，并使运动动态参数与数据存储器的记录相关联，其中，该记录指示特定的个体；标识在视频流图像帧中的背景元素；数字地校正由获取视频馈送的成像设备的移动导致的光学畸变；数字地校正由具有已知透镜畸变的成像设备透镜导致的光学畸变；数字地校正具有未知透镜畸变的成像设备透镜导致的光学畸变；执行边缘检测算法，以检测经过连续的一系列图像帧的静态元素的一个或更多个静态边缘；以及当视频馈送源是静态摄像机时，使用在静态元素中的特定静态元素来指定与静态边缘中的一个或更多个静态边缘相邻的静态像素组；和/或执行边缘检测算法来检测经过连续的一系列图像帧的静态元素的一个或更多个静态边缘，并且当视频馈送源是动态摄像机时，使用在静态元素中的特定静态元素来指定与静态边缘中的一个或更多个静态边缘相邻的配准的静态像素组。

根据本发明的一些实施例，估计实况视频馈送的图像帧内的一个或更多个特征的距离的方法可以包括：标识在图像帧内的两个或更多个对象；估计被标识的对象的相对距离顺序；从在视频馈送处的或在视频馈送附近的源发出声脉冲猝发；检测声学回波图案，并且基于声学飞行时间的时间，估计每个图案的距离；以及使至少一个声学回波图案所估计出的距离与在图像帧内被标识的对象关联。

根据本发明的一些实施例，估计音频-视频馈送的图像帧内的一个或更多个特征的距离的方法可以包括：检测在音频-视频馈送的音频信道上开始的声脉冲猝发，其中，声脉冲猝发的上升沿与音频-视频馈送的第一时间戳相关联；在音频-视频馈送内标识在第一时间戳之前获取的包括作为声脉冲猝发源头的对象-动作的视频帧，其中，“对象-动作”是与具有在声学方面的和视觉上的特征的一个或更多个特定场景对象相关联的动作；计算在获取具有对象-动作的帧与第一时间戳之间的时间间隔；以及通过将估计出的声速乘以计算出的时间间隔来估计对象-动作距离音频-视频馈送的源设备的物理距离。

根据本发明的一些实施例，用于配准在视频流的图像帧内的一个或更多个特征的系统可以包括：动态边缘检测器，以用于对连续的一系列图像帧中的基本上每一个图像帧执行边缘检测算法，以检测经过连续的一系列图像帧的一个或更多个动态边缘；动态边缘向量动态分析器，以用于跟踪并且用参数表示经过连续的一系列图像帧的检测到的动态边缘的移动，以生成一组运动动态参数；动态实体标识逻辑，以用于使运动动态参数与主体类型相关联；以及动态实体特征分配逻辑，以用于用主体类型来指定与该一个或更多个动态边缘相邻的像素组。

根据本发明的一些实施例，该系统还可以包括：动态动作表征逻辑，以用于访问主体类型特定运动数据存储器，并使运动动态参数与数据存储器的记录相关联，其中，该记录指示特定运动类型；个体识别特定个体逻辑，以用于访问个体识别特定个体数据存储器，并使运动动态参数与数据存储器的记录相关联，其中，该记录指示特定的个体；静态特征配准模块，以用于标识在视频流图像帧中的背景元素；相机类型和透镜畸变补偿模块，以用于数字地校正由获取视频馈送的成像设备的移动导致的光学畸变；相机类型和透镜畸变补偿模块，以用于数字地校正由具有已知透镜畸变的成像设备透镜导致的光学畸变；相机类型和透镜畸变补偿模块，以用于数字地校正由具有未知透镜畸变的成像设备透镜导致的光学畸变；静态边缘检测器，以用于对在连续的一系列图像帧中的基本上每个图像帧执行边缘检测算法，以检测经过连续的一系列图像帧的一个或更多个静态边缘；以及静态元素特征分配逻辑，以用于当视频馈送源是静态摄像机时，使用在静态元素中的特定静态元素来指定与静态边缘中的一个或更多个静态边缘相邻的静态像素组；和/或静态边缘检测器，以用于对连续的一系列图像帧中的基本上每一个图像帧执行边缘检测算法，以检测经过连续的一系列图像帧的一个或更多个静态边缘，以及静态元素特征分配逻辑，以用于当视频馈送源是动态摄像机时，使用在静态元素中的特定静态元素来指定与静态边缘中的一个或更多个静态边缘相邻的配准的静态像素组。

根据本发明的一些实施例，视频馈送处理系统可以包括：接口电路，以用于接收一个或更多个二维(“2D”)视频馈送；以及处理电路，其执行指令以：跟踪并且表征在场景视频馈送内存在的移动的元素；标识并且表征在场景视频馈送内存在的静态元素或对象；定义在场景视频馈送的边界内的场景的三维(“3D”)坐标集，其中，定义三维(“3D”)坐标集包括：标识指示场景的X轴、Y轴或Z轴的一个或更多个基本上直边缘，并且相对于被标识的直边缘映射被标识的并且表征的静态元素或对象的位置；导出在场景视频馈送坐标系内的视频馈送源的坐标和取向；利用与被标识的静态元素相关的表征信息来更新场景元素库，其中，响应于新导出的表征信息或者响应于现有表征信息的细化而执行更新；在所跟踪的并且表征的移动元素内，检测在场景视频馈送中的一个或更多个人类；和/或表征和记录与检测到的人相关联的事件。

根据一些实施例，用于静态元素的静态元素表征信息可以包括下列各项中的一项或更多项：(a)估计出的元素的尺寸；(b)元素类别；(c)估计出的在静态元素上的一个或更多个点的坐标；(d)与在场景中的其他元素的关系；和/或(e)场景存在参数。根据一些实施例，可以至少部分地从检测到在给定的静态元素和跟踪的移动元素之间的相互作用中导出对于给定的静态元素的表征。根据一些实施例，可以至少部分地从检测到在表面和跟踪的移动元素之间的相互作用中导出场景边界坐标。根据一些实施例，对于被检测为人类的移动元素的表征可以包括下列各项中的一项或更多项：(a)人类类别；(b)人类的被识别的标识；(c)人类的组合隶属或成员资格；和(d)人类与在场景中被识别的其他人类的关系。

根据一些实施例，处理电路还可以适于：从所跟踪的并且表征的移动元素中，检测在场景视频馈送中的一个或更多个非人类实体，并且其中非人类实体可以从由下列各项组成的组合中选出：动物、机械移动设备、受其环境影响的静态对象或植物、阴影、以及显示或投影的图像；并且表征和记录与检测到的非人类实体相关联的事件。

根据一些实施例，该系统还可以包括视频馈送源附近的回波测距组件，并且可以包括一个或更多个声发射器和一个或更多个声检测器。根据一些实施例，回波测距组件可以包括至少具有下列项的组合：在发射器中的一个发射器和在检测器中的两个检测器，或者在检测器中的一个检测器和在发射器中的两个发射器，其可以由处理电路利用以执行立体声三角测量，并且导出关于由在声检测器中的至少一个声检测器检测到的声学回闪的源的方向信息。根据一些实施例，声发射器和/或声检测器可以是多方向的，并且处理电路可以使与检测到的回波集合中的每一个回波的往返时间相关联的距离与在视觉上被标识的静态元素集合中的每一个静态元素关联或者与所跟踪的移动对象集合中的每一个移动对象关联。根据一些实施例，处理电路可以在关于场景没有检测到移动对象时生成参考回波映射。根据一些实施例，处理电路可以当在场景内检测到一个或更多个移动对象时生成参考回波映射。根据一些实施例，导出视频馈送源坐标和取向可以包括：将视频馈送内的给定的标识的静态元素的外观与对应于被标识的对象的参考数据进行比较。

根据本发明的一些实施例，在上述用于视频流的图像帧内的一个或更多个特征进行配准的系统中的一些或全部实施例和/或特征可包括：适于从今天已知的(或将来将要设计的)任何3D相机类型接收作为一个或更多个三维(“3D”)视频馈送的视频馈送的接口电路。

***

虽然在本文示出并描述了本发明的某些特征，本领域中的技术人员现在将想到很多修改、替换、改变和等效形式。因此，应当理解，所附权利请求旨在覆盖落入本发明的实质精神内的所有这样的修改和改变。

Claims

1.一种视频馈送处理系统，包括：

接口电路，所述接口电路接收一个或更多个二维(“2D”)视频馈送；以及

处理电路，所述处理电路执行指令以：

跟踪并且表征在所述场景视频馈送内存在的移动元素；

标识并且表征在所述场景视频馈送内存在的静态元素或对象；

定义在所述场景视频馈送的边界内的所述场景的三维(“3D”)坐标集，其中，定义三维(“3D”)坐标集包括：标识指示所述场景的X轴、Y轴或Z轴的一个或更多个基本上直边缘，并且相对于被标识的直边缘，映射被标识的并且表征的静态元素或对象的位置；

导出在所述场景视频馈送坐标系内的视频馈送源的坐标和取向；

利用与被标识的静态元素相关的表征信息来更新场景元素库，其中，响应于新导出的表征信息或者响应于现有表征信息的细化而执行更新；

从所跟踪的并且表征的移动元素中，检测在所述场景视频馈送中的一个或更多个人类；以及

表征和记录与检测到的人类相关联的事件。

2.根据权利要求1所述的系统，其中，用于静态元素的静态元素表征信息包括下列各项中的一项或更多项：(a)估计出的元素的尺寸；(b)元素类别；(c)估计出的在所述静态元素上的一个或更多个点的坐标；(d)与在所述场景中的其他元素的关系；和(e)场景存在参数。

3.根据权利要求1所述的系统，其中，对于给定的静态元素的表征至少部分地导出自检测到的在所述给定的静态元素和跟踪的移动元素之间的相互作用。

4.根据权利要求1所述的系统，其中，场景边界坐标至少部分地导出自检测到的在表面和跟踪的移动元素之间的相互作用。

5.根据权利要求1所述的系统，其中，对于被检测为人类的移动元素的表征包括下列各项中的一项或更多项：(a)人类类别；(b)人类的被识别的标识；(c)人类的组隶属或成员资格；和(d)人类与在场景中被标识的其他人类的关系。

6.根据权利要求1所述的系统，其中，所述处理电路还适于：

从所跟踪的并且表征的移动元素中，检测在所述场景视频馈送中的一个或更多个非人类实体，并且其中非人类实体是从包括下列各项的组中选出的：动物、机械移动设备、受其环境影响的静态对象或植物、阴影、以及显示或投影的图像；并且

表征和记录与检测到的非人类实体相关联的事件。

7.根据权利要求1所述的系统，还包括在所述视频馈送源附近的回波测距组件，并且包括一个或更多个声发射器和一个或更多个声检测器。

8.根据权利要求7所述的系统，其中，所述回波测距组件包括至少以下项的组合：在所述发射器中的一个发射器和在所述检测器中的两个检测器，或者在所述检测器中的一个检测器和在所述发射器中的两个发射器，由所述处理电路利用以执行立体声三角测量，并且导出关于由在所述声检测器中的至少一个声检测器检测到的声学回闪的源的方向信息。

9.根据权利要求7所述的系统，其中，所述声发射器和或所述声检测器是多方向的，并且所述处理电路使与检测到的回波集合中的每一个回波的往返时间相关联的距离与在视觉上被标识的静态元素集合中的每一个静态元素关联或者与所跟踪的移动对象集合中的每一个移动对象关联。

10.根据权利要求7所述的系统，其中，所述处理电路在关于所述场景没有检测到移动对象时生成参考回波映射。

11.根据权利要求7所述的系统，其中，所述处理电路在所述场景内检测到一个或更多个移动对象时生成参考回波映射。

12.根据权利要求1所述的系统，其中，导出视频馈送源坐标和取向包括：将所述视频馈送内的给定的被标识的静态元素的外观与对应于被标识的对象的参考数据进行比较。

13.一种对在视频流的图像帧内的一个或更多个特征进行配准的方法，所述方法包括：

对连续的一系列图像帧中的基本上每一个图像帧执行边缘检测算法，以检测跨所述连续的一系列图像帧的一个或更多个动态边缘；

跟踪并且用参数表示检测到的跨所述连续的一系列图像帧的动态边缘的移动，以生成运动动态参数集合；以及

使所述运动动态参数与主体类型相关联，并且给与所述一个或更多个动态边缘相邻的像素组指定所述主体类型。

14.根据权利要求13所述的方法，还包括：

访问主体类型特定运动数据存储器；以及

使所述运动动态参数与所述数据存储器的记录相关联，其中，所述记录指示特定运动类型。

15.根据权利要求13所述的方法，还包括：

访问个体识别特定个体数据存储器；以及

使所述运动动态参数与所述数据存储器的记录相关联，其中，所述记录指示特定个体。

16.根据权利要求13所述的方法，还包括：标识在所述视频流图像帧中的背景元素。

17.根据权利要求13所述的方法，还包括：数字地校正由获取所述视频馈送的成像设备的移动导致的光学畸变。

18.根据权利要求13所述的方法，还包括：数字地校正由具有已知透镜畸变的成像设备透镜导致的光学畸变。

19.根据权利要求13所述的方法，还包括：数字地校正由具有未知透镜畸变的成像设备透镜导致的光学畸变。

20.根据权利要求13所述的方法，还包括：

执行边缘检测算法，以检测跨所述连续的一系列图像帧的静态元素的一个或更多个静态边缘；以及

当所述视频馈送源是动态摄像机时，使用在所述静态元素中的特定静态元素来指定与所述静态边缘中的一个或更多个静态边缘相邻的被配准的静态像素组。

21.一种估计在实况视频馈送的图像帧内的一个或更多个特征的距离的方法，所述方法包括：

标识在所述图像帧内的一个或更多个对象；

估计被标识的对象的相对距离顺序；

从在所述视频馈送处的或在所述视频馈送附近的源发出声脉冲猝发；

检测声学回波图案，并且基于声学飞行时间的时间，估计每个图案的距离；以及

使至少一个声学回波图案所估计出的距离与在所述图像帧内被标识的对象关联。

22.一种估计在音频-视频馈送的图像帧内的一个或更多个特征的距离的方法，所述方法包括：

检测在音频-视频馈送的音频信道上开始的声脉冲猝发，其中，所述声脉冲猝发的上升沿与所述音频-视频馈送的第一时间戳相关联；

在所述音频-视频馈送内标识在所述第一时间戳之前获取的包括作为所述声脉冲猝发的源的对象-动作的视频帧；

计算在获取具有所述对象-动作的帧与所述第一时间戳之间的时间间隔；以及

通过将估计的声速乘以计算出的时间间隔来估计所述对象-动作距所述音频-视频馈送的源设备的物理距离。

23.根据权利要求1所述的系统，其中，所述接口电路适于接收一个或更多个三维(“3D”)视频馈送。