CN111566661B

CN111566661B - 用于视觉活动分类的系统、方法、计算机可读介质

Info

Publication number: CN111566661B
Application number: CN201980006835.9A
Authority: CN
Inventors: D·科斯拉; R·M·乌伦布罗克; 陈洋; 苏华鹏
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2018-01-30
Filing date: 2019-01-14
Publication date: 2023-11-17
Anticipated expiration: 2039-01-14
Also published as: WO2019152177A2; CN111566661A; EP3746938A2; EP3746938A4; WO2019152177A3

Abstract

用于视觉活动分类的系统、方法、计算机可读介质。描述了用于视觉活动识别的系统。在工作中，系统检测视频数据中的关注对象(OI)的集合并确定OI集合中的各个对象的对象分类，该集合包括至少一个OI。通过跨多个帧跟踪OI集合中的各个对象，形成各个对象的对应的活动轨迹。使用特征提取器，系统针对各个OI确定视频数据中的对应特征，然后将其用于确定各个OI的对应的初始活动分类。然后，通过中心凹来检测各个活动轨迹中的一个或更多个OI，然后将初始对象检测和中心凹对象检测附加到新的检测对象列表中。最后，使用新的检测对象列表针对各个活动轨迹提供最终分类，并使用上下文逻辑对初始活动分类的结果进行过滤。

Description

用于视觉活动分类的系统、方法、计算机可读介质

政府权利

本发明是在美国政府合同号N00014-15-C-0091的政府支持下完成的。政府拥有本发明的某些权利。

相关申请的交叉引用

本申请是2018年4月6日提交的美国专利申请No.15/947,032的部分继续申请，该申请是2018年1月30日提交的美国专利申请No.15/883,822的部分继续申请，该申请是2017年3月30日提交的美国临时申请No.62/479,204的非临时申请，这些申请的全部内容通过引用合并于此。

美国专利申请No.15/947,032也要求2017年6月7日提交的美国临时申请No.62/516,217的权益，并且是该临时申请的非临时专利申请，该临时申请的全部内容通过引用合并于此。

本申请还要求2018年3月14日提交的美国临时申请No.62/642,959的权益，并且是该临时申请的非临时专利申请，该临时申请的全部内容通过引用合并于此。

技术领域

本发明涉及基于视频的活动识别系统，更具体地，涉及基于中心凹(foveated)检测和上下文过滤的视觉活动分类的系统。

背景技术

活动识别通常是自动识别视频中观察到的人或对象的活动的处理。若干研究人员已尝试设计出视频中活动识别的多种方法，包括使用深度学习(例如，参见并入参考文献列表，参考文献No.1至No.4)。这些方法的主要局限性在于它们仅解决活动分类问题：它们假定输入是活动视频片段，该活动视频片段正好以关注的活动为中心并且仅包含关注的活动。这些现有技术不适用于场景可能包含多个对象、杂波(clutter)并且实际的关注活动在空间和时间上都占该视频的较小区域的情报、监视以及侦察(ISR)类型的应用。在这类问题中，在可以执行活动分类之前，首先需要对关注对象进行检测/分类和跟踪。另外，安装摄像头的平台可以是空中或地面的，并且可以是静止或移动的。不存在适用于所有此类平台和场景的系统。

因此，一直需要一种对从静止或移动平台获取的流传输或记录视频中的活动进行检测和分类并用于多种应用的系统。

发明内容

本公开提供了一种用于视觉活动分类的系统。在各种实施方式中，所述系统包括：一个或更多个处理器以及存储器。所述存储器是编码有可执行指令的非暂时性计算机可读介质，使得当执行所述指令时，所述一个或更多个处理器执行若干操作，例如，检测视频数据中的关注对象的集合并且确定关注对象的集合中的各个对象的对象分类，所述集合包括至少一个关注对象；通过跨多个帧跟踪关注对象的集合中的各个对象，形成各个对象的对应活动轨迹；针对各个关注对象并且使用特征提取器，通过基于对应活动轨迹执行特征提取来确定所述视频数据中的对应特征，所述特征提取器包括卷积神经网络；针对各个关注对象，基于所述特征提取器的输出，确定各个关注对象的对应初始活动分类；通过中心凹来检测各个活动轨迹中的一个或更多个关注对象；将初始对象检测和中心凹对象检测附加到新的检测对象列表中；以及使用所述新的检测对象列表对各个活动轨迹的最终活动进行分类，并使用上下文逻辑对所述初始活动分类的结果进行过滤。

在另一方面，所述系统执行基于所述最终活动分类对设备进行控制的操作。

在又一方面，对设备进行控制包括：使移动平台(例如，车辆、无人机等)基于所述最终活动分类来执行物理操纵。

在另一方面，对所述设备进行控制包括：使用机器来发送有关所述最终活动分类的视觉警告、音频警告或电子警告中的至少一种。

在另一方面，所述特征提取器还包括递归神经网络，并且所述一个或更多个处理器还执行以下操作：针对各个关注对象并且使用所述递归神经网络，基于所述对应活动轨迹和所述对应特征中的至少一者来提取对应的时间序列特征。

在又一方面，所述卷积神经网络包括至少五个卷积-纠正-池化层。

在另一方面，关注对象的集合包括多个关注对象，并且所述卷积神经网络、所述递归神经网络以及所述活动分类器针对多个对应的活动轨迹并行地工作。

最后，本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令，该计算机可读指令可通过具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的动作。

附图说明

根据下面结合参照附图对本发明各个方面的详细描述，本发明的目的、特征以及优点将变清楚，其中：

图1是描绘根据本发明的各种实施方式的系统的组件的框图；

图2是具体实施本发明一个方面的计算机程序产品的例示图；

图3是根据本发明的各个实施方式的来自静止或移动平台的流传输的或记录的视频中的实时活动识别的框图的例示图；

图4是描绘与初始活动分类相关联的模块的例示图；

图5是描绘针对从空中无人机获得的图像数据创建的示例注释(“进入车辆”和“离开车辆”)的例示图；

图6是描绘停机坪无人机数据集上所有活动的结果的表格；

图7是描绘停机坪无人机数据集上的各个类活动结果的表格；

图8是描绘使用根据本发明的各种实施方式的方法的典型的识别出的活动和检测到的实体的示例图像；

图9A是进/出汽车的活动的示例接收器工作特性曲线(ROC)；

图9B是打开/关闭后备箱的活动的示例接收器工作特性曲线(ROC)；以及

图10是描绘根据各种实施方式的设备的控制的框图。

具体实施方式

本发明涉及基于视频的活动识别系统，更具体地，涉及基于中心凹检测和上下文过滤的视觉活动识别的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的背景中。对于本领域技术人员来说显然可以有各种改动以及不同应用方面的多种用途，并且本文限定的一般原理可以被应用于广泛的方面。因此，本发明不旨在限于所呈现的方面，而是涵盖与本文所公开原理和新颖特征相一致的最广范围。

在下面的详细描述中，阐述了许多具体细节，以便提供对本发明的更透彻理解。然而，本领域技术人员应当明白，本发明可以在不必受限于这些具体细节的情况下来实践。在其它情况下，公知结构和装置按框图形式而不是按细节示出，以免妨碍对本发明的理解。

也请读者留意与本说明书同时提交的所有文件和文档，这些文件和文档与本说明书一起开放以供公众查阅，所有这些文件和文档的内容通过引用并入于此。本说明书中公开的所有特征(包括任何所附权利要求、摘要以及附图)可以由用于相同、等同或相似目的的另选特征来代替，除非另有明确说明。因此，除非另有明确说明，所公开的每个特征仅仅是一系列的等同或相似特征中的一个例子。

在详细描述本发明之前，首先提供了引用参考文献的列表。接下来，提供了对本发明各个主要方面的描述。随后，向读者进行了介绍，使得能够对本发明有个总体上的理解。最后，提供本发明各个实施方式的具体细节，以使得能够理解具体方面。

(1)并入的参考文献列表

贯穿本申请引用以下参考文献。为了清楚和方便起见，这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此，就像在此完全陈述的一样。这些参考文献通过参照如下对应参考文献号而在本申请中加以引用：

1.Karpathy,G.Toderici,S.Shetty,T.Leung,R.Sukthankar and L.Fei-Fei,"Large-Scale Video Classification with Convolutional Neural Networks,"2014IEEEConference on Computer Vision and Pattern Recognition,pp.1725-1732.

2.Two-stream convolutional networks for action recognition in videos,K.Simonyan,A.Zisserman,Advances in Neural Information Processing Systems 27:Annual Conference on Neural Information Processing Systems 2014,pp.568—576.

3.A Review of Human Activity Recognition Methods,Michalis Vrigkas,Christophoros Nikou and Ioannis A.Kakadiaris,Frontier in Robotics and AI,2015.

4.Long-term Recurrent Convolutional Networks for Visual RecognitionandDescription,Jeff Donahue,Lisa Anne Hendricks,Sergio Guadarrama,MarcusRohrbach,Subhashini Venugopalany,Kate Saenkoz,Trevor Darrell,CVPR 2015.

5.U.S.Patent No.9,008,366,Bio-inspired method of ground object cueinginairborne motion imagery,2015.

6.U.S.Patent No.9,147,255,Rapid object detection by combiningstructuralinformation from image segmentation with bio-inspired attentionalmechanisms,2015.

7.Deepak Khosla,Yang Chen,K.Kim,A Neuromorphic System for VideoObjectRecognition,Frontiers in Computational Neuroscience,2014；8:147(2014).

8.AlexNet,https://en.wikipedia.org/wiki/AlexNet,taken on December 17,2018.

9.Rethinking the inception architecture for computer vision,CSzegedy,VVanhoucke,S Ioffe,J Shlens,Z Wojna,2016 IEEE Conference on ComputerVision andPattern Recognition(CVPR),pp.2818-2826.

10.VIRAT,found at http://crcv.ucf.edu/data/VIRAT.php,taken onDecember 17,2018.

11.UCF101,found at http://crcv.ucf.edu/data/UCF101.php,taken onDecember 17,2018.

12.Kalal,Z.(2011)OpenTLD.Retrieved fromhttps://github.com/zk00006/OpenTLD.

13.He,Y.(2016,Jan.24)mean-shift-tracking.Retrieved fromhttps://github.com/HeYijia/mean-shift-tracking.

14.Rothe,R.et al.“Non-maximum Suppression for Object Detection byPassingMessages Between Windows”Computer Vision--ACCV 2014.Lecture NotesinComputer Science,vol.9003(2015).

15.Kuhn,H.“The Hungarian Method for the assignment problem”NavalResearchLogistics Quarterly,2:83–97(1955).

16.Munkres,J.“Algorithms for the Assignment and TransportationProblems”Journal of the Society for Industrial and Applied Mathematics,5(1):32–38,(1957).

17.Olah,C.(2015,August 27)“Understanding LSTM Networks”Colah’sBlog.Retried from http://colah.github.io/posts/2015-08-Understanding-LSTMs/#fn1.

18.Cortes,C.et al.“Support-vector networks”Machine Learning.20(3):273–297(1995).

(2)主要方面

本发明的各种实施方式包括三个“主要”方面。第一个方面是用于视觉活动识别或分类的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是利用数据处理系统(计算机)进行操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。该计算机程序产品通常表示存储在诸如光学存储设备(例如，光盘(CD)或数字通用盘(DVD))或磁存储设备(例如软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制例包括：硬盘、只读存储器(ROM)，以及闪存。这些方面将在下面进行更详细描述。

图1中提供了示出本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面中，本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，这些指令使计算机系统100执行特定动作并展现特定行为，如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(如处理器104(或多个处理器)与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，例如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取得的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，例如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传送至处理器100。根据一个方面，输入设备112是字母数字输入设备(如键盘)，其可以包括字母数字键和/或功能键。另选地，输入设备112可以是除字母数字输入设备之外的其它输入设备。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面，光标控制设备114利用诸如鼠标、轨迹球、轨迹板、光学跟踪设备或触摸屏的设备来实现。尽管如此，但在一方面，例如响应于使用与输入设备112相关联的特殊键和键序列命令，光标控制设备114经由来自输入设备112的输入而被引导和/或激活。在另一方面，光标控制设备114被配置成通过话音命令指引或引导。

在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储设备，例如存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储设备。依据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括：阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器，或者适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示设备。

本文所呈现的计算机系统100是根据一个方面的示例计算环境。然而，计算机系统100的非限制示例并不严格限于作为计算机系统。例如，一个方面规定了计算机系统100代表可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用通过计算机执行的计算机可执行指令(例如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现方式中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，例如，在该计算环境中，任务由通过通信网络链接的远程处理设备执行，或者例如，在该计算环境中，各种程序模块位于包括存储器-存储设备的本地和远程计算机存储介质中。

图2中示出了具体实施本发明的计算机程序产品(即，存储设备)的例示图。该计算机程序产品被示出为软盘200或诸如CD或DVD的光盘202。然而，如先前提到的，该计算机程序产品通常代表存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个、可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，例如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。

(3)介绍

本公开旨在一种在来自静止和移动平台的流传输的或记录的视频中进行活动识别的高准确度、实时的神经形态方法和系统。该系统可以以高准确度检测甚至很小的对象和活动。该系统的独特方面包括：(1)使用中心凹检测，类似于视网膜在人类视觉系统中的工作方式；以及(2)使用关于活动的上下文知识来过滤活动识别结果。所描述的系统允许在来自静止和移动平台的流传输的或记录的视频中进行近实时的活动识别。本发明以美国专利申请No.15/947,032(其通过引用并入本文)中描述的方法和系统为基础，并使其得以改进，以使其能够以更高的准确度对活动进行检测和分类，以及检测涉及非常小的对象(例如，携带手机的人)的活动。

如上所述，本文描述的系统甚至在小型、低功率、低成本平台(例如无人飞行器或地面车辆(UAV和UGV))上也提供实时(或近实时)视觉处理。所述方法可以在需要活动识别或分类的各种应用中实现。例如，该方法还能经修正用于新兴的尖峰神经形态硬件的实现。所述系统还可以在ISR应用以及自主驾驶车辆的防撞和主动安全系统中实现。为了进一步理解，下面提供了具体细节。

(4)各个实施方式的具体细节

在图3中例示了描绘系统的框图。如图所示，该系统大体包括初始活动分类模块300和最终活动分类模块302。初始活动分类模块300最初在2018年4月6日提交的美国专利申请No.15/947,032中进行了描述。连续分类活动模块302改善分类结果，从而以更高的准确度对活动进行准确的检测和分类，以及检测涉及非常小的对象(例如，携带手机的人)的活动。一些关注的活动涉及人们与车辆交互或彼此交互。例如，即使在空中无人机视频的全分辨率下，检测与车辆重叠的人有时也很困难。然而，对车辆的检测鲁棒得多。因此，如美国专利申请No.15/947,032中所述的先前方法已被扩展为包括中心凹检测和对象上下文过滤以改善整体识别准确度。下面提供了更多详细信息。

初始活动分类模块300包括对象检测模块304、轨迹形成模块306、卷积神经网络(CNN)图像特征提取器308、递归神经网络(RNN)时间特征提取器310和活动分类器312。另外，最终或连续分类活动模块302包括中心凹检测模块314、多分辨率检测融合模块316和上下文过滤器318。这些方面中的各个方面将在下面依次描述。

(4.1)对象检测

对象检测模块304在输入的视频320中找到关注对象，并输出关注对象的边界框位置和类标签。例如，如果目标是人类活动识别，则该模块304对传入的视频320中的所有人类或“人(MAN)”对象进行检测并分类。如果目标是车辆活动识别，则该模块对传入的视频320中的所有“车辆(VEHICLE)”对象进行检测和分类。对象检测模块304可以使用任何合适的处理来辨别关注对象并输出边界框位置和类标签。例如，对于空中平台，可以使用参考文献No.5至No.7中描述的处理。对于地面平台，该系统可以采用美国专利申请No.15/883,822(本申请要求其优先权)中所述的技术。应注意，尽管可以采用特定的示例实施方式，但是本发明并不局限于此，也可以使用其它实施方式。检测到的关注对象用作下一模块(轨迹形成)的种子(seed)。

(4.2)轨迹形成

轨迹形成模块306在帧与帧之间保持对象的标识和边界框，使得递归神经网络310可以对连续帧中以一对象为中心的图像碎片序列进行工作。具体而言，现在通过跨多个帧跟踪检测到的对象来形成活动轨迹307。

在轨迹形成模块306中，通过以下方式形成活动轨迹307：跨多个帧跟踪由对象检测模块304检测到的对象中的每个检测到的对象，并形成每个检测到的对象的对应活动轨迹。该系统使用多目标卡尔曼滤波器跟踪器。在其它实施方式中，另选的跟踪器可以包括OpenTLD或均值漂移跟踪(参见参考文献No.12和No.13)。该系统还执行定制的非极大值抑制(参见参考文献No.14)，并且使用启发法来辨别和消除误报轨迹。卡尔曼滤波器用于预测当前帧中的每个轨迹的质心，并且相应地更新对应的被跟踪对象的边界框。在一些实施方式中，轨迹是具有唯一ID的边界框位置(以检测到的对象为中心，该对象的位置可以随着对象的移动而在帧与帧之间改变)的以帧号为索引的列表。在一些实施方式中，当前帧是正在处理的帧，无论是记录的视频还是流传输的直播视频。在一些实施方式中，“更新”是指确定在哪里绘制边界框的定义边界(defining boundary)。基于该更新，在一些实施方式中，整个边界框应移动为以所预测的质心为中心。

前一帧中的边界框的宽度和高度被用作尺寸的当前预测。使用预测的边界框与分类的边界框之间的边界框重叠率来计算成本。换句话说，所述成本是通过确定两个矩形之间的重叠面积而计算出的比率(例如0-1之间的数字)。Hungarian算法的Munkres版本被用于计算将总成本最小化的指派(参见参考文献No.15和No.16)。在一些实施方式中，通过仅考虑具有最小持续时间T秒(例如，T标称为2秒)的轨迹，可以去除零星检测的移动树木、阴影等。对于一些实施方式，轨迹形成模块306的输出是具有最小持续时间T秒的持久对象轨迹。例如，如果某人在视频中手持枪支并且有5秒钟可见，则轨迹形成模块306将在那5秒钟期间输出具有独特轨迹号的被跟踪对象(例如，枪支、携枪的人、枪的部分(例如枪筒)等)的轨迹。

(4.3)卷积神经网络特征提取

持久轨迹307作为输入被提供给卷积神经网络(CNN)特征提取器308。CNN特征提取器308从轨迹形成模块306接收持久轨迹307作为输入，并且基于每个轨迹，自动从每个轨迹边界框内的原始图像信息中学习哪些中间特征最有用(例如，基于对应的活动轨迹来确定每个关注对象的对应特征)。在一些实施方式中，不提取明显的特征。在一些实施方式中，CNN特征提取器308的较低层可以学习边缘或取向特征，并且CNN特征提取器308的较高层可以学习更高级别的形状或颜色信息。在一些实施方式中，各种CNN层的节点处的值是所述特征。例如，如果CNN特征提取器308的最后一层有4096个节点，那么特征向量的大小可以为4096。

在特征提取之前，可以将轨迹边界框扩大某个百分比(通常在1％至50％之间，或者更具体的百分比，例如20％)，以帮助处理相关的检测边界框中的抖动。在一些实施方式中，可以将边界框扩大5％至40％，但更小和更窄的范围也是可能的。在一个实施方式中，该模型中的CNN的结构基于AlexNet(参见参考文献No.8)，并且具有5个卷积-纠正-池化层，跟着是2个全连接层。在实施方式中，对于轨迹的每个帧，CNN 308输出的维数为4096个特征。在另一示例实施方式中，针对ImageNet 21K分类任务预先训练Inception v2模型(参见参考文献No.9)作为CNN以用于空间特征提取。

(4.4)递归神经网络活动分类器

CNN特征提取器308之后是递归神经网络(RNN)310，RNN基于来自CNN 308的输出(例如，CNN特征)提取时间序列特征。CNN特征提取器308按帧对特征进行编码，并且RNN 310将来自多个帧(即，时间序列)的特征连接起来。在其它实施方式中，RNN 310不是所述系统的一部分。

由于活动可能在运动之间具有不同的时间间隙(例如，某人是缓慢地还是快速地进入建筑物)，因此长短期记忆(LSTM)网络被用作RNN 310的时间分量(参见参考文献No.17)。存在多种类型的RNN，包括完全递归、递归、Hopfield、双向联想记忆以及其它RNN，并且可以在不同的实施方式中使用其它时间分量。

在实施方式中，LSTM RNN 310将来自CNN特征提取器308的4096维的特征向量作为输入。N个帧(通常为N＝16个帧)上的这些特征的序列，按每个帧来更新RNN的内部状态。在一些实施方式中，N帧序列结束时的RNN 310的256维内部状态被用作RNN 310阶段的输出，该输出是对初始活动分类器312的输入。

(4.5)活动分类器

如上所述，该系统包括初始活动分类器312，初始活动分类器从CNN 308(例如，当RNN 310不是系统的一部分时)或从RNN 310接收输出，并确定关注对象的初始活动分类。在各种实施方式中，活动分类器312接收来自RNN 310(若使用的话)的输入，而如果未使用RNN310，则接收来自CNN 308的输入。在一些实施方式中，活动分类器312被配置成向用户的手机或中央监测站发送警告和推文(包括活动分类、时间以及图像或视频)。

假定存在K个要分类的活动，具有K个输出的最终全连接层(例如，活动分类器312)给出初始分类概率(例如，最后一层的值是活动分类的结果)。在各种实施方式中，值通常在0到1之间，并且活动类型的高得分表示该活动类型的高置信度。根据一些实施方式，在全连接层中，所有节点都连接至前一层的所有节点。另选地，活动分类器312可以是具有K个输出的支持向量机(SVM)(例如，支持向量网络)分类器，并且来自RNN 310的RNN特征可以被发送至SVM(参见参考文献No.18)。在各种实施方式中，SVM是一种具有对用于分类和/或回归分析的数据进行分析的一个或更多个相关的学习算法的监督学习模型。用于发现SVM分类器的一些算法包括次梯度下降法和坐标下降法。

初始活动分类器312的输出是针对K个类中的每个类的概率或置信度得分(例如75％，或者诸如从0到1的范围)。在所述系统被配置为仅限于识别某些类型的活动的一些实施方式中，不可以使用softmax，而是针对K个输出节点的输出响应设置阈值，以确定何时检测到关注的活动。其它活动(例如，人仅仅是在走路)不应具有高于所述阈值的输出，并且实际上接收到“没有相关活动”的标签。在一些实施方式中，softmax是指对节点值进行归一化，以使它们的总和为1，然后，最高的值成为所宣称的活动。在赢者通吃实施方式中，具有最高置信度的活动是该轨迹的活动标签。换句话说，虽然最终层中的每个节点都可以表示活动，但上述方法用于基于那些节点值来确定输出(例如，80％的人在挖洞、15％的人站着、5％的人在持枪瞄准)。

应当注意，CNN 308、RNN 310以及活动分类器312等模块针对作为轨迹形成模块306的输出的各个轨迹并行地运行。换句话说，CNN 308、RNN 310以及活动分类器312可以基于活动轨迹以及先前工作的模块的输出来顺序地工作。在一些实施方式中，来自轨迹形成模块306的每个轨迹都经历该轨迹自己的308-310-312或308-312处理，该处理始终是顺序的(每个轨迹)。由于视频中可能有几个轨迹，因此这些轨迹都具有自己的独立处理流水线308-310-312或者308-312，并且生成独立的活动分类结果。在此，“并行地运行”是指在各种实施方式中，所述系统可以同时(并行地)处理多个轨迹。

为了进一步说明，图4提供了描绘每个轨迹(例如，来自轨迹307的轨迹1等)如何经过CNN 308、RNN 310和活动分类器312等模块的例示图。如上所述，活动分类处理312的输出被提供给最终活动分类模块302中的上下文过滤器318(如下文进一步详细描述的)。

(4.6)中心凹检测

中心凹检测模块314从轨迹形成模块306接收轨迹307，以在中心凹区域上执行对象检测。中心凹区域是整个图像中具有相关关注对象或活动的较小的放大部分。系统利用实体检测与活动检测之间的关系来设计中心凹检测系统，该系统中，检测网络首先以全帧分辨率运行。然后，对于每个检测到的鲁棒的轨迹，检测网络(即，对象检测模块304)再次在中心凹区域上运行，该中心凹区域在轨迹中心周围并扩张得大于轨迹尺寸(优选实施方式为对应于轨迹框尺寸的1.5倍，或任何其它预定尺寸)。中心凹检测模块314采用与关于对象检测模块304描述的检测算法相同的检测算法。来自该第二遍的检测取代了来自由对象检测模块304发生的第一遍的中心凹区域中的检测。例如，原始对象检测处理可能会得到“汽车”，而中心凹检测可能会得到“人”。

为了清楚起见，中心凹检测模块314的输出(方法M2(要素340))作为从轨迹形成模块306产生的每个鲁棒轨迹的最终对象列表，进入上下文过滤器318。中心凹检测模块314放大该轨迹(成凹)并重新计算对象检测——因此提供了该轨迹中对象的更准确分类。

(4.7)多分辨率检测融合

多分辨率检测融合模块316将原始对象检测模块304的结果301与中心凹检测模块314的结果附加到新的检测对象列表中(例如，对象检测＝汽车，中心凹检测＝人，检测对象列表＝人+汽车)。

在工作期间，系统针对传入视频320运行对象检测器304两次。在第一遍期间，对象检测器304以原始分辨率分析完整视频并检测潜在的对象。针对每个检测到的对象启动跟踪器。在第二遍期间，对象检测器304以其分辨率分析与所有鲁棒轨迹对应的边界框，以进一步检测它们中可能在第一遍中错过的任何对象。第二遍是中心凹检测314。如果第一遍检测是准确的，则在第二遍中不会获得新信息；它仅用作确认。在某些情况下(例如，汽车前面有人)，第一遍未检测到较小的对象(例如，人)，而针对汽车轨迹边界框运行则检测到了新的对象(例如，人)。尽管有可能，但实验结果并未提供在测试数据中第一遍比第二遍检测到更多对象的任何实例。来自第一遍和第二遍的检测到的对象被附加到单个检测对象列表中，该列表将在下一上下文过滤步骤中用作上下文。

(4.8)上下文过滤器

上下文过滤器318使用检测对象列表来过滤活动分类结果。例如，针对活动分类概率将中心凹或多分辨率检测融合与基于实体的上下文过滤器进行组合可用于改善活动识别。活动识别可以用于各种活动。在某些方面，关注的活动涉及人们与车辆交互或仅仅是人而已。因此，人或车辆的存在与否与在给定关注区域中可能发生什么活动紧密相关。卷积神经网络和递归神经网络没有明确地将此实体信息作为输入。对于这两个类，实体检测和定位通常是鲁棒的。

实现了上下文过滤逻辑，该上下文过滤逻辑基于检测到的实体(即，上下文)来修改来自神经网络的活动类概率。该逻辑包含在上下文过滤器中，并作为一组启发式规则进行工作(例如，当存在车辆时，不可能进/出设施(In/Out Facility))。因此，该逻辑基于关于可被预定义的活动的常识直觉。作为非限制性示例，可能的活动是打开/关闭后备箱、进/出车辆、进/出设施、人在步行、人携带武器和人瞄准武器。当关注的区域中没有车辆或人时，不可能有活动。当存在车辆时，不可能进/出设施。其类概率设置为0。当存在人而没有车辆时，打开/关闭后备箱和进/出车辆是不可能的；它们的概率设置为0。在过滤器之后应用分类器，例如Softmax，以重新归一化活动类概率分布。最终输出是来自轨迹形成模块306的每个轨迹的准确的最终活动分类标签(参见图3)。

(5)示例付诸实践

为了进一步理解，已经通过对用于检测和上下文过滤的不同策略进行组合来开发和评估本文所述的系统。出于实验目的，针对7类活动对基于CNN和RNN的深度学习体系结构进行了训练，包括：进/出车辆、打开/关闭后备箱、进/出设施、人在步行、人携带武器、人瞄准武器、无。针对ImageNet 21k分类任务进行预训练的Inception v2模型被用作CNN，以供空间特征提取。此外，针对UCF-101活动识别和VIRAT数据集的组合来训练用于活动识别的256隐藏状态RNN/LSTM阶段。该数据集涉及执行各种活动的多个人和汽车，并且无人机在上方盘旋并从两个不同的角度收集数据。视频为彩色，分辨率为4K。如图5所示，对于来自两个不同视角的“进入车辆”500和“离开车辆”502，利用带有边界框和开始/停止时间的真值(ground truth)对视频进行注释。例如，视频示出了中间车辆504，其中帧的开始和停止时间分别为4和118。时间可以列为任何合适的度量，例如秒、帧等。

在线流传输处理方案的测试协议使用对象检测器来发展对象跟踪器。当跟踪器积累了被跟踪对象的16个帧时，将调用活动分类器。由于在数据中未充分表示进/出设施和人在步行，因此在图6和图7所描绘的表格中仅提供了其它活动的结果。具体地，系统使用图3中描绘为M1 330、M2 340和M3 350的三种单独的方法来工作。方法1(M1 330)提供使用现有技术的最佳训练结果。方法2(M2 340)使用中心凹检测和上下文过滤路径。最后，方法3(M3350)使用多分辨率检测融合和上下文过滤器。

图6提供了描绘所捕获的无人机数据上的所有活动的结果的表格。示出了方法M3350大体上比现有技术M1 330和方法M2 340(高PC、低FPPI)表现更好。图7提供了描绘关于所捕获的无人机数据的各个类活动结果的表格。再次，示出了方法M3 330大体上比现有技术M1 330和方法M2 340表现更好。

为了进一步说明，图8提供了示例图像800，该示例图像800描绘了根据如本公开中所描述的各种实施方式的使用方法M3 350的典型的识别出的活动和检测到的实体。进一步地，图9A和图9B分别提供了进入/离开汽车以及打开/关闭后备箱的活动的示例接收器工作特性曲线(ROC)。虚线描绘了使用方法M1 330的结果，而实线描绘了使用方法M3 350的结果。如图所示，对于同一正确准确度(y轴上的固定点)，M3 350的误报比M1 330低约30％。这样，表明本文描述的系统在对实时视频镜头中的活动进行识别和分类方面提供了相对于现有技术的显著改进。

(6)设备的控制

如上所述，本公开的系统接收输入视频并生成输入视频中的人和/或对象的活动分类。该系统可以并入到各种各样的设备和应用中。如图10所示，一个或更多个处理器104可用于基于对输入视频中的活动进行分类来控制设备1000(例如，视频摄像头、电动机、机器、无人机、自主驾驶车辆等)。在一些实施方式中，可以基于分类来控制设备1000以使设备(例如，移动平台)移动或以其它方式发起物理动作。

在一些实施方式中，如上所述，设备可以是移动平台，例如无人机或自主驾驶车辆、可旋转摄像头系统等。因此，在一些实施方式中，所述系统被并入到移动平台中，并且还包括以下操作：当图像中的对象被识别或以其它方式分类时，使移动平台执行由移动平台执行的物理操作(例如，移动、转动、制动等)。例如，可以基于分类来控制无人机或其它自主驾驶车辆移动。作为非限制性示例，如果将个体分类为离开车辆，则可以通过使无人机跟随该个体并将该个体保持在无人机的摄像头传送(feed)内来跟踪该个体。作为又一示例，如果提供了对步行进入道路的行人的分类，则可以控制自主驾驶车辆以使其制动或以其它方式工作以避免与行人碰撞。在又一些其它实施方式中，可以将摄像头控制为朝向在输入视频中被分类的物品或对象定向并跟随分类的对象。例如，如果分类是携带武器的人，则系统可以使摄像头移动并跟随此人穿越场景。换句话说，致动器或电动机被激活以使摄像头(或传感器)移动或缩放，以在分类的对象在场景中移动时将该对象保持在摄像头的视野内。

所述系统还可以在基于活动识别来实施动作的监测和安全系统中实现。例如，在入出现侵者警告的情况下，可以提供有人正在进入工厂区域并从事不安全活动的警告。作为另一示例，所述系统可以用于人-机器人团队，其中机器人基于对人正在做的事情的识别来进行某种动作(例如，如果人在锤击，则机器人提供钉子/零件等)。作为另一示例，所述系统可用于有人-无人军队，其中具有这种行为识别能力的无人机或地面机器人可以理解任务状态并自主地采取下一步行动(例如，开火或在建筑物后方监视以发现危险)。

最后，虽然已经根据几个实施方式对本发明进行了描述，但本领域普通技术人员应当容易地认识到本发明在其它环境中可以具有其它应用。应注意到，可以有许多实施方式和实现。而且，所附的权利要求绝不是旨在将本发明的范围限制成上述具体实施方式。另外，任何“用于……的装置(means)”的用语旨在引发要素和权利要求的装置加功能的解读，而任何未特别使用“用于……的装置”用语的要素不应被解读为装置加功能要素，即使权利要求以其它方式包括了“装置”一词。而且，虽然已经按特定次序陈述了特定的方法步骤，但这些方法步骤可以按任何希望次序发生并且落入本发明的范围内。

Claims

1.一种用于视觉活动分类的系统，所述系统包括：

存储器以及一个或更多个处理器，所述存储器是编码有可执行指令的非暂时性计算机可读介质，使得当执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

检测视频数据中的关注对象集合，并且确定所述关注对象集合中的各个对象的对象分类，所述关注对象集合包括至少一个关注对象；

通过跨多个帧对所述关注对象集合中的各个对象进行跟踪，形成各个对象的对应的活动轨迹；

针对各个关注对象并且使用特征提取器，通过基于所述对应的活动轨迹执行特征提取来确定所述视频数据中的对应特征；

针对各个关注对象，基于所述特征提取器的输出，确定各个关注对象的对应的初始活动分类；

通过中心凹来检测所述对应的活动轨迹的每一者中的一个或更多个关注对象；

将初始对象检测和中心凹对象检测附加到新的检测对象列表中；以及

使用所述新的检测对象列表，对所述对应的活动轨迹的每一者的最终活动进行分类，并使用上下文逻辑对所述初始活动分类的结果进行过滤。

2.根据权利要求1所述的系统，所述系统还包括基于最终活动分类对设备进行控制的操作。

3.根据权利要求2所述的系统，其中，对设备进行控制包括：使移动平台基于所述最终活动分类来执行物理操纵。

4.根据权利要求2所述的系统，其中，对所述设备进行控制包括：使用机器来发送有关活动分类的视觉警告、音频警告或电子警告中的至少一者。

5.根据权利要求1所述的系统，其中，所述特征提取器包括卷积神经网络并且还包括递归神经网络，并且所述一个或更多个处理器还执行以下操作：

针对各个关注对象并且使用所述递归神经网络，基于所述对应的活动轨迹和所述对应特征中的至少一者来提取对应的时间序列特征。

6.根据权利要求1所述的系统，其中，所述特征提取器包括卷积神经网络，所述卷积神经网络包括至少五个卷积-纠正-池化层。

7.根据权利要求5所述的系统，其中，所述关注对象集合包括多个关注对象，并且所述卷积神经网络、所述递归神经网络以及活动分类器针对多个对应的活动轨迹并行地工作。

8.一种用于视觉活动分类的非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得在由一个或更多个处理器执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

检测视频数据中的关注对象集合并且确定所述关注对象集合中的各个对象的对象分类，所述关注对象集合包括至少一个关注对象；

使用所述新的检测对象列表对各个活动轨迹的最终活动进行分类，并使用上下文逻辑对所述初始活动分类的结果进行过滤。

9.根据权利要求8所述的非暂时性计算机可读介质，其中，所述一个或更多个处理器还执行以下操作：基于最终活动分类对设备进行控制。

10.根据权利要求9所述的非暂时性计算机可读介质，其中，对设备进行控制包括：使移动平台基于所述最终活动分类来执行物理操纵。

11.根据权利要求9所述的非暂时性计算机可读介质，其中，对所述设备进行控制包括：使用机器来发送有关活动分类的视觉警告、音频警告或电子警告中的至少一者。

12.根据权利要求8所述的非暂时性计算机可读介质，其中，所述特征提取器包括卷积神经网络，所述卷积神经网络包含递归神经网络，并且所述一个或更多个处理器还执行以下操作：

13.根据权利要求8所述的非暂时性计算机可读介质，其中，所述特征提取器包括卷积神经网络，所述卷积神经网络包括至少五个卷积-纠正-池化层。

14.根据权利要求12所述的非暂时性计算机可读介质，其中，所述关注对象集合包括多个关注对象，并且所述卷积神经网络、所述递归神经网络以及活动分类器针对多个对应的活动轨迹并行地工作。

15.一种用于视觉活动分类的计算机实现的方法，所述方法包括以下动作：

使一个或更多个处理器执行编码在非暂时性计算机可读介质上的指令，使得在执行所述指令时，所述一个或更多个处理器执行以下操作：

使用所述新的检测对象列表，对各个活动轨迹的最终活动进行分类，并使用上下文逻辑对所述初始活动分类的结果进行过滤。

16.根据权利要求15所述的方法，所述方法还包括基于最终活动分类对设备进行控制的动作。

17.根据权利要求16所述的方法，其中，对设备进行控制包括：使移动平台基于所述最终活动分类来执行物理操纵。

18.根据权利要求16所述的方法，其中，对所述设备进行控制包括：使用机器来发送有关活动分类的视觉警告、音频警告或电子警告中的至少一者。

19.根据权利要求15所述的方法，其中，所述特征提取器还包括卷积神经网络，所述卷积神经网络包含递归神经网络，并且所述方法还包括以下操作：

20.根据权利要求15所述的方法，其中，所述特征提取器包括卷积神经网络，所述卷积神经网络包括至少五个卷积-纠正-池化层。

21.根据权利要求19所述的方法，其中，所述关注对象集合包括多个关注对象，并且所述卷积神经网络、所述递归神经网络以及活动分类器针对多个对应的活动轨迹并行地工作。