CN114258560A

CN114258560A - 使用有限数据和元学习的行人活动识别的方法

Info

Publication number: CN114258560A
Application number: CN202080058496.1A
Authority: CN
Inventors: M·萨利姆; N·乔治
Original assignee: Volkswagen Automotive Co ltd
Current assignee: Volkswagen Automotive Co ltd
Priority date: 2019-08-20
Filing date: 2020-08-13
Publication date: 2022-03-29
Also published as: US11281227B2; WO2021032585A1; EP4018360A1; US20210055737A1

Abstract

行人活动识别以方法、系统、非暂时计算机可读和交通工具体现。通过训练暹罗神经网络、来自两个或更多独立训练图像捕获装置的相同行人活动的记录来训练它，以识别多个行人活动。采用来自附加图像捕获装置的连续数据收集来部署暹罗神经网络，以按照无监督方式来创建类似活动的聚类的数据集。然后训练能够被部署以识别和预测行人活动的空间‑时间意图预测模型。基于正发生或者当前正在进行的特定行人活动的似然，能够执行自动交通工具操纵，以导航状况。

Description

使用有限数据和元学习的行人活动识别的方法

技术领域

本公开涉及识别和解释交通工具周围的场景。特别是，本公开涉及准确标识由交通工具周围的行人当前进行的活动，并且预测行人的下一个活动。

背景技术

正确识别和解释交通工具周围的场景对于使自主或半自主交通工具能够围绕障碍物和行人安全操作或者以其他方式避开障碍物和行人是必要的。利用智能功能性对这些智能交通工具正确编程通常要求非常大的带注释数据集来创建和训练监督机器学习模型，以分类行人活动。通常对数据手工加标签，这是费时和高费用的。这些复杂的基于手工调整的人体运动的模型不总是推广到新的或看不见的条件。

因此，存在对于一种使用有限数据和元学习的行人活动识别的有效方法的需要。

发明内容

公开用于行人活动识别的方法、系统和非暂时计算机可读。进一步公开的是一种包含行人活动识别系统的交通工具。在说明性实施例中，通过基于两个或更多个输入训练暹罗（Siamese）神经网络来训练它，以识别多个行人活动，其中输入是来自两个或更多个单独训练图像捕获装置的相同行人活动的记录。利用来自附加图像捕获装置的连续数据收集来部署暹罗神经网络，以按照无监督方式来创建类似活动的多个活动聚类的数据集。暹罗神经网络自动注释活动，以创建带注释的预测数据集和带注释的非预测数据集。然后将来自非预测的带注释数据集的空间-时间数据样本以及来自预测的带注释数据集的空间-时间数据样本用作输入来训练空间-时间意图预测模型。然后能够部署这个预测模型，以识别和预测行人活动。基于正发生或者当前正在进行的特定行人活动的似然，能够执行自动交通工具操纵，以导航（navigate）状况。

附图说明

详细描述参照附图，附图中的所有附图描绘说明性实施例。

图1描绘可训练神经网络来识别的行人活动的说明性类型。

图2描绘行人从路边（curb）进入公路的说明性时间线。

图3是生成指示两个图像是类似的输出的说明性暹罗神经网络的框图。

图4是生成指示两个图像是相异的输出的说明性暹罗神经网络的框图。

图5是描绘得到图像并且创建数据集以训练暹罗神经网络以便识别行人活动的说明性方法的框图。

图6是训练和部署暹罗神经网络以识别和预测行人活动的说明性方法的流程图。

图7是说明性自主或半自主交通工具以及关联驱动系统的框图，该关联驱动系统识别行人活动并且使交通工具基于所识别活动来执行动作。

图8是作为图5的驱动系统的组件的计算装置的说明性实施例的框图。

具体实施方式

本文所提供的附图和描述可已简化成图示对理解所述装置、系统和方法是相关的方面，同时为了清楚的目的而消除可见于典型装置、系统和方法中的其他方面。本领域的技术人员可知道，其他元件或操作对于实现本文所述的装置、系统和方法可以是期望或必需的。因为这类元件和操作是本领域众所周知的，并且因为它们没有促进更好地理解本公开，所以在本文中可能不提供对这类元件和操作的论述。但是，本公开被认为固有地包括所有这类元件、对由本领域的技术人员可能实现的所述方面的修改以及变化。所有实施例说明本文所述概念的更广泛范围。

所公开的实施例提供用于识别行人活动的方法、系统、交通工具和非暂时计算机可读介质。说明性实施例可识别和解释交通工具周围的场景，包括标识由行人所参与的不同活动，并且预测其中行人可涉及的下一个活动。基于所检测或预测的行人活动，交通工具可自动执行安全操纵，例如控制交通工具的速度或者在新方向上操纵交通工具。另外地或备选地，在检测或预测某个行人活动时，可生成警告信号。

神经网络是被设计成识别模式的一组算法。行人识别方法和系统的说明性实施例使用神经网络以便基于行人活动的视频中发现的类似性对数据进行编组。基于加标签的数据集训练神经网络。可自动(即，按照无监督或半监督方式)对数据集加标签。说明性实施例包括用来进一步训练神经网络、部署训练神经网络以识别行人活动的步骤。进一步训练允许神经网络预测行人活动。

图1描绘可训练神经网络来识别的行人活动的说明性类型。活动类型包括行走（walking）、慢跑（jogging）、跑步（running）、拳击（boxing）、挥手（hand waving）和鼓掌（hand clapping）。对每个活动类型提供四个不同示例。使用机器学习，计算机能够被训练成标识相同类型的活动的不同图像之间的类似性。例如，慢跑者通常采取比跑步者采取的步幅要短的步幅。可存在能够在视频中标识的附加标识特性，例如手臂运动、环境内的对行人姿态（stance）和位置的变化的定时。对于行人，活动注释可包括活动类型，并且还可包括更特定标签，例如在人行道上行走、朝铺设道路行走、穿过道路、在人行横道中行走、跑步、坐在路边、向另一名行人挥手、向照相装置挥手、在照相装置或交通工具的方向上注视、匆忙行走和小心行走。在传统监督学习中，图像将通过手工利用活动类型标签来注释。本文所述的说明性实施例自动注释图像或对其加标签。

图2描绘行人离开路边并且进入公路的说明性时间线。图2进一步描绘驾驶员可如何对遇到行人活动作出反应。遍及所描绘的时间段，行人穿过道路。这在表示为“穿过”的顶部水平线中示出。在该时间段的一部分期间，行人例如把目光从行驶或预计行驶的方向移开。这在第二图像中示出并且在行人活动列表的第三行呈现。可例如通过行人头部的位置或注视方向中的变化来标识这个活动。在自左边的第三图像中，在整个时间段的一小部分期间，行人使用手势。该简图还示出其中行人正快速移动(例如跑步)的所描绘时间段的两个非毗连部分，其在行人活动列表的第四行上表示。在时间段（在其期间行人正跑步）的那两个部分之间，行人已经减速。图像被加时戳，并且利用活动名称(例如穿过、手势、注视、快速移动和减速)来注释。通过使用时间戳，可以不需要监督学习模型，由此简化过程并且减少所需的时间量和计算能力。在常规监督模型中，注释通过人工输入与图像关联。在所公开方法和系统的说明性实施例中，自动执行加标签。

在图2中，在行人活动标签下面，示出说明性驾驶员动作，其表示驾驶员可如何对行人活动作出反应。这些也可被认为是交通工具动作，特别对于自主或半自主交通工具。在初始近似0.03秒时间段期间，交通工具正缓慢移动。交通工具然后从就在0.03秒点之前至大约0.08秒点进一步减速。交通工具然后开始停止，并且保持停止，直到就在0.09秒点之后。交通工具然后再次开始缓慢移动。关于行人活动的每个活动的时长、动作类型和开始时间是说明性的，并且可根据活动和交通工具能力改变。

在说明性实施例中，训练暹罗神经网络，以识别多个行人活动。得到数据以用于对暹罗神经网络的输入，所述输入包括来自两个或更多个单独训练图像捕获装置的相同行人活动的两个或更多个记录。行人活动可以是例如跑步、注视、行走、慢跑、挥手或者能够与其他行人活动加以区分并且分类的任何其他行人活动。

术语“暹罗神经网络”在本文中用于基于两个或更多个不同输入所训练的模型，所述两个或更多个不同输入使它能够预测输入是‘类似的’还是“相异的”。术语“暹罗神经网络”在本文中将用于具有那些能力的任何模型。在说明性实施例中，使用能够表明两个或更多个图像序列或视频是类似还是相异的暹罗神经网络的空时变体。在说明性实施例中，例如在时间上分隔一分钟的来自不同时间戳的数据将在大约90%的时间是相异的。时间戳中的差越大，所预测活动就将越是相异的。

图3是生成指示两个图像是类似的输出的说明性暹罗神经网络300的框图。将人在跑步的第一图像302与也是人在跑步的第二图像304进行比较。使用权重训练暹罗神经网络，以使神经网络的精度为最大。训练能够通过进行对权重的增量调整来实现。加权促进两个极为类似的图像被映射到相同位置。在这里，已充分训练暹罗神经网络，以用作对新图像输入(即，第一图像302和第二图像304)的分析工具。

孪生网络306、308通过函数310来接合。在特征提取过程中通过一个或多个隐藏或中间层来过滤输入图像、即第一图像302和第二图像304。每个过滤器拾取不同信号或特征，以确定新图像与用于各种类型的行人活动的图像或者参考图像之间存在的重叠有多少。当图像通过各种过滤器时，以数学方式描述它。各种类型的特征工程可用来映射图像特征。基于特征类似性来计算损失或成本函数。在说明性实施例中，使用三元成本函数。提供阈值或范围，以作为将图像表示为“类似”或“相异”的基础。

说明性实施例集中于检测多个不同活动之间的类似性和相异性。称作“度量学习”的这种方式是机器学习的更大范围内的元学习的领域。这种方法可具有如下显著优点：对于学习新活动或类别要求明显更少的带注释数据并且甚至要少数量级。

图4是生成指示两个图像是相异的输出的说明性暹罗神经网络400的框图。第一图像402描绘人在跑步。第二图像404描绘人站立，其中他的手臂举过他的头顶。训练孪生网络406、408处理图像，并且在框410中提供不满足用于被表示为“类似”的阈值的类似性测量（similarity measure）。相应地，系统输出关于图像是相异的结论。

针对图3和图4所述的功能性可用来预测两个不同行人活动是相同还是不同的，预测新活动匹配哪一个已知活动，以及预测新活动在先前观测数据中不是已知的。暹罗神经网络还可用来标识新的行人活动类别。另外，暹罗神经网络可配置成通过基于行人后续进行什么而不是他们当前进行什么对活动记录进行分类来预测所观察行人可参与什么后续活动。

图5是描绘得到图像并且创建数据集以训练暹罗神经网络以便识别行人活动的说明性方法的框图。在说明性实施例中，收集数据，以通过基于两个或更多个输入训练暹罗神经网络来训练它，以识别多个活动，其中输入是来自两个或更多个单独训练图像捕获装置502、504的相同行人活动的记录。类似数据集506和相异数据集508被创建并且存储在适合于预计行人识别方法和系统并且与其兼容的类型的存储器512中。

图6是训练和部署暹罗神经网络以识别和预测行人活动的说明性方法的流程图。在步骤602中，从来自第一训练图像捕获装置502的输出以及来自第二训练图像捕获装置504的同步输出来创建类似数据集506，其中输出反映相同行人活动。注意的是，可使用多个训练图像捕获装置，第一训练图像捕获装置和第二训练图像捕获装置是所述多个训练图像捕获装置的一部分。

可假定同步图像捕获装置记录相同行人活动，因为它们正同时捕获图像，并且被定位成捕获相同空间区域中的行人活动。相应地，从每个照相装置所收集的数据可被自动注释为“类似”，以用于训练暹罗神经网络。

在步骤604中，从来自第一训练图像捕获装置502的输出以及来自第二训练图像捕获装置504的延迟输出510来创建相异数据集508，其中输出反映不同行人活动。延迟被预先定义，并且可以是例如30秒，或者通过另外的示例，可以是在大约10秒至大约30秒的范围中。可假定延迟产生不同行人活动的图像，因此图像可被自动注释为相异。延迟时长可例如基于图像捕获装置的位置来选择，其中位置可引起特定类型的行人活动。行人活动可根据环境改变，这能够影响行人如何作出反应或者他们参与什么活动以及这类活动的顺序。

可选地，在步骤606中，通过将基于规则的试探（heuristics）514应用于来自第二训练图像捕获装置504的延迟输出510并且应用于第一训练图像捕获装置502的输出来细化类似数据集506和相异数据集508，以对相异性进行评估。

在步骤608中，说明性实施例进一步包括创建包括多个行人活动聚类的数据集。通过基于类似数据集和相异数据集训练暹罗神经网络以创建包括多个活动聚类的数据集来创建活动聚类数据集。因此，按照无监督方式来创建活动聚类数据集。

更特别地，在说明性实施例中，可以在步骤608中使用在步骤602中创建的类似数据集和在步骤604中创建的相异数据集来训练暹罗神经网络。对神经网络进行训练，以确定输入暹罗神经网络的两个数据集是否属于相同活动，并且因此是否应存在于相同活动聚类中，或者它们是否属于不同的活动。

在步骤610中，可利用来自附加图像捕获装置的连续数据收集输入以及来自步骤608中形成的包含多个活动聚类的数据库的输入来部署暹罗神经网络。每个活动能够通过其名字或对应被分类为如在步骤608中所创建的聚类的ID的其他样本的数字ID号来存储。这可通过向包括多个活动聚类的暹罗神经网络中输入来自附加活动图像捕获装置的输出并且还向暹罗神经网络中输入多个活动聚类的数据库来实现。附加图像捕获装置可以是训练图像捕获装置502、504中的一个训练图像捕获装置，但是为了清楚的目的，它在用于连续数据收集时将被称作附加图像捕获装置。

在步骤612中，暹罗神经网络确定附加活动图像捕获装置输出与多个活动聚类的每个的数据样本之间的类似性的测量值，以确定附加活动是否匹配现有聚类样本。在步骤614中，如果附加活动图像捕获装置输出属于多个活动聚类中的一个活动聚类，则暹罗神经网络检测活动。更特定地，在说明性实施例中，在获得对于被发现彼此类似的所有样本对的类似性分数之后，样本被绘制成彼此接近，从而形成聚类。运行聚类算法（例如k-means、高斯混合、模型或与该方法兼容的其他聚类分析算法）以向每个聚类给出身份，即序列号或标签。在执行聚类算法之后，可选地，人可以手动查看包含在每个聚类内的活动，并例如通过将两个聚类合并为一个聚类或将聚类划分为两个聚类来调整它们。

在步骤616中，如果类似性测量值对于多个现有活动聚类中的所有活动聚类超出所指定测量值范围，则创建与当前活动输出关联的新聚类。新活动聚类然后被添加到现有多个活动聚类。如果附加活动图像捕获装置输出属于新活动聚类，则暹罗神经网络可检测活动。按照这样的方式，系统使用空时暹罗神经网络模型以按照半监督方式来聚类类似活动，而没有要求访问通过人类手工加标签的大量注释。

在步骤618、620中，暹罗神经网络可用来将活动自动注释为预测活动或者非预测活动，以创建带注释的预测数据集和带注释的非预测数据集。为了创建被注释为预测活动的数据集，在步骤618中，由注释算法采用暹罗神经网络以根据定义的基于时间段的逻辑来注释活动样本。换言之，该算法通过将其加标签为预测所检测活动来注释与在所检测活动之前的所指定时间段期间所捕获的行人活动关联的图像捕获装置输出。

以下是在行人活动发生之前预测行人活动的方法（“行人意图预测”）的说明性实施例。收集的数据集具有顺序发生的每个事件的完整时间顺序记录。训练的暹罗神经网络模型用于检测例如行人动作（例如挥手或做出手势）的时间。在该说明性示例中，在时间t =25秒检测行人动作。提供与行人动作的时间的固定偏移，例如dt =10秒。注释时间段被指定为例如5秒。基于dt =10秒的固定偏移和5秒的注释周期，从t =25-dt-5到t =25-dt 秒的数据集能够被注释为包含用于目标行人活动的预测信息。如此注释的影像（imagery）将从t =10到t =15秒。

返回参考图2，在由从顶部起的第二行中的条表示的时间段期间，暹罗神经网络模型检测在从左侧起的第三图像中标识的手势。当暹罗神经网络模型进行手势的肯定检测（positive detection）时，能够在检测到的手势开始之前的固定时间内将该段注释为预测段/活动。因此，从顶部起第五行中的“减速”段可以被认为是进行手势的预测，因为它发生在手势之前的时间段中。

可在步骤620中从其中未检测到行人活动的图像捕获装置输出来创建行人活动的否定样本（negative sample）。行人活动的否定样本是在其中未检测到多个活动聚类中的一个活动聚类的时段之前的所指定时间段期间所捕获的一个行人活动。这样行人活动被自动加标签为不预测多个活动聚类中的一个活动聚类。创建被注释为不预测活动的行人活动的数据集。

在步骤622中，把来自非预测的带注释数据集的空间-时间数据样本以及来自预测的带注释数据集的空间-时间数据样本用作输入，训练空间-时间意图预测模型。意图预测模型然后可被部署，以基于预测和非预测信息来指配特定活动的似然。

行人活动的视频被输入到意图预测模型。意图预测模型将视频与非预测活动和预测活动进行比较，以确定行人活动是否可能发生。在说明性实施例中，意图预测模型可通过在预测活动时指配“1”而在不预测活动时指配零来指配特定活动的似然。在意图预测模型中也可使用指配特定活动的似然的其他方法。当用于自主或半自主交通工具控制单元中时，能够基于特定活动的似然的指配来执行自动交通工具操纵。另外地或作为替代，可生成音频或视觉警告，以提醒驾驶员关于附近的行人。视觉警告可在其中驾驶员可能注意的交通工具内的显示单元上呈现。

响应于行人活动所产生的交通工具操纵可包括例如通过应用制动器使交通工具减速或停止或者通过改变转向（steer）角来重定向交通工具。还可实现与导航系统的协调，以进一步自动引导交通工具，以便采取安全预防措施。

图7是说明性自主或半自主交通工具以及关联驱动系统的框图，该驱动系统识别行人活动并且使交通工具基于所识别活动来执行动作。交通工具700包括计算装置702，该计算装置702具有如在行人识别方法的说明性实施例的步骤中实现的神经网络704。来自传感器706(例如交通工具700上包含的图像捕获装置)的数据被输入到计算装置702。计算装置702包含行人识别预测模型，该行人识别预测模型按照本文所公开方法对来自传感器706的数据起作用。来自传感器706的数据可包括视频数据，所述视频数据按照多帧或单帧来处理。计算装置702的附加细节在图6中示出。

交通工具700具有各种组件708，例如制动系统和转向系统。每个系统可具有它自己的电子控制单元。电子控制单元还可被设计成控制多于一个交通工具系统。一个或多个致动器710与每个交通工具组件708关联。计算装置702基于来自传感器706的输入来生成信号。来自计算装置702的信号被输入到致动器710，其提供电子指令以对交通工具组件708起作用，所述致动器710与所述交通工具组件708关联。例如，致动器710可从计算装置702接收信号以停止交通工具700。致动器710然后将激活交通工具制动系统，以执行来自计算装置702的指令。

图7中所描绘的说明性系统依靠从位于交通工具700上的传感器706对计算装置702的输入。在另外的实施例中，计算装置702可接受来自外部传感器(例如附于基础设施组件的照相装置)的信号。来自外部传感器的信号可由计算装置702来处理，以使交通工具700执行安全操纵。板载导航系统可与计算装置702协调，以实现操纵。

图8是作为图7的交通工具系统的组件的计算装置702的说明性实施例的框图。计算装置702包括存储器装置802，该存储器装置802可以是单个存储器装置或多个装置，其用于存储可执行代码，以实现本文所公开的行人识别方法的任何部分，包括例如用来实现暹罗神经网络训练和部署的算法。进一步包含在存储器装置802中的可以是存储数据，例如表示每个行人活动的特征的数据。一个或多个处理器804通过数据接口806来耦合到存储器装置802。处理器804可以是配置成按照行人识别方法的实施例来执行一个或多个应用并且分析和处理数据的任何(一个或多个)装置。处理器804可以是个体或一致起作用的多个处理器或单个处理器。处理器804可以是例如微处理器、专用处理器或者可处理和变换电子数据的其他装置。处理器804执行存储器装置802上存储的指令。存储器装置802可与处理器804相集成或者是单独装置。存储器装置802的说明性类型和特征包括易失性和/或非易失性存储器。可使用各种类型的存储器，只要(一个或多个)类型与系统及其功能兼容。存储器类型的说明性示例包括但不限于各种类型的随机存取存储器、静态随机存取存储器、只读存储器、磁盘存储装置、光学存储介质和闪速存储器装置。存储器的这个描述在一定程度上也可适用于存储器512，所述存储器512存储类似数据库506和相异数据库508。

输入/输出装置808被耦合到数据接口806。这可包括例如图像捕获装置和致动器。网络接口810也示为被耦合到数据接口806，所述数据接口806可将计算装置组件耦合到专用或公共网络812。

可使用定位成得到视频或图像以提供成对数据的图像捕获装置来实现地面实况数据收集。在说明性实施例中，两个或更多个图像捕获装置(例如照相装置)被安装在公路旁，各自具有不同视角但是具有重叠聚焦区域。所产生图像的重叠区域能够用来基于关于来自图像捕获装置的图像对或大量图像的图像类似性来训练暹罗神经网络。在不同时间所捕获并且未覆盖相同活动的一对或一组图像可用来基于相异性度量进行训练。

图像捕获装置可被安装在例如交通路口处的基础设施杆上或者其他支承结构上。图像捕获装置还可在不同安装位置但是具有重叠感兴趣区域处被安装在单个交通工具上。

可通过从不同于交通工具或公路位置的位置得到图像数据，基于识别活动的各种类型(例如手势)来训练暹罗神经网络。例如，图像捕获装置可被安装在社交或商业聚集的地点，例如餐厅、自助餐厅、银行或者其中人们可聚集的其他机构（establishment）。图像捕获装置可被安装在墙上，例如其具有多个可能的成对的照相装置，其中它们捕获关于人们使用姿势或其他动作相互通信的影像。

已经可用或者已被收集的注释(即使少量)能够由无监督模型按照比传统监督模型更有效地方式使用。现有注释允许模型基于从这个现有小注释数据集所提取的输入数据对或编组的大多数或全部可能组合和排列来训练，同时仍然学习用来预测输入对或编组是类似还是相异的能力。

说明性实施例包括非暂时计算机可读介质，在该非暂时计算机可读介质上存储计算机代码，所述计算机代码当在一个或多个处理器上执行时使计算机系统执行如本文所述的行人活动识别的方法。术语“计算机可读介质”可以是例如能够按照由机械装置可读的格式来存储数据的机器可读介质。计算机可读介质的示例包括例如半导体存储器(例如闪速存储器、固态驱动器、SRAM、DRAM、EPROM或EEPROM)、磁介质(例如磁盘、光盘)或者能够在功能上实现成存储代码和数据以供本文所述的行人活动识别方法的实施例的执行的其他形式的计算机可读介质。

有利地，行人活动识别和预测的说明性实施例不依靠如常规方法所依靠的的大量注释。如本领域的技术人员将理解，行人活动识别和预测针对所要求的计算能力量和精度都是特别难以解决的问题。重要的是，本实施例的分类或归类集中于检测多个不同活动之间的类似性和相异性。这种度量学习方式对于学习新活动或类别可要求比常规方法所要求的数据要少数量级的注释数据。使用两个或更多个图像捕获装置以得到成对数据按照这种无监督方式来聚类活动可减少处理时间。此外，行人识别的所公开的说明性实施例允许检测未知的新活动以及识别已知活动。这允许系统与极少或没有手工加标签数据一起工作。通过使系统能够自动捕获编组或成对数据流和不成对数据以生成均用来训练行人识别系统的类似和相异数据集，使用多个图像捕获装置并发地从不同视角记录行人活动还提供优于传统方法的优点。

各种类型的神经网络可用于说明性实施例中，只要它们能够被训练和部署成识别行人活动。在说明性实施例中，每个神经网络可以是具有共享参数的卷积神经网络。在特征提取期间，计算和输出从可比较隐藏层特征的提取(特征提取)所得出的类似性值。卷积神经网络能够覆盖空间-时间神经网络的时间部分。卷积神经网络特别可适用于检测图像中的特征。卷积神经网络跨图像移动过滤器，并且使用卷积运算来计算与过滤器相关的值。过滤器可与在图像中可发现的任何特征关联，并且可表示系统指望标识的活动或人员的方面。例如，过滤器可与某个人是否例如根据此人的腿的位置或者此人身体的倾斜被标识为跑步关联。过滤器可被指配特定值，所述特定值然后在神经网络训练操作期间自行更新。一旦过滤器越过了图像，就生成特征图。可使用多个过滤器层，它们将生成附加特征图。过滤器产生平移不变性和参数共享。能够包括池化层，以标识将在后续层中使用的输入。该过程能够包括多个卷积层（payer），每个卷积层之后接着池化层。在卷积神经网络的分类输出之前还可包括完全连接层。可在卷积层之间实现非线性层(例如比如矫正非线性单元)，以改进神经网络的鲁棒性。总之，输入被馈入卷积层中，该卷积层之后可接着非线性层，一个或多个附加卷积层和非线性层可跟随，在提供池化层之前，该序列能够继续进行，直至到达完全连接层。

按照说明性实施例的神经网络训练对于空时特征的学习可以是端对端的。备选地或另外地，特征提取可与单独分类一起使用。

在行人识别方法和系统的说明性实施例中，单个神经网络能够捕获空间和时间信息，或者一个网络可捕获组合空间-时间信息。

已经描述各自具有元件的不同组合的本发明的各个实施例。本发明并不局限于所公开的特定实施例，而是可包括所公开元件的不同组合、一些元件的省略或者通过这类结构的等效体替代元件。

进一步注意的是，虽然实施例的描述主要针对机动交通工具附近的行人活动，但是所述方法和系统可适用于其他上下文中的人类或动物活动。一般来说，所公开的实施例可适用于能够由训练神经网络识别并且用来生成交通工具或其他设备的动作的重复出现的活动。

Claims

1.一种行人活动识别的方法，包括：

通过基于两个或更多个输入训练暹罗神经网络来训练它，以识别多个活动，其中所述输入是来自两个或更多个单独训练图像捕获装置的相同行人活动的记录；

利用来自附加图像捕获装置的连续数据收集来部署所述暹罗神经网络模型，以按照无监督方式来创建类似活动的多个活动聚类的数据集；

采用所述暹罗神经网络以将活动注释为预测活动或者非预测活动，以便创建带注释的预测数据集和带注释的非预测数据集；

将来自所述非预测的带注释数据集的空间-时间数据样本以及来自所述预测的带注释数据集的空间-时间数据样本用作输入来训练空间-时间意图预测模型；以及

部署所述意图预测模型，以指配特定活动的似然。

2.如权利要求1所述的行人活动识别的方法，其中，利用来自所述附加活动图像捕获装置的连续数据收集来部署所述暹罗神经网络模型以按照无监督方式聚类类似活动包括：

向包括所述多个活动聚类的所述暹罗神经网络中输入：

来自所述附加活动图像捕获装置的输出；以及

所述多个活动聚类的所述数据集；

由所述暹罗神经网络确定所述附加活动图像捕获装置输出与所述多个活动聚类的每个的数据样本之间的类似性的测量值，以确定所述附加活动是否匹配现有聚类样本；以及

如果所述附加活动图像捕获装置输出属于所述多个活动聚类中的一个活动聚类，则检测活动。

3.如权利要求2所述的行人活动识别的方法，进一步包括：如果所述类似性测量值对于多个活动聚类中的所有活动聚类超出所指定测量值范围，则创建与所述当前活动输出关联的新聚类，并且将所述新聚类添加到所述多个活动聚类。

4.如权利要求1所述的行人活动识别的方法，其中，训练所述暹罗神经网络以识别所述多个活动包括：

至少从来自所述两个或更多个训练图像捕获装置的第一训练图像捕获装置的输出以及来自所述两个或更多个训练图像捕获装置的第二训练图像捕获装置的同步输出来创建类似数据集，其中所述输出反映相同行人活动；

从来自所述第一训练图像捕获装置的所述输出以及来自所述第二训练图像捕获装置的延迟输出来创建相异数据集，其中所述输出反映不同行人活动；以及

通过基于所述类似数据集和所述相异数据集训练暹罗神经网络来创建包括多个活动聚类的数据集。

5.如权利要求4所述的行人活动识别的方法，进一步包括通过将基于规则的试探应用于来自所述第二训练图像捕获装置的延迟输出以及所述第一训练图像捕获装置的所述输出来细化所述类似数据集和所述相异数据集，以对相异性进行评估。

6.如权利要求1所述的行人活动识别的方法，其中，采用所述暹罗神经网络以便将活动注释为预测活动或者非预测活动以创建带注释的预测数据集和带注释的非预测数据集包括：

执行采用所述暹罗神经网络的注释算法，以便自动注释与所检测活动之前的所指定时间段期间所捕获的活动关联的图像捕获装置输出，以将它加标签为预测所述所检测活动，以便创建被注释为预测活动的数据集；以及

从其中未检测活动的图像捕获装置输出来创建其中未检测所述多个活动聚类中的一个活动聚类的时段之前的所指定时间段期间所捕获的行人活动的否定样本，并且将所述否定样本加标签为不预测所述多个活动聚类中的所述一个活动聚类，以创建被注释为不预测活动的数据集。

7.如权利要求1所述的行人活动识别的方法，其中，部署所述意图预测模型以指配特定活动的似然包括在预测活动时指配“1”而在不预测活动时指配零。

8.如权利要求1所述的行人活动识别的方法，进一步包括基于所述特定活动的所述似然的指配来执行自动交通工具操纵。

9.一种用于识别行人活动的系统，包括：

一个或多个处理器；

一个或多个存储装置，在所述一个或多个存储装置上存储计算机代码，所述计算机代码包括暹罗神经网络；

其中执行所述计算机代码使所述一个或多个处理器执行下列方法：

基于两个或更多个输入训练所述暹罗神经网络，以识别多个活动，其中所述输入是来自两个或更多个单独训练图像捕获装置的相同行人活动的记录；

采用所述暹罗神经网络以便将活动注释为预测活动或者非预测活动，以创建带注释的预测数据集和带注释的非预测数据集；

把来自所述非预测的带注释数据集的空间-时间数据样本以及来自所述预测的带注释数据集的空间-时间数据样本用作输入来训练空间-时间意图预测模型；以及

部署所述意图预测模型，以指配特定活动的似然。

10.如权利要求9所述的系统，其中，利用来自所述附加活动图像捕获装置的连续数据收集来部署所述暹罗神经网络模型以按照无监督方式聚类类似活动包括所述计算机代码使所述一个或多个处理器执行下列步骤：

向包括所述多个活动聚类的所述暹罗神经网络中输入：

来自所述附加活动图像捕获装置的输出；以及

所述多个活动聚类的所述数据集；

11.如权利要求10所述的系统，进一步包括所述一个或多个存储装置，所述一个或多个存储装置具有在其上存储的计算机代码，所述计算机代码在被执行时使所述一个或多个处理器执行下列的步骤：如果所述类似性测量值对于所述多个活动聚类中的所有活动聚类超出所指定测量值范围，则创建与所述当前活动输出关联的新聚类，并且将所述新聚类添加到所述多个活动聚类。

12.如权利要求9所述的系统，其中，训练所述暹罗神经网络以识别所述多个活动包括所述计算机代码使所述一个或多个处理器执行下列的步骤：

13.如权利要求12所述的系统，进一步包括所述一个或多个存储装置，所述一个或多个存储装置具有在其上存储的计算机代码，所述计算机代码在被执行时使所述一个或多个处理器执行下列的步骤：通过将基于规则的试探应用于来自所述第二训练图像捕获装置的延迟输出以及所述第一训练图像捕获装置的所述输出来细化所述类似数据集和所述相异数据集，以对相异性进行评估。

14.如权利要求9所述的系统，其中，采用所述暹罗神经网络以便将活动注释为预测活动或者非预测活动以创建带注释的预测数据集和带注释的非预测数据集包括所述计算机代码使所述一个或多个处理器执行下列的步骤：

执行采用所述暹罗神经网络的注释算法以便自动注释与所检测活动之前的所指定时间段期间所捕获的活动关联的图像捕获装置输出，以将它加标签为预测所述所检测活动，以便创建被注释为预测活动的数据集；以及

15.如权利要求9所述的系统，其中，部署所述意图预测模型以指配特定活动的似然包括所述计算机代码使所述一个或多个处理器执行在预测活动时指配“1”而在不预测活动时指配零的步骤。

16.如权利要求9所述的系统，进一步包括所述一个或多个存储装置，所述一个或多个存储装置具有在其上存储的计算机代码，所述计算机代码在被执行时基于所述特定活动的所述似然的指配来引起自动交通工具操纵。

17.一种自主或半自主控制交通工具，其中所述交通工具包括如权利要求9所述的用于识别行人活动的系统。

18.如权利要求17所述的交通工具，进一步包括：

交通工具控制组件；以及

致动器，其电子连接到所述交通工具控制组件；

其中所述一个或多个存储装置在其上已存储计算机代码，所述计算机代码在被执行时使所述致动器通过所述交通工具控制组件来发起所述交通工具操纵。

19.一种非暂时计算机可读介质，在所述非暂时计算机可读介质上存储计算机代码，所述计算机代码当在一个或多个处理器上执行时使计算机系统执行下列的方法：

部署所述意图预测模型，以指配特定活动的似然。

20.如权利要求19所述的非暂时计算机可读介质，其中，利用来自所述附加活动图像捕获装置的连续数据收集来部署所述暹罗神经网络模型以按照无监督方式聚类类似活动包括：

向包括所述多个活动聚类的所述暹罗神经网络中输入：

来自所述附加活动图像捕获装置的输出；以及

所述多个活动聚类的所述数据集；

21.如权利要求20所述的非暂时计算机可读介质，进一步包括：如果所述类似性测量值对于所述多个活动聚类中的所有活动聚类超出所指定测量值范围，则创建与所述当前活动输出关联的新聚类，并且将所述新聚类添加到所述多个活动聚类。

22.如权利要求19所述的非暂时计算机可读介质，其中，训练所述暹罗神经网络以识别所述多个活动包括：

23.如权利要求22所述的非暂时计算机可读介质，进一步包括通过将基于规则的试探应用于来自所述第二训练图像捕获装置的延迟输出以及所述第一训练图像捕获装置的所述输出来细化所述类似数据集和所述相异数据集，以对相异性进行评估。

24.如权利要求19所述的非暂时计算机可读介质，其中，采用所述暹罗神经网络以便将活动注释为预测活动或者非预测活动以创建带注释的预测数据集和带注释的非预测数据集包括：

25.如权利要求19所述的非暂时计算机可读介质，其中，部署所述意图预测模型以指配特定活动的似然包括在预测活动时指配“1”而在不预测活动时指配零。

26.如权利要求19所述的非暂时计算机可读介质，进一步包括基于所述特定活动的所述似然的指配来执行自动交通工具操纵。