CN111523378A

CN111523378A - 一种基于深度学习的人体行为预测方法

Info

Publication number: CN111523378A
Application number: CN202010165527.5A
Authority: CN
Inventors: 吴哲夫; 吕晓哲; 李玮毅; 肖新宇; 蒋岳锋
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-08-11
Anticipated expiration: 2040-03-11
Also published as: CN111523378B

Abstract

一种基于深度学习的人体行为预测方法，通过视频图像的帧序列，处理视频场景，之后系统进行上下文感知和动作感知，并利用场景中丰富的语义特征进行编码，最后通过系统获得的视觉信息来预测人体行为，包括了未来动作的类型以及活动的路径。该预测方法使用了深度学习网络的方法来处理视频中所含有的丰富的视觉信息，同时可以实现动作类型的预测以及活动路径的预测。该方法使用到了几个联合模型，提高了视频分析能力，从而提高了行为预测的准确率和效率，实现了智能化个性服务，尤其是在安全领域的应用可以降低事故发生率。

Description

一种基于深度学习的人体行为预测方法

技术领域

本发明涉及识别预测技术领域，特别涉及一种基于深度学习的人体行为预测方法。

背景技术

随着社会技术的发展，解密人类的想法以预测他们未来的行为，包括未来行动的路径，在实际应用中凸显出了重要作用，尤其是在各种安全应用中。

对于人的行为分析并进行未来人体行为和活动路径的预测已经在计算机视觉领域得到了大量的引用。这项技术在实际中表现出了非常重要的作用，例如视频检测，异常行为检测和人机交互。虽然已经有了很多工作，但是这项技术仍然具有挑战性。与行为观察不同，行为预测需要在行为尚未发生之前，通过部分观察到的视频序列推测出未来将要发生的行为，以尽早做出抉择。然而，人的思想有时是多变的，这就加大了预测的难度。

近些年来，由于深度学习的发展，人们现在能够通过计算机解析图像或者视频中所含有的大量的视觉信息。使用这些视觉信息来预测未来的人体行为以及活动路径在很多领域中都有非常广泛的作用，通过这项技术有效提高了预测的效率和准确性，可以降低事故发生率，实现智能化服务。

发明内容

为了克服现有技术的不足，本发明通过一种基于深度学习的人体行为预测方法，该方法可以有效地提高人体动作类型预测的效率和精确率。

为达到上述目的，本发明提供如下的技术方案：

一种基于深度学习的人体行为预测方法，该方法包括以下步骤：

步骤1：通过给定的人物视频图像的帧序列，处理视频场景；

步骤2：系统首先关注于提取上下文感知特征，对有关场景的全局信息进行编码；

步骤3：将上下文感知特征与关注于动作本身的动作感知特征结合起来，以此来预测人体动作类型；

步骤4：使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系；

步骤5：分析两种关系，将获得的视觉信息传递给LSTM编码器，将其压缩编码成“视觉特征张量”Q；

步骤6：轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径。

进一步，所述步骤1中，视频中每个场景被处理以获得所有人在不同时刻的空间坐标，基于这些坐标，可以提取出它们的边界框；利用这些边界框，来预测在未来时间内对象的活动路径。

再进一步，所述步骤2和步骤3中，对上下文和动作感知信息进行建模，引入了一种两流体系结构，网络的第一部分由两个流共享，在ImageNet上进行了预训练，可用于物体识别，该层的输出连接到两个子模型：一个用于上下文感知特征功能，另一个用于动作感知特征功能，然后，使用在每个流的输出上定义的交叉熵损失函数，从单个图像训练这两个子模型来完成相同的动作识别任务，为了针对行动预期训练模型，利用了一种的新损失：

其中，N为动作类数，T为输入序列的长度(帧数)，y^t(k)在时间t处编码真实的动作标签，即如果样本属于k类，则y^t(k)＝1，否则为0，

表示由给定模型预测的相应动作标签；

第一类损失函数为：

其中，y_i是样本i的地面真相类标签；

是样本i的第一阶段预测的所有类和所有时间步长的概率向量，第二类损失函数为：

其中

为第二阶段预测的所有类的概率向量，模型的整体损失为：

其中，V为训练序列总数。

所述步骤4中，使用人体行为模块对场景中每个人的视觉信息进行编码，除了标记人的轨迹点，它还对人体的外貌和身体运动进行建模，以上两部分分别输入LSTM编码器，以获得外观和运动特征，为了模拟人的外观变化，使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征，为了捕获人体运动，利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息，应用线性变换将关键点坐标嵌入到LSTM编码器中，除了使用人体行为模块，还使用了交互模块，着眼于人与周围环境之间的相互作用，包括人与场景之间的相互作用以及人与物体之间的相互作用。

所述步骤5中，分析人与场景之间的关系，使用预训练的场景分割模型为每帧提取像素级场景语义类，每次查看人体3×3周围的区域，一个人的人与场景交互关系表示为R^Tobs×C，其中C是卷积层中通道的数量，将一个人的人与场景交互关系输入到到LSTM编码器中，以捕获时间信息并获得R^Tobs×d的最终人与场景交互特征，其中d表示LSTM的隐藏尺寸；

分析人与对象之间的关系，根据几何距离计算几何关系，对对象与人之间的几何关系以及场景中所有对象的类型进行建模，其中，在任何时刻，给定观察到的一个人的边界框(x_b，y_b，w_b，h_b)和场景中的K个其他对象/人({(x_k，y_k，w_k，h_k)|k∈[1，K]})，将这种几何关系编码为G∈R^K×4，其中第k行等价于：

所述步骤6中，使用轨迹生成器，将四种类型的视觉特征，即外观，身体运动，人物于场景和人物于对象，由单独的LSTM编码器编码到相同的维度；利用LSTM解码器处理解码后的视觉特征，并实现未来人体活动路径的预测，给定一个人最近一次的轨迹输出，通过下式提取嵌入的轨迹：e_t-1＝tanh(W_e[x_t-1,y_t-1])+b_e∈R^d，其中，[x_t-1，y_t-1]是时间t-1内的人体的轨迹预测，而W_e和b_e是可学习的参数。

本发明的有益效果为：使用了深度学习网络的方法来处理视频中所含有的丰富的视觉信息，同时可以实现动作类型的预测以及活动路径的预测。该方法使用到了几个联合模型，提高了视频分析能力，从而提高了行为预测的准确率和效率，实现了智能化个性服务，尤其是在安全领域的应用可以降低事故发生率。

附图说明

图1为本发明技术方案的整体流程图；

图2为本发明公开一实施例的预测人体动作类型的方法的简要示意图；

图3为本发明公开一实施例用于预测人体动作类型的网络架构的简要示意图；

图4为本发明公开一实施例在预测动作类型时用于提取动作感知特征的子网络模型简要示意图；

图5为本发明公开一实施例的人体活动路径预测的方法的示意性流程图。

具体实施方式

为了更清楚地说明本公开实施例的方法，下面将结合实施例的附图作书名，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非本发明的限制。

参照图1～图4，一种基于深度学习的人体行为预测方法，该方法包括以下步骤：

步骤1：通过给定的人物视频图像的帧序列，处理视频场景；

本发明基于深度学习领域，提出了一种基于深度学习的人体行为预测方法，包括未来动作类型的预测以及活动路径的预测。

图2是本发明公开一实施例的预测人体动作类型的方法的简要示意图。

在本发明的一个实施例中，给定一串视频顺序数据，为了应对行动预期，开发了新颖的多阶段循环架构。该架构由上下文和动作感知信息的阶段组合组成。

进一步地，在本发明的一个实施例中，系统预测出未来动作的类型。在第一个阶段，系统首先通过从整个RGB场景图像中提取特征来关注全局、上下文感知的特征信息，通过LSTM编码器对有关场景的全局信息进行编码。然后在第二个阶段，利用LSTM将这些上下文感知特征与通过利用特定于类的激活而获得的动作感知特征结合在一起，这些激活通常对应于动作发生的区域。动作感知只关注于动作本身。简而言之，系统首先提取上下文信息特征，然后将其与动作感知特征合并，以预测动作类型。其中，T为视频帧序列的长度，如果人体动作在t时刻的样本标签属于k类，那么y^t(k)＝1，否则为0。

图3是本发明一实施例用于预测人体动作类型的网络架构的简要示意图。

进一步地，在本发明的这个实施例中，为了对上下文和动作感知信息进行建模，引入了一种两流体系结构。该网络的第一部分由两个流共享，并且直到conv5-2都对应于VGG-16网络，在ImageNet上进行了预训练，可用于物体识别。该层的输出连接到两个子模型：一个用于上下文特征提取功能，另一个用于动作特征提取功能。然后，使用在每个流的输出上定义的交叉熵损失函数，从单个图像训练这两个子模型来完成相同的动作识别任务。

其中，第一个模型从conv5-3到最后一个完全连接的层，此子模型类似于VGG-16，最后一个完全连接的层中的单元数从1000(原始的1000路ImageNet分类模型)更改为活动数N。此子模型着重于为每个活动提取整个场景的深层表示，并因此结合了上下文。然后，将其fc7层的输出作为上下文感知特征。

图4为本发明公开一实施例在预测动作类型时用于提取动作感知特征的子网络模型(即第二个子模型)的简要示意图。

给定经过微调的特征提取网络，引入了一个新层来更改conv5-3的输出。这使得系统可以筛选出不相关的conv5-3特征，从而专注于动作特征本身。动作感知特征将作为最后一个完全连接层的输出。

第二个子模型旨在提取着重于动作本身的特征。受到前人工作的启发，在上下文中，用类激活映射(CAM)表示输入图像中对预测每个类别标签贡献最大的区域。换句话说，它提供有关动作位置的信息。这使得无需任何其他注释即可实现此目的。

令f_l(x,y)表示在空间位置(x，y)最后一个卷积层中单位l的激活。通过执行全局平均池来获得每个类k的分数S_k，对于每个单位l，特征为：

F_l＝∑_x,yf_l(x,y)，其次是具有权重

的线性层。

于是，

在(x，y)位置为k类的CAM可以计算为：

利用CAM提取动作感知特征。将CAM与模型的conv5-3层的输出结合使用。conv5-3层提取了高级特征，这些特征提供了非常丰富的图像表示，并且通常对应于对象的最有区别的部分。因此，将新层合并到子模型中，其输出可以表示为：

A_k(x,y)＝conv_5-3(x,y)×ReLU(M_k(x,y))，

其中，ReLU(M_k(x,y))＝max(0,M_k(x,y))。

这个新层是完全连接的层，将动作感知特性作为相应的fc7层的输出。

为了有效地结合上述上下文感知和动作感知特征中包含的信息，设计了一个多阶段LS TM模型。该模型首先关注于上下文感知功能，该功能对有关整个图像的全局信息进行编码。然后，它将第一阶段的输出与动作感知功能相结合，以提供完善的类预测。

为了针对行动预期训练此模型，利用了一种的新损失：

其中，N为动作类数，T为输入序列的长度(帧数)，y^t(k)在时间t处编码真实的动作标签，即如果样本属于k类，则y^t(k)＝1，否则为0。

表示由给定模型预测的相应动作标签。

在模型的第一阶段将上下文感知特征作为输入，并使其通过LSTM单元层，然后经过完全连接的层，该层通过softmax操作输出每个动作类的概率。这一阶段单样本i的损失为：

式中，y_i是样本i的地面真相类标签；

是样本i的第一阶段预测的所有类和所有时间步长的概率向量。

第二阶段旨在结合上下文感知和动作感知特征信息。它的结构与第一阶段的结构相同，以通过softmax操作输出类概率。通过将LS TM层的隐藏激活与动作感知特征连接起来来，实现了它的输入将第一阶段的输出与我们的动作感知特征合并。这一阶段样本i的损失表示为：

其中

为第二阶段预测的所有类的概率向量。

模型的整体损失为：

其中，V为训练序列总数。

输入的RGB帧通过模型进行正向传播。在每个帧上获得每个类别的概率向量。通过利用直到时间t的所有帧的预测提高了鲁棒性。

在本发明的另一个实施例中，提供了一种人体活动路径的预测方法。

在本发明的这个实施例中，通过视频图像的帧序列，处理视频场景并提取出人物边界框，进一步包括了：利用Social-LSTM，首先处理视频中每个场景，以获得不同时刻所有人的空间坐标。基于这些坐标，自动提取人物的边界框。从一开始到T_obs这段时间内系统观察所有人的边界框，并将在后续的步骤内预测他们在未来T_obs+1到T_pred这段时间内的行为标签和活动路径。

在提取得到人物的边界框之后，通过一个端到端的多任务学习系统，利用场景中丰富的语义特征对人进行编码，同时涉及到了人体行为模块和交互模块。

人体行为模块对场景中每个人的视觉信息进行编码，并对人体的外表和身体运动进行建模。对于一个人的模型外观变化，利用预先训练好的具有“RoIAlign”的对象检测模型为每个人的边界框提取固定大小的CNN特征。沿着每个人的空间维度对特征进行平均，并将它们输入到LSTM编码器。最后，得到了T_obs×d的特征表示，其中d表示LSTM的隐藏尺寸。为了捕捉人身体的运动，利用在MSCOCO数据集上训练的人体关键点检测模型来提取人体的关键点信息。在输入LSTM编码器之前，应用线性变换来嵌入关键点坐标。

交互模块负责查看人与周围环境的相互关系，包括了人与场景的交互以及人与物体的交互。

其中，在观察人与场景的交互时，为了编码一个人的附近场景，首先使用预先训练的场景分割模型来提取每个帧的像素级场景语义类。这些场景的语义特征是T_obs×h×w的整数(类索引)，这里的h，w用来表示空间分辨率。将整数张量转换为N_S二进制掩码，每个类对应一个掩码，并沿时间维度平均，最终产生了N_S个实值掩码，并且每个掩码的大小为h×w。接着在掩码特征上应用了两个卷积层，步长为2，以得到两个比例的场景CNN特征。

根据之前给定的一个人的坐标，从卷积特征映射中将场景特征集中在人的当前位置。在每个时刻特征的接收场，即模型所查看的人周围的空间窗口的大小，取决于从中汇集的比例以及卷积核的尺寸。在此将标度设置为1，核大小设置为3，这意味着模型在每个时间瞬间查看人员的3×3周围区域。一个人的人与场景交互关系表示为R^Tobs×C，其中C是卷积层中通道的数量。将其输入到LSTM编码器中，以捕获时间信息并获得R^Tobs×d的最终人与场景交互特征。

对于在观察人与物体的交互关系特征时，系统的模块显式地建模场景中所有对象与人的几何关系和对象类型。在任何时刻，给定观察到的一个人的边界框(x_b，y_b，w_b，h_b)和场景中的K个其他对象/人({(x_k，y_k，w_k，h_k)|k∈[1，K]})，将这种几何关系编码为G∈R^K×4，其中第k行等价于：

这种编码根据几何距离和框的大小来计算几何关系。使用对数函数来反映观察到的交互，也就是说人体的运动轨迹更有可能受到近距离物体或人的影响。至于对象类型，仅使用一种热编码即可获得R^K×No的特征，其中No是对象类的总数。

然后，将当前的几何特征和对象类型特征嵌入到三维矢量中，并将嵌入的特征馈送到LSTM编码器中，以R^Tobs×d的形式获得最终特征。

人体外观，身体运动，人物场景和人物对象这四种视觉特征，由单独的LSTM编码器编码成相同的尺寸。

此外，给定一个人最近一次的轨迹输出，通过下式提取嵌入的轨迹：

e_t-1＝tanh(W_e[x_t-1,y_t-1])+b_e∈R^d

其中，[x_t-1，y_t-1]是时间t-1内的人体的轨迹预测，而W_e和b_e是可学习的参数。

然后，将其嵌入到该轨迹的另一个LSTM编码器中。所有编码器的隐藏状态都打包到一个名为Q∈R^M×Tobs×d的张量中，其中M＝5，用于表示特征总数，d表示LSTM的隐藏尺寸。

使用LSTM解码器直接预测XY坐标西中人体的未来的运动轨迹。该解码器的隐藏状态是使用人员轨迹LSTM编码器的最后状态初始化的。在每个时刻，将根据解码器状态并通过完全连接的层来计算xy坐标。

解码器的状态表示为：

h_t＝LSTM(h_t-1,[e_t-1,q_t])，

其中，q_t是一个重要的关注特征向量，它总结了输入特征Q中的显着线索。系统采用了有效的注意力机制，其关键思想是将多个特征投影到相关空间中，通过注意机制可以更轻松地捕获区分性特征。在每个时刻t计算相关矩阵为：

S^t∈R^M×Tobs，

其中：

使用点积相似性来测量，并且符号：表示一个切片运算符，可从该维中提取所有元素。

然后计算两个注意矩阵：

其中所涉及到的特征向量由以下表达式给出：

焦点注意力对不同特征之间的相关性进行建模，并将它们概括为低维参与向量。

在本发明的描述中，需要理解的是，本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的部分或者方法涵盖出现在该词后面列举的部分或者方法及其等同，而不排除其他部分。“上”、“下”、“左”、“右”、“前”、“后”等仅用于表示相对位置关系。上述为了便于描述本发明和简化描述，本公开省略了部分已知的详细说明。因此不能理解为对本发明的限制。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改。

Claims

1.一种基于深度学习的人体行为预测方法，其特征在于，该方法包括以下步骤：

步骤1：通过给定的人物视频图像的帧序列，处理视频场景；

2.根据权利要求1所述的基于深度学习的人体行为预测方法，其特征在于，所述步骤1中，视频中每个场景被处理以获得所有人在不同时刻的空间坐标，基于这些坐标，可以提取出它们的边界框；利用这些边界框，来预测在未来时间内对象的活动路径。

3.根据权利要求1或2所述的基于深度学习的人体行为预测方法，其特征在于，所述步骤2和步骤3中，对上下文和动作感知信息进行建模，引入了一种两流体系结构，网络的第一部分由两个流共享，在ImageNet上进行了预训练，可用于物体识别，该层的输出连接到两个子模型：一个用于上下文感知特征功能，另一个用于动作感知特征功能，然后，使用在每个流的输出上定义的交叉熵损失函数，从单个图像训练这两个子模型来完成相同的动作识别任务，为了针对行动预期训练模型，利用了一种的新损失：

表示由给定模型预测的相应动作标签；

第一类损失函数为：

其中，y_i是样本i的地面真相类标签；

其中

为第二阶段预测的所有类的概率向量，模型的整体损失为：

其中，V为训练序列总数。

4.根据权利要求1或2所述的基于深度学习的人体行为预测方法，其特征在于，所述步骤4中，使用人体行为模块对场景中每个人的视觉信息进行编码，除了标记人的轨迹点，它还对人体的外貌和身体运动进行建模，以上两部分分别输入LSTM编码器，以获得外观和运动特征，为了模拟人的外观变化，使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征，为了捕获人体运动，利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息，应用线性变换将关键点坐标嵌入到LSTM编码器中，除了使用人体行为模块，还使用了交互模块，着眼于人与周围环境之间的相互作用，包括人与场景之间的相互作用以及人与物体之间的相互作用。

5.根据权利要求1或2所述的基于深度学习的人体行为预测方法，其特征在于，所述步骤5中，分析人与场景之间的关系，使用预训练的场景分割模型为每帧提取像素级场景语义类，每次查看人体3×3周围的区域，一个人的人与场景交互关系表示为R^Tobs×C，其中C是卷积层中通道的数量，将一个人的人与场景交互关系输入到到LSTM编码器中，以捕获时间信息并获得R^Tobs×d的最终人与场景交互特征，其中d表示LSTM的隐藏尺寸；

6.根据权利要求1或2所述的基于深度学习的人体行为预测方法，其特征在于，所述步骤6中，使用轨迹生成器，将四种类型的视觉特征，即外观，身体运动，人物于场景和人物于对象，由单独的LSTM编码器编码到相同的维度；利用LSTM解码器处理解码后的视觉特征，并实现未来人体活动路径的预测，给定一个人最近一次的轨迹输出，通过下式提取嵌入的轨迹：e_t-1＝tanh(W_e[x_t-1,y_t-1])+b_e∈R^d，其中，[x_t-1，y_t-1]是时间t-1内的人体的轨迹预测，而W_e和b_e是可学习的参数。