CN108256489A

CN108256489A - 基于深度强化学习的行为预测方法及装置

Info

Publication number: CN108256489A
Application number: CN201810067588.0A
Authority: CN
Inventors: 鲁继文; 周杰; 陈磊; 段岳圻
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2018-07-06
Anticipated expiration: 2038-01-24
Also published as: CN108256489B

Abstract

本发明公开了一种基于深度强化学习的行为预测方法及装置，其中，方法包括：通过视频图像的帧提取人体骨架信息的动作特征；将动作特征根据人体机构化信息进行特征编码；通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。该方法通过在人体的重要位置提取局部图像块，利用图像块的特征的有序排列，从而在预测过程用有效地利用人体的结构化信息，有效地提升了行为预测的精度和性能。

Description

基于深度强化学习的行为预测方法及装置

技术领域

本发明涉及模式识别技术领域，特别涉及一种基于深度强化学习的行为预测方法及装置。

背景技术

对于人的行为分析已经在计算机视觉领域种得到了广泛的引用。作为行为分析的一个重要的分支，预测人的行为在实际中表现出了非常重要的应用，例如视频检测，异常行为检测和机器人交互。尽管在该领域中已经有很多工作，但是行为预测这个任务仍然是非常具有挑战性的任务。由于每个人的行为存在巨大的差异并且每个动作在时间和空间上存在明显的不同，因此行为预测的仍然存在巨大的困难。从一个完整的视频中识别动作通常是一件非常困难的事。例如，预测一个正要倒下的人能够尽早地救援他。于行为识别不同，行为预测的目的是充分利用观测到的部分视频，尽早地预测行为。行为预测的定义为在行为尚未完成的时候，通过部分观测的视频或序列推断正在进行的行为。

基于部分观测的视频从空域和时域两个部分对正在实施的行为进行预测，关键是对实施的过程进行建模。相关技术中的大部分针对行为预测的工作可以分为主要的两大类：一类是通过模板匹配利用可靠的特征；另一类是开发分类模型。其中，第一类方法目标是设计一种基于模板的模型进行预测。然而，这种模板很容易被离群的样本影响，并且当实施的行为存在较大的姿态差异时，这类方法的性能通常会不理想。第二类方法致力于开发行为的时域特性，同时预测的准确性会随着观测的帧数增加而增加。

然而，大多数现有的方法提取的是每一帧的全局特性从而利用时域信息。这类方法忽略了人体的必要的结构化信息。此外，全局特征的鉴别能力会被来自背景的噪声严重影响，如图1所示，从整帧提取传统特征的过程中会同时捕获噪声，有待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度强化学习的行为预测方法，该方法可以有效地提升了行为预测的精度和性能。

本发明的另一个目的在于提出一种基于深度强化学习的行为预测装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度强化学习的行为预测方法，包括以下步骤：通过视频图像的帧提取人体骨架信息的动作特征；将所述动作特征根据人体机构化信息进行特征编码；通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。

本发明实施例的基于深度强化学习的行为预测方法，在特征提取阶段，通过人体的骨架对人体关键部位的局部特征进行提取，从而有效地抑制背景噪声，提高特征提取的效率和效果；然后，在特征编码阶段，通过按照人体骨架的顺序进行有效地排列，从而对人体不同部位的特征进行有序地编码，从而使编码后的特征包含人体的结构化信息；最后，在行为的表达阶段，通过深度强化学习的方法，针对不同的行为筛选不同的部位的特征作为动作的有效表达，有效提升行为预测的性能。

另外，根据本发明上述实施例的基于深度强化学习的行为预测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述通过视频图像的帧提取人体骨架信息的局部特征，进一步包括：通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取；在每一个关节点上选取备选框，以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。

进一步地，在本发明的一个实施例中，所述根据人体机构化信息进行特征编码，进一步包括：将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示；针对每一个部位进行时域的池化，以得到动作表示；将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。

进一步地，在本发明的一个实施例中，所述通过深度强化学习进行人体行为表达，进一步包括：将所述动作特征作为出示状态，并根据当前额状态确定当前所要采取的动作，以通过状态转移方程得到新的状态，直至状态稳定，停止循环。

进一步地，在本发明的一个实施例中，所述状态转移方程为：

其中，为t时刻当前状态，λ为一个常系数用来调整两项之间的关系，为初始状态，为t-1时刻采取的动作，为t-1时刻的状态，ω为视频样本的序号，t为时间刻度。

为达到上述目的，本发明另一方面实施例提出了一种基于深度强化学习的行为预测装置，包括：提取模块，用于通过视频图像的帧提取人体骨架信息的动作特征；编码模块，用于将所述动作特征根据人体机构化信息进行特征编码；预测模块，用于通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。

本发明实施例的基于深度强化学习的行为预测装置，在特征提取阶段，通过人体的骨架对人体关键部位的局部特征进行提取，从而有效地抑制背景噪声，提高特征提取的效率和效果；然后，在特征编码阶段，通过按照人体骨架的顺序进行有效地排列，从而对人体不同部位的特征进行有序地编码，从而使编码后的特征包含人体的结构化信息；最后，在行为的表达阶段，通过深度强化学习的方法，针对不同的行为筛选不同的部位的特征作为动作的有效表达，有效提升行为预测的性能。

另外，根据本发明上述实施例的基于深度强化学习的行为预测装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述提取模块，进一步包括：第一提取单元，用于通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取；第二提取单元，用于在每一个关节点上选取备选框，以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。

进一步地，在本发明的一个实施例中，所述编码模块，进一步包括：第一编码单元，用于将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示；获取单元，用于针对每一个部位进行时域的池化，以得到动作表示；第二编码单元，用于将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为相关技术中整帧提取传统特征的过程中同时捕获噪声的示意图；

图2为根据本发明实施例的基于深度强化学习的行为预测方法的流程图；

图3为根据本发明一个实施例的基于深度强化学习的行为预测方法的流程图；

图4为根据本发明一个实施例的基于深度强化学习的行为预测方法的原理示意图；

图5为根据本发明一个实施例的状态转移的过程示意图；

图6为根据本发明实施例的基于深度强化学习的行为预测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在介绍本发明实施例的基于深度强化学习的行为预测方法及装置之前，先简单介绍下本发明实施例涉及到的行为预测和深度强化学习领域。

(1)行为预测：如果只是将行为预测作为行为分类的一种组合是非常不理想的方式。相关技术中的行为识别方法有一个假设，行为的时域信息是完整的，即行为已经完成。然而，对于行为预测，行为的时域信息只能观测到一部分。大多数现有的行为预测的方法可以分为两类：一类是利用可靠的特征，另一类是利用分类模型。对于第一类方法，主要是通过设计一种模板进行行为预测。例如，相关技术提出了IBoW和DBoW的方法进行行为预测。该方法的行为模型针对每一个特定片段计算对应的平均特征，然而这个模型在如下的情形下会存在明显的困难，当同种的动作存在巨大的时间域的变化并且这种方法对于离群样本比较敏感。相关技术利用在多个尺寸上利用模板获取和比较人的行为。第二类方法致力于挖掘人的行为的时域信息。例如，相关技术设计了一种行为预测的模型，通过利用稀疏编码从而使用从训练集种提取的基进行特征学习和重新构建测试视频。在模型中，使用长短片段解决了同类动作的类内变化。相关技术还提出了一种多个时域尺寸SVM(Support VectorMachine，支持向量机)进行行为预测并且该方法充分利用了片段的演进过程，使用越多的帧会产生越好的预测性能。

(2)深度强化学习：近来，随着深度学习的强力支持，强化学习领域再次崛起。针对具有挑战性的任务，深度强化学习比监督学习的方法能够更为有效地学习更好的策略，并且深度强化学习能够分为两个主要的结构：Q-网络和策略梯度。深度强化学习技术的引入是为了优化使用滞后奖励的机制对序列模型进行优化并且在一系列问题中获得了非常有潜力的结果。例如，相关技术中使用深度Q-网络在Atari游戏中实现了真人级别的性能；相关技术还设计了一个拥有32个动作的架构从而移动焦点并且当找到目标时对agent进行奖励；相关技术为边界框定义了一种迁移集合作为agent的动作并且随着循环，当边界框移动靠近真实值时，对agent进行奖励。最近，深度强化学习被应用于许多个计算机视觉的任务中。例如，相关技术采用一种策略梯度的方法在物体姿态估计的任务种。相关技术提出了一种新的多个agent的Q-学习方法，用门控制连接不同的Q-网络从而促进可学习的agent间的交互。相关技术针对图片解释使用一个策略网络和一个求值网络提出了一种新的决策框架。然而，在行为分析方面特别是行为预测方面，基本没有有效的进展。

本发明正是基于上述领域，而提出的一种基于深度强化学习的行为预测方法及装置。

下面参照附图描述根据本发明实施例提出的基于深度强化学习的行为预测方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度强化学习的行为预测方法。

图2是本发明实施例的基于深度强化学习的行为预测方法的流程图。

如图2所示，该基于深度强化学习的行为预测方法包括以下步骤：

在步骤S201中，通过视频图像的帧提取人体骨架信息的动作特征。

其中，在本发明的一个实施例中，通过视频图像的帧提取人体骨架信息的局部特征，进一步包括：通过人体姿态估计方法对视频图像的帧进行人体骨架的提取；在每一个关节点上选取备选框，以对备选框中的图像进行空域的特征提取得到人体骨架信息的局部特征。

可以理解的是，结合图2和图3所示，本发明实施例通过使用人体骨架作为提取局部特征的依据，从而在每一帧图像上确定一系列备选框，然后在每一个备选框中提取局部特征作为该备选框中图像的表示，将提取的局部特征按照人体骨架节点的顺序进行串联排列，从而得到一幅图像帧的动作特征的表达。对整个观测视频的每一帧的动作特征进行时域上的池化得到该观测视频的有效表示，通过深度强化学习对视频中动作的每一个部位进行筛选，选择出最能够表示动作的部位作为视频动作的最终表示，用于人体行为的预测。

具体地，本发明实施例可以基于人体骨架信息的局部特征提取，也就是说，本发明实施例可以采用人体姿态估计方法对视频图像的帧进行人体骨架的提取，然后在每一个关节点上选取一个备选框，对备选框中的图像进行空域的特征提取得到其中J_p,e表示第p个人的第e节点，n表示视频帧的序号。

在步骤S202中，将动作特征根据人体机构化信息进行特征编码。

其中，在本发明的一个实施例中，根据人体机构化信息进行特征编码，进一步包括：将人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示；针对每一个部位进行时域的池化，以得到动作表示；将视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。

可以理解的是，本发明实施例可以利用人体机构化信息的特征编码，也就是说，本发明实施例可以将按照人体骨架的顺序进行串联得到：

其中，Γ(·)表示特征的串联，示第p个人第n帧中动作特征的表示。针对每一个部位进行时域的池化，如下所示：

其中，L_p,e为第p个人第e个节点的动作，为第p个人的第e节点在第1视频帧的特征。

从而得到该视频第p个人第e个节点的动作表示L_p,e，然后将该视频种的所有人的所有节点按照人的顺序进行串联得到：

V_ω＝Γ_u∈U(L_u)

其中，U＝P×E，V_ω为该视频在观测到的部分的动作。

在步骤S203中，通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。

其中，在本发明的一个实施例中，通过深度强化学习进行人体行为表达，进一步包括：将动作特征作为出示状态，并根据当前额状态确定当前所要采取的动作，以通过状态转移方程得到新的状态，直至状态稳定，停止循环。

进一步地，在本发明的一个实施例中，状态转移方程为：

可以理解的是，结合图4和图5所示，本发明实施例可以基于深度强化学习的人体行为表达，首先，定义深度强化学习种的几个重要的量：

状态：

其中，为t时刻状态，Γ表示串联操作，为t时刻的第u个部分，ω表示视频序号。

动作：

其中，为t时刻采取的动作，为t时刻第1个部分采取的动作，b为特征的该部分特征的维度。

每一次循环的奖励：

其中，为t时刻的奖励值，为t-1时刻的奖励值得绝对值，为t时刻对动作的预测标签，∈_ω为视频的实际标签。

最终的奖励：

根据深度强化学习方法，本发明将步骤S202中提取的视频的动作特征作为出示状态根据当前额状态能够确定当前所要采取的动作然后根据状态转移方程得到新的状态状态转移方程如下：

直到状态稳定使，循环停止。

在训练过程中，状态稳定使指判断的行为与真实的行为一致；而在测试过程中，稳定状态是指预测的行为不再发生改变。在深度强化学习对关节点筛选的过程中，会将干扰节点剪去，从而将传统方法无法正确预测的动作预测正确。

根据本发明实施例提出的基于深度强化学习的行为预测方法，在特征提取阶段，通过人体的骨架对人体关键部位的局部特征进行提取，从而有效地抑制背景噪声，提高特征提取的效率和效果；然后，在特征编码阶段，通过按照人体骨架的顺序进行有效地排列，从而对人体不同部位的特征进行有序地编码，从而使编码后的特征包含人体的结构化信息；最后，在行为的表达阶段，通过深度强化学习的方法，针对不同的行为筛选不同的部位的特征作为动作的有效表达，有效提升行为预测的性能。

其次参照附图描述根据本发明实施例提出的基于深度强化学习的行为预测装置。

图6是本发明实施例的基于深度强化学习的行为预测装置的结构示意图。

如图6所示，该基于深度强化学习的行为预测装置10包括：提取模块100、编码模块200和预测模块300。

其中，提取模块100用于通过视频图像的帧提取人体骨架信息的动作特征。编码模块200用于将动作特征根据人体机构化信息进行特征编码。预测模块300用于通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。本发明实施例的装置10通过在人体的重要位置提取局部图像块，利用图像块的特征的有序排列，从而在预测过程用有效地利用人体的结构化信息，有效地提升了行为预测的精度和性能。本发明实施例的装置10可以通过在人体的重要位置提取局部图像块，利用图像块的特征的有序排列，从而在预测过程用有效地利用人体的结构化信息，有效地提升了行为预测的精度和性能。

进一步地，在本发明的一个实施例中，提取模块100进一步包括：第一提取单元和第二提取单元。其中，第一提取单元用于通过人体姿态估计方法对视频图像的帧进行人体骨架的提取。第二提取单元用于在每一个关节点上选取备选框，以对备选框中的图像进行空域的特征提取得到人体骨架信息的局部特征。

进一步地，在本发明的一个实施例中，编码模块200进一步包括：第一编码单元、获取单元和第二编码单元。其中，第一编码单元用于将人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示。获取单元用于针对每一个部位进行时域的池化，以得到动作表示。第二编码单元用于将视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。

进一步地，在本发明的一个实施例中，通过深度强化学习进行人体行为表达，进一步包括：将动作特征作为出示状态，并根据当前额状态确定当前所要采取的动作，以通过状态转移方程得到新的状态，直至状态稳定，停止循环。

进一步地，在本发明的一个实施例中，状态转移方程为：

需要说明的是，前述对基于深度强化学习的行为预测方法实施例的解释说明也适用于该实施例的基于深度强化学习的行为预测装置，此处不再赘述。

根据本发明实施例提出的基于深度强化学习的行为预测装置，在特征提取阶段，通过人体的骨架对人体关键部位的局部特征进行提取，从而有效地抑制背景噪声，提高特征提取的效率和效果；然后，在特征编码阶段，通过按照人体骨架的顺序进行有效地排列，从而对人体不同部位的特征进行有序地编码，从而使编码后的特征包含人体的结构化信息；最后，在行为的表达阶段，通过深度强化学习的方法，针对不同的行为筛选不同的部位的特征作为动作的有效表达，有效提升行为预测的性能。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度强化学习的行为预测方法，其特征在于，包括以下步骤：

通过视频图像的帧提取人体骨架信息的动作特征；

将所述动作特征根据人体机构化信息进行特征编码；以及

通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。

2.根据权利要求1所述的基于深度强化学习的行为预测方法，其特征在于，所述通过视频图像的帧提取人体骨架信息的局部特征，进一步包括：

通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取；

在每一个关节点上选取备选框，以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。

3.根据权利要求1所述的基于深度强化学习的行为预测方法，其特征在于，所述根据人体机构化信息进行特征编码，进一步包括：

将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示；

针对每一个部位进行时域的池化，以得到动作表示；

将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。

4.根据权利要求1所述的基于深度强化学习的行为预测方法，其特征在于，所述通过深度强化学习进行人体行为表达，进一步包括：

将所述动作特征作为出示状态，并根据当前额状态确定当前所要采取的动作，以通过状态转移方程得到新的状态，直至状态稳定，停止循环。

5.根据权利要求4所述的基于深度强化学习的行为预测方法，其特征在于，所述状态转移方程为：

6.一种基于深度强化学习的行为预测装置，其特征在于，包括：

提取模块，用于通过视频图像的帧提取人体骨架信息的动作特征；

编码模块，用于将所述动作特征根据人体机构化信息进行特征编码；以及

预测模块，用于通过深度强化学习对人体行为过程中有效的部位进行筛选，以预测人的行为。

7.根据权利要求6所述的基于深度强化学习的行为预测装置，其特征在于，所述提取模块，进一步包括：

第一提取单元，用于通过人体姿态估计方法对所述视频图像的帧进行人体骨架的提取；

第二提取单元，用于在每一个关节点上选取备选框，以对所述备选框中的图像进行空域的特征提取得到所述人体骨架信息的局部特征。

8.根据权利要求6所述的基于深度强化学习的行为预测装置，其特征在于，所述编码模块，进一步包括：

第一编码单元，用于将所述人体骨架信息的动作特征根据人体骨架的顺序进行串联得到特征表示；

获取单元，用于针对每一个部位进行时域的池化，以得到动作表示；

第二编码单元，用于将所述视频图像的所有人的所有节点根据人的顺序串联得到视频在观测到的部分的动作。

9.根据权利要求6所述的基于深度强化学习的行为预测装置，其特征在于，所述通过深度强化学习进行人体行为表达，进一步包括：

10.根据权利要求9所述的基于深度强化学习的行为预测装置，其特征在于，所述状态转移方程为：