CN116434335A

CN116434335A - 动作序列识别和意图推断方法、装置、设备及存储介质

Info

Publication number: CN116434335A
Application number: CN202310335615.9A
Authority: CN
Inventors: 任子良; 罗里; 梁展豪; 秦勇; 吴成锐; 陈嘉韶; 李银凤
Original assignee: Guangdong Ryan Technology Co ltd; Dongguan University of Technology
Current assignee: Guangdong Ryan Technology Co ltd; Dongguan University of Technology
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-14
Anticipated expiration: 2043-03-30
Also published as: CN116434335B

Abstract

本申请涉及一种动作序列识别和意图推断方法、装置、设备及存储介质，实现对动作序列的意图推断，进一步提升意图推断的有效性和适用性。动作序列识别和意图推断方法，包括：获取包含多个离散动作的动作序列，动作序列包括RGB图像序列、深度图像序列和骨架图像序列；根据RGB图像序列和深度图像序列生成伪视频图像，以及根据骨架图像序列生成伪骨架图像；将伪视频图像和伪骨架图像输入到语义特征提取神经网络模型，提取多个离散动作的高层语义特征；将伪骨架图像输入到关联特征提取神经网络模型，提取多个离散动作的逻辑关联特征；对高层语义特征和逻辑关联特征进行特征融合处理，得到动作序列的意图推断结果。

Description

动作序列识别和意图推断方法、装置、设备及存储介质

技术领域

本申请属于动作识别技术领域，尤其涉及一种动作序列识别和意图推断方法、装置、设备及存储介质。

背景技术

人体动作识别作为人工智能的重要研究分支，结合机器视觉、动作分割和多任务学习等技术，可以实现复杂场景下的无扰式的行为者意图推断。在日常生活工作中，正确高效地对行为者的意图进行推断，可以极大的提高生活体验感和工作效率，例如，在对行为者的生活辅助过程中，可以对行为者的动作轨迹进行识别，并通过智能算法对行为者的意图进行推断，从而可以预测和辅助行为者完成目标动作。

一方面，人体动作的识别可以通过机器视觉和智能算法实现，但由于单一模态数据很容易受到光视角等背景噪声的影响而识别准确率不高，尤其是在一些光线不好的应用场景中更加难以准确识别行为者的动作；另一方面，目前的人体动作识别大多是针对离散动作的离散识别，难以实现行为者的一系列动作序列之后的意图推断。

发明内容

有鉴于此，本申请实施例提供了一种动作序列识别和意图推断方法、装置、设备及存储介质，以解决现有技术中难以实现行为者一系列的动作序列之后的意图推断的问题。

本申请实施例的第一方面提供了一种动作序列识别和意图推断方法，包括：

获取包含多个离散动作的动作序列，所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列；

根据所述RGB图像序列和所述深度图像序列生成伪视频图像，以及根据所述骨架图像序列生成伪骨架图像，其中，所述伪视频图像包含RGB图像序列和所述深度图像序列的特征，所述伪骨架图像包含所述伪骨架图像的特征；

将所述伪视频图像和所述伪骨架图像输入到语义特征提取神经网络模型，提取多个所述离散动作的高层语义特征；

将所述伪骨架图像输入到关联特征提取神经网络模型，提取多个所述离散动作的逻辑关联特征；

对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果。

在一种实施例中，所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果，包括：

对多个所述高层语义特征进行特征融合处理，并将特征融合后的所述高层语义特征输入到第一卷积神经网络模型中，得到第一融合特征；

将多个所述高层语义特征按所述动作序列的顺序依次输入到第二卷积神经网络模型，并与所述逻辑关联特征进行特征融合处理，得到第二融合特征；

对所述第一融合特征、所述第二融合特征和所述逻辑关联特征进行特征融合和正则化处理，得到所述动作序列的意图推断结果。

在一种实施例中，所述获取包含多个离散动作的动作序列，包括：

基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理，获取包含多个所述离散动作的所述动作序列；

所述基于概率分布差的动态间接检测方法对采集到的原始视频进行动作分割处理，包括：

在所述原始视频中确定滑动窗口的起始帧位置和滑动帧位置；

获取所述起始帧位置的所述离散动作的概率分布值，以及所述滑动帧位置对应的所述离散动作的概率分布值；

根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值，确定所述离散动作的动作边界；

根据所述动作边界将所述原始视频划分为多个所述离散动作。

在一种实施例中，所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值，确定所述离散动作的动作边界，包括：

计算所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值的差值PDD_i；

根据所述差值PDD_i，确定所述离散动作的动作边界，其中，

W_f()为滑动窗口，f为窗口大小，f小于或等于最小动作帧数，i为滑动窗口的起始帧位置，l为滑动帧步长，i+l为滑动窗口的滑动帧位置，PD_W为滑动窗口的概率分布值，K为离散动作种类数，c_n表示具体的离散动作类别，_A(_n)表示在滑动帧位置被识别为c的概率，P_B(_n)表示在起始帧位置被识别为c的概率。

在一种实施例中，所述根据所述骨架图像序列生成伪骨架图像，包括：

将所述骨架图像序列的关节点的坐标映射为矩阵；

根据所述矩阵中每个所述关节点的时间变化值，构建关节运动结构；

根据所述关节运动结构，构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动；

根据所述基于量级的第一关节运动和所述基于方向的第二关节运动，生成所述伪骨架图像。

在一种实施例中，所述关节运动结构D_c,为所述骨架图像序列中两帧图像之间的每个关节点的时间S的差值：

D_c,＝S_c,-S_c

其中，C为关节点数量，t为动作序列帧数，d为两帧图像之间的距离；

所述根据所述关节运动结构D_c,，构建所述骨架图像序列对应的基于量级的第一关节运动和基于方向的第二关节运动，包括：

根据所述关节运动结构D_c,，构建所述骨架图像序列对应的基于量级的第一关节运动M_c,：

根据所述关节运动结构D_c,，构建所述骨架图像序列对应的基于方向的第二关节运动θ_c,：

其中，x，y，z为关节点坐标。

在一种实施例中，在所述得到所述动作序列的意图推断结果之后，还包括：

获取多个所述离散动作的动作识别结果；

根据多个所述离散动作的动作识别结果和所述动作序列的意图推断结果，进行预警处理；

所述获取多个所述离散动作的动作识别结果，包括：

将所述伪视频图像输入到第三卷积神经网络模型中，得到第三融合特征；

将所述伪骨架图像输入到第四卷积神经网络模型中，得到骨架融合特征；

对所述骨架融合特征和所述第三融合特征进行特征融合处理，获取多个所述离散动作的动作识别结果。

本申请实施例的第二方面提供了一种动作序列识别和意图推断装置，包括：

序列获取模块，用于获取包含多个离散动作的动作序列，所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列；

图像生成模块，用于根据所述RGB图像序列和所述深度图像序列生成伪视频图像，以及根据所述骨架图像序列生成伪骨架图像，其中，所述伪视频图像包含所述RGB图像序列和所述深度图像序列的特征，所述伪骨架图像包含所述伪骨架图像的特征；

第一提取模块，将所述伪视频图像和所述伪骨架图像输入到第一特征提取神经网络模型中，提取多个所述离散动作的高层语义特征；

第二提取模块，用于将所述伪骨架图像输入到第二特征提取神经网络模型中，提取多个所述离散动作的逻辑关联特征；

特征融合模块，用于对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过获取包含多个离散动作的动作序列，动作序列包括RGB图像序列、深度图像序列和骨架图像序列三种模态数据，多模态数据为同一离散动作提供了丰富的时空信息特征，能够对同一离散动作的多模态一致互补信息进行充分特征融合学习，实现对离散动作的高效识别；根据RGB图像序列和深度图像序列生成伪视频图像，根据骨架图像序列生成伪骨架图像，伪视频图像保留了RGB图像序列和深度图像序列的特征信息，伪骨架图像保留了骨架图像序列的特征信息，再根据伪视频图像和伪骨架图像提取得到离散动作的高层语义特征和逻辑关联特征，充分考虑到融合不同离散动作之间的逻辑关联特征和高层语义特征，实现对动作序列的意图推断，进一步提升意图推断的有效性和适用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的动作序列识别和意图推断方法的整体示意图；

图2是本申请实施例提供的一种动作序列识别和意图推断方法的实现流程示意图；

图3是本申请实施例提供的生成伪视频图像的示意图；

图4是本申请实施例提供的生成伪骨架图像的示意图；

图5是本申请实施例提供的动作序列的意图推断过程的示意图；

图6是本申请实施例提供的离散动作识别的示意图；

图7是本申请实施例提供的预警处理过程的示意图；

图8是本申请实施例提供的一种动作序列识别和意图推断装置的示意图；

图9是本申请实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

需说明的是，术语“上”、“下”、“左”、“右”等指示的方位或位置关系，仅是为了便于描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。术语“第一”、“第二”仅用于便于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明技术特征的数量。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

动作序列由一系列的离散动作组成，目前针对离散动作的识别方法有很多，但针对动作序列识别和意图推断的方法相对较少。在离散动作识别中，可以利用RGB信息、深度信息和骨架信息等模态数据进行识别，不同的模态数据可以表示不同的来源信息，在不同的应用场景中有不同的优势，但不同模态的缺点给动作识别方法带来了严峻挑战，而且动作识别还容易受到训练样本的数量和质量等因素的影响，且动作序列数据集样本的缺乏，使得动作序列的意图推断研究受到巨大阻扰。

为了提高动作识别的整体性能和动作序列的意图推断的有效性，本申请实施例提出了一种动作序列识别和意图推断方法、装置、设备及存储介质，通过获取包含多个离散动作的动作序列，动作序列包括RGB图像序列、深度图像序列和骨架图像序列三种模态数据，多模态数据为同一离散动作提供了丰富的时空信息特征，能够对同一离散动作的多模态一致互补信息进行充分特征嵌入学习，实现对离散动作的高效识别；根据RGB图像序列和深度图像序列生成伪视频图像，根据骨架图像序列生成伪骨架图像，伪视频图像保留了RGB图像序列和深度图像序列的特征信息，伪骨架图像保留了骨架图像序列的特征信息，再根据伪视频图像和伪骨架图像提取得到离散动作的高层语义特征和逻辑关联特征，充分考虑到融合不同离散动作之间的逻辑关联特征和高层语义特征，实现对动作序列的意图推断，进一步提升意图推断的有效性和适用性。与现有其它技术相比，本申请实施例设计了三种模态特征嵌入学习方法、离散动作识别和动作序列识别及意图理解方法，有利于为智能系统(比如机器人系统)提供集成化模块；通过对行为者动作序列的识别和意图推断，实现智能监控、人机交互等领域的算法补充。

本申请实施例提出一种动作序列识别和意图推断方法、装置、设备及存储介质，如图1所示，主要包括：对采集到的包含RGB视频、深度图像和骨架数据信息的原始视频进行动作分割，以得到RGB、深度图像和骨架数据模态一一对应的一系列动作数据，即分割为多个离散动作，每个离散动作包含对应的RGB图像序列、深度图像序列和骨架图像序列；然后，设计语义特征提取神经网络模型提取离散动作的高层语义特征，以及关联特征提取神经网络模型提取动作序列的逻辑关联特征，实现对动作序列的联合学习和意图推断；以及实现行为者意图理解和异常动作预警提醒。

具体地，如图2所示，本申请实施例的第一方面提供了一种动作序列识别和意图推断方法，包括以下步骤：

S101、获取包含多个离散动作的动作序列，所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列。

在本申请实施例中，离散动作是指人体或动物或机器人等行为者执行的单一动作，例如人体的起立、坐下、走到冰箱前和打开冰箱等动作，动作序列是指由多个离散动作组成的一系列动作，例如人体从“走到冰箱前”、“打开冰箱”、“拿出矿泉水”等一系列动作。其中，本申请实施例根据三种模态数据将动作序列分为三种序列，分别是RGB图像序列、深度图像序列和骨架图像序列，RGB图像序列包含像素特征，深度图像序列包含深度特征，骨架图像序列包含骨架特征，三种序列是一一对应的，即RGB图像序列的第一帧图像、深度图像序列的第一帧图像、与骨架图像序列的第一帧图像对应，RGB图像序列的第二帧图像、深度图像序列的第二帧图像、与骨架图像序列的第二帧图像对应，以此类推。

在一种实施方式中，所述获取包含多个离散动作的动作序列，包括：

在实际生活中，由于摄像机采集到的原始视频并非是单一的离散动作，因此需要对原始视频进行动作分割处理，分割为多个有效的离散动作，获取包含多个离散动作的动作序列。目前基于视觉信息的动作分割方法主要有边界检测方法和滑动窗口方法，边界检测方法一般根据动作的速度、加速度或曲率的断点和极值来检测动作的边界，其缺点在于对运动误差比较敏感，边界检测不稳定，容易对长时间复杂性运动混淆；滑动窗口方法通过将视频划分为多个重叠的片段，在各个片段上依次计算，选取得分最高的片段作为动作位置，其缺点在于计算量较大。

本申请实施例在以上两种方法的基础上，提出一种概率分布差的动态间接检测方法对原始视频进行动作分割处理，分别通过计算滑动窗口中起始帧位置和滑动帧位置的离散动作的概率分布值，当滑动窗口滑动到离散动作的边界时，起始帧位置和滑动帧位置的概率分布值的差值会增大，从而可以确定出离散动作的边界，通过确定的边界将原始视频划分为多个有效的离散动作，并得到包含多个离散动作的动作序列，克服了目前已有动作分割方法中边界检测不稳定、以及计算量较大等问题。

在一种实施方式中，所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值，确定所述离散动作的动作边界，包括：

根据所述差值PDD_i，确定所述离散动作的动作边界，其中，

W_f()为滑动窗口，f为窗口大小，f小于或等于最小动作帧数，i为滑动窗口的起始帧位置，l为滑动帧步长，i+l为滑动窗口的滑动帧位置，PD_W为滑动窗口的概率分布值，K为离散动作种类数，c_n表示具体的离散动作类别，P_A(_n)表示在滑动帧位置被识别为c的概率，P_B(_n)表示在起始帧位置被识别为c的概率。

具体地，概率分布值指的是离散动作在滑动窗口内出现的多种概率的分布情况，基于概率分布差的动态间接检测方法包括：首先，在原始视频中确定滑动窗口的起始帧位置i和滑动帧位置i+l；然后，将每个滑动窗口作为一个单独的视频片段，并计算离散动作的概率，根据离散动作在起始帧位置识别得到的概率和在滑动帧位置识别得到的概率，获取离散动作在每个滑动窗口的起始帧位置的概率分布值

和在滑动帧位置的概率分布值/>

最后，根据离散动作在起始帧位置的概率分布值/>

和在滑动帧位置的概率分布值/>

的差值PDD_i，确定离散动作的动作边界，当滑动窗口滑动到动作边界时，动作识别的概率分布值的差值PDD_i会增大，由此即可将原始视频划分为多个有效的离散动作。

S102、根据所述RGB图像序列和所述深度图像序列生成伪视频图像，以及根据所述骨架图像序列生成伪骨架图像，其中，伪视频图像包含所述RGB图像序列和所述深度图像序列的特征，所述伪骨架图像包含所述骨架图像序列的特征。

本申请实施例通过将原始视频划分为多个离散动作的动作序列，获取动作序列中的的RGB图像序列、深度图像序列和骨架图像序列三种模态数据，并根据RGB图像序列和深度图像序列生成伪视频图像，以及根据骨架图像序列生成伪骨架图像，伪视频图像包含了RGB图像序列和深度图像序列中各帧图像具有的时空特征信息，伪骨架图像包含了骨架图像序列中各帧图像具有的时空特征信息，后续能够通过提取伪视频图像和伪骨架图像中相应的特征来实现离散动作的多模态一致互补信息的充分特征融合学习，提升动作序列识别的高效性。

具体地，根据RGB图像序列和深度图像序列生成伪视频图像，可以对RGB图像序列和深度图像序列采用稀疏采样方法来降低计算量和去除帧间冗余的信息，实现在得到包含整个动作序列的RGB图像和深度图像的时空特征信息的同时，降低整体算法的计算量。

对于RGB图像序列，将其分为多个序列片段，例如可以分为三个序列片段，在每个序列片段中随机抽样出一帧图像组合成RGB图像片段；对于深度图像序列，同样将其分为多个序列片段，例如可以分为三个序列片段，在每个序列片段中随机抽样出一帧图像，得到相应的三张深度图像；然后，如图3所示，将一个RGB图像片段和三张深度图像输入到降维卷积模型中，降维卷积模型可以为1×1卷积降维神经网络模型，并经过正则化处理以及ReLU激活函数激活后，得到3通道或单通道的伪视频图像，得到的伪视频图像能够满足不同输入需求的深度神经网络模型，比如ResNet、BNInception、VGG等，生成的伪视频图像包含了RGB图像序列和深度图像序列丰富的时空特征信息。

在一种实施方式中，所述根据所述骨架图像序列生成伪骨架图像，包括：

将所述骨架图像序列对应的关节点坐标映射为矩阵；

具体地，基于量级的第一关节运动和基于方向的第二关节运动生成伪骨架图像，生成的伪骨架图像包含骨架图像序列具有的各帧骨架图像的时空特征信息。其中，对于输入的骨架图像序列，首先对每一帧骨架图像上的骨架关节采用深度优先的树形遍历顺序生成预定义的链式顺序，然后对骨架图像序列对应的关节点的坐标映射为一个可计算的矩阵L(L∈C×T×3，C为链上的关节点数量，T是骨架图像序列的总帧数，3是关节点坐标x，y，z的数量)。

如图4所示，将骨架图像序列映射为矩阵L之后，根据矩阵L的每一列的关节点的时间变化构建关节运动结构，并根据关节运动结构分别构建基于量级的第一关节运动和基于方向的第二关节运动，由此生成伪骨架图像。

D_c,＝S_c,-S_c

其中，C为关节点数量，t为动作序列的帧数，d为两帧图像之间的距离；

其中，x，y，z为关节点坐标。

具体地，由于关节运动结构D_c,为骨架图像序列中两帧骨架图像之间的每个关节点的时间S的差值，矩阵L是骨架图像序列的关节点的坐标的映射，将矩阵L转化为基于关节运动结构D_c,的矩阵，形成一个C×T-d×3的矩阵，并分别建立基于量级的第一关节运动M_c,和基于方向的第二关节运动θ_c,t，其中M_c,的大小为C×T-d×1，θ_c,的大小为C×T-d×3(由3个堆叠的通道组成)，最后用M_c,和θ_c,分别表示矩阵，将矩阵归一化为[0，1]并适当调整图像大小，即可得到伪骨架图像。

S103、将所述伪视频图像和所述伪骨架图像输入到语义特征提取神经网络模型，提取多个所述离散动作的高层语义特征。

S104、将所述伪骨架图像输入到关联特征提取神经网络模型，提取多个所述离散动作的逻辑关联特征。

S105、对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果。

在本申请实施例中，高层语义特征一般指神经网络模型学习完成后输出的能够表达出最接近人类理解的图像特征。将伪视频图像和伪骨架图像输入到已训练的语义特征提取神经网络模型中，提取多个离散动作的高层语义特征，其中，语义特征提取神经网络模型可以是多流神经网络模型。逻辑关联特征表达出动作序列中多个离散动作之间的逻辑关联关系，将伪骨架图像输入到关联特征提取神经网络模型中，提取离散动作之间的逻辑关联特征，其中，关联特征提取神经网络模型可以是多流神经网络模型。最后，通过对高层语义特征和逻辑关联特征进行特征融合处理，实现动作序列的意图推断，进一步提升意图推断的有效性和适用性。

在一种实施方式中，所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果，包括：

对多个所述高层语义特征进行特征融合处理，并将特征融合后的多个所述高层语义特征输入到第一卷积神经网络模型中，得到第一融合特征；

如图5所示，图中的“☉”表示特征融合，本申请实施例在得到多个离散动作对应的高层语义特征后，可以通过点乘、加权相加或最大值等方法实现特征融合，并将融合后的高层语义特征输入到第一卷积神经网络模型中，输出得到第一融合特征，其中，第一神经网络模型可以是1×1卷积升维神经网络。

具体地，将多个离散动作对应的高层语义特征按照动作序列的顺序依次输入到第二卷积神经网络模型中，并与伪骨架图像输入关联特征提取神经网络模型中提取得到的逻辑关联特征进行特征融合处理，输出得到第二融合特征，其中，第二神经网络模型可以是三维卷积神经网络，关联特征提取神经网络模型可以是1×1卷积升维神经网络。最后，将第一融合特征、第二融合特征和逻辑关联特征分别进行特征融合和正则化处理来完成整体特征融合，最终实现动作序列的意图推断。

获取多个所述离散动作的动作识别结果；

所述获取多个所述离散动作的动作识别结果，包括：

本申请实施例除了对动作序列进行意图推断外，还能实现对离散动作的识别，如图6所示，对单一离散动作进行识别的过程为：将伪视频图像输入到第三卷积神经网络模型中，输出得到第三融合特征，将伪骨架图像输入到第四卷积神经网络模型中，输出得到骨架融合特征，其中，第三卷积神经网络模型可以采用三维卷积神经网络，例如采用3D-Resnet等模块等，第四卷积神经网络模型可以采用1×1卷积升维神经网络，通过卷积升维神经网络可以实现骨架融合特征的维度提升，以匹配第三融合特征相应的三维卷积通道数。最后，对第三融合特征和骨架融合特征进行特征融合处理，实现离散动作的识别，避免因环境变化和视角改变等造成的识别性能下降。

如图7所示，通过对多个离散动作进行识别得到多个动作识别结果，将多个动作识别结果和动作序列意图推断结果进行“逻辑与”的计算，当离散识别到的任一动作有危险行为，或者对动作序列进行意图推断后存在较大风险时，能够及时进行异常动作的预警处理。

如图8所示，本申请实施例的第二方面提供了一种动作序列的识别和意图推断装置，包括以下模块：

序列获取模块801，用于获取包含多个离散动作的动作序列，所述动作序列包括RGB图像序列、深度图像序列和骨架图像序列；

图像生成模块802，用于根据所述RGB图像序列和所述深度图像序列生成伪视频图像，以及根据所述骨架图像序列生成伪骨架图像，其中，伪视频图像包含所述RGB图像序列和所述深度图像序列的特征，所述伪骨架图像包含所述骨架图像序列的特征；

第一提取模块803，将所述伪视频图像和所述伪骨架图像输入到第一特征提取神经网络模型中，提取多个所述离散动作的高层语义特征；

第二提取模块804，用于将所述伪骨架图像输入到第二特征提取神经网络模型中，提取多个所述离散动作的逻辑关联特征；

特征融合模块805，用于对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果。

根据所述差值PDD_i，确定所述离散动作的动作边界，其中，

将所述骨架图像序列的关节点的坐标映射为矩阵；

在一种实施方式中，所述关节运动结构D_c,为所述骨架图像序列中两帧图像之间的每个关节点的时间S的差值：

D_c,＝S_c,-S_c

其中，x，y，z为关节点坐标。

在一种实施方式中，在所述得到所述动作序列的意图推断结果之后，还包括：

获取多个所述离散动作的动作识别结果；

所述获取多个所述离散动作的动作识别结果，包括：

对所述骨架融合特征和所述第三融合特征进行特征融合处理，得到多个所述离散动作的动作识别结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例第三方面提供的一种终端设备的示意图。如图9所示，该实施例的终端设备包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92。所述处理器90执行所述计算机程序92时实现上述各个动作序列识别和意图推断方法实施例中的步骤。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能。

本申请实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项动作序列识别和意图推断方法的步骤。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种动作序列识别和意图推断方法，其特征在于，包括：

根据所述RGB图像序列和所述深度图像序列生成伪视频图像，以及根据所述骨架图像序列生成伪骨架图像，其中，所述伪视频图像包含所述RGB图像序列和所述深度图像序列的特征，所述伪骨架图像包含所述伪骨架图像的特征；

2.根据权利要求1所述的一种动作序列识别和意图推断方法，其特征在于，所述对所述高层语义特征和所述逻辑关联特征进行特征融合处理，得到所述动作序列的意图推断结果，包括：

3.根据权利要求1所述的一种动作序列识别和意图推断方法，其特征在于，所述获取包含多个离散动作的动作序列，包括：

4.根据权利要求3所述的一种动作序列识别和意图推断方法，其特征在于，所述根据所述起始帧位置的所述离散动作的概率分布值与所述滑动帧位置对应的所述离散动作的概率分布值，确定所述离散动作的动作边界，包括：

根据所述差值PDD_i，确定所述离散动作的动作边界，其中，

5.根据权利要求1所述的一种动作序列识别和意图推断方法，其特征在于，所述根据所述骨架图像序列生成伪骨架图像，包括：

将所述骨架图像序列的关节点的坐标映射为矩阵；

6.根据权利要求5所述的一种动作序列识别和意图推断方法，其特征在于，所述关节运动结构D_c,为所述骨架图像序列中两帧图像之间的每个关节点的时间S的差值：

D_c,＝S_c,-S_c

其中，x，y，z为关节点坐标。

7.根据权利要求1所述的一种动作序列识别和意图推断方法，其特征在于，在所述得到所述动作序列的意图推断结果之后，还包括：

获取多个所述离散动作的动作识别结果；

所述获取多个所述离散动作的动作识别结果，包括：

8.一种动作序列识别和意图推断装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。