CN112686194B

CN112686194B - 第一人称视角动作识别方法、系统及存储介质

Info

Publication number: CN112686194B
Application number: CN202110013011.3A
Authority: CN
Inventors: 李昊昕; 郑伟诗; 胡海峰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2023-07-18
Anticipated expiration: 2041-01-06
Also published as: CN112686194A

Abstract

本发明公开了一种第一人称视角动作识别方法、系统及存储介质，所述方法包括以下步骤：定位视频中的关键区域；提取关键区域的特征和全局特征；将关键区域的特征划分为用于表示两种交互主体的两个组别；构建显式关系建模的长短时记忆网络；进行动作识别。本发明采用弱监督的关键区域定位的技术方案，能够自动地定位参与到动作中的人或物体，减少了人和物体位置标注的需求；本发明还通过设计不同类型的连接，能在长短时记忆网络的基础上进一步显式建模视频中的不同关系；本发明还通过网络结构自动搜索技术，实现了自动的网络结构设计，根据数据特征自动选择最优的结构，减少了人工设计网络的负担。

Description

第一人称视角动作识别方法、系统及存储介质

技术领域

本发明属于视频处理和理解的技术领域，具体涉及一种第一人称视角动作识别方法、系统以及存储介质。

背景技术

第一人称视角动作识别，是指在可穿戴摄像头拍摄的第一人称视角视频中，识别出摄像头穿戴者的动作。这项技术有着广泛的应用背景，可以在健康监测，生活记录，虚拟现实等应用场景中使用。例如在健康监控中，为有健康障碍的病人穿戴简易摄像头，可以凭此识别病人的当前动作，从而推断病人的当前状态，能有效在危险动作发生后报警，也可记录病人的长期状态，有利于对病人的分析治疗。再如在生活记录中，第一人称视角摄像头能长时间记录穿戴者的动作，基于此的动作识别能描绘摄像头穿戴者的动作变化，是生活视频片段检索的基础。

现有的第一人称视角动作识别方法主要分为两类：

(1)基于卷积神经网络的视频分类：为了识别视频中反映的摄像头穿戴者的动作，这类方法直接使用普通(第三人称视角)视频或图片中动作识别的方法，使用二维或三维卷积神经网络，提取输入视频的多帧图像的特征，在此基础上进行分类。

(2)基于显式关系建模的动作识别：由于第一人称视角的动作通常包含摄像头穿戴者和其他人或物体的交互，这类方法旨在显式建模这些人-人交互关系或人-物体交互关系，提取基于关系的动作特征，据此进行动作分类。

上述方法在关系建模方面存在不足，使得模型难以学习到有效的用于第一人称视角视频动作识别的关系特征。具体而言，在方法(1)中，缺少对人-人交互关系或人-物体交互关系的建模，因此模型难以学习到这类复杂关系的特征，从而降低动作识别的准确性和有效性。在方法(2)中，虽然它们显式建模了视频中的人-人交互关系或人-物体交互关系，但他们需要视频中人和物体的标注 (物体框或掩膜)进行人或物体的定位。而在很多情况下，这些任何物体的标注是昂贵且不易获取的，这限制了这类方法应用的广泛性。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种第一人称视角动作识别方法、系统以及存储介质，能够在缺少第一人称视角视频中人或物体位置标注的弱监督设定下，自动显式建模视频中的人-人交互关系或人-物体交互关系，从而学习基于关系的动作特征，进行第一人称视角的动作识别。

为了达到上述目的，本发明采用以下技术方案：

本发明提供了一种第一人称视角动作识别方法，包括以下步骤：

S1、使用动作类别作为监督，定位视频中的关键区域；通过所述关键区域的位置信息提取关键区域的特征；提取整个视频的特征作为全局特征；

S2、通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别；所述两种交互主体包括摄像头穿戴者的身体部位，以及与摄像头穿戴者交互的人或物体；

S3、构建显式关系建模的长短时记忆网络，在基础的长短时记忆网络结构中设计候选连接；所述候选连接包括不同帧之间的时序关系，两个交互主体组别之间的交互关系，以及交互主体和全局特征之间的上下文关系；通过网络结构自动搜索的方法，以数据驱动的方式搜索最优的长短时记忆网络结构，并进行动作识别。

作为优选的技术方案，所述使用动作类别作为监督，定位视频中的关键区域具体步骤为：

从每个视频片段中随机均匀采样若干帧；

对于采样的任意一帧I，使用沙漏型网络g计算包含N个通道的特征图R，用于关键区域坐标计算，如下式：

其中，I为视频帧，R为计算关键区域坐标的特征图，W、H分别为特征图R的宽和高；

使用softmax函数对特征图R做通道维度的归一化，并对N个通道中的每个通道计算重心得到N个关键区域的中心坐标，如下式：

中心坐标的归一化因子S_n计算为：

其中，M为归一化的特征图，(x_n,y_n)为关键区域的中心坐标；

对每个关键区域的中心坐标，生成一个中心在该坐标的高斯掩膜，如下式：

其中，σ为高斯掩膜的标准差，为生成的高斯掩膜。

作为优选的技术方案，所述提取整个视频的特征作为全局特征具体为：

对于采样的任意一帧I，使用网络f计算包含C个通道的特征图X，用于表观特征提取，如下式：

其中，I为视频帧，X为表观特征的特征图，w、h分别为特征图X的宽和高；

所述通过所述关键区域的位置信息提取关键区域的特征具体为：

利用所述高斯掩膜与所述表观特征的特征图X，计算每个关键区域的局部特征，如下式：

其中，xⁿ为第n个关键区域的特征。

作为优选的技术方案，所述通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别，具体步骤为：

对每个关键区域学习一个分离分数，用于表示所述关键区域被划分为一个组别的可能性，如下式：

其中，W_s为可学习参数，为第n个关键区域的平均特征，由下式得出：

对分离分数进行标准化：

其中为指示函数，当x＞0时返回1，否则返回0；所述对分离分数进行标准化的步骤用于避免所有关键区域都被分到同一个组别；

根据分离分数将关键区域特征划分为两个组别，得到两个组别的特征，如下式：

所述划分为两个组别的步骤，用于后续两个组别之间交互关系的建模。

作为优选的技术方案，所述显式关系建模的长短时记忆网络包含两个互相对称的ego子网络和exo子网络；所述ego子网络和exo子网络分别对应所述表示两种交互主体的两个组别；所述ego子网络和exo子网络的隐层状态增加多种候选连接，用于网络结构搜索并显式建模不同关系；

t时刻的ego子网络的计算表达式如下：

其中，f_t,i_t,o_t,s_t,h_t,C_t,分别表示遗忘门，输入门，输出门，共享状态门，隐层状态,单元状态和候选单元状态，S_t表示共享状态，/>是累积共享状态，W_ih,W_hh是可学习参数；是候选连接的集合，w_i是第i个候选连接的权重，/>是第i个候选连接的特征；；

所述显式关系建模的长短时记忆网络其他时刻和exo子网络的计算形式和以上计算具有一样的形式。

作为优选的技术方案，候选连接的集合包含显式建模不同帧之间的时序关系，两个交互主体组别之间的交互关系，和交互主体和全局特征之间的上下文关系的连接，具体如下：

所述不同帧之间的时序关系利用t-2时刻和t+1时刻隐层状态和输入特征进行建模，如下式：

其中，W_pt和W_ft是可学习参数；

所述两个交互主体组别之间的交互关系通过显式融合所述ego子网络和exo 子网络的特征进行建模，如下式：

其中，W_pi，W_ci和W_fi为可学习参数；

所述交互主体和全局特征之间的上下文关系通过在长短时记忆网络中融合全局特征进行建模，如下式：

其中，W_c为可学习参数；z_t为每帧的全局特征空间平均池化后的特征。

作为优选的技术方案，所述搜索最优的长短时记忆网络结构通过搜索最优的候选连接实现，具体为：

计算每个候选连接的权重：

其中，和/>为可学习结构参数；

在搜索完成后，计算用于得到离散网络结构的候选连接权重：

其中，k为每个隐层状态选择的候选连接数量；

所述动作识别具体为：将根据所述不同帧之间的时序关系、两个交互主体组别之间的交互关系、交互主体和全局特征之间的上下文关系得到的关系建模特征经过一个全连接网络进行动作识别，如下式：

其中，W_cls为全连接参数，K为动作类别数量。

作为优选的技术方案，所述使用动作类别作为监督，定位视频中的关键区域的过程中，使用了以下的约束：

集中性约束：记归一化的特征图M_n/S_n在x和y方向上的方差为和/>集中性约束最小化两个方向上的方差，使特征图逼近单峰的高斯分布，如下式：

分离性约束：该约束避免所有关键区域的中心坐标一致，使不同的关键区域关注不同的局部区域，如下式：

相似性约束：同一关键区域在相邻帧之间的特征应当具有一致性，该约束通过最小化相邻帧的局部特征的差异，使得关键区域捕捉到有意义的局部区域特征，如下式：

其中，为t时刻第n个关键区域的特征；

所述显式关系建模的长短时记忆网络总体的损失函数为：

其中，γ是各个损失的权重。

本发明还提供了一种第一人称视角动作识别系统，包括定位及特征提取模块、分组模块、模型构建模块以及识别模块；

所述定位及特征提取模块，使用动作类别作为监督，定位视频中的关键区域；通过所述关键区域的位置信息提取关键区域的特征；提取整个视频的特征作为全局特征；

所述分组模块，作用是通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别；所述两种交互主体包括摄像头穿戴者的身体部位，以及与摄像头穿戴者交互的人或物体；

所述模型构建模块，用于构建显式关系建模的长短时记忆网络，在基础的长短时记忆网络结构中设计候选连接；所述候选连接包括不同帧之间的时序关系，两个交互主体组别之间的交互关系，以及交互主体和全局特征之间的上下文关系；通过网络结构自动搜索的方法，以数据驱动的方式搜索最优的长短时记忆网络结构；

所述识别模块利用所述显式关系建模的长短时记忆网络学习的特征进行动作识别。

本发明还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述的第一人称视角动作识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明通过采用弱监督的关键区域定位的技术方案，能够自动地定位参与到动作中的人或物体，减少了人和物体位置标注的需求。

(2)本发明通过设计不同类型的连接，能在长短时记忆网络的基础上进一步显式建模视频中的不同关系。

(3)本发明通过网络结构自动搜索技术，实现了自动的网络结构设计，根据数据特征自动选择最优的结构，减少了人工设计网络的负担。

附图说明

图1是本发明实施例所述第一人称视角动作识别方法的框架图；

图2是本发明实施例所述显式关系建模的长短时记忆网络的结构示意图；

图3是本发明实施例所述第一人称视角动作识别方法的流程图；

图4是本发明实施例所述第一人称视角动作识别系统的结构示意图；

图5是本发明实施例所述存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1、图3所示，本发明提供了一种第一人称视角动作识别方法，包括以下步骤：

更为具体地，步骤S1的实施方式为：

S1.1、从每个视频片段中随机均匀采样若干帧；

S1.2、对于采样的任意一帧I，使用沙漏型网络g计算包含N个通道的特征图 R，用于关键区域坐标计算，如下式：

S1.3、使用softmax函数对特征图R做通道维度的归一化，并对N个通道中的每个通道计算重心得到N个关键区域的中心坐标，如下式：

中心坐标的归一化因子S_n计算为：

其中，M为归一化的特征图，(x_n,y_n)为关键区域的中心坐标；

S1.4、对每个关键区域的中心坐标，生成一个中心在该坐标的高斯掩膜，如下式：

其中，σ为高斯掩膜的标准差，为生成的高斯掩膜；

S1.5、对于采样的任意一帧I，使用网络f计算包含C个通道的特征图X，用于表观特征提取，如下式：

S1.6、利用所述高斯掩膜与所述关键区域的特征，计算每个关键区域的局部特征，如下式：

其中，xⁿ为第n个关键区域的特征。

步骤S1.5和步骤S1.6计算得到的视频全局特征和关键区域的局部特征将作为后续关系建模的输入。

特别的，为了更好学习关键区域的坐标，在本实施例的坐标学习过程中使用以下三种约束：

其中，为t时刻第n个关键区域的特征。

更为具体地，步骤S2的实施方式为：

S2.1、对每个关键区域学习一个分离分数，用于表示所述关键区域被划分为一个组别的可能性，如下式：

S2.2、对分离分数进行标准化：

S2.3、根据分离分数将关键区域特征划分为两个组别，得到两个组别的特征，如下式：

步骤S2.3计算的两个组别的特征，用于后续两个组别之间交互关系的建模。

S3、显式关系建模的长短时记忆网络，在基础的长短时记忆网络结构中设计候选连接；所述候选连接包括不同帧之间的时序关系，两个交互主体组别之间的交互关系，以及交互主体和全局特征之间的上下文关系；通过网络结构自动搜索的方法，以数据驱动的方式搜索最优的长短时记忆网络结构，并进行动作识别。

更为具体地，步骤S3的实施方式为：

S3.1、在长短时记忆网络的基础上，设计显式关系建模的长短时记忆网络。所述显式关系建模的长短时记忆网络包含两个对称的ego子网络和exo子网络，每个子网络对应步骤S2.3的一个组别；为了显式建模不同关系，两个子网络的隐层状态增加了多种候选连接，用于网络结构搜索；显式关系建模的长短时记忆网络结构如图2所示，表示了t时刻ego子网络的隐层状态的计算方式：实线为长短时记忆网络的固有连接，虚线为显式关系建模的候选连接，虚线的连接将通过网络结构搜索方式进行选择；

所述显式关系建模的长短时记忆网络t时刻的ego子网络的计算表达式如下：

其中，f_t,i_t,o_t,s_t,h_t,C_t,分别表示遗忘门，输入门，输出门，共享状态门，隐层状态,单元状态和候选单元状态，S_t表示共享状态，/>是累积共享状态，W_ih,W_hh是可学习参数；是候选连接的集合，w_i是第i个候选连接的权重，/>是第i个候选连接的特征；

所述显式关系建模的长短时记忆网络其他时刻和exo子网络的计算形式和以上计算具有一样的形式；

S3.2、显式建模第一人称视角视频中不同的关系，设计的候选连接的集合包含不同帧之间的时序关系，两个交互主体组别之间的交互关系，和交互主体和全局特征之间的上下文关系三种类型的候选连接：

(1)不同帧之间的时序关系：考虑长短时记忆网络本身的时序连接，以及双向的时序关系，如下式

其中，W_pt和W_ft是可学习参数；利用t-2时刻和t+1时刻隐层状态、输入特征和动作信息，建模视频中的时序关系，增强动作特征的表达；

(2)两个交互主体组别之间的交互关系：通过显式融合所述ego子网络和 exo子网络的特征，进行交互关系的建模，如下式：

其中，W_pi，W_ci和W_fi为可学习参数；通过结合同步(t时刻)和异步(t-1 和t+1时刻)的对称子网络特征，能充分利用两个子网络的特征交互，捕捉复杂的动作交互特征，增强动作特征的表达；

(3)交互主体和全局特征之间的上下文关系：通过在长短时记忆网络中融合全局特征进行建模，如下式：

其中，W_c为可学习参数；z_t为每帧的全局特征空间平均池化后的特征；通过融合全局特征，长短时记忆网络中能建模关键区域和背景区域之间的关系，提供动作发生的上下文信息。

S3.3使用可微分网络结构搜索技术搜索最优的候选连接，具体为：

计算每个候选连接的权重：

其中，和/>为可学习结构参数，在搜索过程中被优化；

其中，k为每个隐层状态选择的候选连接数量；

更进一步地，步骤S3根据不同帧之间的时序关系、两个交互主体组别之间的交互关系、交互主体和全局特征之间的上下文关系得到的关系建模特征经过一个全连接网络进行动作识别，如下式：

其中，W_cls为全连接参数，K为动作类别数量。

结合关键区域坐标的约束，所述显式关系建模的长短时记忆网络总体的损失函数为：

其中，γ是各个损失的权重；网络中所有参数均为深度网络参数，在本实施例中，对该损失函数使用随机梯度下降法进行自主优化。

特别的，本实施例中的网络结构还可以使用其他能够达到相同技术效果的网络结构来实现，如步骤S1.2中的网络g和步骤S1.5中的网络f可以是任何形式的深度卷积网络。

如图4所示，在另一个实施例中，提供了一种第一人称视角动作识别系统，该系统包括定位及特征提取模块、分组模块、模型构建模块以及识别模块；

所述模型构建模块，用于构建显式关系建模的长短时记忆网络，在基础的长短时记忆网络结构中设计候选连接，包括不同帧之间的时序关系，两个交互主体组别之间的交互关系，以及交互主体和全局特征之间的上下文关系；通过网络结构自动搜索的方法，以数据驱动的方式搜索最优的长短时记忆网络结构；

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该系统是应用于上述实施例的第一人称视角动作识别方法。

如图5所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现上述实施例的第一人称视角动作识别方法，具体为：

S3、构建显式关系建模的长短时记忆网络，在基础的长短时记忆网络结构中设计候选连接，包括不同帧之间的时序关系，两个交互主体组别之间的交互关系，以及交互主体和全局特征之间的上下文关系；通过网络结构自动搜索的方法，以数据驱动的方式搜索最优的长短时记忆网络结构，并进行动作识别。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA) 等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种第一人称视角动作识别方法，包括以下步骤：

使用动作类别作为监督，定位视频中的关键区域；通过所述关键区域的位置信息提取关键区域的特征；提取整个视频的特征作为全局特征；

通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别；所述两种交互主体包括摄像头穿戴者的身体部位，以及与摄像头穿戴者交互的人或物体；

构建显式关系建模的长短时记忆网络，在基础的长短时记忆网络结构中设计候选连接；所述候选连接包括不同帧之间的时序关系，两个交互主体组别之间的交互关系，以及交互主体和全局特征之间的上下文关系；通过网络结构自动搜索的方法，以数据驱动的方式搜索最优的长短时记忆网络结构，并进行动作识别；

所述显式关系建模的长短时记忆网络包含两个互相对称的ego子网络和exo子网络；所述ego子网络和exo子网络分别对应所述表示两种交互主体的两个组别；所述ego子网络和exo子网络的隐层状态增加多种候选连接，用于网络结构搜索并显式建模不同关系；

t时刻的ego子网络的计算表达式如下：

h_t＝σ(o_t)⊙tanh(C_t)，

其中，f_t,i_t,o_t,s_t,h_t,C_t,分别表示遗忘门，输入门，输出门，共享状态门，隐层状态，单元状态和候选单元状态，S_t表示共享状态，/>是累积共享状态，W_ih,W_hh是可学习参数；/>是候选连接的集合，w_i是第i个候选连接的权重，/>是第i个候选连接的特征；

所述候选连接的集合包含显式建模不同帧之间的时序关系，两个交互主体组别之间的交互关系，和交互主体和全局特征之间的上下文关系的连接；

其中，W_pt和W_ft是可学习参数；

所述两个交互主体组别之间的交互关系通过显式融合所述ego子网络和exo子网络的特征进行建模，如下式：

其中，W_pi，W_ci和W_fi为可学习参数；

2.根据权利要求1所述的第一人称视角动作识别方法，其特征在于，所述使用动作类别作为监督，定位视频中的关键区域具体步骤为：

从每个视频片段中随机均匀采样若干帧；

中心坐标的归一化因子S_n计算为：

其中，M为归一化的特征图，(x_n,y_n)为关键区域的中心坐标；

其中，σ为高斯掩膜的标准差，为生成的高斯掩膜。

3.根据权利要求2所述的第一人称视角动作识别方法，其特征在于，所述提取整个视频的特征作为全局特征具体为：

所述通过所述关键区域的位置信息提取关键区域的特征具体为：利用所述高斯掩膜与所述表观特征的特征图X，计算每个关键区域的局部特征，如下式：

其中，xⁿ为第n个关键区域的特征。

4.根据权利要求1所述的第一人称视角动作识别方法，其特征在于，所述通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别，具体步骤为：

对分离分数进行标准化：

5.根据权利要求1所述的第一人称视角动作识别方法，其特征在于，所述搜索最优的长短时记忆网络结构通过搜索最优的候选连接实现，具体为：

计算每个候选连接的权重：

其中，和/>为可学习结构参数；

其中，k为每个隐层状态选择的候选连接数量；

其中，W_cls为全连接参数，K为动作类别数量。

6.根据权利要求5所述的第一人称视角动作识别方法，其特征在于，所述使用动作类别作为监督，定位视频中的关键区域的过程中，使用了以下的约束：

其中，为t时刻第n个关键区域的特征；

所述显式关系建模的长短时记忆网络总体的损失函数为：

其中，γ是各个损失的权重。

7.一种第一人称视角动作识别系统，其特征在于，应用于权利要求1-6中任一项所述的第一人称视角动作识别方法，包括定位及特征提取模块、分组模块、模型构建模块以及识别模块；

所述识别模块利用所述显式关系建模的长短时记忆网络学习的特征进行动作识别；

t时刻的ego子网络的计算表达式如下：

h_t＝σ(o_t)⊙tanh(C_t)，

其中，W_pt和W_ft是可学习参数；

其中，W_pi，W_ci和W_fi为可学习参数；

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6任一项所述的第一人称视角动作识别方法。