CN107808144A

CN107808144A - 一种基于视频时空关系进行自我监督嵌入姿态学习方法

Info

Publication number: CN107808144A
Application number: CN201711107147.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-03-16

Abstract

本发明提出了一种基于视频时空关系进行自我监督嵌入姿态学习方法，利用两个辅助任务的平均值来学习视频中的时空关系：一个时间顺序任务学习两个特定的人物图像是否在时间上接近，一个空间布局任务从空间学习人体外观模型，加强了分离姿势与背景的能力。基于课程的学习和挖掘重复姿势，从简单的样本开始训练，然后迭代地扩展到更难的样本，同时消除不活动的视频部分。时空嵌入以自我监督的方式成功的学习人类姿态的代表性特征。本发明利用时空关系训练视频来进行姿势嵌入的自我监督学习，无需人为注释，降低成本，姿态嵌入可捕获人类姿态的视觉特征，提升人类姿态估计和检索效率。

Description

一种基于视频时空关系进行自我监督嵌入姿态学习方法

技术领域

本发明涉及视频姿态分析领域，尤其是涉及了一种基于视频时空关系进行自我监督嵌入姿态学习方法。

背景技术

识别人类姿势的能力对于描述动作是必不可少的，视频中的不同姿势构成了与文字相似的视觉词汇。计算机视觉处理系统中，在不同视频中找到类似的姿势自动启用许多不同的应用程序，如动作识别或视频内容检索。姿势分析作为新兴课题，在许多领域有着实用性发展，比如图像搜索、行为归类、安防监控方面，特别地，在交通领域中的无人驾驶、智能家居中的动作识别、医疗诊断中的人机交互等都具有广阔的应用前景。根据视频嵌入姿势提出的需要，捕捉不同姿态的特征，对同类变化表现出不变性，对身体部位关节敏感，而对照明，背景，杂波，变形(如面部表情)或闭塞表现出不变性。通常使用人体关节作为描述相似性的代表。目前常用的人类姿态分析存在几个问题：第一，精确地测量姿态空间距离并提出一个非歧义的欧几里得嵌入式非常具有挑战性；第二，在大量关节集中手动人为注释数据不仅耗时间，且成本昂贵。

发明内容

针对成本昂贵、耗时间的问题，本发明利用时空关系训练视频来进行姿势嵌入的自我监督学习，无需人为注释，降低成本，姿态嵌入可捕获人类姿态的视觉特征，提升人类姿态估计和检索效率。

为解决上述问题，本发明提供一种基于视频时空关系进行自我监督嵌入姿态学习方法，其主要内容包括：

(一)自我监督的姿态嵌入：时间顺序和空间布局；

(二)创建训练课程；

(三)挖掘重复姿势；

(四)网络结构。

其中，所述的自我监督的姿态嵌入：时间顺序和空间布局(一)，从视频中自动采样时间和空间辅助任务，任务从学习姿势嵌入所必需的内部视图中获取互补信息，时间任务中姿态嵌入对身体运动更为敏感，并且对摄像机的运动(即平移，放大/缩小，抖动)表现的更加稳定，空间任务依赖单个框的空间布局，着重于学习人体外观模型，加强了分离姿势与背景的能力。

进一步地，所述的时间排序任务，两个帧的元组从含二进制标签的相同视频中取样，二进制标签指示第一帧(锚)是否由第二帧(候选)在时间上跟踪，为了专注于学习人的姿势，不对全框进行采样，而是对感兴趣的人的边界框进行估计，时间排序任务的训练输入包括两个裁剪框和二进制标签，指示两个框是否是在时间上排序，对于在时间点t₀采样帧用时间偏移量Δ_t＝t-t₀取样候选帧I_t，为了对正向候选进行采样，偏移量需要为Δ_t＝τ⁺，假如：则对负向候选量进行采样，为负向候选的范围限制，即正向候选完全来自于τ⁺，而负向候选来自于锚架前后的范围；时间排序任务依赖于时间相干性的假设，即小时间邻域中的帧比远端帧更相似，增加正向候选来自未来的约束，由于视频的自我监督抽样已经引入了大量的变化，希望正向的种类尽可能的同质化便于培训，相反，负向类别从允许更多变化的较大范围进行抽样，但仍然足够接近正向类别。

进一步地，所述的空间布局任务，其特征在于，将框架与一个二进制标签一起从单个框中随机裁剪，指示裁剪框是否与估计的框架重叠，重叠用检测评价函数(IoU)进行测量，对于估计的边界框I_b和随机裁剪框I_r，二进制标签ys定义为：

其中IoU(·,·)计算IoU，定义为重叠为正的范围，而定义为重叠为负的范围；由于估计的边界框不完全可靠，因此通常选择正和负的IoU范围，它们之间有间隙以帮助分类；在这两个辅助任务中，每个正向姿势都使用三个负样本，从较大的范围内抽样负样本有助于精确地学习正相似性，由于这两个任务都集中在人的姿势的不同方面，最好的姿势嵌入是通过联合训练获得的。

其中，所述的创建训练课程(二)，使用人体注释的监督培训中，避免不明确甚至不正确的标签的困难样本，这种数据会抑制收敛导致较差结果，另一方面，跳过太多困难的训练样本可能会导致对一小部分简单样本的过度拟合，导致未知数据集的泛化，通过在训练过程中逐渐增加难度的训练数据课程来达到平衡，创建关于时间排序任务的课程，产生比空间布局更多的不一致的样本。

进一步地，所述的训练样本，确定特定训练样本时间排序的困难，研究相应视频的运动特性，例如，一个挺举视频主要为不活动的部分，很少运动，而跳远视频占主导地位的高度重复的结构为快速移动、变形的姿势，有前景运动的视频序列(例如跳远视频)的训练样本对于学习时间顺序是更好的，因为负向候选从τ^-范围取样，容易从正值τ⁺中区分，通过估计视频中的运动和足够的动作样本训练框架来确定训练样本的难度，在创建课程时，使用基于光学流的标准框来计算前景和背景中的光流比例，计算fg/bg比，即前景边界框中的光流的平均幅度除以背景的光流的平均幅度，fg/bg比率作为信号信噪比的代表，具有较高值更容易与背景分离，根据流动比例对培训样本进行分类，将其分散在不同的块中，更新课程，并增加难度。

其中，所述的挖掘重复姿势(三)，重复姿势影响时间排序任务的训练，如果重复的位置是已知的，则可以将其作为有价值的培训数据提取和使用，称之为重复挖掘，重复挖掘通过提供新的相似性学习任务来增加时间排序，虽然课程在自我监督训练的早期阶段避免了复杂的样本，但视频中的重复姿态并没有被基于运动的课程覆盖，时间排序任务的训练受到违反时间一致性假设而导致不正确的标记图像的影响，在初步训练时间排序任务之后，使用学习的姿态嵌入来检测训练数据中的重复姿态，对于每个视频，我们通过计算框架之间的所有成对距离来获得自相似矩阵，使用标准化的pool5特征的欧几里得范数作为距离度量，为了提取可靠和强效的重复姿势，使用5×5循环滤波器矩阵来卷积自相似矩阵，通过阈值来抑制对角线不对齐的潜在异常值，每行的最大值表示相应查询框的精确重复。

进一步地，所述的重复姿势，重复姿势形成一组非常相似但不完全相同的图像，因为随着时间的推移，摄像机运动以及摄像机的帧速率的变化所引起的微小变化，高度相似的图像有助于了解人体姿态的更精细的细节，可用于创建一个新的类似的不同问题类型，类似对是在重复组选择，负向候选从重复区域之间选择；采用引导的方式，通过反复训练的时间顺序的任务和挖掘重复提供更好的训练样本，无需额外的监管。

其中，所述的网络结构(四)，两个卷积神经网络自我监督的任务器，处理的图像数量不同，时间顺序任务使用暹罗结构来训练，该体系结构以一对图像作为输入，空间布局任务使用一个公共的单流体系结构对单个图像进行训练，时间任务中，两个暹罗流由卷积层组成，在最后一个池化层之后，级联来自两个流的输出，完全连接的层计算测试的二进制输出概率，通过最小化二进制交叉熵损失函数训练卷积网络，卷积网络通过最小化二进制交叉熵损失函数进行训练，对于这两个任务的联合训练，卷积层中的权重不仅在暹罗部分之间共享，也与空间布局任务的卷积层共享；此外，两个辅助任务的联合损失以加权和计算。

进一步地，所述的卷积层共享，训练网络后，我们使用共享层Pool5的特征表示作为姿势嵌入，该层的特征提供良好的定位，对于姿态检索和估计很重要，为了避免过度拟合，二进制任务不需要大量的参数，这两个网络在完全连接的层中的神经元数量减少了；为了提升时间任务的训练，用最后的卷积层替换具有负斜率的非线性的正则整流线性单元；在完全连接的层中使用批量归一化是培训中的一个重要的正则化，有助于泛化到其他数据集。

附图说明

图1是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的系统流程图。

图2是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的自我监督的姿态嵌入图。

图3是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的挖掘重复姿势图。

图4是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的时间顺序和空间布局的网络体系结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的系统流程图。主要包括自我监督的姿态嵌入：时间顺序和空间布局(一)；创建训练课程(二)；挖掘重复姿势(三)；网络结构(四)。

创建训练课程使用人体注释的监督培训中，避免不明确甚至不正确的标签的困难样本，这种数据会抑制收敛导致较差结果，另一方面，跳过太多困难的训练样本可能会导致对一小部分简单样本的过度拟合，导致未知数据集的泛化，通过在训练过程中逐渐增加难度的训练数据课程来达到平衡，创建关于时间排序任务的课程，产生比空间布局更多的不一致的样本。

确定特定训练样本时间排序的困难，研究相应视频的运动特性，例如，一个挺举视频主要为不活动的部分，很少运动，而跳远视频占主导地位的高度重复的结构为快速移动、变形的姿势，有前景运动的视频序列(例如跳远视频)的训练样本对于学习时间顺序是更好的，因为负向候选从τ^-范围取样，容易从正值τ⁺中区分，通过估计视频中的运动和足够的动作样本训练框架来确定训练样本的难度，在创建课程时，使用基于光学流的标准框来计算前景和背景中的光流比例，计算fg/bg比，即前景边界框中的光流的平均幅度除以背景的光流的平均幅度，fg/bg比率作为信号信噪比的代表，具有较高值更容易与背景分离，根据流动比例对培训样本进行分类，将其分散在不同的块中，更新课程，并增加难度。

重复姿势影响时间排序任务的训练，如果重复的位置是已知的，则可以将其作为有价值的培训数据提取和使用，称之为重复挖掘，重复挖掘通过提供新的相似性学习任务来增加时间排序，虽然课程在自我监督训练的早期阶段避免了复杂的样本，但视频中的重复姿态并没有被基于运动的课程覆盖，时间排序任务的训练受到违反时间一致性假设而导致不正确的标记图像的影响，在初步训练时间排序任务之后，使用学习的姿态嵌入来检测训练数据中的重复姿态，对于每个视频，我们通过计算框架之间的所有成对距离来获得自相似矩阵，使用标准化的pool5特征的欧几里得范数作为距离度量，为了提取可靠和强效的重复姿势，使用5×5循环滤波器矩阵来卷积自相似矩阵，通过阈值来抑制对角线不对齐的潜在异常值，每行的最大值表示相应查询框的精确重复。

图2是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的自我监督的姿态嵌入图。从视频中自动采样时间和空间辅助任务，任务从学习姿势嵌入所必需的内部视图中获取互补信息，时间任务中姿态嵌入对身体运动更为敏感，并且对摄像机的运动(即平移，放大/缩小，抖动)表现的更加稳定，空间任务依赖单个框的空间布局，着重于学习人体外观模型，加强了分离姿势与背景的能力。

时间排序任务采用两个帧的元组从含二进制标签的相同视频中取样，二进制标签指示第一帧(锚)是否由第二帧(候选)在时间上跟踪，为了专注于学习人的姿势，不对全框进行采样，而是对感兴趣的人的边界框进行估计，时间排序任务的训练输入包括两个裁剪框和二进制标签，指示两个框是否是在时间上排序，对于在时间点t₀采样帧，用时间偏移量Δ_t＝t-t₀取样候选帧I_t，为了对正向候选进行采样，偏移量需要为Δ_t＝τ⁺，假如：则对负向候选量进行采样，为负向候选的范围限制，即正向候选完全来自于τ⁺，而负向候选来自于锚架前后的范围；时间排序任务依赖于时间相干性的假设，即小时间邻域中的帧比远端帧更相似，增加正向候选来自未来的约束，由于视频的自我监督抽样已经引入了大量的变化，希望正向的种类尽可能的同质化便于培训，相反，负向类别从允许更多变化的较大范围进行抽样，但仍然足够接近正向类别。

空间布局任务将框架与一个二进制标签一起从单个框中随机裁剪，指示裁剪框是否与估计的框架重叠，重叠用检测评价函数(IoU)进行测量，对于估计的边界框I_b和随机裁剪框I_r，二进制标签ys定义为：

图3是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的挖掘重复姿势图。由于人的移动，相机视点的变化，重复姿势形成一组非常相似但不完全相同的图像，因为随着时间的推移，摄像机运动以及摄像机的帧速率的变化所引起的微小变化，高度相似的图像有助于了解人体姿态的更精细的细节，可用于创建一个新的类似的不同问题类型，类似对是在重复组选择，负向候选从重复区域之间选择；采用引导的方式，通过反复训练的时间顺序的任务和挖掘重复提供更好的训练样本，无需额外的监管。

图4是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的时间顺序和空间布局的网络体系结构图。两个卷积神经网络自我监督的任务器，处理的图像数量不同，时间顺序任务使用暹罗结构来训练，该体系结构以一对图像作为输入，空间布局任务使用一个公共的单流体系结构对单个图像进行训练，时间任务中，两个暹罗流由卷积层组成，在最后一个池化层之后，级联来自两个流的输出，完全连接的层计算测试的二进制输出概率，通过最小化二进制交叉熵损失函数训练卷积网络，卷积网络通过最小化二进制交叉熵损失函数进行训练，对于这两个任务的联合训练，卷积层中的权重不仅在暹罗部分之间共享，也与空间布局任务的卷积层共享；此外，两个辅助任务的联合损失以加权和计算。

训练网络后，我们使用共享层Pool5的特征表示作为姿势嵌入，该层的特征提供良好的定位，对于姿态检索和估计很重要，为了避免过度拟合，二进制任务不需要大量的参数，这两个网络在完全连接的层中的神经元数量减少了；为了提升时间任务的训练，用最后的卷积层替换具有负斜率的非线性的正则整流线性单元；在完全连接的层中使用批量归一化是培训中的一个重要的正则化，有助于泛化到其他数据集。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于视频时空关系进行自我监督嵌入姿态学习方法，其特征在于，主要包括自我监督的姿态嵌入：时间排序和空间布局(一)；创建训练课程(二)；挖掘重复姿势(三)；网络结构(四)。

2.基于权利要求书1所述的自我监督的姿态嵌入：时间排序和空间布局(一)，其特征在于，从视频中自动采样时间和空间辅助任务，任务从学习姿势嵌入所必需的内部视图中获取互补信息，时间任务中姿态嵌入对身体运动更为敏感，并且对摄像机的运动(即平移，放大/缩小，抖动)表现的更加稳定，空间任务依赖单个框的空间布局，着重于学习人体外观模型，加强了分离姿势与背景的能力。

3.基于权利要求书2所述的时间排序，其特征在于，两个帧的元组从含二进制标签的相同视频中取样，二进制标签指示第一帧(锚)是否由第二帧(候选)在时间上跟踪，为了专注于学习人的姿势，不对全框进行采样，而是对感兴趣的人的边界框进行估计，时间排序任务的训练输入包括两个裁剪框和二进制标签，指示两个框是否是在时间上排序，对于在时间点t₀采样帧用时间偏移量Δ_t＝t-t₀取样候选帧I_t，为了对正向候选进行采样，偏移量需要为Δ_t＝τ⁺，假如：则对负向候选量进行采样，为负向候选的范围限制，即正向候选完全来自于τ⁺，而负向候选来自于锚架前后的范围；时间排序任务依赖于时间相干性的假设，即小时间邻域中的帧比远端帧更相似，增加正向候选来自未来的约束，由于视频的自我监督抽样已经引入了大量的变化，希望正向的种类尽可能的同质化便于培训，相反，负向类别从允许更多变化的较大范围进行抽样，但仍然足够接近正向类别。

4.基于权利要求书2所述的空间布局，其特征在于，将框架与一个二进制标签一起从单个框中随机裁剪，指示裁剪框是否与估计的框架重叠，重叠用检测评价函数(IoU)进行测量，对于估计的边界框I_b和随机裁剪框I_r，二进制标签ys定义为：

<mrow> <mi>y</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>b</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi>I</mi> <mi>o</mi> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>b</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <msubsup> <mi>&sigma;</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mo>+</mo> </msubsup> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi>I</mi> <mi>o</mi> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>b</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <msubsup> <mi>&sigma;</mi> <mi>min</mi> <mo>-</mo> </msubsup> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mi>max</mi> <mo>-</mo> </msubsup> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

5.基于权利要求书1所述的创建训练课程(二)，其特征在于，使用人体注释的监督培训中，避免不明确甚至不正确的标签的困难样本，这种数据会抑制收敛导致较差结果，另一方面，跳过太多困难的训练样本可能会导致对一小部分简单样本的过度拟合，导致未知数据集的泛化，通过在训练过程中逐渐增加难度的训练数据课程来达到平衡，创建关于时间排序任务的课程，产生比空间布局更多的不一致的样本。

6.基于权利要求书5所述的训练样本，其特征在于，确定特定训练样本时间排序的困难，研究相应视频的运动特性，例如，一个挺举视频主要为不活动的部分，很少运动，而跳远视频占主导地位的高度重复的结构为快速移动、变形的姿势，有前景运动的视频序列(例如跳远视频)的训练样本对于学习时间顺序是更好的，因为负向候选从τ^-范围取样，容易从正值τ⁺中区分，通过估计视频中的运动和足够的动作样本训练框架来确定训练样本的难度，在创建课程时，使用基于光学流的标准框来计算前景和背景中的光流比例，计算fg/bg比，即前景边界框中的光流的平均幅度除以背景的光流的平均幅度，fg/bg比率作为信号信噪比的代表，具有较高值更容易与背景分离，根据流动比例对培训样本进行分类，将其分散在不同的块中，更新课程，并增加难度。

7.基于权利要求书1所述的挖掘重复姿势(三)，其特征在于，重复姿势影响时间排序任务的训练，如果重复的位置是已知的，则可以将其作为有价值的培训数据提取和使用，称之为重复挖掘，重复挖掘通过提供新的相似性学习任务来增加时间排序，虽然课程在自我监督训练的早期阶段避免了复杂的样本，但视频中的重复姿态并没有被基于运动的课程覆盖，时间排序任务的训练受到违反时间一致性假设而导致不正确的标记图像的影响，在初步训练时间排序任务之后，使用学习的姿态嵌入来检测训练数据中的重复姿态，对于每个视频，我们通过计算框架之间的所有成对距离来获得自相似矩阵，使用标准化的pool5特征的欧几里得范数作为距离度量，为了提取可靠和强效的重复姿势，使用5×5循环滤波器矩阵来卷积自相似矩阵，通过阈值来抑制对角线不对齐的潜在异常值，每行的最大值表示相应查询框的精确重复。

8.基于权利要求书7所述的重复姿势，其特征在于，重复姿势形成一组非常相似但不完全相同的图像，因为随着时间的推移，摄像机运动以及摄像机的帧速率的变化所引起的微小变化，高度相似的图像有助于了解人体姿态的更精细的细节，可用于创建一个新的类似的不同问题类型，类似对是在重复组选择，负向候选从重复区域之间选择；采用引导的方式，通过反复训练的时间顺序的任务和挖掘重复提供更好的训练样本，无需额外的监管。

9.基于权利要求书1所述的网络结构(四)，其特征在于，两个卷积神经网络自我监督的任务器，处理的图像数量不同，时间顺序任务使用暹罗结构来训练，该体系结构以一对图像作为输入，空间布局任务使用一个公共的单流体系结构对单个图像进行训练，时间任务中，两个暹罗流由卷积层组成，在最后一个池化层之后，级联来自两个流的输出，完全连接的层计算测试的二进制输出概率，通过最小化二进制交叉熵损失函数训练卷积网络，卷积网络通过最小化二进制交叉熵损失函数进行训练，对于这两个任务的联合训练，卷积层中的权重不仅在暹罗部分之间共享，也与空间布局任务的卷积层共享；此外，两个辅助任务的联合损失以加权和计算。

10.基于权利要求书9所述的卷积层共享，其特征在于，训练网络后，我们使用共享层Pool5的特征表示作为姿势嵌入，该层的特征提供良好的定位，对于姿态检索和估计很重要，为了避免过度拟合，二进制任务不需要大量的参数，这两个网络在完全连接的层中的神经元数量减少了；为了提升时间任务的训练，用最后的卷积层替换具有负斜率的非线性的正则整流线性单元；在完全连接的层中使用批量归一化是培训中的一个重要的正则化，有助于泛化到其他数据集。