CN107808144A - 一种基于视频时空关系进行自我监督嵌入姿态学习方法 - Google Patents

一种基于视频时空关系进行自我监督嵌入姿态学习方法 Download PDF

Info

Publication number
CN107808144A
CN107808144A CN201711107147.0A CN201711107147A CN107808144A CN 107808144 A CN107808144 A CN 107808144A CN 201711107147 A CN201711107147 A CN 201711107147A CN 107808144 A CN107808144 A CN 107808144A
Authority
CN
China
Prior art keywords
posture
time
training
video
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711107147.0A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201711107147.0A priority Critical patent/CN107808144A/zh
Publication of CN107808144A publication Critical patent/CN107808144A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于视频时空关系进行自我监督嵌入姿态学习方法,利用两个辅助任务的平均值来学习视频中的时空关系:一个时间顺序任务学习两个特定的人物图像是否在时间上接近,一个空间布局任务从空间学习人体外观模型,加强了分离姿势与背景的能力。基于课程的学习和挖掘重复姿势,从简单的样本开始训练,然后迭代地扩展到更难的样本,同时消除不活动的视频部分。时空嵌入以自我监督的方式成功的学习人类姿态的代表性特征。本发明利用时空关系训练视频来进行姿势嵌入的自我监督学习,无需人为注释,降低成本,姿态嵌入可捕获人类姿态的视觉特征,提升人类姿态估计和检索效率。

Description

一种基于视频时空关系进行自我监督嵌入姿态学习方法
技术领域
本发明涉及视频姿态分析领域,尤其是涉及了一种基于视频时空关系进行自我监督嵌入姿态学习方法。
背景技术
识别人类姿势的能力对于描述动作是必不可少的,视频中的不同姿势构成了与文字相似的视觉词汇。计算机视觉处理系统中,在不同视频中找到类似的姿势自动启用许多不同的应用程序,如动作识别或视频内容检索。姿势分析作为新兴课题,在许多领域有着实用性发展,比如图像搜索、行为归类、安防监控方面,特别地,在交通领域中的无人驾驶、智能家居中的动作识别、医疗诊断中的人机交互等都具有广阔的应用前景。根据视频嵌入姿势提出的需要,捕捉不同姿态的特征,对同类变化表现出不变性,对身体部位关节敏感,而对照明,背景,杂波,变形(如面部表情)或闭塞表现出不变性。通常使用人体关节作为描述相似性的代表。目前常用的人类姿态分析存在几个问题:第一,精确地测量姿态空间距离并提出一个非歧义的欧几里得嵌入式非常具有挑战性;第二,在大量关节集中手动人为注释数据不仅耗时间,且成本昂贵。
本发明提出了一种基于视频时空关系进行自我监督嵌入姿态学习方法,利用两个辅助任务的平均值来学习视频中的时空关系:一个时间顺序任务学习两个特定的人物图像是否在时间上接近,一个空间布局任务从空间学习人体外观模型,加强了分离姿势与背景的能力。基于课程的学习和挖掘重复姿势,从简单的样本开始训练,然后迭代地扩展到更难的样本,同时消除不活动的视频部分。时空嵌入以自我监督的方式成功的学习人类姿态的代表性特征。本发明利用时空关系训练视频来进行姿势嵌入的自我监督学习,无需人为注释,降低成本,姿态嵌入可捕获人类姿态的视觉特征,提升人类姿态估计和检索效率。
发明内容
针对成本昂贵、耗时间的问题,本发明利用时空关系训练视频来进行姿势嵌入的自我监督学习,无需人为注释,降低成本,姿态嵌入可捕获人类姿态的视觉特征,提升人类姿态估计和检索效率。
为解决上述问题,本发明提供一种基于视频时空关系进行自我监督嵌入姿态学习方法,其主要内容包括:
(一)自我监督的姿态嵌入:时间顺序和空间布局;
(二)创建训练课程;
(三)挖掘重复姿势;
(四)网络结构。
其中,所述的自我监督的姿态嵌入:时间顺序和空间布局(一),从视频中自动采样时间和空间辅助任务,任务从学习姿势嵌入所必需的内部视图中获取互补信息,时间任务中姿态嵌入对身体运动更为敏感,并且对摄像机的运动(即平移,放大/缩小,抖动)表现的更加稳定,空间任务依赖单个框的空间布局,着重于学习人体外观模型,加强了分离姿势与背景的能力。
进一步地,所述的时间排序任务,两个帧的元组从含二进制标签的相同视频中取样,二进制标签指示第一帧(锚)是否由第二帧(候选)在时间上跟踪,为了专注于学习人的姿势,不对全框进行采样,而是对感兴趣的人的边界框进行估计,时间排序任务的训练输入包括两个裁剪框和二进制标签,指示两个框是否是在时间上排序,对于在时间点t0采样帧用时间偏移量Δt=t-t0取样候选帧It,为了对正向候选进行采样,偏移量需要为Δt=τ+,假如:则对负向候选量进行采样,为负向候选的范围限制,即正向候选完全来自于τ+,而负向候选来自于锚架前后的范围;时间排序任务依赖于时间相干性的假设,即小时间邻域中的帧比远端帧更相似,增加正向候选来自未来的约束,由于视频的自我监督抽样已经引入了大量的变化,希望正向的种类尽可能的同质化便于培训,相反,负向类别从允许更多变化的较大范围进行抽样,但仍然足够接近正向类别。
进一步地,所述的空间布局任务,其特征在于,将框架与一个二进制标签一起从单个框中随机裁剪,指示裁剪框是否与估计的框架重叠,重叠用检测评价函数(IoU)进行测量,对于估计的边界框Ib和随机裁剪框Ir,二进制标签ys定义为:
其中IoU(·,·)计算IoU,定义为重叠为正的范围,而定义为重叠为负的范围;由于估计的边界框不完全可靠,因此通常选择正和负的IoU范围,它们之间有间隙以帮助分类;在这两个辅助任务中,每个正向姿势都使用三个负样本,从较大的范围内抽样负样本有助于精确地学习正相似性,由于这两个任务都集中在人的姿势的不同方面,最好的姿势嵌入是通过联合训练获得的。
其中,所述的创建训练课程(二),使用人体注释的监督培训中,避免不明确甚至不正确的标签的困难样本,这种数据会抑制收敛导致较差结果,另一方面,跳过太多困难的训练样本可能会导致对一小部分简单样本的过度拟合,导致未知数据集的泛化,通过在训练过程中逐渐增加难度的训练数据课程来达到平衡,创建关于时间排序任务的课程,产生比空间布局更多的不一致的样本。
进一步地,所述的训练样本,确定特定训练样本时间排序的困难,研究相应视频的运动特性,例如,一个挺举视频主要为不活动的部分,很少运动,而跳远视频占主导地位的高度重复的结构为快速移动、变形的姿势,有前景运动的视频序列(例如跳远视频)的训练样本对于学习时间顺序是更好的,因为负向候选从τ-范围取样,容易从正值τ+中区分,通过估计视频中的运动和足够的动作样本训练框架来确定训练样本的难度,在创建课程时,使用基于光学流的标准框来计算前景和背景中的光流比例,计算fg/bg比,即前景边界框中的光流的平均幅度除以背景的光流的平均幅度,fg/bg比率作为信号信噪比的代表,具有较高值更容易与背景分离,根据流动比例对培训样本进行分类,将其分散在不同的块中,更新课程,并增加难度。
其中,所述的挖掘重复姿势(三),重复姿势影响时间排序任务的训练,如果重复的位置是已知的,则可以将其作为有价值的培训数据提取和使用,称之为重复挖掘,重复挖掘通过提供新的相似性学习任务来增加时间排序,虽然课程在自我监督训练的早期阶段避免了复杂的样本,但视频中的重复姿态并没有被基于运动的课程覆盖,时间排序任务的训练受到违反时间一致性假设而导致不正确的标记图像的影响,在初步训练时间排序任务之后,使用学习的姿态嵌入来检测训练数据中的重复姿态,对于每个视频,我们通过计算框架之间的所有成对距离来获得自相似矩阵,使用标准化的pool5特征的欧几里得范数作为距离度量,为了提取可靠和强效的重复姿势,使用5×5循环滤波器矩阵来卷积自相似矩阵,通过阈值来抑制对角线不对齐的潜在异常值,每行的最大值表示相应查询框的精确重复。
进一步地,所述的重复姿势,重复姿势形成一组非常相似但不完全相同的图像,因为随着时间的推移,摄像机运动以及摄像机的帧速率的变化所引起的微小变化,高度相似的图像有助于了解人体姿态的更精细的细节,可用于创建一个新的类似的不同问题类型,类似对是在重复组选择,负向候选从重复区域之间选择;采用引导的方式,通过反复训练的时间顺序的任务和挖掘重复提供更好的训练样本,无需额外的监管。
其中,所述的网络结构(四),两个卷积神经网络自我监督的任务器,处理的图像数量不同,时间顺序任务使用暹罗结构来训练,该体系结构以一对图像作为输入,空间布局任务使用一个公共的单流体系结构对单个图像进行训练,时间任务中,两个暹罗流由卷积层组成,在最后一个池化层之后,级联来自两个流的输出,完全连接的层计算测试的二进制输出概率,通过最小化二进制交叉熵损失函数训练卷积网络,卷积网络通过最小化二进制交叉熵损失函数进行训练,对于这两个任务的联合训练,卷积层中的权重不仅在暹罗部分之间共享,也与空间布局任务的卷积层共享;此外,两个辅助任务的联合损失以加权和计算。
进一步地,所述的卷积层共享,训练网络后,我们使用共享层Pool5的特征表示作为姿势嵌入,该层的特征提供良好的定位,对于姿态检索和估计很重要,为了避免过度拟合,二进制任务不需要大量的参数,这两个网络在完全连接的层中的神经元数量减少了;为了提升时间任务的训练,用最后的卷积层替换具有负斜率的非线性的正则整流线性单元;在完全连接的层中使用批量归一化是培训中的一个重要的正则化,有助于泛化到其他数据集。
附图说明
图1是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的系统流程图。
图2是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的自我监督的姿态嵌入图。
图3是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的挖掘重复姿势图。
图4是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的时间顺序和空间布局的网络体系结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的系统流程图。主要包括自我监督的姿态嵌入:时间顺序和空间布局(一);创建训练课程(二);挖掘重复姿势(三);网络结构(四)。
创建训练课程使用人体注释的监督培训中,避免不明确甚至不正确的标签的困难样本,这种数据会抑制收敛导致较差结果,另一方面,跳过太多困难的训练样本可能会导致对一小部分简单样本的过度拟合,导致未知数据集的泛化,通过在训练过程中逐渐增加难度的训练数据课程来达到平衡,创建关于时间排序任务的课程,产生比空间布局更多的不一致的样本。
确定特定训练样本时间排序的困难,研究相应视频的运动特性,例如,一个挺举视频主要为不活动的部分,很少运动,而跳远视频占主导地位的高度重复的结构为快速移动、变形的姿势,有前景运动的视频序列(例如跳远视频)的训练样本对于学习时间顺序是更好的,因为负向候选从τ-范围取样,容易从正值τ+中区分,通过估计视频中的运动和足够的动作样本训练框架来确定训练样本的难度,在创建课程时,使用基于光学流的标准框来计算前景和背景中的光流比例,计算fg/bg比,即前景边界框中的光流的平均幅度除以背景的光流的平均幅度,fg/bg比率作为信号信噪比的代表,具有较高值更容易与背景分离,根据流动比例对培训样本进行分类,将其分散在不同的块中,更新课程,并增加难度。
重复姿势影响时间排序任务的训练,如果重复的位置是已知的,则可以将其作为有价值的培训数据提取和使用,称之为重复挖掘,重复挖掘通过提供新的相似性学习任务来增加时间排序,虽然课程在自我监督训练的早期阶段避免了复杂的样本,但视频中的重复姿态并没有被基于运动的课程覆盖,时间排序任务的训练受到违反时间一致性假设而导致不正确的标记图像的影响,在初步训练时间排序任务之后,使用学习的姿态嵌入来检测训练数据中的重复姿态,对于每个视频,我们通过计算框架之间的所有成对距离来获得自相似矩阵,使用标准化的pool5特征的欧几里得范数作为距离度量,为了提取可靠和强效的重复姿势,使用5×5循环滤波器矩阵来卷积自相似矩阵,通过阈值来抑制对角线不对齐的潜在异常值,每行的最大值表示相应查询框的精确重复。
图2是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的自我监督的姿态嵌入图。从视频中自动采样时间和空间辅助任务,任务从学习姿势嵌入所必需的内部视图中获取互补信息,时间任务中姿态嵌入对身体运动更为敏感,并且对摄像机的运动(即平移,放大/缩小,抖动)表现的更加稳定,空间任务依赖单个框的空间布局,着重于学习人体外观模型,加强了分离姿势与背景的能力。
时间排序任务采用两个帧的元组从含二进制标签的相同视频中取样,二进制标签指示第一帧(锚)是否由第二帧(候选)在时间上跟踪,为了专注于学习人的姿势,不对全框进行采样,而是对感兴趣的人的边界框进行估计,时间排序任务的训练输入包括两个裁剪框和二进制标签,指示两个框是否是在时间上排序,对于在时间点t0采样帧,用时间偏移量Δt=t-t0取样候选帧It,为了对正向候选进行采样,偏移量需要为Δt=τ+,假如: 则对负向候选量进行采样,为负向候选的范围限制,即正向候选完全来自于τ+,而负向候选来自于锚架前后的范围;时间排序任务依赖于时间相干性的假设,即小时间邻域中的帧比远端帧更相似,增加正向候选来自未来的约束,由于视频的自我监督抽样已经引入了大量的变化,希望正向的种类尽可能的同质化便于培训,相反,负向类别从允许更多变化的较大范围进行抽样,但仍然足够接近正向类别。
空间布局任务将框架与一个二进制标签一起从单个框中随机裁剪,指示裁剪框是否与估计的框架重叠,重叠用检测评价函数(IoU)进行测量,对于估计的边界框Ib和随机裁剪框Ir,二进制标签ys定义为:
其中IoU(·,·)计算IoU,定义为重叠为正的范围,而定义为重叠为负的范围;由于估计的边界框不完全可靠,因此通常选择正和负的IoU范围,它们之间有间隙以帮助分类;在这两个辅助任务中,每个正向姿势都使用三个负样本,从较大的范围内抽样负样本有助于精确地学习正相似性,由于这两个任务都集中在人的姿势的不同方面,最好的姿势嵌入是通过联合训练获得的。
图3是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的挖掘重复姿势图。由于人的移动,相机视点的变化,重复姿势形成一组非常相似但不完全相同的图像,因为随着时间的推移,摄像机运动以及摄像机的帧速率的变化所引起的微小变化,高度相似的图像有助于了解人体姿态的更精细的细节,可用于创建一个新的类似的不同问题类型,类似对是在重复组选择,负向候选从重复区域之间选择;采用引导的方式,通过反复训练的时间顺序的任务和挖掘重复提供更好的训练样本,无需额外的监管。
图4是本发明一种基于视频时空关系进行自我监督嵌入姿态学习方法的时间顺序和空间布局的网络体系结构图。两个卷积神经网络自我监督的任务器,处理的图像数量不同,时间顺序任务使用暹罗结构来训练,该体系结构以一对图像作为输入,空间布局任务使用一个公共的单流体系结构对单个图像进行训练,时间任务中,两个暹罗流由卷积层组成,在最后一个池化层之后,级联来自两个流的输出,完全连接的层计算测试的二进制输出概率,通过最小化二进制交叉熵损失函数训练卷积网络,卷积网络通过最小化二进制交叉熵损失函数进行训练,对于这两个任务的联合训练,卷积层中的权重不仅在暹罗部分之间共享,也与空间布局任务的卷积层共享;此外,两个辅助任务的联合损失以加权和计算。
训练网络后,我们使用共享层Pool5的特征表示作为姿势嵌入,该层的特征提供良好的定位,对于姿态检索和估计很重要,为了避免过度拟合,二进制任务不需要大量的参数,这两个网络在完全连接的层中的神经元数量减少了;为了提升时间任务的训练,用最后的卷积层替换具有负斜率的非线性的正则整流线性单元;在完全连接的层中使用批量归一化是培训中的一个重要的正则化,有助于泛化到其他数据集。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于视频时空关系进行自我监督嵌入姿态学习方法,其特征在于,主要包括自我监督的姿态嵌入:时间排序和空间布局(一);创建训练课程(二);挖掘重复姿势(三);网络结构(四)。
2.基于权利要求书1所述的自我监督的姿态嵌入:时间排序和空间布局(一),其特征在于,从视频中自动采样时间和空间辅助任务,任务从学习姿势嵌入所必需的内部视图中获取互补信息,时间任务中姿态嵌入对身体运动更为敏感,并且对摄像机的运动(即平移,放大/缩小,抖动)表现的更加稳定,空间任务依赖单个框的空间布局,着重于学习人体外观模型,加强了分离姿势与背景的能力。
3.基于权利要求书2所述的时间排序,其特征在于,两个帧的元组从含二进制标签的相同视频中取样,二进制标签指示第一帧(锚)是否由第二帧(候选)在时间上跟踪,为了专注于学习人的姿势,不对全框进行采样,而是对感兴趣的人的边界框进行估计,时间排序任务的训练输入包括两个裁剪框和二进制标签,指示两个框是否是在时间上排序,对于在时间点t0采样帧用时间偏移量Δt=t-t0取样候选帧It,为了对正向候选进行采样,偏移量需要为Δt=τ+,假如:则对负向候选量进行采样,为负向候选的范围限制,即正向候选完全来自于τ+,而负向候选来自于锚架前后的范围;时间排序任务依赖于时间相干性的假设,即小时间邻域中的帧比远端帧更相似,增加正向候选来自未来的约束,由于视频的自我监督抽样已经引入了大量的变化,希望正向的种类尽可能的同质化便于培训,相反,负向类别从允许更多变化的较大范围进行抽样,但仍然足够接近正向类别。
4.基于权利要求书2所述的空间布局,其特征在于,将框架与一个二进制标签一起从单个框中随机裁剪,指示裁剪框是否与估计的框架重叠,重叠用检测评价函数(IoU)进行测量,对于估计的边界框Ib和随机裁剪框Ir,二进制标签ys定义为:
<mrow> <mi>y</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>b</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi>I</mi> <mi>o</mi> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>b</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;sigma;</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mo>+</mo> </msubsup> <mo>,</mo> <msubsup> <mi>&amp;sigma;</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mo>+</mo> </msubsup> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi>I</mi> <mi>o</mi> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>b</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;sigma;</mi> <mi>min</mi> <mo>-</mo> </msubsup> <mo>,</mo> <msubsup> <mi>&amp;sigma;</mi> <mi>max</mi> <mo>-</mo> </msubsup> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中IoU(·,·)计算IoU,定义为重叠为正的范围,而定义为重叠为负的范围;由于估计的边界框不完全可靠,因此通常选择正和负的IoU范围,它们之间有间隙以帮助分类;在这两个辅助任务中,每个正向姿势都使用三个负样本,从较大的范围内抽样负样本有助于精确地学习正相似性,由于这两个任务都集中在人的姿势的不同方面,最好的姿势嵌入是通过联合训练获得的。
5.基于权利要求书1所述的创建训练课程(二),其特征在于,使用人体注释的监督培训中,避免不明确甚至不正确的标签的困难样本,这种数据会抑制收敛导致较差结果,另一方面,跳过太多困难的训练样本可能会导致对一小部分简单样本的过度拟合,导致未知数据集的泛化,通过在训练过程中逐渐增加难度的训练数据课程来达到平衡,创建关于时间排序任务的课程,产生比空间布局更多的不一致的样本。
6.基于权利要求书5所述的训练样本,其特征在于,确定特定训练样本时间排序的困难,研究相应视频的运动特性,例如,一个挺举视频主要为不活动的部分,很少运动,而跳远视频占主导地位的高度重复的结构为快速移动、变形的姿势,有前景运动的视频序列(例如跳远视频)的训练样本对于学习时间顺序是更好的,因为负向候选从τ-范围取样,容易从正值τ+中区分,通过估计视频中的运动和足够的动作样本训练框架来确定训练样本的难度,在创建课程时,使用基于光学流的标准框来计算前景和背景中的光流比例,计算fg/bg比,即前景边界框中的光流的平均幅度除以背景的光流的平均幅度,fg/bg比率作为信号信噪比的代表,具有较高值更容易与背景分离,根据流动比例对培训样本进行分类,将其分散在不同的块中,更新课程,并增加难度。
7.基于权利要求书1所述的挖掘重复姿势(三),其特征在于,重复姿势影响时间排序任务的训练,如果重复的位置是已知的,则可以将其作为有价值的培训数据提取和使用,称之为重复挖掘,重复挖掘通过提供新的相似性学习任务来增加时间排序,虽然课程在自我监督训练的早期阶段避免了复杂的样本,但视频中的重复姿态并没有被基于运动的课程覆盖,时间排序任务的训练受到违反时间一致性假设而导致不正确的标记图像的影响,在初步训练时间排序任务之后,使用学习的姿态嵌入来检测训练数据中的重复姿态,对于每个视频,我们通过计算框架之间的所有成对距离来获得自相似矩阵,使用标准化的pool5特征的欧几里得范数作为距离度量,为了提取可靠和强效的重复姿势,使用5×5循环滤波器矩阵来卷积自相似矩阵,通过阈值来抑制对角线不对齐的潜在异常值,每行的最大值表示相应查询框的精确重复。
8.基于权利要求书7所述的重复姿势,其特征在于,重复姿势形成一组非常相似但不完全相同的图像,因为随着时间的推移,摄像机运动以及摄像机的帧速率的变化所引起的微小变化,高度相似的图像有助于了解人体姿态的更精细的细节,可用于创建一个新的类似的不同问题类型,类似对是在重复组选择,负向候选从重复区域之间选择;采用引导的方式,通过反复训练的时间顺序的任务和挖掘重复提供更好的训练样本,无需额外的监管。
9.基于权利要求书1所述的网络结构(四),其特征在于,两个卷积神经网络自我监督的任务器,处理的图像数量不同,时间顺序任务使用暹罗结构来训练,该体系结构以一对图像作为输入,空间布局任务使用一个公共的单流体系结构对单个图像进行训练,时间任务中,两个暹罗流由卷积层组成,在最后一个池化层之后,级联来自两个流的输出,完全连接的层计算测试的二进制输出概率,通过最小化二进制交叉熵损失函数训练卷积网络,卷积网络通过最小化二进制交叉熵损失函数进行训练,对于这两个任务的联合训练,卷积层中的权重不仅在暹罗部分之间共享,也与空间布局任务的卷积层共享;此外,两个辅助任务的联合损失以加权和计算。
10.基于权利要求书9所述的卷积层共享,其特征在于,训练网络后,我们使用共享层Pool5的特征表示作为姿势嵌入,该层的特征提供良好的定位,对于姿态检索和估计很重要,为了避免过度拟合,二进制任务不需要大量的参数,这两个网络在完全连接的层中的神经元数量减少了;为了提升时间任务的训练,用最后的卷积层替换具有负斜率的非线性的正则整流线性单元;在完全连接的层中使用批量归一化是培训中的一个重要的正则化,有助于泛化到其他数据集。
CN201711107147.0A 2017-11-10 2017-11-10 一种基于视频时空关系进行自我监督嵌入姿态学习方法 Withdrawn CN107808144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711107147.0A CN107808144A (zh) 2017-11-10 2017-11-10 一种基于视频时空关系进行自我监督嵌入姿态学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711107147.0A CN107808144A (zh) 2017-11-10 2017-11-10 一种基于视频时空关系进行自我监督嵌入姿态学习方法

Publications (1)

Publication Number Publication Date
CN107808144A true CN107808144A (zh) 2018-03-16

Family

ID=61583198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711107147.0A Withdrawn CN107808144A (zh) 2017-11-10 2017-11-10 一种基于视频时空关系进行自我监督嵌入姿态学习方法

Country Status (1)

Country Link
CN (1) CN107808144A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647571A (zh) * 2018-03-30 2018-10-12 国信优易数据有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108924385A (zh) * 2018-06-27 2018-11-30 华东理工大学 一种基于宽度学习的视频去抖动方法
CN109117786A (zh) * 2018-08-09 2019-01-01 百度在线网络技术(北京)有限公司 基于神经网络模型的数据处理方法、装置及可读存储介质
CN110414581A (zh) * 2019-07-19 2019-11-05 腾讯科技(深圳)有限公司 图片检测方法和装置、存储介质及电子装置
CN110543578A (zh) * 2019-08-09 2019-12-06 华为技术有限公司 物体识别方法及装置
CN110689010A (zh) * 2019-09-27 2020-01-14 支付宝(杭州)信息技术有限公司 一种证件识别方法及装置
CN111402098A (zh) * 2020-04-20 2020-07-10 深圳市博悦生活用品有限公司 基于儿童成长期的智慧早教方法、系统、设备、存储介质
CN112529009A (zh) * 2020-12-07 2021-03-19 苏州中德双智科创发展有限公司 一种图像特征的挖掘方法、装置、存储介质及电子设备
CN112567402A (zh) * 2019-01-23 2021-03-26 欧姆龙株式会社 动作分析装置、动作分析方法、动作分析程序及动作分析系统
CN112966587A (zh) * 2021-03-02 2021-06-15 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN113657127A (zh) * 2021-08-16 2021-11-16 浙江大学 手语生成方法和系统
CN114511751A (zh) * 2020-10-26 2022-05-17 罗伯特·博世有限公司 视频特征提取器的无监督训练

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899921A (zh) * 2015-06-04 2015-09-09 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899921A (zh) * 2015-06-04 2015-09-09 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OMER SUMER,TOBIAS DENCKER,BJORN OMMER.: ""Self-supervised Learning of Pose Embeddings from Spatiotemporal Relations in Videos"", 《ARXIV》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647571A (zh) * 2018-03-30 2018-10-12 国信优易数据有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN108647571B (zh) * 2018-03-30 2021-04-06 国信优易数据股份有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108764026B (zh) * 2018-04-12 2021-07-30 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108924385A (zh) * 2018-06-27 2018-11-30 华东理工大学 一种基于宽度学习的视频去抖动方法
CN108924385B (zh) * 2018-06-27 2020-11-03 华东理工大学 一种基于宽度学习的视频去抖动方法
CN109117786A (zh) * 2018-08-09 2019-01-01 百度在线网络技术(北京)有限公司 基于神经网络模型的数据处理方法、装置及可读存储介质
CN112567402A (zh) * 2019-01-23 2021-03-26 欧姆龙株式会社 动作分析装置、动作分析方法、动作分析程序及动作分析系统
CN110414581A (zh) * 2019-07-19 2019-11-05 腾讯科技(深圳)有限公司 图片检测方法和装置、存储介质及电子装置
CN110414581B (zh) * 2019-07-19 2023-05-30 腾讯科技(深圳)有限公司 图片检测方法和装置、存储介质及电子装置
CN110543578A (zh) * 2019-08-09 2019-12-06 华为技术有限公司 物体识别方法及装置
CN110543578B (zh) * 2019-08-09 2024-05-14 华为技术有限公司 物体识别方法及装置
CN110689010A (zh) * 2019-09-27 2020-01-14 支付宝(杭州)信息技术有限公司 一种证件识别方法及装置
CN111402098A (zh) * 2020-04-20 2020-07-10 深圳市博悦生活用品有限公司 基于儿童成长期的智慧早教方法、系统、设备、存储介质
CN111402098B (zh) * 2020-04-20 2023-02-28 深圳市火火兔智慧科技有限公司 基于儿童成长期的智慧早教方法、系统、设备、存储介质
CN114511751A (zh) * 2020-10-26 2022-05-17 罗伯特·博世有限公司 视频特征提取器的无监督训练
CN112529009A (zh) * 2020-12-07 2021-03-19 苏州中德双智科创发展有限公司 一种图像特征的挖掘方法、装置、存储介质及电子设备
CN112529009B (zh) * 2020-12-07 2023-09-12 苏州律点信息科技有限公司 一种图像特征的挖掘方法、装置、存储介质及电子设备
CN112966587A (zh) * 2021-03-02 2021-06-15 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN112966587B (zh) * 2021-03-02 2022-12-20 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN113657127A (zh) * 2021-08-16 2021-11-16 浙江大学 手语生成方法和系统
CN113657127B (zh) * 2021-08-16 2023-08-18 浙江大学 手语生成方法和系统

Similar Documents

Publication Publication Date Title
CN107808144A (zh) 一种基于视频时空关系进行自我监督嵌入姿态学习方法
US11222196B2 (en) Simultaneous recognition of facial attributes and identity in organizing photo albums
Lee et al. Learning the easy things first: Self-paced visual category discovery
CN103268495B (zh) 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN110532900A (zh) 基于U-Net和LS-CNN的人脸表情识别方法
Lan et al. Retrieving actions in group contexts
Asif et al. Privacy preserving human fall detection using video data
Koubâa et al. Activity monitoring of islamic prayer (salat) postures using deep learning
CN104966052A (zh) 基于属性特征表示的群体行为识别方法
Barrett et al. Action recognition by time series of retinotopic appearance and motion features
CN105912126A (zh) 一种手势运动映射到界面的增益自适应调整方法
Engoor et al. Occlusion-aware dynamic human emotion recognition using landmark detection
Sanmitra et al. Machine Learning Based Real Time Sign Language Detection
CN114332711A (zh) 面部动作识别及模型训练的方法、装置、设备和存储介质
Avola et al. Machine learning for video event recognition
Mobsite et al. A framework for elders fall detection using deep learning
Turan et al. Different application areas of object detection with deep learning
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
Li et al. Smoking behavior recognition based on a two-level attention fine-grained model and EfficientDet network
Zhang et al. An object attribute guided framework for robot learning manipulations from human demonstration videos
Rawat et al. Indian Sign Language Recognition System for Interrogative Words Using Deep Learning
Desai Applying Deep learning techniques-Masked facial recognition in Smartphone security systems using transfer learning
Nguyen et al. Classification and temporal localization for human-human interactions
Harini et al. A novel static and dynamic hand gesture recognition using self organizing map with deep convolutional neural network
Paul et al. An Adam based CNN and LSTM approach for sign language recognition in real time for deaf people

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180316

WW01 Invention patent application withdrawn after publication