CN111680644B - 一种基于深度空时特征学习的视频行为聚类方法 - Google Patents

一种基于深度空时特征学习的视频行为聚类方法 Download PDF

Info

Publication number
CN111680644B
CN111680644B CN202010529962.1A CN202010529962A CN111680644B CN 111680644 B CN111680644 B CN 111680644B CN 202010529962 A CN202010529962 A CN 202010529962A CN 111680644 B CN111680644 B CN 111680644B
Authority
CN
China
Prior art keywords
clustering
network
video block
video
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010529962.1A
Other languages
English (en)
Other versions
CN111680644A (zh
Inventor
彭勃
雷建军
贾亚龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010529962.1A priority Critical patent/CN111680644B/zh
Publication of CN111680644A publication Critical patent/CN111680644A/zh
Application granted granted Critical
Publication of CN111680644B publication Critical patent/CN111680644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度空时特征学习的视频行为聚类方法,包括:构建3D U‑Net自表达生成器网络,用于学习视频块的空时特征表示以及聚类友好的子空间表达矩阵;构建视频块重建判别器网络,采用对抗学习机制评估重建视频块质量,以获得更具辨析力的视频空时特征表示;设计聚类信息反馈机制,用于捕获已有聚类结果中的信息增益,反馈该信息增益以监督网络的学习过程,提高聚类性能;利用视频块重建判别器预训练3D U‑Net自表达生成器中的编码器网络和解码器网络,以使得编码器网络有效获取视频块的空时特征;训练基于深度空时特征学习的视频行为聚类网络,获得聚类友好的特征表示和重建系数矩阵,并反馈已有聚类结果以进一步指导聚类网络的学习。

Description

一种基于深度空时特征学习的视频行为聚类方法
技术领域
本发明涉及视频行为领域,尤其涉及一种基于深度空时特征学习的视频行为聚类方法。
背景技术
作为当前较为流行的低维空间聚类方法,基于子空间模型的聚类方法有效地提高了高维数据的聚类性能。然而,现有子空间聚类算法在处理真实场景数据,尤其是视频数据方面仍面临诸多挑战。首先,传统子空间聚类方法通常使用浅层和线性嵌入函数捕获数据间的子空间结构,因此无法捕获复杂高维数据的非线性特性。其次,尽管基于核学习的聚类方法可以捕获子空间结构的非线性特性,但是该类方法很大程度上凭经验选择核函数,其无法保证所选核函数对应的隐式特征空间确实适合当前子空间聚类任务。此外,现有子空间聚类方法通常为两阶段处理过程,即子空间学习过程和谱聚类过程。由于忽略了子空间学习和聚类过程之间的相互作用关系,所获得的子空间表达没有融合聚类过程中的有效信息,因此难以获得适用于聚类任务的较优子空间表达。
得益于深度学习在监督学习任务中的成功,近年来基于深度学习的聚类方法已应用于无监督的图像聚类任务。目前,大多数现有方法首先利用深度网络模型学习原始数据空间到低维潜在空间的非线性映射,获得数据样本的深度特征表达。然后,采用传统的聚类方法获得数据样本聚类结果。该类方法通常将深度网络模型作为无监督聚类任务中的特征提取器以提取用于聚类的深度特征表达。然而,在上述两阶段聚类方法中,深度特征学习过程与后续聚类过程间相互独立,基于深度网络模型学习的特征表达在聚类过程中保持不变,无法利用已有聚类结果对深度特征进一步优化,从而导致难以获得更加鲁棒的特征表达。此外,Pan等人首次提出了一种深度子空间聚类(DSC)方法,其通过融合自表达子空间特性与深度网络的非线性特性,获得了较好的聚类性能。然而,该方法中子空间表达学习和聚类过程相互独立,网络学习过程没有构建聚类驱动的目标函数,因而无法保证网络生成聚类友好的子空间表达。此外,目前还没有研究工作关注于构建基于深度学习的视频行为聚类方法。因此,利用深度网络模型优势,探索基于深度学习视频行为聚类方法具有重要研究意义。
发明内容
为了有效利用深度学习的特征提取优势以及自表达子空间特性,充分挖掘子空间学习和聚类过程间相互关联关系,提出一种基于深度空时特征学习的视频行为聚类方法,以联合优化视频空时特征学习、子空间表达学习以及聚类过程,从而实现视频行为聚类,详见下文描述:
一种基于深度空时特征学习的视频行为聚类方法,所述方法包括以下步骤:
构建3D U-Net自表达生成器网络,用于学习视频块的空时特征表示以及聚类友好的子空间表达矩阵;
构建视频块重建判别器网络,采用对抗学习机制评估重建视频块质量,以获得更具辨析力的视频空时特征表示;
设计聚类信息反馈机制,用于捕获已有聚类结果中的信息增益,并反馈所述信息增益用于监督视频行为聚类网络的学习过程,提高聚类性能;
利用视频块重建判别器预训练3D U-Net自表达生成器中的编码器网络和解码器网络,以使得编码器网络有效获取视频块的空时特征;
通过训练优化视频行为聚类网络的权重参数,获得聚类友好的特征表示和重建系数矩阵,该训练过程中参数优化与聚类过程交替进行,并反馈已有聚类结果以进一步指导视频行为聚类网络的学习。
其中,所述3D U-Net自表达生成器包括:3D U-Net网络模块、自表达子空间模块、以及分类模块。
进一步地,所述3D U-Net网络模块包括:3D编码器网络和3D解码器网络,所述3D编码器网络利用M层3D卷积操作提取所述视频块的空时特征表示,所述3D解码器网络利用M层3D反卷积操作基于空时特征重建视频块数据,所述3D编码器网络与所述3D解码器网络结构对称,并采用跳连接方式将3D编码器网络生成的特征图与对称的解码器网络的特征图沿通道维级联。
其中,所述自表达子空间模块用于建模输入视频块间的自表达子空间特性,其以各视频块的空时特征作为字典,通过视频块数据特征间的相互表达重建各视频块数据特征,获得各视频块的自表达子空间特征表示以及重建系数矩阵。
进一步地,所述分类模块利用全连接层将3D编码器网络输出的空时特征表示映射为k维向量,所述k维向量对应于k个聚类子集,用于指示各数据样本和k个聚类子集之间的从属关系。
其中,所述聚类信息反馈机制具体为:
(1)基于所述自表达子空间模块的参数矩阵计算视频块数据的相似度矩阵,基于所述相似度矩阵求解各视频块的谱嵌入表达,并获得聚类结果;
(2)按照迭代阈值更新聚类伪标签,每次迭代计算并排序每个谱嵌入表达与其对应聚类中心间的距离,距离聚类中心较远的数据样本的标签被累积更新,直到达到迭代阈值停止,基于标签统计直方图获得新的聚类伪标签;
(3)选择距离聚类中心距离小的前阈值样本参与更新视频行为聚类网络的参数,以获得相对可靠的聚类监督信息。
本发明提供的技术方案的有益效果是:
1、本发明通过构建联合优化视频空时特征学习、子空间表达学习以及聚类过程的网络模型,实现了基于深度学习的视频行为聚类;
2、本发明通过构建3D U-Net自表达生成器学习视频块数据的空时特征表达和自表达重建系数矩阵,并利用视频块重建判别器预训练视频块空时特征提取网络的参数;
3、本发明通过设计聚类信息反馈机制,捕获并反馈聚类结果中的信息增益,以进一步监督网络学习过程。
附图说明
图1为一种基于深度空时特征学习的视频行为聚类方法的流程图;
图2为基于深度空时特征学习的视频行为聚类网络的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明提供了一种基于深度空时特征学习的视频行为聚类方法,参见图1,该方法包括以下步骤:
一、构建3D U-Net自表达生成器网络;
3D U-Net自表达生成器网络包括:3D U-Net网络模块、自表达子空间模块、以及分类模块。该3D U-Net自表达生成器旨在学习视频块的空时特征表示以及聚类友好的子空间表达矩阵。
(1)3D U-Net网络模块包括:3D编码器网络和3D解码器网络。3D编码器网络利用M层3D卷积操作提取视频块空时特征表示,3D解码器网络利用M层3D反卷积操作基于特征重建视频块数据。3D编码器网络与3D解码器网络结构对称,并采用跳连接方式将编码器网络生成的特征图与对称的解码器网络的特征图沿通道维级联。为了保留视频数据的空时信息,各视频数据采用时间维度上堆叠的T帧视频块表示,并作为3D U-Net网络模块的输入。
其中,3D卷积操作和3D反卷积操作均为本领域技术人员所公知,本发明实施例对此不做赘述。
(2)自表达子空间模块旨在通过建模输入视频块间的自表达子空间特性,其以各视频块数据的空时特征作为字典,通过视频块数据特征间的相互表达重建各视频块数据特征,从而获得各视频块的自表达子空间特征表示。该自表达子空间模块采用没有激活函数且没有偏置的全连接层实现,该全连接层的参数矩阵即为子空间重建系数矩阵。通过引入自表达子空间模块,自表达生成器网络同时学习视频样本的空时特征和自表达子空间特性,从而有助于获得较好的聚类性能。
(3)分类模块利用全连接层将3D编码器网络输出的空时特征表示映射为k维向量,该k维向量对应于k个聚类子集,以指示各数据样本和k个聚类子集之间的从属关系。该模块利用已有聚类结果做为分类模块的伪标签,以进一步指导自表达生成器网络的学习过程。
二、构建视频块重建判别器网络;
视频块重建判别器网络与3D U-Net自表达生成器中的3D编码器网络具有相同的网络结构,其旨在区分原始输入视频块以及解码器重建所得视频块,以确保3D编码器网络提取的视频块空时特征表示尽可能多的包含原始视频块中的有效信息。该视频块重建判别器网络旨在采用对抗学习机制评估重建视频块质量,以获得更具辨析力的视频空时特征表示。
将上述构建的3D U-Net自表达生成器网络、及视频块重建判别器网络组合在一起,构成了本发明的基于深度空时特征学习的视频行为聚类网络,参见图2所示。
三、设计聚类信息反馈机制;
通过设计聚类信息反馈机制捕获已有聚类结果中的信息增益,并反馈该信息增益以进一步监督视频行为聚类网络的学习过程,从而提高聚类性能。
(1)利用谱聚类算法获得聚类结果。基于自表达子空间模块参数矩阵计算视频块数据的相似度矩阵,基于相似度矩阵求解谱嵌入表达矩阵,并获得聚类结果。
(2)设计伪标签更新策略。每50次迭代更新一次伪标签,每次迭代计算并排序每个谱嵌入表达与其对应聚类中心间的距离,距离聚类中心较远的80%数据样本的标签被累积更新,以获得较为可靠的分类伪标签以指导视频行为聚类网络学习过程。
(3)设计参数更新选择策略。每次迭代的谱聚类过程中,选择距离聚类中心距离小的前90%样本参与更新视频行为聚类网络的参数,以获得相对可靠的聚类监督信息。
其中,本发明实施例以50次迭代,80%数据样本、前90%样本为例进行说明,具体实现时,本发明实施例对此不作做限制。
四、预训练3D U-Net网络模块(第一部分)和视频块重建判别器网络(第二部分);
该过程对3D U-Net网络模块和视频块重建判别器网络进行预训练,包括:
具体来说,利用视频块重建判别器网络预训练3D U-Net网络模块。其中,3D U-Net网络模块中解码器网络的输入为编码器网络输出的视频块空时特征表示。视频块重建判别器网络将输入原始视频块和重建后的视频块,其目标在于有效判别输入为重建视频块还是原始视频块。该预训练阶段联合优化3D U-Net自表达生成器中的编码器和解码器网络,以使得编码器网络可以有效获取视频块的空时特征。
预训练过程损失函数公式如下:
LS1=λreLreganLgan (1)
其中,Lre为3D U-Net网络模块的重建误差损失,Lgan为视频块重建判别器网络的对抗损失,λre为3D U-Net网络模块的重建误差损失的权重系数,λgan为视频块重建判别器网络的对抗损失的权重系数。
3D U-Net网络模块的重建误差损失公式如下:
Figure BDA0002534848830000051
视频块重建判别器网络的对抗损失公式如下:
Figure BDA0002534848830000052
其中,x为3D U-Net网络模块中编码器网络输入的视频块数据,
Figure BDA0002534848830000053
为3D U-Net网络模块中解码器网络重建输出的视频块数据,D(x)为视频块重建判别器网络输出,G(x)为3D U-Net网络模块中解码器网络的输出,/>
Figure BDA0002534848830000061
为数据分布函数的期望值。
五、训练基于深度空时特征学习的视频行为聚类网络。
该训练过程中对3D U-Net网络模块、自表达子空间模块、以及分类模块进行训练,包括:
3D U-Net网络模块的网络参数采用第四部分的预训练参数初始化,3D U-Net网络模块中解码器网络的输入为自表达子空间模块输出的自表达子空间特征表示。通过训练优化网络的权重参数,以获得视频块聚类友好的空时特征表示和重建系数矩阵。该训练过程中视频行为聚类网络的参数优化与聚类过程交替进行,并反馈已有聚类结果以进一步指导聚类网络的学习,从而获得较好的聚类结果。
训练过程损失函数公式如下:
LS2=λre'LresrLsrclLcl (4)
其中,Lre为3D U-Net网络模块的重建误差损失,Lsr为自表达子空间模块的自表达损失,Lcl为分类子模块的分类损失,λre'为3D U-Net网络模块的重建误差损失的权重系数,λsr为自表达子空间模块的自表达损失的权重系数,λcl为分类子模块的分类损失的权重系数。
3D U-Net网络模块的重建误差损失公式如下:
Figure BDA0002534848830000062
自表达子空间模块的自表达损失公式如下:
Figure BDA0002534848830000063
分类子模块的分类损失公式如下:
Figure BDA0002534848830000064
其中,x为3D U-Net网络模块中编码器网络输入的视频块数据,
Figure BDA0002534848830000065
为3D U-Net网络模块中解码器网络重建输出的视频块数据,/>
Figure BDA0002534848830000066
为各视频块数据空时特征向量构成的矩阵,θsr为自表达子空间模型中的重建系数矩阵,/>
Figure BDA0002534848830000071
为分类模块输出的k维预测分类标签。y*为聚类伪标签。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于深度空时特征学习的视频行为聚类方法,其特征在于,所述方法包括以下步骤:
构建3D U-Net自表达生成器网络,用于学习视频块的空时特征表示以及聚类友好的子空间表达矩阵;
构建视频块重建判别器网络,采用对抗学习机制评估重建视频块质量,以获得更具辨析力的视频空时特征表示;
设计聚类信息反馈机制,用于捕获已有聚类结果中的信息增益,并反馈所述信息增益用于监督视频行为聚类网络的学习过程,提高聚类性能;
利用视频块重建判别器预训练3D U-Net自表达生成器中的编码器网络和解码器网络,以使得编码器网络有效获取视频块的空时特征;
通过训练优化视频行为聚类网络的权重参数,获得聚类友好的特征表示和重建系数矩阵,该训练过程中参数优化与聚类过程交替进行,并反馈已有聚类结果以进一步指导视频行为聚类网络的学习;
所述3D U-Net自表达生成器包括:3D U-Net网络模块、自表达子空间模块、以及分类模块;
所述3D U-Net网络模块包括:3D编码器网络和3D解码器网络,所述3D编码器网络利用M层3D卷积操作提取所述视频块的空时特征表示,所述3D解码器网络利用M层3D反卷积操作基于空时特征重建视频块数据,所述3D编码器网络与所述3D解码器网络结构对称,并采用跳连接方式将3D编码器网络生成的特征图与对称的解码器网络的特征图沿通道维级联;
所述自表达子空间模块用于建模输入视频块间的自表达子空间特性,其以各视频块的空时特征作为字典,通过视频块数据特征间的相互表达重建各视频块数据特征,获得各视频块的自表达子空间特征表示以及重建系数矩阵;
所述聚类信息反馈机制具体为:
(1)基于所述自表达子空间模块的参数矩阵计算视频块数据的相似度矩阵,基于所述相似度矩阵求解各视频块的谱嵌入表达,并获得聚类结果;
(2)按照迭代阈值更新聚类伪标签,每次迭代计算并排序每个谱嵌入表达与其对应聚类中心间的距离,距离聚类中心较远的数据样本的标签被累积更新,直到达到迭代阈值停止,基于标签统计直方图获得新的聚类伪标签;
(3)选择距离聚类中心距离小的前阈值样本参与更新视频行为聚类网络的参数,以获得相对可靠的聚类监督信息。
2.根据权利要求1所述的一种基于深度空时特征学习的视频行为聚类方法,其特征在于,所述分类模块利用全连接层将3D编码器网络输出的空时特征表示映射为k维向量,所述k维向量对应于k个聚类子集,用于指示各数据样本和k个聚类子集之间的从属关系。
CN202010529962.1A 2020-06-11 2020-06-11 一种基于深度空时特征学习的视频行为聚类方法 Active CN111680644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010529962.1A CN111680644B (zh) 2020-06-11 2020-06-11 一种基于深度空时特征学习的视频行为聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010529962.1A CN111680644B (zh) 2020-06-11 2020-06-11 一种基于深度空时特征学习的视频行为聚类方法

Publications (2)

Publication Number Publication Date
CN111680644A CN111680644A (zh) 2020-09-18
CN111680644B true CN111680644B (zh) 2023-03-28

Family

ID=72454866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010529962.1A Active CN111680644B (zh) 2020-06-11 2020-06-11 一种基于深度空时特征学习的视频行为聚类方法

Country Status (1)

Country Link
CN (1) CN111680644B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215267B (zh) * 2020-09-25 2022-11-01 天津大学 一种面向高光谱图像的深度空谱子空间聚类方法
CN113364751B (zh) * 2021-05-26 2023-06-09 北京电子科技职业学院 网络攻击预测方法、计算机可读存储介质及电子设备
CN114495265B (zh) * 2021-07-15 2023-04-07 电子科技大学 多跨域场景下基于活动图加权的人体行为识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009571A (zh) * 2017-11-16 2018-05-08 苏州大学 一种新的直推式半监督数据分类方法及系统
CN110705516A (zh) * 2019-10-18 2020-01-17 大连海事大学 一种基于协同网络结构的鞋底花纹图像聚类方法
CN111144463A (zh) * 2019-12-17 2020-05-12 中国地质大学(武汉) 一种基于残差子空间聚类网络的高光谱图像聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009571A (zh) * 2017-11-16 2018-05-08 苏州大学 一种新的直推式半监督数据分类方法及系统
CN110705516A (zh) * 2019-10-18 2020-01-17 大连海事大学 一种基于协同网络结构的鞋底花纹图像聚类方法
CN111144463A (zh) * 2019-12-17 2020-05-12 中国地质大学(武汉) 一种基于残差子空间聚类网络的高光谱图像聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Structured Sparse Subspace Clustering: A unified optimization framework;Chun-Guang Li;《2015 IEEE Conference on Computer Vision and Pattern Recognition》;20150612;全文 *
使用深度对抗子空间聚类实现高光谱波段选择;曾梦,宁彬,蔡之华,谷琼;《计算机应用》;20200210;正文第1-2节 *

Also Published As

Publication number Publication date
CN111680644A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111680644B (zh) 一种基于深度空时特征学习的视频行为聚类方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Yang et al. A survey of DNN methods for blind image quality assessment
CN111523410B (zh) 一种基于注意力机制的视频显著性目标检测方法
Park et al. Probabilistic representations for video contrastive learning
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN114092964A (zh) 基于注意力引导和多尺度标签生成的跨域行人重识别方法
CN112434628B (zh) 基于主动学习和协同表示的小样本图像分类方法
CN111526434A (zh) 基于转换器的视频摘要方法
CN114006870A (zh) 一种基于自监督卷积子空间聚类网络的网络流量识别方法
CN111641598A (zh) 一种基于宽度学习的入侵检测方法
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN113033276A (zh) 一种基于转换模块的行为识别方法
CN115731498A (zh) 一种联合强化学习和对比学习的视频摘要生成方法
Bai et al. Collaborative attention mechanism for multi-view action recognition
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Yan et al. Weakly supervised regional and temporal learning for facial action unit recognition
CN111310516A (zh) 一种行为识别方法和装置
Romijnders et al. Representation learning from videos in-the-wild: An object-centric approach
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
Xin et al. Recurrent temporal sparse autoencoder for attention-based action recognition
CN114926900B (zh) 一种前背景分离的人体动作在线检测方法
CN116721458A (zh) 一种基于跨模态时序对比学习的自监督动作识别方法
CN116524596A (zh) 一种基于动作粒度分组结构的体育视频动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant