CN114021597A - 基于有序光流图的视频分析方法及系统 - Google Patents

基于有序光流图的视频分析方法及系统 Download PDF

Info

Publication number
CN114021597A
CN114021597A CN202111001608.2A CN202111001608A CN114021597A CN 114021597 A CN114021597 A CN 114021597A CN 202111001608 A CN202111001608 A CN 202111001608A CN 114021597 A CN114021597 A CN 114021597A
Authority
CN
China
Prior art keywords
long
flow graph
light flow
video analysis
ordered light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111001608.2A
Other languages
English (en)
Inventor
李庆辉
王依刚
汪波
李亚奇
冯国彦
韩德帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rocket Force University of Engineering of PLA
Original Assignee
Rocket Force University of Engineering of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rocket Force University of Engineering of PLA filed Critical Rocket Force University of Engineering of PLA
Priority to CN202111001608.2A priority Critical patent/CN114021597A/zh
Publication of CN114021597A publication Critical patent/CN114021597A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频分析技术领域,具体涉及基于有序光流图的视频分析方法及系统,通过有序光流图建模视频的长时时域结构,并利用C3D Net和VGG‑16Net构造一个包含表观和短时运动流、长时运动流的双流卷积网络,然后分别以堆叠RGB帧、有序光流图为输入提取视频的表观和短时运动信息、长时运动信息,最后采用线性SVM对行为视频进行分类,能够有效建模行为视频的长时时域结构,进而提高对行为视频的识别准确率。

Description

基于有序光流图的视频分析方法及系统
技术领域
本发明涉及视频分析技术领域,尤其涉及一种基于有序光流图的视频分析 方法及系统。
背景技术
人体行为在视频中通常由数十帧甚至上百帧来共同呈现,因此视频的长时 时域信息对于行为识别非常重要。
行为视频是一种连续的图像序列,而现有的视频分析方法行对行为视频的 识别准确率不高。
发明内容
本发明的目的在于提供基于有序光流图的视频分析方法及系统,以提高对 行为视频的识别准确率。
为实现上述目的,本发明提供了一种基于有序光流图的视频分析方法,具 体包括以下步骤:
通过有序光流图建模视频的长时时域结构;
利用C3D Net和VGG-16Net构造一个包含表观和短时运动流、长时运动流 的双流卷积网络;
分别以堆叠RGB帧、有序光流图为输入提取视频的表观和短时运动信息、 长时运动信息;
采用线性SVM对行为视频进行分类。
其中,所述通过有序光流图建模视频的长时时域结构的具体步骤为:
将光流序列在保留顺序信息的条件下压缩融合到单幅图像上;
将单幅图像作为深度网络的输入以实现长时间运动信息的提取。
其中,在所述采用线性SVM对行为视频进行分类的步骤之前,还包括步骤:
对长时运动流的数据进行十倍增强。
其中,所述对长时运动流的数据进行十倍增强的具体步骤为:
采用角点裁剪对长时运动流进行五倍增强;
采用尺度抖动对长时运动流进行五倍增强。
其中,所述采用尺度抖动对长时运动流进行五倍增强的具体步骤为:
将输入图像尺寸固定为256×340;
在所述角点裁剪的五个位置从{256,224,192,168}任选值作为宽和高对输入 图像进行裁剪;
将所有裁剪区域缩放为224×224以实现数据的五倍增强。
其中,所述采用线性SVM对行为视频进行分类的具体步骤为:
融合双流卷积网络中的两个网络fc6层的输出响应;
输入线性SVM进行分类识别。
本发明还提供一种视频分析系统,包括基于有序光流图的视频分析方法。
本发明的基于有序光流图的视频分析方法及系统,通过有序光流图建模视 频的长时时域结构,并利用C3D Net和VGG-16Net构造一个包含表观和短时运 动流、长时运动流的双流卷积网络,然后分别以堆叠RGB帧、有序光流图为输 入提取视频的表观和短时运动信息、长时运动信息,最后采用线性SVM对行为 视频进行分类,能够有效建模行为视频的长时时域结构,进而提高对行为视频 的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于有序光流图的视频分析方法的流程图。
图2是本发明提供的S100的具体步骤的流程图。
图3是本发明提供的S400的具体步骤的流程图。
图4是本发明提供的S410的具体步骤的流程图。
图5是本发明提供的S420的具体步骤的流程图。
图6是本发明提供的S500的具体步骤的流程图。
图7是本发明提供的双流卷积网络的行为识别方法的流程图。
图8是本发明提供的基于有序光流图的视频分析方法的有序光流图实验的 不同子序列长度的识别结果图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自 始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不 能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、 “下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、 “底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置 关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或 元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发 明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除 非另有明确具体的限定。
请参阅图1,本发明提供一种基于有序光流图的视频分析方法,具体包括以 下步骤:
S100:通过有序光流图建模视频的长时时域结构;
S200:利用C3D Net和VGG-16Net构造一个包含表观和短时运动流、长时 运动流的双流卷积网络;
S300:分别以堆叠RGB帧、有序光流图为输入提取视频的表观和短时运动 信息、长时运动信息;
S400:对长时运动流的数据进行十倍增强;
S500:采用线性SVM对行为视频进行分类。
通过有序光流图建模视频的长时时域结构,为有效利用视频序列的表观信 息、短时运动信息以及长时运动信息,本基于有序光流图的视频分析方法提出 一种包含表观和短时运动流、长时运动流的双流卷积神经网络框架,分别在两 个流中提取行为视频的表观和短时运动信息、长时运动信息,在表观和短时运 动流中,以堆叠RGB帧序列为输入,采用C3D Net提取行为视频的表观和短时 运动特征;在长时运动流中,以有序光流图为输入,采用VGG-16Net提取行为 视频的长时运动特征,最后融合两个网络fc6层的输出响应,输入线性SVM进 行分类识别。
请参阅图7,表观和短时运动流以三维卷积网络C3D Net作为特征提取器, 提取视频的表观和短时运动特征,C3D Net利用三维卷积核和池化核可以同时在 时空维度对多帧视频序列进行卷积和池化操作,能够提取空域表观信息和时域 运动信息,这种时域运动信息实际上是一种短时运动信息。
C3D Net包含:8个卷积层,每层卷积核数如图7所示,所有卷积核尺寸均 为3×3×3,步长为1;5个最大池化层(Pool y),除Pool 1的池化核尺寸为1 ×2×2外其余池化核为2×2×2;2个全连接层(fc z),每个全连接层的输出 响应为4096维,1个Softmax输出层,网络以16帧的片段为输入单元,相邻片 段重叠8帧,输入图片尺寸为224×224。将行为视频所有片段的fc 6层响应取 平均并进行L2归一化,得到4096维向量作为该视频的C3D特征。
由于有序光流图是单幅图像,可以直接利用二维卷积网络提取特征向量, VGG-16Net包含:13个卷积层,所有卷积核尺寸为3×3,步长为1,每层卷积 核数如图7所示,部分卷积层包含最大池化操作;3个全连接层,输出响应的大 小分别为4096维、4096维和1000维;1个Softmax输出层。
在生成有序光流图时,为避免压缩的光流帧过多而导致信息丢失,对每段 行为视频生成若干个有序光流图。具体地,对于一段光流序列首先在时间维度 上分成若干个以w帧为单位的子序列,间隔为w/2,亦即相邻的子序列之间重 叠w/2帧。然后在每个子序列上分别建立一个有序光流图,再将这些有序光流 图输入VGG-16Net,输入图像尺寸同样调整为224×224,将所有有序光流图的 fc6层响应取平均并进行L2归一化得到VGG特征。
请参阅图2,S100的具体步骤为:
S110:将光流序列在保留顺序信息的条件下压缩融合到单幅图像上;
S120:将单幅图像作为深度网络的输入以实现长时间运动信息的提取。
视频的时域运动信息通常利用光流序列来表达,但现有深度模型由于网络 参数限制很难处理超过十帧光流序列输入,因此难以提取视频的长时时域信息。 本基于有序光流图的视频分析方法将光流序列在保留顺序信息的条件下压缩融 合到单幅图像上,并将这个单幅图像作为深度网络的输入,从而实现长时间运 动信息的提取。
给定一个n帧连续光流序列F=[f1,f2,...,fn],其中
Figure BDA0003235593270000051
d1、d2分别为 光流图的高度和宽度,每帧光流图均为双通道图像,对应于光流的水平分量和 垂直分量,表示为fi x,fi y。定义第t帧光流图ft对应的加权移动平均图为:
Figure BDA0003235593270000052
这种加权平均方法可以同时降低错误光流估计结果和白噪声的影响。
本基于有序光流图的视频分析方法在光流序列的加权移动平均图上计算有 序光流图,计算公式如下:
Figure BDA0003235593270000053
Figure BDA0003235593270000054
式中<.,.>表示内积,C为边界大小与训练误差之间的折中参数,ξij为松弛变 量,这个公式来源于排序算法RankSVM,约束条件
Figure BDA0003235593270000055
保 留了光流帧的顺序信息,通过训练学习得到的参数
Figure BDA0003235593270000056
可以作为光流序列 的表示,事实上它与光流图的大小是相同的,因此基于有序光流图的视频分析 方法将G定义为有序光流图,本公式中的求解等价于下面这个无约束优化问题, 即最小化Hinge Loss函数:
Figure BDA0003235593270000057
式中[x]+表示函数max(0,x),λ=1/C,需要注意光流图的两个通道不是图像 的颜色通道,而是速度矢量,两者共同描述每个像素点位置的运动矢量,因此 它们是相关的,但是RankSVM算法默认不同通道是独立的,解决办法是通过矩 阵对角化对两个通道进行去相关,实验中发现这种去相关操作并不能带来明显 的性能提升,因此选择忽略这种相关关系,假设
Figure BDA0003235593270000058
为有序光流图G分 别对应于光流的水平和垂直分量的两个通道,则式(2)可转化为:
Figure BDA0003235593270000059
Figure BDA00032355932700000510
将得到的Gx,Gy两个通道利用最小-最大规范化转化到[0,255]范围内并叠 加生成有序光流图,作为深度网络的输入。通过以上过程实现从n帧光流序列 到单幅有序光流图的映射。
请参阅图3,S400的具体步骤为:
S410:采用角点裁剪对长时运动流进行五倍增强;
S420:采用尺度抖动对长时运动流进行五倍增强。
请参阅图4,S410的具体步骤为:
S411:将图像尺寸缩放为256×256;
S412:从中心和四个对角区域将图像裁剪为5个224×224的子图像以实现 数据的五倍增强。
请参阅图5,S420的具体步骤为:
S421:将输入图像尺寸固定为256×340;
S422:在所述角点裁剪的五个位置从{256,224,192,168}任选值作为宽和高对 输入图像进行裁剪;
S423:将所有裁剪区域缩放为224×224以实现数据的五倍增强。
在训练深度网络时容易因标注样本不足导致过拟合,降低网络泛化能力, 为避免这种风险,本基于有序光流图的视频分析方法采用两种策略对长时运动 流的数据进行十倍增强:角点裁剪和尺度抖动;角点裁剪首先将图像尺寸缩放 为256×256,然后从中心和四个对角区域将图像裁剪为5个224×224的子图像, 从而实现数据的五倍增强;尺度抖动是一种多尺度裁剪过程,首先将输入图像 尺寸固定为256×340,然后在角点裁剪的五个位置从{256,224,192,168}任选值 作为宽和高对输入图像进行裁剪,最后将所有裁剪区域缩放为224×224,这种 方法同样实现了数据的五倍增强。
请参阅图6,S500的具体步骤为:
S510:融合双流卷积网络中的两个网络fc6层的输出响应;
S520:输入线性SVM进行分类识别。
本发明还提供一种视频分析系统,包括基于有序光流图的视频分析方法。
请参阅图8,为了验证本基于有序光流图的视频分析方法具有较高的识别准 确率,对有序流光图进行试验,计算有序光流图时首先将行为视频的光流序列 有重叠地分割成若干个以w帧为单位的子序列,然后在每个子序列上计算有序 光流图。子序列帧数如果过少无法达到建模长时时域结构的目的,过多则可能 会丢失部分运动信息,所以首先需要确定合理的子序列长度。图8为单独使用 长时运动流进行行为识别时,不同子序列长度w在两个数据集上对应的识别结 果。由图8中对比结果可知,w取24和28时分别在HMDB51和UCF101上取 得最高识别准确率,因此接下来的实验中子序列长度取中间值26帧。有序光流图实质上是对多帧光流图的有效压缩,能够提取对识别行为有更重要意义的长 时运动信息。在VGG-16Net框架下进行了多组验证实验,对比对象为卷积网络 常用的输入:静态图像、堆叠光流场、动态图及它们的组合。实验结果分别如 表和表1HMDB51实验结果所示,本发明的SOFI对比SI、SOF、DI在HMDB51 上识别准确率分别提高了8%、3.4%、5.7%,在UCF101上识别准确率分别提高 了4.4%、5.6%、2.4%。在输入组合后实验结果进一步提高,尤其是SOFI+SI组 合在两个数据集上分别取得最高识别结果62.5%和90.3%。实验结果表明有序光 流图是一种高效的视频表示,在应用到卷积网络后能够提高行为识别结果。
Method Split 1 Split 2 Split 3 Average
SI 49.1% 50.6% 49.6% 49.8%
SOF 55.2% 53.4% 54.7% 54.4%
DI 50.7% 52.5% 53.1% 52.1%
SOFI 57.8% 58.4% 57.2% 57.8%
SOFI+DI 58.1% 58.9% 58.4% 58.5%
SOFI+SI 63.3% 61.8% 62.5% 62.5%
表1 HMDB51实验结果
Figure BDA0003235593270000071
Figure BDA0003235593270000081
表2 UCF101实验结果
本发明的双流卷积网络分为表观和短时运动流、长时运动流,输入分别为 堆叠RGB帧序列、有序光流图。为验证这种网络框架的有效性,分别测试两个 支流网络以及融合后双流网络对HMDB51、UCF101数据集的识别结果。在测 试支流网络时,取各自fc6层响应作为描述子经L2归一化后输入线性SVM分 类器进行分类识别。实验对比方法为原始双流卷积网络和ST-ResNet,实验结果 如表3所示,由实验结果可知,融合后的双流网络识别结果比两个支流在 HMDB51上分别提高了7.7%、14.8%,在UCF101上分别提高了4.7%、13.1%。对比三种双流网络,本发明的双流网络比原始双流网络和ST-ResNet在两个数据 集的识别结果均有不同程度的提高。实验结果表明本发明提出的双流卷积网络 能够有效地融合行为视频的表观和长短时运动信息,得到较高的识别准确率。
Network HMDB51 UCF101
Spatial stream 41.6% 81.2%
Temporal stream 54.3% 75.6%
Original two streams 59.4% 88.0%
Appearance stream 43.4% 82.3%
Motion stream 55.4% 79.1%
ST-ResNet 65.6% 92.7%
A&STM streams 64.9% 90.1%
LTM stream 57.8% 81.7%
Our two streams 72.6% 94.8%
表3不同卷积网络的识别结果
在两个数据集中,对比原始双流卷积网络,本发明的算法的准确率提高量 前十位的行为类别如表所示。HMDB51中准确率提高量较大的行为类别为:cartwheel、climb_stairs、swing_baseball等;UCF101中准确率提高量较大的行为 类别为:IceDancing、Hammering、FloorGymnastics等。这些行为相对复杂时间 延续长,而且在短时时域表现上和其它行为存在相似性,例如cartwheel和 handstand、swing_baseball和hit、IceDancing和ShakeHands。
Figure BDA0003235593270000091
表4准确率提高量前十的行为类别
为了验证本发明的基于有序光流图的视频分析方法的优势,针对HMDB51 和UCF101两个数据集,将本发明的基于有序光流图的视频分析方法与现有技 术中的算法对比,各算法的识别结果列入表5。
从实验对比结果可以看出,基于深度神经网络的方法(deep)能够学习得到 行为视频的高层次语义信息,识别准确率高于只能获得浅层局部信息的人工设 计特征方法(shallow);在基于深度神经网络的方法中,引入支流网络分别提 取空域和时域信息的方法可以提高识别准确率(如TSN、I3D+Two Stream)。 本发明的算法利用C3D Net和VGG-16Net组成双流深度卷积网络分别提取表观 和短时运动信息、长时运动信息,有效提高了识别准确率。
Figure BDA0003235593270000092
Figure BDA0003235593270000101
表5不同算法的识别准确率对比
本发明的一种基于有序光流图的视频分析方法及系统,首先通过有序光流 图建模视频的长时时域结构,并利用C3D Net和VGG-16Net构造一个包含表观 和短时运动流、长时运动流的双流卷积网络;然后分别以堆叠RGB帧、有序光 流图为输入提取视频的表观和短时运动信息、长时运动信息;最后采用线性SVM 对行为视频进行分类。在HMDB51和UCF101两个数据集上对本发明的有序光 流图和双流卷积网络分别进行了实验验证,并与几种先进算法进行了对比,多 组实验结果表明,本发明的基于有序光流图的视频分析方法及系统能够有效建 模行为视频的长时时域结构,进而提高行为识别的准确率。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发 明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流 程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种基于有序光流图的视频分析方法,其特征在于,具体包括以下步骤:
通过有序光流图建模视频的长时时域结构;
利用C3D Net和VGG-16Net构造一个包含表观和短时运动流、长时运动流的双流卷积网络;
分别以堆叠RGB帧、有序光流图为输入提取视频的表观和短时运动信息、长时运动信息;
采用线性SVM对行为视频进行分类。
2.如权利要求1所述的基于有序光流图的视频分析方法,其特征在于,
所述通过有序光流图建模视频的长时时域结构的具体步骤为:
将光流序列在保留顺序信息的条件下压缩融合到单幅图像上;
将单幅图像作为深度网络的输入以实现长时间运动信息的提取。
3.如权利要求1所述的基于有序光流图的视频分析方法,其特征在于,
在所述采用线性SVM对行为视频进行分类的步骤之前,还包括步骤:
对长时运动流的数据进行十倍增强。
4.如权利要求3所述的基于有序光流图的视频分析方法,其特征在于,
所述对长时运动流的数据进行十倍增强的具体步骤为:
采用角点裁剪对长时运动流进行五倍增强;
采用尺度抖动对长时运动流进行五倍增强。
5.如权利要求4所述的基于有序光流图的视频分析方法,其特征在于,
所述采用尺度抖动对长时运动流进行五倍增强的具体步骤为:
将输入图像尺寸固定为256×340;
在所述角点裁剪的五个位置从{256,224,192,168}任选值作为宽和高对输入图像进行裁剪;
将所有裁剪区域缩放为224×224以实现数据的五倍增强。
6.如权利要求1所述的基于有序光流图的视频分析方法,其特征在于,
所述采用线性SVM对行为视频进行分类的具体步骤为:
融合双流卷积网络中的两个网络fc6层的输出响应;
输入线性SVM进行分类识别。
7.一种视频分析系统,其特征在于,包括如权利要求1~6任一项所述的基于有序光流图的视频分析方法。
CN202111001608.2A 2021-08-30 2021-08-30 基于有序光流图的视频分析方法及系统 Pending CN114021597A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111001608.2A CN114021597A (zh) 2021-08-30 2021-08-30 基于有序光流图的视频分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111001608.2A CN114021597A (zh) 2021-08-30 2021-08-30 基于有序光流图的视频分析方法及系统

Publications (1)

Publication Number Publication Date
CN114021597A true CN114021597A (zh) 2022-02-08

Family

ID=80054263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111001608.2A Pending CN114021597A (zh) 2021-08-30 2021-08-30 基于有序光流图的视频分析方法及系统

Country Status (1)

Country Link
CN (1) CN114021597A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107435A (zh) * 2023-04-11 2023-05-12 深圳飞蝶虚拟现实科技有限公司 基于5g云计算的3d远程互动的动作同步系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107435A (zh) * 2023-04-11 2023-05-12 深圳飞蝶虚拟现实科技有限公司 基于5g云计算的3d远程互动的动作同步系统

Similar Documents

Publication Publication Date Title
Cherian et al. Riemannian dictionary learning and sparse coding for positive definite matrices
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
Jenssen Kernel entropy component analysis
CN110096961B (zh) 一种超像素级别的室内场景语义标注方法
CN106570480B (zh) 一种基于姿势识别的人体动作分类方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN108171279B (zh) 一种多视角视频自适应乘积Grassmann流形子空间聚类方法
CN109684969B (zh) 凝视位置估计方法、计算机设备及存储介质
JP2023549582A (ja) ビデオ行動認識のための多重解像度アテンション・ネットワーク
WO2021218671A1 (zh) 目标跟踪方法及装置、存储介质及计算机程序
CN112070044A (zh) 一种视频物体分类方法及装置
CN111639564A (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113947814B (zh) 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法
CN110781766A (zh) 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法
Aldroubi et al. Similarity matrix framework for data from union of subspaces
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Singh et al. A novel position prior using fusion of rule of thirds and image center for salient object detection
CN116563355A (zh) 一种基于时空交互注意力机制的目标跟踪方法
CN114021597A (zh) 基于有序光流图的视频分析方法及系统
Zheng et al. Extracting non-negative basis images using pixel dispersion penalty
CN114049531A (zh) 一种基于弱监督人体协同分割的行人再识别方法
Yan et al. A parameter-free framework for general supervised subspace learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination