CN115410138A - 基于特征编码器分类和定位串行的视频动作检测方法 - Google Patents

基于特征编码器分类和定位串行的视频动作检测方法 Download PDF

Info

Publication number
CN115410138A
CN115410138A CN202211358974.8A CN202211358974A CN115410138A CN 115410138 A CN115410138 A CN 115410138A CN 202211358974 A CN202211358974 A CN 202211358974A CN 115410138 A CN115410138 A CN 115410138A
Authority
CN
China
Prior art keywords
classification
video
positioning
motion detection
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211358974.8A
Other languages
English (en)
Inventor
高赞
崔兴磊
卓涛
李传森
张蕊
郝敬全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Zhonglian Audio Visual Information Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong Zhonglian Audio Visual Information Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Zhonglian Audio Visual Information Technology Co ltd, Qingdao Haier Smart Technology R&D Co Ltd, Taihua Wisdom Industry Group Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Shandong Zhonglian Audio Visual Information Technology Co ltd
Priority to CN202211358974.8A priority Critical patent/CN115410138A/zh
Publication of CN115410138A publication Critical patent/CN115410138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉和模式识别技术领域,公开了一种基于特征编码器分类和定位串行的视频动作检测方法,准确地实现了对视频中动作实例的定位和分类;方法的具体步骤如下:(1)视频预处理;(2)基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建;(3)基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;(4)基于特征编码器分类和定位串行的视频动作检测方法;本发明基于已知数据集对视频中的动作实例进行高效定位和分类,并且方法收敛速度快。

Description

基于特征编码器分类和定位串行的视频动作检测方法
技术领域
本发明涉及一种基于特征编码器分类和定位串行的视频动作检测方法,属于计算机视觉和模式识别技术领域。
背景技术
近几年来,随着互联网视频的大量涌现,对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支,已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位,并预测人的动作类别。时序动作检测与动作检测相比,在对视频中的每个动作实例分类的基础上,还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段,然后对这些视频片段进行分类和定位,以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果,就必须将窗口之间的重叠度变高,这样就会产生巨大的计算量,影响模型的计算的速度,并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案,造成较多的冗余,浪费计算资源。并且,这些方法对于边界的预测不够灵活,动作实例的时间跨度相差很大,其中大部分较短,还有一部分很长,这样预定义的Anchor并不能够预测所有的动作实例。
然而,时序动作检测采用Anchor-free的方法开始涌现,它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小,只需要在每个时间位置生成一个提案,表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案,降低了计算量。
先前的时序动作检测算法都是采用定位器和分类器分离的操作,最后将两个分类和定位的结果进行融合,这样就会导致如果分类或者定位不准确,都会影响最终的结果,本发明为了解决这种问题,提出一种分类和定位的串行结构,这样只要分类结果相对准确,那么定位的结果就会较为准确,最终的结果也会更加准确。
发明内容
针对时序动作检测任务解决视频中动作实例的定位和分类问题,常用方法一是分类和定位是一种并行的关系,两者的融合并不能产生更好的效果,二是在进行分类和定位融合时候没有考虑到分类结果的准确性对定位的影响;本发明提供了一种基于特征编码器分类和定位串行的视频动作检测方法,先对视频的每一帧进行分类,然后为了消除某些背景帧对定位的影响,本发明采用自定义的Smooth平滑操作对分类特征进行平滑操作。用平滑后的特征进行动作定位,最后获得最终的视频分类和定位结果。这样一种串行结构,解决的定位准确分类不准确或者分类准确定位不准确的问题,将分类和定位串行化,能够使在分类准确时其定位也会较为准确,减少的分类和定位不匹配的问题,能够使得对视频中的动作分类和定位更为准确。
本发明为实现上述目的,通过以下技术方案实现:
一种基于特征编码器分类和定位串行的视频动作检测方法,包括以下步骤:
S1.视频预处理:
将未修剪的视频抽取成帧,表示为
Figure 518231DEST_PATH_IMAGE001
在训练集中包含 T 帧,将每个视 频以视频帧输入到网络模型中;
S2.基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建:
S3.基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;
S4. 经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,步骤S2具体包括如下步骤:
1)模型构建:
101.将视频帧输入到特征编码器生成不同时间尺度的特征;
102.不同层次的特征输入到分类器,生成分类特征,进行Smooth平滑,输入到定位器进行定位操作;
103.生成最终的视频中动作实例的分类和定位结果;
2)特征提取网络选择:
通过I3D网络获得时空特征,获得的时空特征经过3D卷积变成1D特征序列
Figure 779579DEST_PATH_IMAGE002
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,步骤S2具体包括如下步骤:
Figure 28158DEST_PATH_IMAGE002
作为特征编码器的输入,得到不同时间尺度的特征,
Figure 16842DEST_PATH_IMAGE003
分类特征生成过程:
基于不同时间尺度的特征
Figure 300056DEST_PATH_IMAGE004
,采用轻量级的卷积神经网络进行分类,生成分类特 征
Figure 466726DEST_PATH_IMAGE005
,
Figure 999339DEST_PATH_IMAGE006
是所有动作的类别;
将生成的分类特征输入到
Figure 667080DEST_PATH_IMAGE007
平滑函数。
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,
Figure 929434DEST_PATH_IMAGE008
平滑 函数包括以下步骤:
确定一个滑动窗口
Figure 391640DEST_PATH_IMAGE009
,对一个窗口内的数值进行平滑操作,实现过程为:
Figure 490177DEST_PATH_IMAGE010
(1)
Figure 430451DEST_PATH_IMAGE011
是窗口的大小,
Figure 547312DEST_PATH_IMAGE012
是利用Hann函数生成的一维向量
Figure 445998DEST_PATH_IMAGE013
(2)
Figure 953202DEST_PATH_IMAGE014
是一维向量所有元素的
Figure 593041DEST_PATH_IMAGE015
(3)
Figure 705354DEST_PATH_IMAGE016
是每个时间尺度分类特征需要平滑的窗口大小为
Figure 633996DEST_PATH_IMAGE017
的一维向量;
Figure 831759DEST_PATH_IMAGE018
(4)
Figure 989202DEST_PATH_IMAGE019
经过Smooth平滑操作后的分类特征。
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,分类和定位具体过程如下:
对预测分类的损失函数加了一个参数
Figure 956021DEST_PATH_IMAGE020
,总损失函数
Figure 321143DEST_PATH_IMAGE021
定义为:
Figure 740623DEST_PATH_IMAGE022
Figure 888708DEST_PATH_IMAGE023
分别是边界分类和边界回归的损失函数,
Figure 585399DEST_PATH_IMAGE024
定义如下:
Figure 996789DEST_PATH_IMAGE025
其中
Figure 28199DEST_PATH_IMAGE026
是分类中正样本的数量,如果预测的片段位于真实样本中,视为正样本,
Figure 917658DEST_PATH_IMAGE027
是预测的分类结果,
Figure 734435DEST_PATH_IMAGE028
是真实标签;
在细化边界回归中,
Figure 51147DEST_PATH_IMAGE029
使用
Figure 569853DEST_PATH_IMAGE030
作为损失函数,预测
Figure 263002DEST_PATH_IMAGE031
是 预测边界偏移量,
Figure 665777DEST_PATH_IMAGE032
是真实的边界偏移,则
Figure 418970DEST_PATH_IMAGE033
的实现过程为:
Figure 97076DEST_PATH_IMAGE034
其中
Figure 718550DEST_PATH_IMAGE035
是定位中正样本的数量,采用
Figure 368974DEST_PATH_IMAGE036
来处理所有预测以抑制冗余提 议。
本发明的优点在于:
1)通过提出的分类和定位串行结构,本发明可以增加分类和定位特征之间的联系,使得分类和定位更加准确,对视频中动作实例的定位和分类起到了良好的作用,并且提高了效率。
2)样本经过模型训练,可以得到拟合效果良好的权重;并且这些权重作用于模型后,对视频中动作实例的定位和分类获得了较为明显的的效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的结构图;
图2为本发明的流程图;
图3为经典动作识别算法与本发明在THUMOS14数据集上性能的比较;
图4为经典动作识别算法与本发明在ActivityNet1.3数据集上性能的比较;
图5为本发明对于分类损失函数
Figure 902855DEST_PATH_IMAGE037
参数对结果的影响;
图6为本发明在一个动作段预测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明的数据集包括
THUMOS14数据集:包含101个视频类别,由四个部分组成: 训练、验证、测试和背景集。每各部分包括13320,1010,1574和2500段未剪辑的视频。其中验证集中的200个视频用于训练,测试集中的213个视频用于测试;
ActivityNet1.3数据集:是一个大规模的动作数据集,包含200个活动类和大约20000个超过600小时的视频,数据集被分为三个子集: 10024个用于训练的视频,4926个用于验证,5044个用于测试。
一种基于特征编码器分类和定位串行的视频动作检测方法,包括以下步骤:
S1.视频预处理:
将未修剪的视频抽取成帧,表示为
Figure 5940DEST_PATH_IMAGE038
在训练集中包含 T 帧,将每个视 频以视频帧输入到网络模型中;
S2.基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建:
步骤S2具体包括如下步骤:
1)模型构建:
101.将视频帧输入到特征编码器生成不同时间尺度的特征;
102.不同层次的特征输入到分类器,生成分类特征,进行Smooth平滑,输入到定位器进行定位操作;
103.生成最终的视频中动作实例的分类和定位结果;
2)特征提取网络选择:
通过I3D网络获得时空特征,获得的时空特征经过3D卷积变成1D特征序列
Figure 165526DEST_PATH_IMAGE002
Figure 936036DEST_PATH_IMAGE039
作为特征编码器的输入,得到不同时间尺度的特征,
Figure 640818DEST_PATH_IMAGE040
分类特征生成过程:
基于不同时间尺度的特征
Figure 293516DEST_PATH_IMAGE041
,采用轻量级的卷积神经网络进行分类,生成分类特 征
Figure 460055DEST_PATH_IMAGE042
,
Figure 616230DEST_PATH_IMAGE043
是所有动作的类别;
将生成的分类特征输入到
Figure 882126DEST_PATH_IMAGE044
平滑函数
S3.基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;
S4.经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。
本实施例中,
Figure 835170DEST_PATH_IMAGE008
平滑函数包括以下步骤:
确定一个滑动窗口
Figure 477504DEST_PATH_IMAGE009
,对一个窗口内的数值进行平滑操作,实现过程为:
Figure 816081DEST_PATH_IMAGE010
(1)
Figure 252879DEST_PATH_IMAGE011
是窗口的大小,
Figure 690289DEST_PATH_IMAGE012
是利用Hann函数生成的一维向量
Figure 667472DEST_PATH_IMAGE013
(2)
Figure 1502DEST_PATH_IMAGE014
是一维向量所有元素的
Figure 733834DEST_PATH_IMAGE015
(3)
Figure 520525DEST_PATH_IMAGE016
是每个时间尺度分类特征需要平滑的窗口大小为
Figure 114448DEST_PATH_IMAGE017
的一维向量;
Figure 568563DEST_PATH_IMAGE018
(4)
Figure 471797DEST_PATH_IMAGE019
经过Smooth平滑操作后的分类特征;
基于不同时间尺度的平滑特征
Figure 276942DEST_PATH_IMAGE045
,采用轻量级的卷积神经网络进行定位,因为 分类特征已经包含较为准确的分类信息,并且Smooth平滑操作,消除了背景视频帧的影响, 因此定位模块会生成更为准确的动作实例的开始和结束时间。根据
Figure 408977DEST_PATH_IMAGE046
,通过一个轻 量级的卷积操作,预测的分类
Figure 983178DEST_PATH_IMAGE047
,另一个卷积用来获得位置
Figure 791734DEST_PATH_IMAGE048
到开始和结束的偏移
Figure 553017DEST_PATH_IMAGE049
;本发明采用分类和定位串行的结构并且采用Smooth函数对特征序列的平滑操 作,提出的这种新结构能够对视频中动作的定位和检测更为精准。
本实施例中,分类和定位具体过程如下:
对预测分类的损失函数加了一个参数
Figure 754322DEST_PATH_IMAGE020
,总损失函数
Figure 917450DEST_PATH_IMAGE050
定义为:
Figure 834591DEST_PATH_IMAGE051
Figure 473382DEST_PATH_IMAGE052
分别是边界分类和边界回归的损失函数,
Figure 337433DEST_PATH_IMAGE024
定义如下:
Figure 961925DEST_PATH_IMAGE053
其中
Figure 518808DEST_PATH_IMAGE054
是分类中正样本的数量,如果预测的片段位于真实样本中,视为正样本,
Figure 379317DEST_PATH_IMAGE027
是预测的分类结果,
Figure 843796DEST_PATH_IMAGE028
是真实标签;
在细化边界回归中,
Figure 715937DEST_PATH_IMAGE055
使用
Figure 319088DEST_PATH_IMAGE056
作为损失函数,
Figure 276680DEST_PATH_IMAGE057
Figure 607167DEST_PATH_IMAGE058
是预 测边界偏移量,
Figure 599394DEST_PATH_IMAGE059
是真实的边界偏移,则
Figure 294817DEST_PATH_IMAGE060
的实现过程为:
Figure 615071DEST_PATH_IMAGE061
其中
Figure 624616DEST_PATH_IMAGE035
是定位中正样本的数量,采用
Figure 595983DEST_PATH_IMAGE062
来处理所有预测以抑制冗余提 议。
经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型;模型的流程为:经过步骤S1生成视频帧,将视频帧作为模型输入,首先经I3D上下文信息捕获模块获取具有丰富上下文信息的特征,将获取的具有丰富上下文的特征输入到特征编码器,获取具有不同时间尺度的特征,将不同尺度的特征先通过分类器进行分类,得到分类特征;由于分类特征有些背景帧的特征信息干扰较大,因此采用Smooth平滑操作进行特征平滑;最后将平滑的特征输入到定位器,获取较为准确的动作实例的偏移,而后获得最终的分类和定位结果,这就是本发明对视频的检测结果如图6所示。以上的预测和分类过程都由目标函数进行约束,以获得更为准确的结果。
为了验证本发明的有效性,在时序动作检测数据集THUMOS14和ActivityNet1.3上进行了评测,具体实验设置为:在数据集THUMOS14中,验证集中的200个视频用于训练,测试集中的213个视频用于测试;在数据集ActivityNet1.3中,以 2:1:1 的比例将数据集分为训练、测试和验证,从图2和图3可以看出,本发明提出的基于特征编码器分类和定位串行的视频动作检测方法具有较好的检测性能。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于特征编码器分类和定位串行的视频动作检测方法,其特征在于,包括以下步骤:
S1.视频预处理:
将未修剪的视频抽取成帧,表示为
Figure 396588DEST_PATH_IMAGE001
在训练集中包含 T 帧,将每个视频以 视频帧输入到网络模型中;
S2.基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建:
S3.基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;
S4. 经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。
2.根据权利要求1所述基于特征编码器分类和定位串行的视频动作检测方法,其特征在于,步骤S2具体包括如下步骤:
1)模型构建:
101.将视频帧输入到特征编码器生成不同时间尺度的特征;
102.不同层次的特征输入到分类器,生成分类特征,进行Smooth平滑,输入到定位器进行定位操作;
103.生成最终的视频中动作实例的分类和定位结果;
2)特征提取网络选择:
通过I3D网络获得时空特征,获得的时空特征经过3D卷积变成1D特征序列
Figure 718985DEST_PATH_IMAGE002
3.根据权利要求2所述基于特征编码器分类和定位串行的视频动作检测方法,其特征在于,步骤S2具体包括如下步骤:
Figure 1062DEST_PATH_IMAGE003
作为特征编码器的输入,得到不同时间尺度的特征,
Figure 840317DEST_PATH_IMAGE004
分类特征生成过程:
基于不同时间尺度的特征
Figure 815226DEST_PATH_IMAGE005
,采用轻量级的卷积神经网络进行分类,生成分类特征
Figure 624919DEST_PATH_IMAGE006
,
Figure 976266DEST_PATH_IMAGE007
是所有动作的类别;
将生成的分类特征输入到
Figure 594330DEST_PATH_IMAGE008
平滑函数。
4.根据权利要求2所述基于特征编码器分类和定位串行的视频动作检测方法,其特征 在于,
Figure 881086DEST_PATH_IMAGE009
平滑函数包括以下步骤:
确定一个滑动窗口
Figure 115758DEST_PATH_IMAGE010
,对一个窗口内的数值进行平滑操作,实现过程为:
Figure 801954DEST_PATH_IMAGE011
(1)
Figure 743365DEST_PATH_IMAGE012
是窗口的大小,
Figure 935443DEST_PATH_IMAGE013
是利用Hann函数生成的一维向量
Figure 329516DEST_PATH_IMAGE014
(2)
Figure 881720DEST_PATH_IMAGE015
是一维向量所有元素的
Figure 943217DEST_PATH_IMAGE016
(3)
Figure 306196DEST_PATH_IMAGE017
是每个时间尺度分类特征需要平滑的窗口大小为
Figure 187564DEST_PATH_IMAGE018
的一维向量;
Figure 543459DEST_PATH_IMAGE019
(4)
Figure 990621DEST_PATH_IMAGE006
经过Smooth平滑操作后的分类特征。
5.根据权利要求1至4任一项所述基于特征编码器分类和定位串行的视频动作检测方法,其特征在于,分类和定位具体过程如下:
对预测分类的损失函数加了一个参数
Figure 914715DEST_PATH_IMAGE020
,总损失函数
Figure 155816DEST_PATH_IMAGE021
定义为:
Figure 190768DEST_PATH_IMAGE022
Figure 554753DEST_PATH_IMAGE023
分别是边界分类和边界回归的损失函数,
Figure 649748DEST_PATH_IMAGE024
定义如下:
Figure 381075DEST_PATH_IMAGE025
其中
Figure 750876DEST_PATH_IMAGE026
是分类中正样本的数量,如果预测的片段位于真实样本中,视为正样本,
Figure 375893DEST_PATH_IMAGE027
是预测的分类结果,
Figure 766423DEST_PATH_IMAGE028
是真实标签;
在细化边界回归中,
Figure 844100DEST_PATH_IMAGE029
使用
Figure 96221DEST_PATH_IMAGE030
作为损失函数,预测
Figure 575744DEST_PATH_IMAGE031
是预 测边界偏移量,
Figure 137175DEST_PATH_IMAGE032
是真实的边界偏移,则
Figure 702149DEST_PATH_IMAGE033
的实现过程为:
Figure 492381DEST_PATH_IMAGE034
其中
Figure 888728DEST_PATH_IMAGE035
是定位中正样本的数量,采用
Figure 496426DEST_PATH_IMAGE036
来处理所有预测以抑制冗余提议。
CN202211358974.8A 2022-11-02 2022-11-02 基于特征编码器分类和定位串行的视频动作检测方法 Pending CN115410138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211358974.8A CN115410138A (zh) 2022-11-02 2022-11-02 基于特征编码器分类和定位串行的视频动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211358974.8A CN115410138A (zh) 2022-11-02 2022-11-02 基于特征编码器分类和定位串行的视频动作检测方法

Publications (1)

Publication Number Publication Date
CN115410138A true CN115410138A (zh) 2022-11-29

Family

ID=84169109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211358974.8A Pending CN115410138A (zh) 2022-11-02 2022-11-02 基于特征编码器分类和定位串行的视频动作检测方法

Country Status (1)

Country Link
CN (1) CN115410138A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107646113A (zh) * 2015-05-21 2018-01-30 皇家飞利浦有限公司 识别视频序列中的活的皮肤组织
CN108564049A (zh) * 2018-04-22 2018-09-21 北京工业大学 一种基于深度学习的快速人脸检测识别方法
CN112270286A (zh) * 2020-11-09 2021-01-26 北京机电工程研究所 一种抗阴影干扰的单色视频目标跟踪方法
US20220133156A1 (en) * 2020-10-29 2022-05-05 Roc8Sci Co. Cardiopulmonary health monitoring using thermal camera and audio sensor
CN114998799A (zh) * 2022-06-07 2022-09-02 山东省人工智能研究院 基于全局知识挖掘和前景注意力的交互视频动作检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107646113A (zh) * 2015-05-21 2018-01-30 皇家飞利浦有限公司 识别视频序列中的活的皮肤组织
CN108564049A (zh) * 2018-04-22 2018-09-21 北京工业大学 一种基于深度学习的快速人脸检测识别方法
US20220133156A1 (en) * 2020-10-29 2022-05-05 Roc8Sci Co. Cardiopulmonary health monitoring using thermal camera and audio sensor
CN112270286A (zh) * 2020-11-09 2021-01-26 北京机电工程研究所 一种抗阴影干扰的单色视频目标跟踪方法
CN114998799A (zh) * 2022-06-07 2022-09-02 山东省人工智能研究院 基于全局知识挖掘和前景注意力的交互视频动作检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵越等: "一种基于时频分析的窄带雷达飞机目标分类特征提取方法", 《电子与信息学报》 *

Similar Documents

Publication Publication Date Title
Lu et al. Detecting anomaly in big data system logs using convolutional neural network
CN111914644A (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
CN109977895B (zh) 一种基于多特征图融合的野生动物视频目标检测方法
Ji et al. Learning temporal action proposals with fewer labels
CN112767997A (zh) 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN112560829B (zh) 人群数量确定方法、装置、设备及存储介质
CN112202726B (zh) 一种基于上下文感知的系统异常检测方法
CN111861909A (zh) 一种网络细粒度图像去噪分类方法
CN110879881A (zh) 基于特征组分层和半监督随机森林的鼠标轨迹识别方法
CN114998799B (zh) 基于全局知识挖掘和前景注意力的交互视频动作检测方法
CN112668438A (zh) 红外视频时序行为定位方法、装置、设备及存储介质
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
Yang et al. Fast and robust key frame extraction method for gesture video based on high-level feature representation
CN116259108A (zh) 动作质量评估方法和装置、动作质量评估模型训练方法
Kalash et al. Relative saliency and ranking: Models, metrics, data and benchmarks
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
CN114925238A (zh) 一种基于联邦学习的视频片段检索方法及系统
Wang et al. Mutuality-oriented reconstruction and prediction hybrid network for video anomaly detection
Fonseca et al. Model-agnostic approaches to handling noisy labels when training sound event classifiers
CN114781779A (zh) 一种无监督能耗异常检测方法、装置及存储介质
CN114218998A (zh) 一种基于隐马尔可夫模型的电力系统异常行为分析方法
JP2019139651A (ja) 未知の複数次元のベクトルデータ群をクラス分類するプログラム、装置及び方法
CN117218382A (zh) 一种无人系统大跨度穿梭多摄像头轨迹跟踪识别方法
CN111860660A (zh) 基于改进高斯网络的小样本学习垃圾分类方法
CN115410138A (zh) 基于特征编码器分类和定位串行的视频动作检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221129