CN115410138A - 基于特征编码器分类和定位串行的视频动作检测方法 - Google Patents
基于特征编码器分类和定位串行的视频动作检测方法 Download PDFInfo
- Publication number
- CN115410138A CN115410138A CN202211358974.8A CN202211358974A CN115410138A CN 115410138 A CN115410138 A CN 115410138A CN 202211358974 A CN202211358974 A CN 202211358974A CN 115410138 A CN115410138 A CN 115410138A
- Authority
- CN
- China
- Prior art keywords
- classification
- video
- positioning
- motion detection
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000009499 grossing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 5
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉和模式识别技术领域,公开了一种基于特征编码器分类和定位串行的视频动作检测方法,准确地实现了对视频中动作实例的定位和分类;方法的具体步骤如下:(1)视频预处理;(2)基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建;(3)基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;(4)基于特征编码器分类和定位串行的视频动作检测方法;本发明基于已知数据集对视频中的动作实例进行高效定位和分类,并且方法收敛速度快。
Description
技术领域
本发明涉及一种基于特征编码器分类和定位串行的视频动作检测方法,属于计算机视觉和模式识别技术领域。
背景技术
近几年来,随着互联网视频的大量涌现,对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支,已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位,并预测人的动作类别。时序动作检测与动作检测相比,在对视频中的每个动作实例分类的基础上,还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段,然后对这些视频片段进行分类和定位,以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果,就必须将窗口之间的重叠度变高,这样就会产生巨大的计算量,影响模型的计算的速度,并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案,造成较多的冗余,浪费计算资源。并且,这些方法对于边界的预测不够灵活,动作实例的时间跨度相差很大,其中大部分较短,还有一部分很长,这样预定义的Anchor并不能够预测所有的动作实例。
然而,时序动作检测采用Anchor-free的方法开始涌现,它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小,只需要在每个时间位置生成一个提案,表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案,降低了计算量。
先前的时序动作检测算法都是采用定位器和分类器分离的操作,最后将两个分类和定位的结果进行融合,这样就会导致如果分类或者定位不准确,都会影响最终的结果,本发明为了解决这种问题,提出一种分类和定位的串行结构,这样只要分类结果相对准确,那么定位的结果就会较为准确,最终的结果也会更加准确。
发明内容
针对时序动作检测任务解决视频中动作实例的定位和分类问题,常用方法一是分类和定位是一种并行的关系,两者的融合并不能产生更好的效果,二是在进行分类和定位融合时候没有考虑到分类结果的准确性对定位的影响;本发明提供了一种基于特征编码器分类和定位串行的视频动作检测方法,先对视频的每一帧进行分类,然后为了消除某些背景帧对定位的影响,本发明采用自定义的Smooth平滑操作对分类特征进行平滑操作。用平滑后的特征进行动作定位,最后获得最终的视频分类和定位结果。这样一种串行结构,解决的定位准确分类不准确或者分类准确定位不准确的问题,将分类和定位串行化,能够使在分类准确时其定位也会较为准确,减少的分类和定位不匹配的问题,能够使得对视频中的动作分类和定位更为准确。
本发明为实现上述目的,通过以下技术方案实现:
一种基于特征编码器分类和定位串行的视频动作检测方法,包括以下步骤:
S1.视频预处理:
S2.基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建:
S3.基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;
S4. 经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,步骤S2具体包括如下步骤:
1)模型构建:
101.将视频帧输入到特征编码器生成不同时间尺度的特征;
102.不同层次的特征输入到分类器,生成分类特征,进行Smooth平滑,输入到定位器进行定位操作;
103.生成最终的视频中动作实例的分类和定位结果;
2)特征提取网络选择:
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,步骤S2具体包括如下步骤:
分类特征生成过程:
上述基于特征编码器分类和定位串行的视频动作检测方法基础上,分类和定位具体过程如下:
本发明的优点在于:
1)通过提出的分类和定位串行结构,本发明可以增加分类和定位特征之间的联系,使得分类和定位更加准确,对视频中动作实例的定位和分类起到了良好的作用,并且提高了效率。
2)样本经过模型训练,可以得到拟合效果良好的权重;并且这些权重作用于模型后,对视频中动作实例的定位和分类获得了较为明显的的效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的结构图;
图2为本发明的流程图;
图3为经典动作识别算法与本发明在THUMOS14数据集上性能的比较;
图4为经典动作识别算法与本发明在ActivityNet1.3数据集上性能的比较;
图6为本发明在一个动作段预测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明的数据集包括
THUMOS14数据集:包含101个视频类别,由四个部分组成: 训练、验证、测试和背景集。每各部分包括13320,1010,1574和2500段未剪辑的视频。其中验证集中的200个视频用于训练,测试集中的213个视频用于测试;
ActivityNet1.3数据集:是一个大规模的动作数据集,包含200个活动类和大约20000个超过600小时的视频,数据集被分为三个子集: 10024个用于训练的视频,4926个用于验证,5044个用于测试。
一种基于特征编码器分类和定位串行的视频动作检测方法,包括以下步骤:
S1.视频预处理:
S2.基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建:
步骤S2具体包括如下步骤:
1)模型构建:
101.将视频帧输入到特征编码器生成不同时间尺度的特征;
102.不同层次的特征输入到分类器,生成分类特征,进行Smooth平滑,输入到定位器进行定位操作;
103.生成最终的视频中动作实例的分类和定位结果;
2)特征提取网络选择:
分类特征生成过程:
S3.基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建;
S4.经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。
基于不同时间尺度的平滑特征,采用轻量级的卷积神经网络进行定位,因为
分类特征已经包含较为准确的分类信息,并且Smooth平滑操作,消除了背景视频帧的影响,
因此定位模块会生成更为准确的动作实例的开始和结束时间。根据,通过一个轻
量级的卷积操作,预测的分类,另一个卷积用来获得位置到开始和结束的偏移;本发明采用分类和定位串行的结构并且采用Smooth函数对特征序列的平滑操
作,提出的这种新结构能够对视频中动作的定位和检测更为精准。
本实施例中,分类和定位具体过程如下:
经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型;模型的流程为:经过步骤S1生成视频帧,将视频帧作为模型输入,首先经I3D上下文信息捕获模块获取具有丰富上下文信息的特征,将获取的具有丰富上下文的特征输入到特征编码器,获取具有不同时间尺度的特征,将不同尺度的特征先通过分类器进行分类,得到分类特征;由于分类特征有些背景帧的特征信息干扰较大,因此采用Smooth平滑操作进行特征平滑;最后将平滑的特征输入到定位器,获取较为准确的动作实例的偏移,而后获得最终的分类和定位结果,这就是本发明对视频的检测结果如图6所示。以上的预测和分类过程都由目标函数进行约束,以获得更为准确的结果。
为了验证本发明的有效性,在时序动作检测数据集THUMOS14和ActivityNet1.3上进行了评测,具体实验设置为:在数据集THUMOS14中,验证集中的200个视频用于训练,测试集中的213个视频用于测试;在数据集ActivityNet1.3中,以 2:1:1 的比例将数据集分为训练、测试和验证,从图2和图3可以看出,本发明提出的基于特征编码器分类和定位串行的视频动作检测方法具有较好的检测性能。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211358974.8A CN115410138A (zh) | 2022-11-02 | 2022-11-02 | 基于特征编码器分类和定位串行的视频动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211358974.8A CN115410138A (zh) | 2022-11-02 | 2022-11-02 | 基于特征编码器分类和定位串行的视频动作检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410138A true CN115410138A (zh) | 2022-11-29 |
Family
ID=84169109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211358974.8A Pending CN115410138A (zh) | 2022-11-02 | 2022-11-02 | 基于特征编码器分类和定位串行的视频动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410138A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107646113A (zh) * | 2015-05-21 | 2018-01-30 | 皇家飞利浦有限公司 | 识别视频序列中的活的皮肤组织 |
CN108564049A (zh) * | 2018-04-22 | 2018-09-21 | 北京工业大学 | 一种基于深度学习的快速人脸检测识别方法 |
CN112270286A (zh) * | 2020-11-09 | 2021-01-26 | 北京机电工程研究所 | 一种抗阴影干扰的单色视频目标跟踪方法 |
US20220133156A1 (en) * | 2020-10-29 | 2022-05-05 | Roc8Sci Co. | Cardiopulmonary health monitoring using thermal camera and audio sensor |
CN114998799A (zh) * | 2022-06-07 | 2022-09-02 | 山东省人工智能研究院 | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 |
-
2022
- 2022-11-02 CN CN202211358974.8A patent/CN115410138A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107646113A (zh) * | 2015-05-21 | 2018-01-30 | 皇家飞利浦有限公司 | 识别视频序列中的活的皮肤组织 |
CN108564049A (zh) * | 2018-04-22 | 2018-09-21 | 北京工业大学 | 一种基于深度学习的快速人脸检测识别方法 |
US20220133156A1 (en) * | 2020-10-29 | 2022-05-05 | Roc8Sci Co. | Cardiopulmonary health monitoring using thermal camera and audio sensor |
CN112270286A (zh) * | 2020-11-09 | 2021-01-26 | 北京机电工程研究所 | 一种抗阴影干扰的单色视频目标跟踪方法 |
CN114998799A (zh) * | 2022-06-07 | 2022-09-02 | 山东省人工智能研究院 | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 |
Non-Patent Citations (1)
Title |
---|
赵越等: "一种基于时频分析的窄带雷达飞机目标分类特征提取方法", 《电子与信息学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Detecting anomaly in big data system logs using convolutional neural network | |
CN111914644A (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN109977895B (zh) | 一种基于多特征图融合的野生动物视频目标检测方法 | |
Ji et al. | Learning temporal action proposals with fewer labels | |
CN112767997A (zh) | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 | |
CN112560829B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
CN112202726B (zh) | 一种基于上下文感知的系统异常检测方法 | |
CN111861909A (zh) | 一种网络细粒度图像去噪分类方法 | |
CN110879881A (zh) | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 | |
CN114998799B (zh) | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 | |
CN112668438A (zh) | 红外视频时序行为定位方法、装置、设备及存储介质 | |
CN115471771A (zh) | 一种基于语义级时序关联建模的视频时序动作定位方法 | |
Yang et al. | Fast and robust key frame extraction method for gesture video based on high-level feature representation | |
CN116259108A (zh) | 动作质量评估方法和装置、动作质量评估模型训练方法 | |
Kalash et al. | Relative saliency and ranking: Models, metrics, data and benchmarks | |
CN115063664A (zh) | 用于工业视觉检测的模型学习方法、训练方法及系统 | |
CN114925238A (zh) | 一种基于联邦学习的视频片段检索方法及系统 | |
Wang et al. | Mutuality-oriented reconstruction and prediction hybrid network for video anomaly detection | |
Fonseca et al. | Model-agnostic approaches to handling noisy labels when training sound event classifiers | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
CN114218998A (zh) | 一种基于隐马尔可夫模型的电力系统异常行为分析方法 | |
JP2019139651A (ja) | 未知の複数次元のベクトルデータ群をクラス分類するプログラム、装置及び方法 | |
CN117218382A (zh) | 一种无人系统大跨度穿梭多摄像头轨迹跟踪识别方法 | |
CN111860660A (zh) | 基于改进高斯网络的小样本学习垃圾分类方法 | |
CN115410138A (zh) | 基于特征编码器分类和定位串行的视频动作检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221129 |