CN117558067A - 基于动作识别和序列推理的动作预测方法 - Google Patents
基于动作识别和序列推理的动作预测方法 Download PDFInfo
- Publication number
- CN117558067A CN117558067A CN202311833547.5A CN202311833547A CN117558067A CN 117558067 A CN117558067 A CN 117558067A CN 202311833547 A CN202311833547 A CN 202311833547A CN 117558067 A CN117558067 A CN 117558067A
- Authority
- CN
- China
- Prior art keywords
- sequence
- motion
- action
- video
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000001364 causal effect Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000012634 fragment Substances 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 abstract description 6
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000004851 dishwashing Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于动作识别和序列推理的动作预测方法,步骤:对原始长视频数据预处理,得动作标签序列;将视频片段序列中的视频片段分别送入动作识别网络,提取代表视频片段的动作特征,得动作特征序列;将动作特征序列送入线性分类网络,得动作识别损失函数;将动作特征序列送入因果网络,得预测的下一个动作特征序列,再将下一个动作特征序列送入线性分类网络,得动作预测损失函数;将动作识别损失函数和动作预测损失函数相加,得网络总损失函数,优化网络参数。本发明使用动作识别损失和预测损失联合训练网络,降低了训练难度;用AIM模型和GPT2模型组成ARR主干网络,通过训练模型解决了网络性能较差和泛化性不足的问题。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及基于动作识别和序列推理的动作预测方法。
背景技术
在人工智能和机器学习的快速发展背景下,动作预测技术已成为一个重要的研究领域,此技术的核心目标是根据历史数据和当前情境来预测未来的动作或行为,算法需要基于当前的视频输入判断出指定时间后(如1秒)将会发生什么动作。动作预测技术广泛应用于各个领域,包括但不限于自动驾驶汽车、机器人工程、视频监控、交互式游戏和运动分析。如在自动驾驶领域,汽车需要根据路面实时情况来迅速作出反应并对乘客做出相对提示,如前方出现行人需要紧急避让,与其他车辆间距过小需要及时拉开距离,这些都关系到乘客的生命安全,更需要做出准确的判断。
传统的动作预测方法大多基于预设的算法和规则。例如,在视频监控领域,通过设置特定的动作触发规则来预测和识别异常行为,而且只能预判少数几种异常行为,且准确率不高。在运动分析中,通过分析运动员的历史表现数据来预测其未来表现。然而,这些传统方法存在局限性,特别是在处理复杂场景和实时数据时。
近年来,随着计算能力的提升和大数据技术的发展,基于机器学习的动作预测方法开始流行。这些方法通常涉及使用大量数据来训练预测模型,使其能够识别和预测不同类型的动作。例如,Hochreiter等人从当前视频中采样视频帧序列,再利用卷积神经网络(CNN)处理每个视频帧提取特征,得到特征序列,再将得到的得到的特征序列送入循环神经网络(RNN)进行时序建模,预测指定时间的动作特征,再将该动作特征经过一个线性层进行分类,预测出指定时间的动作;Girdhar等人则利用了预先提取好的特征,再将其送入已被证明拥有更强大推理能力的因果网络(根据序列的当前值及之前值预测下一个值)来进行推理,第一个将大规模预训练模型用于动作预测领域,进一步提升了动作预测的准确度。上述方法普遍存在以下问题:
(1)上述方法均是端到端的直接预测方法,直接从当前视频数据得到未来的动作预测,训练起来十分困难,因为预测未来发生的动作本来就是一个很困难的任务;
(2)上述方法大多没有用到上游大规模预训练模型,动作预测任务缺乏大规模数据集用于训练,如果不用到大模型的预训练知识,会导致网络性能较差,而且鲁棒性不强,适用的场景不多。
发明内容
针对上述现有技术存在的问题,本发明的目的在于将困难的动作预测任务分解为两个较为简单的动作识别和序列推理任务,提供了基于动作识别和序列推理的动作预测方法。
为了实现上述目的,本发明采用了如下技术方案:
基于动作识别和序列推理的动作预测方法,包括以下步骤:
S1、对原始长视频数据进行预处理,得到动作标签序列;
S2、将视频片段序列中的每个视频片段分别送入动作识别网络,提取代表各个视频片段的动作特征,得到动作特征序列;
S3、将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,使用交叉熵损失函数来进行监督动作识别任务,使用动作标签序列进行监督,得到动作识别损失函数;
S4、将动作特征序列送入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个动作特征序列;将下一个动作特征序列送入线性分类网络,使用交叉熵损失函数来进行监督动作预测任务,将下一个动作特征用于分类,使用下一个动作标签序列进行监督,得到动作预测损失函数;
S5、将得到的动作识别损失和动作预测损失相加,得到网络总损失函数,使用所得总损失函数来计算梯度,优化网络参数。
优选地,步骤S1中,所述对原始长视频数据进行预处理,得到动作标签序列,包括以下步骤:
S11、对原始长视频输入进行等间隔采样,得到视频片段(clip)序列;
S12、将得到的视频片段序列进行数据预处理,对所有视频帧进行裁剪调整大小;
S13、根据原始视频标注得到与视频片段序列中每个视频片段对应的动作标签,得到动作标签序列。
优选地,步骤S11中,所述对原始长视频输入进行等间隔采样,得到视频片段(clip)序列,具体步骤包括:对原始长视频每间隔1秒采样四帧,在一个视频片段序列里采样8个视频片段,时间间隔为1秒,每个视频片段包含4个视频帧。
优选地,步骤S12中,所述对所有视频帧进行裁剪调整大小,具体步骤包括:将得到的32个视频帧(8个视频片段乘以每个片段4帧)放缩为256*256像素大小,再随机裁剪成224*224。
优选地,步骤S13中,所述根据原始视频标注得到与视频片段序列中每个视频片段对应的动作标签,具体步骤包括:根据原始视频中存在的动作标签对得到的视频片段序列进行标注,如果所述视频片段位于已知的时间区间里,则采用原有的动作标签进行标注,如果所述视频片段所在的时间区间没有动作标签,则将其标注为未知动作,进而得到与视频片段序列中每个视频片段一一对应的动作标签序列。
优选地,步骤S2中,所述将视频片段序列中的每个视频片段分别送入动作识别网络,提取代表各个视频片段的动作特征,具体步骤包括:将每个视频帧划分为不重叠的补丁,再将所得补丁映射为一维向量序列(token序列),再加入代表整个视频片段信息的类别token送入动作识别网络,经由动作识别网络输出提取代表各个视频片段的动作特征,进而得到动作特征序列。
优选地,步骤S3中,所述将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,使用交叉熵损失函数来进行监督动作识别任务,使用动作标签序列进行监督,包括:将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,将动作特征用于分类,使用动作标签序列进行监督动作识别任务,使用交叉熵损失函数计算动作识别损失函数Lrec,具体表示如下:
其中,Lrec表示动作识别损失函数,t取值从1到8,表示有8个视频片段,rt表示线性网络分类结果,at表示真实值,即动作标签。
优选地,所述将动作特征序列送入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个动作特征序列;将下一个动作特征序列送入线性分类网络,使用交叉熵损失函数来进行监督动作预测任务,将下一个动作特征用于分类,使用下一个动作标签序列进行监督,得到动作预测损失函数,具体包括以下步骤:
首先,将动作特征序列F,F={f1,f2,f3…f8}输入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个特征序列P,P∈R8*768且P={p2,p3,p4…p9},其中,p4是根据f1,f2,f3得到的,作为f4的预测值;
接着,使用线性分类网络进行分类,将下一个动作特征序列送入线性分类网络,使用动作标签序列的移位序列作为真实值来监督动作预测任务,使用交叉熵损失函数计算动作预测损失函数:
其中,Lpre表示预测损失函数,pt+1表示预测得到的下一个动作特征,at+1表示与下一个动作特征对应的真实动作标签。
优选地,所述将得到的动作识别损失和动作预测损失相加,得到网络总损失函数,使用所得总损失函数来计算梯度,优化网络参数,具体包括步骤:将得到的动作识别损失函数Lrec和动作预测损失函数Lpre相加,得到总损失函数Ltotal,具体表示如下:
Ltotal=Lrec+Lpre
使用所得总损失函数Ltotal来计算梯度并优化相应的网络参数,训练ARR模型。
本发明具备如下有益效果:
(1)本发明提出了基于动作识别和序列推理的动作预测方法,通过将较为困难且研究较少的动作预测方法分解为动作识别和序列推理两个子任务,通过子任务协同完成动作预测任务。具体地本发明使用动作识别损失和预测损失联合训练网络,通过对原始标注的巧妙处理,增加了动作识别的监督,相当于增加了网络的先验信息,从而进一步降低了训练的难度。
(2)本发明有效利用了预训练大模型的能力,使用在视频动作识别表现优秀的AIM网络和具有强大推理能力的GPT2大模型来组成ARR的主干网络,通过预训练模型带来的强大能力,有效解决了由于训练数据匮乏的导致网络性能较差和泛化性不足的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法与现有方法的区别示意图;
图2为视频数据结构以及标注的示意图;
图3为基于动作识别和序列推理的动作预测方法的流程示意图;
图4为动作识别网络AIM和因果网络GPT2的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。
本发明提供了基于动作识别和序列推理的动作预测方法,受到“国家自然科学基金-基于自监督学习的人体微姿态识别和情感分析项目62171309”的资助。随着机器学习和人工智能技术的发展,人体微姿态识别和情感分析成为了越来越受关注的研究领域。其中一个子任务就是根据人的当前微姿态及变化过程对之后的情感做出预测,本发明结合了人体微姿态识别和情感分析与动作预测任务,希望能对人体微姿态和情感做出短时间预测。
参照图1,本发明与现有方法最大的区别在于,现有一步到位的端到端的方法是直接通过输入视频得到最后预测结果,中间过程通过神经网络来完成,类似于一个黑盒,只知道输入和输出,对中间的处理过程无从知悉,现有这种方法比较适用于简单的任务,但是动作预测这个任务难度较大,如果采用这种全程黑盒的设计会导致性能较差,因为只通过最后一个动作预测来约束整个庞大的网络有点乏力。鉴于此,本发明采用双段式网络设计,将动作预测任务分解为动作识别和序列推理网络,采用动作识别损失函数和预测的下一个动作损失即动作预测损失函数来约束网络,对网络的每一部分输入都进行监督,为网络提供更多的先验信息,从而增强网络的性能。
实施例1
参照图2-4,基于动作识别和序列推理的动作预测方法,包括以下步骤:
S1、对原始长视频数据进行预处理,得到动作标签序列;
本发明采用的原始长视频,一般长度在10分钟到30分钟,这些视频中一些片段是有标注的,如1分5秒到1分10秒是洗碗,2分31秒到2分40秒是切菜,整个长视频中存在着许多个这样有动作标签的片段,而其余部分是没有动作标签的画面。动作预期任务通常给定8秒钟的观测时间,然后预测1秒后发生的动作,并在这8秒钟内以1s的间隔采样个视频片段,每个片段包含连续的4帧,采样间隔正好就是预测时间间隔,这样每次可以基于前面的输入预测1秒后的动作。采样时如果该视频片段有动作标签,就用该动作标签作为该视频片段的标注,如果没有动作标签,就手动加一个位置动作作为标注,这样来完成数据的预处理过程。
具体地,包括以下步骤:
S11、对输入的原始长视频进行等间隔采样,得到视频片段(clip)序列;
具体地,根据已有的原始长视频V(大多数在10分钟到30分钟),这里每间隔1秒采样四帧,采样8个视频片段,即在一个视频片段序列里有8个视频片段,它们之间的时间间隔为1秒,每个视频片段包含4个视频帧,最终得到视频片段序列,C={c1,c2,c3…c8},其中c∈R4*3*224*224,4表示4帧,3表示RGB三通道,224*224表示图像的空间分辨率。
S12、将得到的视频片段序列进行处理,对所有视频帧进行裁剪调整大小;
具体地,将得到的32个视频帧(8个视频片段乘以每个片段4帧)放缩为256*256像素大小,再随机裁剪成224*224。
S13、根据原始视频标注得到与视频片段序列中每个视频片段对应的动作标签,得到动作标签序列;
具体地,由于原始视频中对应着一些动作标签,例如一段10分钟的视频,1分30秒到1分35秒在打篮球,2分50秒到3分01秒在走路,本发明根据原始视频中上述已经存在的动作标签对得到的视频片段序列进行标注,如果该视频片段位于已知的时间区间里,则用原有的动作标签进行标注,如果该视频片段所在的时间区间没有动作标签,则给它标注为未知动作,相当于手动加了一个动作类别,进而得到了与视频片段序列中每个视频片段一一对应的动作标签序列。
S2、将视频片段序列中的每个视频片段分别送入动作识别网络,提取代表各个视频片段的动作特征,得到动作特征序列;
具体地,包括以下步骤:将每个视频帧划分为不重叠的补丁,再将所得补丁映射为一维向量序列(token序列),再加入代表整个视频片段信息的类别token(cls token)送入动作识别网络,经由动作识别网络输出提取代表各个视频片段的动作特征,进而得到动作特征序列。
这里,本发明采用的动作识别网络为AIM,它是基于视觉Transformer(ViT)架构,基本块示意图如图4a所示,与普通Transformer架构类似,因对视频输入进行处理,故包含有空间注意力和时间注意力,通过一个交换维度顺序的操作来实现。此外,这里只训练适配器部分的参数,其余部分参数冻结住。将视频片段序列中的每个视频片段分别送入动作识别网络时,各个视频片段是独立处理的,不共享网络权重。具体地,本发明将每个视频帧划分成不重叠的16*16的补丁(patch),再将所得补丁(patch)映射为长度为768的一维向量(token),这里,1个224*224的视频帧可划分为14*14=196个token;再加入代表整个视频片段信息的一个cls token,故一个视频片段可以变成一个token序列T,T∈R4*197*768,经过动作识别网络提取代表各个视频片段的动作特征,得到动作特征序列F,F∈R8*768。也就是说每个视频片段有一个token作为动作特征。
S3、将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,使用交叉熵损失函数来进行监督动作识别任务,使用动作标签序列进行监督,得到动作识别损失函数;
具体地,包括以下步骤:将动作特征用于分类,使用动作标签序列进行监督动作识别任务,使用交叉熵损失函数计算动作识别损失函数Lrec,具体表示如下:
其中,Lrec表示动作识别损失函数,t取值从1到8,表示有8个视频片段,rt表示线性网络分类结果,at表示真实值,即动作标签。
S4、将动作特征序列送入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个动作特征序列;将下一个动作特征序列送入线性分类网络,使用交叉熵损失函数来进行监督动作预测任务,将下一个动作特征用于分类,使用下一个动作标签序列进行监督,得到动作预测损失函数;
本发明中,因果网络使用的是GPT2,GPT2是基于Transformer架构,基本块结构如图4b所示,该架构主要使用掩码注意力机制,以确保当前输出只来自于历史状态而不会有未来信息,确保预测时不会有信息泄露。GPT2具有很强的推理能力,其根据序列的历史值来预测下一个值。
这里使用交叉熵损失函数来进行监督动作预测任务,将下一个动作特征用于分类,使用下一个动作标签序列进行监督,该下一个动作标签序列是使用动作标签序列移位得到的,例如,若动作标签序列为[a1,a2,a3…aT],则下一个动作标签序列为[a2,a3,a4…aT+1],其与动作标签序列存在一个移位关系。
具体地,包括以下步骤:
首先,将动作特征序列F,F={f1,f2,f3…f8}输入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个特征序列P,P∈R8*768且P={p2,p3,p4…p9},其中,p4是根据f1,f2,f3得到的,作为f4的预测值;
接着,使用线性分类网络进行分类,将下一个动作特征序列送入线性分类网络,使用动作标签序列的移位序列作为真实值来监督动作预测任务,使用交叉熵损失函数计算动作预测损失函数:
其中,Lpre表示预测损失函数,pt+1表示预测得到的下一个动作特征,at+1表示与下一个动作特征对应的真实动作标签;
S5、将得到的动作识别损失函数Lrec和动作预测损失函数Lpre相加,得到总损失函数Ltotal,具体表示如下:
Ltotal=Lrec+Lpre
使用所得总损失函数Ltotal来计算梯度并优化相应的网络参数,训练ARR模型。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。
Claims (7)
1.基于动作识别和序列推理的动作预测方法,其特征在于,包括以下步骤:
S1、对原始长视频数据进行预处理,得到动作标签序列;
S2、将视频片段序列中的每个视频片段分别送入动作识别网络,提取代表各个视频片段的动作特征,得到动作特征序列;
S3、将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,使用交叉熵损失函数来进行监督动作识别任务,使用动作标签序列进行监督,得到动作识别损失函数;
S4、将动作特征序列送入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个动作特征序列;将下一个动作特征序列送入线性分类网络,使用交叉熵损失函数来进行监督动作预测任务,将下一个动作特征用于分类,使用下一个动作标签序列进行监督,得到动作预测损失函数;
S5、将得到的动作识别损失和动作预测损失相加,得到网络总损失函数,使用所得总损失函数来计算梯度,优化网络参数。
2.根据权利要求1所述的基于动作识别和序列推理的动作预测方法,其特征在于,步骤S1中,所述对原始长视频数据进行预处理,得到动作标签序列,包括以下步骤:
S11、对原始长视频输入进行等间隔采样,得到视频片段序列;
S12、将得到的视频片段序列进行数据预处理,对所有视频帧进行裁剪调整大小;
S13、根据原始视频标注得到与视频片段序列中每个视频片段对应的动作标签,得到动作标签序列。
3.根据权利要求2所述的基于动作识别和序列推理的动作预测方法,其特征在于,步骤S13中,所述根据原始视频标注得到与视频片段序列中每个视频片段对应的动作标签,具体步骤包括:根据原始视频中存在的动作标签对得到的视频片段序列进行标注,如果所述视频片段位于已知的时间区间里,则采用原有的动作标签进行标注,如果所述视频片段所在的时间区间没有动作标签,则将其标注为未知动作,进而得到与视频片段序列中每个视频片段一一对应的动作标签序列。
4.根据权利要求1所述的基于动作识别和序列推理的动作预测方法,其特征在于,步骤S2中,所述将视频片段序列中的每个视频片段分别送入动作识别网络,提取代表各个视频片段的动作特征,具体步骤包括:将每个视频帧划分为不重叠的补丁,再将所得补丁映射为一维向量序列,再加入代表整个视频片段信息的类别token送入动作识别网络,经由动作识别网络输出提取代表各个视频片段的动作特征,进而得到动作特征序列。
5.根据权利要求4所述的基于动作识别和序列推理的动作预测方法,其特征在于,步骤S3中,所述将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,使用交叉熵损失函数来进行监督动作识别任务,使用动作标签序列进行监督,包括:将动作特征序列送入线性分类网络,得到每个视频片段的动作分类结果,将动作特征用于分类,使用动作标签序列进行监督动作识别任务,使用交叉熵损失函数计算动作识别损失函数Lrec,具体表示如下:
其中,Lrec表示动作识别损失函数,t取值从1到8,表示有8个视频片段,rt表示线性网络分类结果,at表示真实值,即动作标签。
6.根据权利要求5所述的基于动作识别和序列推理的动作预测方法,其特征在于,所述将动作特征序列送入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个动作特征序列;将下一个动作特征序列送入线性分类网络,使用交叉熵损失函数来进行监督动作预测任务,将下一个动作特征用于分类,使用下一个动作标签序列进行监督,得到动作预测损失函数,具体包括以下步骤:
首先,将动作特征序列F,F={f1,f2,f3…f8}输入因果网络,根据动作特征序列预测下一个动作,得到预测的下一个特征序列P,P∈R8*768且P={p2,p3,p4…p9},其中,p4是根据f1,f2,f3得到的,作为f4的预测值;
接着,使用线性分类网络进行分类,将下一个动作特征序列送入线性分类网络,使用动作标签序列的移位序列作为真实值来监督动作预测任务,使用交叉熵损失函数计算动作预测损失函数:
其中,Lpre表示预测损失函数,pt+1表示预测得到的下一个动作特征,at+1表示与下一个动作特征对应的真实动作标签。
7.根据权利要求6所述的基于动作识别和序列推理的动作预测方法,其特征在于,所述将得到的动作识别损失和动作预测损失相加,得到网络总损失函数,使用所得总损失函数来计算梯度,优化网络参数,具体包括步骤:将得到的动作识别损失函数Lrec和动作预测损失函数Lpre相加,得到总损失函数Ltotal,具体表示如下:
Ltotal=Lrec+Lpre
使用所得总损失函数Ltotal来计算梯度并优化相应的网络参数,训练ARR模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311833547.5A CN117558067B (zh) | 2023-12-28 | 2023-12-28 | 基于动作识别和序列推理的动作预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311833547.5A CN117558067B (zh) | 2023-12-28 | 2023-12-28 | 基于动作识别和序列推理的动作预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117558067A true CN117558067A (zh) | 2024-02-13 |
CN117558067B CN117558067B (zh) | 2024-08-16 |
Family
ID=89818625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311833547.5A Active CN117558067B (zh) | 2023-12-28 | 2023-12-28 | 基于动作识别和序列推理的动作预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117558067B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472531A (zh) * | 2019-07-29 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN111079646A (zh) * | 2019-12-16 | 2020-04-28 | 中山大学 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
US20200272823A1 (en) * | 2017-11-14 | 2020-08-27 | Google Llc | Weakly-Supervised Action Localization by Sparse Temporal Pooling Network |
CN113743244A (zh) * | 2021-08-13 | 2021-12-03 | 清华大学 | 基于反事实样本的视频人体意外动作定位方法和装置 |
CN114973406A (zh) * | 2022-05-09 | 2022-08-30 | 长江大学 | 预测下一步有效工人动作并予以及时提示的方法及系统 |
CN116708922A (zh) * | 2023-05-09 | 2023-09-05 | 北京百度网讯科技有限公司 | 数据处理方法、模型训练方法、模型测试方法及装置 |
CN117272168A (zh) * | 2023-09-11 | 2023-12-22 | 江西珉轩智能科技有限公司 | 基于运动时序特征编码的人体动作识别与预测方法 |
-
2023
- 2023-12-28 CN CN202311833547.5A patent/CN117558067B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200272823A1 (en) * | 2017-11-14 | 2020-08-27 | Google Llc | Weakly-Supervised Action Localization by Sparse Temporal Pooling Network |
CN110472531A (zh) * | 2019-07-29 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN111079646A (zh) * | 2019-12-16 | 2020-04-28 | 中山大学 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
CN113743244A (zh) * | 2021-08-13 | 2021-12-03 | 清华大学 | 基于反事实样本的视频人体意外动作定位方法和装置 |
CN114973406A (zh) * | 2022-05-09 | 2022-08-30 | 长江大学 | 预测下一步有效工人动作并予以及时提示的方法及系统 |
CN116708922A (zh) * | 2023-05-09 | 2023-09-05 | 北京百度网讯科技有限公司 | 数据处理方法、模型训练方法、模型测试方法及装置 |
CN117272168A (zh) * | 2023-09-11 | 2023-12-22 | 江西珉轩智能科技有限公司 | 基于运动时序特征编码的人体动作识别与预测方法 |
Non-Patent Citations (2)
Title |
---|
R. GIRDHAR AND K. GRAUMAN: "Anticipative Video Transformer", 2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 17 October 2021 (2021-10-17), pages 13485 - 13495, XP034093500, DOI: 10.1109/ICCV48922.2021.01325 * |
R. GIRDHAR AND K. GRAUMAN: "Anticipative Video Transformer", IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 17 October 2021 (2021-10-17), pages 13485 - 13495, XP034093500, DOI: 10.1109/ICCV48922.2021.01325 * |
Also Published As
Publication number | Publication date |
---|---|
CN117558067B (zh) | 2024-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104992223B (zh) | 基于深度学习的密集人数估计方法 | |
CN105095866B (zh) | 一种快速行为识别方法和系统 | |
CN108509976A (zh) | 动物的识别装置和方法 | |
CN101916365A (zh) | 对考试作弊事件进行智能视频识别的方法 | |
Lu et al. | Multi-object detection method based on YOLO and ResNet hybrid networks | |
CN113283282A (zh) | 一种基于时域语义特征的弱监督时序动作检测方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN114092699B (zh) | 基于迁移学习的群猪图像分割的方法及系统 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN109614896A (zh) | 一种基于递归卷积神经网络的视频内容语义理解的方法 | |
CN115953630A (zh) | 一种基于全局-局部知识蒸馏的跨域小样本图像分类方法 | |
CN113822155A (zh) | 一种聚类辅助的弱监督视频异常检测方法和装置 | |
CN114359167B (zh) | 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法 | |
CN116597419B (zh) | 一种基于参数化互近邻的车辆限高场景识别方法 | |
CN117390407A (zh) | 变电站设备的故障识别方法、系统、介质和设备 | |
CN117558067B (zh) | 基于动作识别和序列推理的动作预测方法 | |
CN116152699B (zh) | 用于水电厂视频监控系统的实时运动目标检测方法 | |
CN115965978A (zh) | 文字识别模型的无监督训练方法及相关设备 | |
CN114581769A (zh) | 一种基于无监督聚类的在建房屋识别方法 | |
CN115965883A (zh) | 一种基于Transformer的烟雾检测算法 | |
Lu et al. | Abnormal Behavior Recognition System based on Improved CRNN Model | |
Zhong et al. | Action-driven reinforcement learning for improving localization of brace sleeve in railway catenary | |
CN111930982A (zh) | 一种电网图像智能标签方法 | |
CN112101266B (zh) | 基于多arm的动作识别模型分布式推理方法 | |
CN113744306B (zh) | 基于时序内容感知注意力机制的视频目标分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |