CN110659572A - 基于双向特征金字塔的视频动作检测方法 - Google Patents

基于双向特征金字塔的视频动作检测方法 Download PDF

Info

Publication number
CN110659572A
CN110659572A CN201910778111.8A CN201910778111A CN110659572A CN 110659572 A CN110659572 A CN 110659572A CN 201910778111 A CN201910778111 A CN 201910778111A CN 110659572 A CN110659572 A CN 110659572A
Authority
CN
China
Prior art keywords
anchor
video segment
video
width
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910778111.8A
Other languages
English (en)
Other versions
CN110659572B (zh
Inventor
宋砚
唐金辉
何江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910778111.8A priority Critical patent/CN110659572B/zh
Publication of CN110659572A publication Critical patent/CN110659572A/zh
Application granted granted Critical
Publication of CN110659572B publication Critical patent/CN110659572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于双向特征金字塔的视频动作检测方法,包括以下步骤:步骤1,对数据集进行预处理,提取I3D特征;步骤2,制作训练样本;步骤3,搭建网络,并将步骤1得到的I3D特征输入到网络中进行训练;步骤4,将测试视频对应的I3D特征输入到网络中,得到动作检测结果,使用非极大值抑制算法去除冗余检测结果。

Description

基于双向特征金字塔的视频动作检测方法
技术领域
本发明涉及一种视频识别技术,特别是一种基于双向特征金字塔的视频动作检测方法。
背景技术
人体动作识别是计算机视觉领域中至关重要的一个方向,其目的是自动分析采集到的视频,对人体动作划分行为类型,以代替人眼完成人体动作的分析和判断。动作检测是由动作识别发展而来的。动作检测是在一段没有剪辑过的长视频中定位动作的开始和结束时间并识别出动作的类型。
近年来,大多数的动作检测方法还是两阶段的,首先使用滑动窗口或者其他的方法产生一些动作候选片段提议,然后再使用一个分类器对动作进行精确的定位并确定动作的类别。但是这些方法的检测精度还是不能令人满意。
发明内容
本发明的目的在于提供一种基于双向特征金字塔的视频动作检测方法。
实现本发明目的的技术方案为:一种基于双向特征金字塔的视频动作检测方法,包括以下步骤:
步骤1,对数据集进行预处理,提取I3D特征;
步骤2,制作训练样本;
步骤3,搭建网络,并将步骤1得到的I3D特征输入到网络中进行训练;
步骤4,将测试视频对应的I3D特征输入到网络中,得到动作检测结果,使用非极大值抑制算法去除冗余检测结果。
进一步地,所述步骤1具体包括:
步骤101,把未剪辑的长视频,包括训练集和测试集,以jpeg的图片格式,按照25FPS的帧率读出为RGB图片,并使用TVL1算法计算对应的光流;
步骤102,每次从步骤101得到的视频帧中取16帧,将该16帧的RGB图片和计算得到对应的光流输入到I3D网络中,分别提取I3D网络的Mixed_5c层的输出(2×7×7×1024),接着使用一个卷积核为2×7×7的AveragePooling3d得到1024维的特征;将RGB和光流得到的1024维特征拼接为2048维。
进一步地,所述步骤2具体包括:
步骤201,统计步骤101得到的每个视频的RGB帧数,然后按照512帧划分视频段,在训练集中每个视频段之间的重叠率为75%,在测试集中每个视频段之间的重叠率为50%,并记录每个视频段在视频中的起始位置;
步骤202,读取训练集的标注文件,计算真实标注的动作区间和步骤201得到的视频段的重叠部分,然后根据重叠率来为视频段分配真实标注;
步骤203,根据特征层默认锚的大小以及对应的锚尺度计算特征层上的锚坐标;
步骤204,对步骤202得到的属于视频段的真实标注动作区间和步骤203得到的锚坐标计算交并比IoU,并根据IoU分数分配锚的标签,具体操作为:
步骤205,先将步骤204中的属于锚的真实标注动作区间转换成中心和宽度,然后再进行编码,编码过程的具体操作为:
Figure BDA0002175706950000021
Figure BDA0002175706950000022
其中,gtc和gtw分别为真实标注动作的中心和宽度,anchorc和anchorw分别为锚的中心和宽度,encodec和encodew分别表示编码后的动作中心和宽度。
进一步地,步骤202中根据重叠率来为视频段分配真实标注的具体过程为:
若真实标注的动作区间长度大于视频段的长度,且当重叠部分占视频段的75%,则该真实标注属于这个视频段;
若视频段的长度大于真实标注的动作区间长度,且当重叠部分占真实标注的动作区间的75%,则该真实标注属于这个视频段;
若一个视频段没有分配到任何的真实标注,则将其抛弃;
最后将属于视频段的真实标注的动作区间修改为重叠部分的起始和结束坐标。
进一步地,步骤203的具体过程为:
步骤2031,对于一特征层,其时间维度为t,即由t个区间,默认anchor的宽度为w,在每个区间上放置n个锚,使用的锚尺度为[s1,s2,...,sn];
步骤2032,计算该特征层上第i个区间的第j个锚的坐标为
Figure BDA0002175706950000031
其中,sj为第j个锚的尺度,w*sj为锚的宽度;
步骤2033,获取该特征层上所有锚的在特征层上中心坐标[0.5,1.5,...,t-0.5],获取这些锚在视频段的中心坐标为[0.5m,1.5m,...,(t-0.5)m],锚尺度为[0.5,0.75,1],对应的锚宽度为[0.5w,0.75w,w],那么在视频段上的锚的坐标为:
Figure BDA0002175706950000032
Figure BDA0002175706950000033
...
其中每一行代表一个特征图上的一个单元格上的不同尺度的锚的坐标,每一行中的每两个坐标分别是锚的起始和结束坐标。
进一步地,步骤204的具体过程为:
步骤203得到的锚有多个,计算每个锚和该视频段的所有真实标注动作区间的IoU:
如果最高的IoU分数大于0.5,则这个锚和对应的真实标注匹配,即这个锚的标签是这个真实标注动作区间和相应的动作类别,并将这个锚视为正例;
如果最高的IoU分数小于等于0.5,那么这个锚的标签就是背景类,并将这个锚视为负例。
进一步地,所述步骤3具体包括以下步骤:
步骤301,用1d时序卷积和反卷积搭建网络,具体操作如下:
使用1d时序卷积和反卷积搭建整个网络,网络的输入是步骤102得到的I3D特征,大小为32×2048,特征图C1-C5得到的方式如下:
Figure BDA0002175706950000035
其中,inputs表示网络输入,大小为32×2048,m1表示卷积核为1×1024且步幅为1的1d时序卷积,m3表示卷积核为3×1024且步幅为2的1d时序卷积;
得到C1-C5后使用横向连接和反卷积得到特征图P1-P5,得到的过程如下:
Figure BDA0002175706950000041
其中,k3表示卷积核为3×256且步幅为1的1d时序卷积,k1表示卷积核为1×256且步幅为1的1d时序卷积,de表示反卷积操作,将特征图的时间维度放大两倍。
得到P1-P5后,继续使用1d时序卷积得到特征图zhengliR1-R5,具体方法如下:
其中,k3表示卷积核为3×256且步幅为1的1d时序卷积;
得到R1-R5后,在R1-R5上进行检测,其中分类和位置预测是在两个分支上进行的;分类是使用一个卷积核为3×(Classesnum*anchornum),步幅为1的1d时序卷积得到的,其中Classesnum表示预测的类别个数,anchornum表示该特征层上每个单元格上预测的锚个数;位置预测是通过一个卷积核为3×(2*anchornum),步幅为1的1d时序卷积得到的,其中2表示预测动作的中心和宽度;
步骤302,根据步骤202得到的训练集视频段,从步骤102得到的特征中读取对应的I3D特征输入步骤301搭建的网络中;
步骤303,根据步骤204得到的锚和真实标注之间的IoU,使用难分样本挖掘使得正负例之比为1:3,具体做法为:假设正例的个数为N个,将负例锚的预测结果进行排序,选择背景分数最低的3N个负例用于计算损失,其余的全部抛弃;
步骤304,使用Adam优化器训练网络,其中多任务损失如下:
Figure BDA0002175706950000043
其中,N表示正例的个数,Lcls是一个标准的多分类交叉熵损失,Lloc是编码后的位置偏移量的L1损失,计算过程如下所示:
Figure BDA0002175706950000051
Figure BDA0002175706950000052
其中,
Figure BDA0002175706950000054
表示第i个锚与第j个真实标注匹配关于类别c匹配,
Figure BDA0002175706950000055
表示第i个锚的第c个类别的分类分数;xij表示第i个锚和第j个真实标注是否匹配,匹配时为1,否则为0;
Figure BDA0002175706950000056
表示第i个锚的背景分类分数,
Figure BDA0002175706950000057
表示第i个锚预测的中心/宽度预测偏移量,是指第i个anchor的第c类分类分数,
Figure BDA0002175706950000059
表示第j个真实标注的中心/宽度Pos为正例,Neg为负例。
进一步地,所述步骤4具体包括以下步骤:
步骤401,根据步骤201得到的测试集视频段,从步骤102得到的特征中读取对应的I3D特征输入到网络中,得到初步预测结果;
步骤402,将步骤401得到的初步预测结果中的坐标偏移量进行解码,得到动作的中心和宽度,然后转换成动作的起始和结束坐标,解码操作过程如下:
decodec=predc*anchorw+anchorc (10)
decodew=exp(predw)+anchorw (11)
其中,predc和predw分别为预测的动作中心和宽度偏移量,anchorc和anchorw分别为锚的中心和宽度,decodec和decodew分别是解码后的动作的中心和宽度。
步骤403,对步骤402得到的预测结果进行筛选,首先将预测分类分数小于0.1的以及背景分数抛弃掉,并将预测结果的起始结束坐标加上视频段在视频中的起始坐标,得到预测结果在视频中的位置;将属于同一个视频的所有预测结果放在一个集合中,然后对每个类别使用一次非极大值抑制算法,去除冗余得到最终的检测结果。
本发明与现有技术相比,涉及的方法属于一阶段的方法,能够直接检测动作,减少计算量,提升运算速度。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1为基于双向特征金字塔的视频动作检测方法示意图。
具体实施方式
结合图1,本发明提出一种基于双向特征金字塔的视频动作检测方法,包括特征提取、制作训练样本、在训练集上训练网络、对测试视频进行动作检测四个过程,对未剪辑的长视频进行一系列的计算,得到视频中人体动作发生的开始时间、结束时间以及动作的类别。
特征提取过程包括以下步骤:
步骤1:把未剪辑的长视频,包括训练集和测试集,以jpeg的图片格式,按照25FPS的帧率读出为RGB图片,并使用TVL1算法计算对应的光流;
步骤2:每次从步骤1得到的视频帧中取16帧,输入到I3D网络中,提取I3D网络的Mixed_5c层的输出(2×7×7×1024),然后使用一个卷积核为2×7×7的AveragePooling3d得到1024维的特征。然后将这16帧图片对应的光流也输入到I3D网络中,进行同样的处理,也得到一个1024维的特征。将RGB和光流得到的1024维特征拼接为2048维。(2×7×7×1024)表示Mixed_5c层的输出是一个四维数组,其维度大小为2×7×7×1024,然后使用一个卷积核为2×7×7的AveragePooling3d层处理,得到的输出就是1024了(即只有一个维度了),相当于输入16帧RGB图片最终得到一个1024维输出。同理,输入16帧光流也能得到一个1024维输出,然后两者拼接得到2048维。
制作训练样本包括以下步骤:
步骤3:统计步骤1得到的每个视频的帧数,然后按照512帧划分视频段,在训练集中每个视频段之间的重叠率为75%,在测试集中每个视频段之间的重叠率为50%,并记录每个视频段在视频中的起始位置;
步骤4:读取训练集的标注文件,计算真实标注的动作区间和步骤3得到的视频段的重叠部分,然后根据重叠率来为视频段分配真实标注,具体操作为:
若真实标注的动作区间长度大于视频段的长度,那么当重叠部分占视频段的75%,就认为该真实标注属于这个视频段;若视频段的长度大于真实标注的动作区间长度,那么当重叠部分占真实标注的动作区间的75%,就认为该真实标注属于这个视频段。如果一个视频段没有分配到任何的真实标注,那么就将其抛弃。最后将属于视频段的真实标注的动作区间修改为重叠部分的起始和结束坐标;
步骤5:图1的网络结构中的R1-R5层用于检测动作,其中R1-R4使用的锚尺度为[0.5,0.75,1,1.5,2],R5的锚尺度为[0.5,0.75,1],R1-R5的默认的锚大小为[16,48,112,240,496],根据默认锚的大小以及对应的锚尺度计算这些特征层上的锚坐标,具体操作为:
输入的视频段长度为512,假设Ri特征层的特征图大小为t×256,t为特征层的时间维度,特征图相对于视频段的时间维度缩小倍数为
Figure BDA0002175706950000071
默认锚的大小为w,使用的锚尺度为[0.5,0.75,1],那么该特征层上的锚坐标计算方法为:
该特征层上所有锚的在特征层上中心坐标为[0.5,1.5,...,t-0.5],这些锚在视频段的中心坐标为[0.5m,1.5m,...,(t-0.5)m],锚尺度为[0.5,0.75,1],对应的锚宽度为[0.5w,0.75w,w],那么在视频段上的锚的坐标为:
Figure BDA0002175706950000072
Figure BDA0002175706950000073
...
Figure BDA0002175706950000074
其中每一行代表一个特征图上的一个单元格上的不同尺度的锚的坐标,每一行中的每两个坐标分别是锚的起始和结束坐标。
例如R5层的特征图为2×256,特征图相对于视频段缩小的倍数为
Figure BDA0002175706950000075
默认锚的大小为496,使用的锚尺度为[0.5,0.75,1],那么R5层上的所有锚坐标为:
[[[4,252],[-58,314],[-120,376]],
[[260,508],[198,570],[136,632]]
步骤6:对步骤4得到的属于视频段的真实标注动作区间和步骤5得到的锚坐标计算交并比(IoU),并根据IoU分数分配锚的标签,具体操作为:
步骤B03得到的锚有多个,计算每个锚和该视频段的所有真实标注动作区间的IoU,如果最高的IoU分数大于0.5,那么就认为这个锚和对应的真实标注匹配,即这个锚的标签是这个真实标注动作区间和相应的动作类别,并将这个锚视为正例,如果最高的IoU分数小于等于0.5,那么这个锚的标签就是背景类,并将这个锚视为负例。
步骤7:先将步骤6中的属于锚的真实标注动作区间转换成中心和宽度,然后再进行编码,编码过程的具体操作为:
Figure BDA0002175706950000081
Figure BDA0002175706950000082
其中gtc和gtw分别为真实标注动作的中心和宽度,anchorc和anchorw分别为锚的中心和宽度,encodec和encodew分别表示编码后的动作中心和宽度。
在训练集上训练网络包括以下步骤:
步骤8:用1d时序卷积和反卷积搭建如图1所示的网络,具体操作如下:
使用1d时序卷积和反卷积搭建整个网络,网络的输入是步骤2得到的I3D特征,大小为32×2048,特征图C1-C5得到的方式如下:
Figure BDA0002175706950000083
其中inputs表示网络输入,大小为32×2048,m1表示卷积核为1×1024,步幅为1的1d时序卷积,m3表示卷积核为3×1024,步幅为2的1d时序卷积。具体来说,inputs经过一个1×1024,步幅为1的1d时序卷积得到C1,C1经过一个3×1024,步幅为2的1d时序卷积得到C2,得到C3-C5的操作类似于C2。C1-C5的特征图大小为:C1为32×1024,C2为16×1024,C3为8×1024,C4为4×1024,C5为2×1024。
得到C1-C5后使用横向连接和反卷积得到P1-P5,得到的过程如下:
Figure BDA0002175706950000091
其中k3表示卷积核为3×256,步幅为1的1d时序卷积,k1表示卷积核为1×256,步幅为1的1d时序卷积,de表示反卷积操作,将特征图的时间维度放大两倍。具体来说,P5是C5经过一个卷积核为1×256,步幅为1的1d时序卷积和一个卷积核为3×256,步幅为1的1d时序卷积得到的;P4是通过C4和P5得到的,首先将C4经过一个卷积核为1×256,步幅为1的1d时序卷积,将P5经过反卷积得到同样大小的特征图,然后将两者相加再使用一个卷积核为3×256,步幅为1的1d时序卷积得到P4;P1-P3的获得方式类似于P4。P1-P5的特征图大小为:P1为32×256,P2为16×256,P3为8×256,P4为4×256,P5为2×256。
得到P1-P5后,继续使用1d时序卷积得到R1-R5,具体方法如下:
Figure BDA0002175706950000092
其中k3表示卷积核为3×256,步幅为1的1d时序卷积。具体的,R1等于P1,对于R2-R5,R2是R1使用一个卷积核为3×256,步幅为1的1d时序卷积再加上P2得到的,R3-R5得到的方式和R2一样。R1-R5的特征图大小为:R1为32×256,R2为16×256,R3为8×256,R4为4×256,R5为2×256。
得到R1-R5后,在R1-R5上进行检测,其中分类和位置预测是在两个分支上进行的。分类是使用一个卷积核为3×(Classesnum*anchornum),步幅为1的1d时序卷积得到的,其中Classesnum表示预测的类别个数(包含背景类),anchornum表示该特征层上每个cell上预测的锚个数;位置预测是通过一个卷积核为3×(2*anchornum),步幅为1的1d时序卷积得到的,其中2表示预测动作的中心和宽度。
步骤9:根据步骤4得到的训练集视频段,从步骤2得到的特征中读取对应的I3D特征输入到图1的网络中;
步骤10:根据步骤6得到的锚和真实标注之间的IoU,如果IoU大于0.5,则认为该锚为正例,如果IoU小于0.5,则认为该锚为负例。由于大部分锚为负例,使用hardnegativemining使得正负例之比为1:3,具体做法为:
假设正例的个数为N个,将负例锚的预测结果进行排序,选择背景分数最低的3N个负例用于计算损失,其余的全部抛弃;
步骤11:网络的损失函数是一个多任务损失,网络的输出是所有锚的动作类别和动作位置的偏移量,使用Adam优化器训练网络。多任务损失如下:
Figure BDA0002175706950000101
其中N表示正例的个数,Lcls是一个标准的多分类交叉熵损失,Lloc是编码后的位置偏移量的L1损失,计算过程如下所示:
Figure BDA0002175706950000102
Figure BDA0002175706950000103
Figure BDA0002175706950000104
其中
Figure BDA0002175706950000105
表示第i个锚与第j个真实标注匹配关于类别c匹配,
Figure BDA0002175706950000106
表示第i个锚的第c个类别的分类分数,xij表示第i个锚和第j个真实标注是否匹配,匹配时为1,否则为0,
Figure BDA0002175706950000107
表示第i个锚的背景分类分数,
Figure BDA0002175706950000108
表示第i个锚预测的中心/宽度预测偏移量,
Figure BDA0002175706950000109
表示第j个真实标注的中心/宽度。对于正例锚,需要计算分类损失和位置偏移量损失,对于负例,只需计算分类损失。Pos为正例,这里是指对属于正例的anchor进行计算公式为
Figure BDA00021757069500001010
neg为负例,其计算公式为
Figure BDA00021757069500001012
是指第i个anchor的第c类分类分数(这里是指未经过处理前的分类分数),在分类任务中通过使用一个softmax函数将各个类别的分类分数转为各个类别的概率。Softmax函数就是
Figure BDA00021757069500001013
这个公式,其中是指第i个anchor的第c类分类分数的指数,是指第i个anchor所有分类分数的指数之和。因此通过这个公式可以得到各个类别的概率。因此也可以当成第i个anchor是第c类的概率大小。
在测试视频进行检测包括以下步骤:
步骤12:根据步骤3得到的测试集视频段,从步骤2得到的特征中读取对应的I3D特征输入到网络中,得到初步预测结果;
步骤13:将步骤12得到的初步预测结果中的坐标偏移量进行解码,得到动作的中心和宽度,然后转换成动作的起始和结束坐标,解码操作过程如下:
decodec=predc*anchorw+anchorc (10)
decodew=exp(predw)+anchorw (11)
其中predc和predw分别为预测的动作中心和宽度偏移量,anchorc和anchorw分别为锚的中心和宽度,decodec和decodew分别是解码后的动作的中心和宽度。
步骤14:对步骤13得到的预测结果进行筛选,首先将预测分类分数小于0.1以及背景分数抛弃掉,并将预测结果的起始结束坐标加上视频段在视频中的起始坐标,得到预测结果在视频中的位置。将属于同一个视频的所有预测结果放在一个集合中,然后对每个类别使用一次非极大值抑制算法(阈值为0.3),去除冗余得到最终的检测结果。

Claims (8)

1.一种基于双向特征金字塔的视频动作检测方法,其特征在于,包括以下步骤:
步骤1,对数据集进行预处理,提取I3D特征;
步骤2,制作训练样本;
步骤3,搭建网络,并将步骤1得到的I3D特征输入到网络中进行训练;
步骤4,将测试视频对应的I3D特征输入到网络中,得到动作检测结果,使用非极大值抑制算法去除冗余检测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤101,把未剪辑的长视频,包括训练集和测试集,以jpeg的图片格式,按照25FPS的帧率读出为RGB图片,并使用TVL1算法计算对应的光流;
步骤102,每次从步骤101得到的视频帧中取16帧,将该16帧的RGB图片和计算得到对应的光流输入到I3D网络中,分别提取I3D网络的Mixed_5c层的输出(2×7×7×1024),接着使用一个卷积核为2×7×7的AveragePooling3d得到1024维的特征;将RGB和光流得到的1024维特征拼接为2048维。
3.根据权利要求2所述的方法,其特征在于,所述步骤2具体包括:
步骤201,统计步骤101得到的每个视频的RGB帧数,然后按照512帧划分视频段,在训练集中每个视频段之间的重叠率为75%,在测试集中每个视频段之间的重叠率为50%,并记录每个视频段在视频中的起始位置;
步骤202,读取训练集的标注文件,计算真实标注的动作区间和步骤201得到的视频段的重叠部分,然后根据重叠率来为视频段分配真实标注;
步骤203,根据特征层默认锚的大小以及对应的锚尺度计算特征层上的锚坐标;
步骤204,对步骤202得到的属于视频段的真实标注动作区间和步骤203得到的锚坐标计算交并比IoU,并根据IoU分数分配锚的标签,具体操作为:
步骤205,先将步骤204中的属于锚的真实标注动作区间转换成中心和宽度,然后再进行编码,编码过程的具体操作为:
Figure FDA0002175706940000011
Figure FDA0002175706940000012
其中,gtc和gtw分别为真实标注动作的中心和宽度,anchorc和anchorw分别为锚的中心和宽度,encodec和encodew分别表示编码后的动作中心和宽度。
4.根据权利要求3所述的方法,其特征在于,步骤202中根据重叠率来为视频段分配真实标注的具体过程为:
若真实标注的动作区间长度大于视频段的长度,且当重叠部分占视频段的75%,则该真实标注属于这个视频段;
若视频段的长度大于真实标注的动作区间长度,且当重叠部分占真实标注的动作区间的75%,则该真实标注属于这个视频段;
若一个视频段没有分配到任何的真实标注,则将其抛弃;
最后将属于视频段的真实标注的动作区间修改为重叠部分的起始和结束坐标。
5.根据权利要求3所述的方法,其特征在于,步骤203的具体过程为:
步骤2031,对于一特征层,其时间维度为t,即由t个区间,默认anchor的宽度为w,在每个区间上放置n个锚,使用的锚尺度为[s1,s2,...,sn];
步骤2032,计算该特征层上第i个区间的第j个锚的坐标为
Figure FDA0002175706940000021
其中,sj为第j个锚的尺度,w*sj为锚的宽度;
步骤2033,获取该特征层上所有锚的在特征层上中心坐标[0.5,1.5,...,t-0.5],获取这些锚在视频段的中心坐标为[0.5m,1.5m,...,(t-0.5)m],锚尺度为[0.5,0.75,1],对应的锚宽度为[0.5w,0.75w,w],那么在视频段上的锚的坐标为:
Figure FDA0002175706940000023
...
Figure FDA0002175706940000024
其中每一行代表一个特征图上的一个单元格上的不同尺度的锚的坐标,每一行中的每两个坐标分别是锚的起始和结束坐标。
6.根据权利要求3所述的方法,其特征在于,步骤204的具体过程为:
步骤203得到的锚有多个,计算每个锚和该视频段的所有真实标注动作区间的IoU:
如果最高的IoU分数大于0.5,则这个锚和对应的真实标注匹配,即这个锚的标签是这个真实标注动作区间和相应的动作类别,并将这个锚视为正例;
如果最高的IoU分数小于等于0.5,那么这个锚的标签就是背景类,并将这个锚视为负例。
7.根据权利要求6所述的方法,其特征在于,所述步骤3具体包括以下步骤:
步骤301,用1d时序卷积和反卷积搭建网络,具体操作如下:
使用1d时序卷积和反卷积搭建整个网络,网络的输入是步骤102得到的I3D特征,大小为32×2048,特征图C1-C5得到的方式如下:
Figure FDA0002175706940000031
其中,inputs表示网络输入,大小为32×2048,m1表示卷积核为1×1024且步幅为1的1d时序卷积,m3表示卷积核为3×1024且步幅为2的1d时序卷积;
得到C1-C5后使用横向连接和反卷积得到特征图P1-P5,得到的过程如下:
其中,k3表示卷积核为3×256且步幅为1的1d时序卷积,k1表示卷积核为1×256且步幅为1的1d时序卷积,de表示反卷积操作,将特征图的时间维度放大两倍。
得到P1-P5后,继续使用1d时序卷积得到特征图zhengli R1-R5,具体方法如下:
其中,k3表示卷积核为3×256且步幅为1的1d时序卷积;
得到R1-R5后,在R1-R5上进行检测,其中分类和位置预测是在两个分支上进行的;分类是使用一个卷积核为3×(Classesnum*anchornum),步幅为1的1d时序卷积得到的,其中Classesnum表示预测的类别个数,anchornum表示该特征层上每个单元格上预测的锚个数;位置预测是通过一个卷积核为3×(2*anchornum),步幅为1的1d时序卷积得到的,其中2表示预测动作的中心和宽度;
步骤302,根据步骤202得到的训练集视频段,从步骤102得到的特征中读取对应的I3D特征输入步骤301搭建的网络中;
步骤303,根据步骤204得到的锚和真实标注之间的IoU,使用难分样本挖掘使得正负例之比为1:3,具体做法为:假设正例的个数为N个,将负例锚的预测结果进行排序,选择背景分数最低的3N个负例用于计算损失,其余的全部抛弃;
步骤304,使用Adam优化器训练网络,其中多任务损失如下:
Figure FDA0002175706940000041
其中,N表示正例的个数,Lcls是一个标准的多分类交叉熵损失,Lloc是编码后的位置偏移量的L1损失,计算过程如下所示:
Figure FDA0002175706940000042
Figure FDA0002175706940000043
Figure FDA0002175706940000044
其中,
Figure FDA0002175706940000045
表示第i个锚与第j个真实标注匹配关于类别c匹配,
Figure FDA0002175706940000046
表示第i个锚的第c个类别的分类分数;xij表示第i个锚和第j个真实标注是否匹配,匹配时为1,否则为0;
Figure FDA0002175706940000047
表示第i个锚的背景分类分数,
Figure FDA0002175706940000048
表示第i个锚预测的中心/宽度预测偏移量,
Figure FDA0002175706940000049
是指第i个anchor的第c类分类分数,表示第j个真实标注的中心/宽度Pos为正例,Neg为负例,。
8.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括以下步骤:
步骤401,根据步骤201得到的测试集视频段,从步骤102得到的特征中读取对应的I3D特征输入到网络中,得到初步预测结果;
步骤402,将步骤401得到的初步预测结果中的坐标偏移量进行解码,得到动作的中心和宽度,然后转换成动作的起始和结束坐标,解码操作过程如下:
decodec=predc*anchorw+anchorc (10)
decodew=exp(predw)+anchorw (11)
其中,predc和predw分别为预测的动作中心和宽度偏移量,anchorc和anchorw分别为锚的中心和宽度,decodec和decodew分别是解码后的动作的中心和宽度。
步骤403,对步骤402得到的预测结果进行筛选,首先将预测分类分数小于0.1的以及背景分数抛弃掉,并将预测结果的起始结束坐标加上视频段在视频中的起始坐标,得到预测结果在视频中的位置;将属于同一个视频的所有预测结果放在一个集合中,然后对每个类别使用一次非极大值抑制算法,去除冗余得到最终的检测结果。
CN201910778111.8A 2019-08-22 2019-08-22 基于双向特征金字塔的视频动作检测方法 Active CN110659572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910778111.8A CN110659572B (zh) 2019-08-22 2019-08-22 基于双向特征金字塔的视频动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910778111.8A CN110659572B (zh) 2019-08-22 2019-08-22 基于双向特征金字塔的视频动作检测方法

Publications (2)

Publication Number Publication Date
CN110659572A true CN110659572A (zh) 2020-01-07
CN110659572B CN110659572B (zh) 2022-08-12

Family

ID=69037758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910778111.8A Active CN110659572B (zh) 2019-08-22 2019-08-22 基于双向特征金字塔的视频动作检测方法

Country Status (1)

Country Link
CN (1) CN110659572B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222476A (zh) * 2020-01-10 2020-06-02 北京百度网讯科技有限公司 视频时序动作的检测方法、装置、电子设备及存储介质
CN112801070A (zh) * 2021-04-14 2021-05-14 浙江啄云智能科技有限公司 一种目标检测方法、装置、设备及存储介质
CN113033500A (zh) * 2021-05-06 2021-06-25 成都考拉悠然科技有限公司 动作片段检测方法、模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170344808A1 (en) * 2016-05-28 2017-11-30 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109948446A (zh) * 2019-02-20 2019-06-28 北京奇艺世纪科技有限公司 一种视频片段处理方法、装置及计算机可读存储介质
CN110110648A (zh) * 2019-04-30 2019-08-09 北京航空航天大学 基于视觉感知与人工智能的动作提名方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170344808A1 (en) * 2016-05-28 2017-11-30 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109948446A (zh) * 2019-02-20 2019-06-28 北京奇艺世纪科技有限公司 一种视频片段处理方法、装置及计算机可读存储介质
CN110110648A (zh) * 2019-04-30 2019-08-09 北京航空航天大学 基于视觉感知与人工智能的动作提名方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222476A (zh) * 2020-01-10 2020-06-02 北京百度网讯科技有限公司 视频时序动作的检测方法、装置、电子设备及存储介质
US11600069B2 (en) 2020-01-10 2023-03-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for detecting temporal action of video, electronic device and storage medium
CN112801070A (zh) * 2021-04-14 2021-05-14 浙江啄云智能科技有限公司 一种目标检测方法、装置、设备及存储介质
CN112801070B (zh) * 2021-04-14 2021-09-21 浙江啄云智能科技有限公司 一种目标检测方法、装置、设备及存储介质
CN113033500A (zh) * 2021-05-06 2021-06-25 成都考拉悠然科技有限公司 动作片段检测方法、模型训练方法及装置

Also Published As

Publication number Publication date
CN110659572B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN110298343A (zh) 一种手写黑板板书识别方法
US11640714B2 (en) Video panoptic segmentation
CN110659572B (zh) 基于双向特征金字塔的视频动作检测方法
CN108549895A (zh) 一种基于对抗网络的半监督语义分割方法
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN116188879B (zh) 图像分类、图像分类模型训练方法、装置、设备及介质
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN118334604B (zh) 基于多模态大模型的事故检测、数据集构建方法及设备
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN115861981A (zh) 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统
CN116468935A (zh) 一种基于多核卷积网络的交通标志阶梯式分类识别方法
CN117333669A (zh) 基于有用信息引导的遥感影像语义分割方法、系统及设备
CN117437426B (zh) 一种高密度代表性原型指引的半监督语义分割方法
CN117274355A (zh) 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法
CN117115474A (zh) 一种基于多阶段特征提取的端到端单目标跟踪方法
Lee et al. Enhancement for automatic extraction of RoIs for bone age assessment based on deep neural networks
CN111612803A (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN116597503A (zh) 一种基于时空特征的课堂行为检测方法
CN116091862A (zh) 一种画质识别方法、装置、设备、存储介质及产品
CN113569835A (zh) 一种基于目标检测和分割识别的水表数值读取方法
CN113505729A (zh) 基于人体面部运动单元的面试作弊检测方法及系统
CN117152564B (zh) 目标检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant