CN109993772A - 基于时空采样的实例级别特征聚合方法 - Google Patents
基于时空采样的实例级别特征聚合方法 Download PDFInfo
- Publication number
- CN109993772A CN109993772A CN201910230234.8A CN201910230234A CN109993772A CN 109993772 A CN109993772 A CN 109993772A CN 201910230234 A CN201910230234 A CN 201910230234A CN 109993772 A CN109993772 A CN 109993772A
- Authority
- CN
- China
- Prior art keywords
- frame
- sampling
- candidate
- level
- motion displacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002776 aggregation Effects 0.000 title claims abstract description 34
- 238000004220 aggregation Methods 0.000 title claims abstract description 34
- 230000002123 temporal effect Effects 0.000 title abstract 4
- 238000006073 displacement reaction Methods 0.000 claims abstract description 73
- 230000003287 optical effect Effects 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 15
- 238000004364 calculation method Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 102100031706 Fibroblast growth factor 1 Human genes 0.000 description 4
- 101000846416 Homo sapiens Fibroblast growth factor 1 Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000283153 Cetacea Species 0.000 description 1
- 241000699800 Cricetinae Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 241000555745 Sciuridae Species 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- 241000282458 Ursus sp. Species 0.000 description 1
- 241000282485 Vulpes vulpes Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于时空采样的实例级别特征聚合方法,涉及计算机视觉技术领域。基于时空采样的实例级别特征聚合方法,首先基于光流进行实例运动位移预测,得到相邻帧的候选框位置;并基于运动位移进行实例级别的特征采样,得到候选框在当前帧及其前后相邻两帧的采样特征;然后基于光流质量和外观质量进行实例级权重计算,提取候选框k对应的位置敏感的实例级权重;最后将当前帧i与其相邻帧i‑t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合,得到聚合后的实例级别的特征。本发明提供的基于时空采样的实例级别特征聚合方法,能有效的利用相邻帧之间的运动信息,进而提升运动模糊、变形等复杂场景下的视频目标检测的精度。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于时空采样的实例级别特征聚合方法。
背景技术
近些年,视频目标检测逐渐成为计算视觉领域和智能视频监控领域的研究热点。但是在遮挡、模糊等复杂场景下,提高视频目标检测精度方面还略显不足。目前国内外视频目标检测方法主要可以划分为两类,一类为框水平的方法,另一类为特征水平的方法。这两类方法由于专注点并不冲突,可以结合使用,最大化的提升检测性能。MANet提出帧级别特征聚合适用于对非刚体运动建模,但是对遮挡的对象效果较差,后进一步提出了实例级别的特征矫正,通过聚合实例级别的特征,提高模型对遮挡场景的检测性能。STSN提出了基于时空采样的方式实现了帧级别的特征聚合,直接学习帧级别的位移,通过可变形卷积操作对帧级别特征进行空间变换以此提高检测效果。但是存在以下两个问题:一是跟踪算法预测的运动位移与实际位移存在较大的偏差;二是训练跟踪算法需要通过跟踪id来计算跟踪目标和跟踪损失,并且需要遮挡标签来预测遮挡概率,导致目标检测网络不能够自适应学习实例在帧间的运动位移。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于时空采样的实例级别特征聚合方法,实现对视频进行实例级别特征聚合。
为解决上述技术问题,本发明所采取的技术方案是:基于时空采样的实例级别特征聚合方法,包括以下步骤:
步骤1、基于光流进行实例运动位移预测,得到相邻帧的候选框位置,具体方法为:
步骤1.1、通过光流网络提取视频图像第i帧与第i-t帧之间的光流特征Mi-t→i及第i帧与第i+t帧之间的光流特征Mi+t→i;
步骤1.2、将通过光流网络提取的视频图像的第i帧和第i-t帧之间的光流特征Mi-t→i以及第i帧与第i+t帧之间的光流特征Mi+t→i输入到运动位移预测网络,得到候选框坐标位置在相邻帧的运动位移,如下公式所示:
其中,表示运动位移预测网络,用于预测与候选框每个位置对应的运动位移,和分别表示候选框坐标位置在第i-t帧和第i+t帧的标准化的运动位移;
所述运动位移预测网络包括若干可变形卷积模块,每个可变形卷积模块包括一个补偿学习层和一个PS RoIPooling层(Position-sensitive RoIPooling,即位置敏感的RoIPooling);
步骤1.3、通过运动位移网络的PS RoIPooling层将候选框特征提取到固定大小,并回归每个局部位置的标准化的坐标位移得到预测候选框k在第i-t帧和第i+t帧的实例级别的运动位移和如下公式所示:
其中,γ为预定义的放缩因子,负责调整位移的量级,默认为0.1,ο表示元素级乘法,w,h分别为候选框的宽度和高度;
步骤1.4、通过RPN网络(region proposal networks,即候选区域网络)得到当前帧i中物体的候选框k的位置然后通过候选框k在第i-t帧和第i+t帧的实例级别的运动位移和用来对候选框k的位置进行调整,获得候选框k在第i-t帧和第i+t帧的预测位置和其中,
步骤2、基于运动位移进行实例级别的特征采样,得到候选框在当前帧及其前后相邻两帧的采样特征,具体方法为:
使用R-FCN(Region-based Fully Convolutional Networks,即基于区域的全卷积网络)的位置敏感的候选区域池化层PS RoIPooling去采样候选框特征;
对于给定的候选框k,相邻帧i-t及候选框左上角的位置p0,PS RoIPooling划分候选框为k′×k′个小块,则相邻帧i-t的基于运动位移的采样特征为:
其中,为第i-t帧图像的采样特征,p0为候选框左上角位置,p为采样点位置,Δpmn表示运动位移中(m,n)位置的偏移值,fi-t为特征网络提取的第i-t帧的特征,Nmn为第(m,n)个小块中像素值的数量,bin(m,n)表示第(m,n)个小块的范围为 1≤m,n<k′,px和py为采样点位置p的x,y坐标值;
对于输出特征图中的每个小块(m,n)中的特征值,通过式(3)得到,使用双线性插值实现特征采样;
则第i+t帧的基于运动位移的采样特征为:
其中,为第i+t帧的采样特征,fi+t为特征网络提取的第i+t帧的特征;
当前帧i中候选框k特征的采样通过直接的可变形PS RoIPooling得到,首先计算当前帧候选框的几何变换位移,如下公式所示:
其中,表示当前帧i中候选框k的运动位移,conv表示卷积层,表示当前帧聚合后的帧级别特征;
然后计算当前帧i的采样特征如下公式所示:
步骤3、基于光流质量和外观质量进行实例级权重计算,提取候选框k对应的位置敏感的实例级权重,具体方法为:
计算当前帧与相邻帧中候选框k的实例级别特征 中每个采样点位置p的余弦相似性权重如下公式所示:
给定帧级别权重图和采样点位置p+Δp,则候选框k的采样权重如下公式所示:
通过公式(9),获得了对实例外观质量的评估权重,将其作为放缩因子,与余弦相似性权重结合,获得最后的位置敏感的聚合权重如下公式所示:
沿着候选框在多帧之间的运动轨迹归一化采样点位置p的权重,使得归一化操作通过SoftMax函数完成;
步骤4、将当前帧i与其相邻帧i-t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合,得到聚合后的实例级别的特征如下公式所示:
其中,为候选框k对应的位置敏感的实例级权重。
采用上述技术方案所产生的有益效果在于:本发明提供的基于时空采样的实例级别特征聚合方法,能够从光流中直接预测实例级别的运动位移,通过运动位移计算采样坐标位置来采样实例级特征并聚合;由于通过光流网络提取的光流已经预训练过,因此不需要额外的监督标签训练光流,这样基于时空采样的实例级别特征聚合方法能有效的利用相邻帧之间的运动信息,进而提升运动模糊、变形等复杂场景下的视频目标检测的精度。
附图说明
图1为本发明实施例提供的基于时空采样的实例级别特征聚合方法的流程图;
图2为本发明实施例提供的基于时空采样的实例级别特征聚合过程示意图;
图3为本发明提供的实例级别特征和权重提取过程的示意图;
图4为本发明提供的R-FCN结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
基于时空采样的实例级别特征聚合方法,如图1-3所示,包括以下步骤:
步骤1、基于光流进行实例运动位移预测,得到相邻帧的候选框位置,具体方法为:
步骤1.1、通过光流网络提取视频图像第i帧与第i-t帧之间的光流特征Mi-t→i及第i帧与第i+t帧之间的光流特征Mi+t→i;
步骤1.2、将通过光流网络提取的视频图像的第i帧和第i-t帧之间的光流特征Mi-t→i以及第i帧与第i+t帧之间的光流特征Mi+t→i输入到运动位移预测网络,得到候选框坐标位置在相邻帧的运动位移,如下公式所示:
其中,表示运动位移预测网络,用于预测与候选框每个位置对应的运动位移,和分别表示候选框坐标位置在第i-t帧和第i+t帧的标准化的运动位移;
所述运动位移预测网络包括若干可变形卷积模块,每个可变形卷积模块包括一个补偿学习层和一个PS RoIPooling层(即Position-sensitive RoIPooling);
步骤1.3、通过运动位移网络的PS RoIPooling层(即Position-sensitiveRoIPooling)将候选框特征提取到固定大小,并回归每个局部位置的标准化的坐标位移得到预测候选框k在第i-t帧和第i+t帧的实例级别的运动位移和如下公式所示:
其中,γ为预定义的放缩因子,负责调整位移的量级,默认为0.1,表示元素级乘法,w,h分别为候选框的宽度和高度;
步骤1.4、通过RPN网络(region proposal networks,即候选区域网络)得到当前帧i中物体的候选框k的位置然后通过候选框k在第i-t帧和第i+t帧的实例级别的运动位移和用来对候选框k的位置进行调整,获得候选框k在第i-t帧和第i+t帧的预测位置和其中,
本实例的运动位移预测网络的主要作用有两个:拟合物体内部的几何变换和物体在帧间的运动趋势。为了使网络具有拟合内部几何变换的作用,本实例采用的方法是在运动位移预测网络的底部通过堆叠3个可变形卷积模块学习内部的几何变换,其中可变形卷积模块由补偿学习层和PS RoIPooling组成。本实例中使用的3个可变形卷积模块内的每层的参数设置如表1所示。
表1可变形卷积模块的参数设置
layer | kernel | pad | stride | num_filter | dilate | no_bias |
def_convl_offset | 3 | 2 | 1 | 72 | 2 | False |
def_convl | 3 | 2 | 1 | 1024 | 2 | True |
def_conv2_offset | 3 | 2 | 1 | 72 | 2 | False |
def_conv2 | 3 | 2 | 1 | 1024 | 2 | True |
def_conv3_offset | 3 | 2 | 1 | 72 | 2 | False |
def_conv3 | 3 | 2 | 1 | 1024 | 2 | True |
为了使运动位移预测网络具有拟合物体在帧间运动趋势的作用,本实施例在可变形卷积模块的输出特征图上通过一个1×1卷积层生成运动补偿域,然后应用PSRoIPooling提取实例级的运动补偿(位移),生成的运动位移作为时空采样的坐标补偿。
步骤2、基于运动位移进行实例级别的特征采样,得到候选框在当前帧及其前后相邻两帧的采样特征,具体方法为:
使用R-FCN(Region-based Fully Convolutional Networks,即基于区域的全卷积网络)的位置敏感的候选区域池化层PS RoIPooling去采样候选框特征,如图4所示,R-FCN将输出特征图首先通过一个k2(C+1)维的卷积层映射到一个对位置敏感的高维水平,称为位置敏感的分数图(position-sensitive score maps),位置敏感通过一个特殊的PSRoIPooling实现。PS RoIPooling将输出特征图划分为k*k个小方块,分别对应目标的k*k个不同的位置,如输出特征图的左上小块对应分数图的前C+1个通道,因此该部分的特征值由位置敏感的分数图中对应的前C+1个通道进行RoIPooling操作得到。同样,其他位置的值也由对应的C+1个通道的分数图下采样得到,此时输出的特征图中编码了该候选区域在k*k个位置上分别对应C+1个类别的分数,该候选区域的整体分类分数通过投票的方式得到,即每个类别的分数由该类在所有位置上的得分共同投票来确定;本实施例通过全局平均池化来实现这一投票方式。
对于给定的候选框k,相邻帧i-t及候选框左上角的位置p0,PS RoIPooling划分候选框为k′×k′个小块,则相邻帧i-t的基于运动位移的采样特征为:
其中,为第i-t帧图像的采样特征,p0为候选框左上角位置,p为采样点位置,Δpmn表示运动位移中(m,n)位置的偏移值,fi-t为特征网络提取的第i-t帧的特征,Nmn为第(m,n)个小块中像素值的数量,bin(m,n)表示第(m,n)个小块的范围为 1≤m,n<k′,px和py为采样点位置p的x,y坐标值;
对于输出特征图中的每个小块(m,n)中的特征值,通过式(3)得到,使用双线性插值实现特征采样;
则第i+t帧的基于运动位移的采样特征为:
其中,为第i+t帧的采样特征,fi+t为特征网络提取的第i+t帧的特征;
当前帧i中候选框k特征的采样通过直接的可变形PS RoIPooling得到,首先计算当前帧候选框的几何变换位移,如下公式所示:
其中,表示当前帧i中候选框k的运动位移,conv表示卷积层,表示当前帧聚合后的帧级别特征;
然后计算当前帧i的采样特征,如下公式所示:
步骤3、基于光流质量和外观质量进行实例级权重计算,提取候选框k对应的位置敏感的实例级权重,具体方法为:
计算当前帧与相邻帧中候选框k的实例级别特征 中每个采样点位置p的余弦相似性权重,如下公式所示:
给定帧级别权重图和采样点位置p+Δp,则候选框k的采样权重如下公式所示:
通过公式(9),获得了对实例外观质量的评估权重,将其作为放缩因子,与余弦相似性权重结合,获得最后的位置敏感的聚合权重,如下公式所示:
沿着候选框在多帧之间的运动轨迹归一化采样点位置p的权重,使得归一化操作通过SoftMax函数完成。
步骤4、将当前帧i与其相邻帧i-t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合,得到聚合后的实例级别的特征,如下公式所示:
其中,为候选框k对应的位置敏感的实例级权重。
本实施例还提供了将本发明的实例级别的特征聚合方法INS-AGG与单帧检测基线R-FCN和FGFA聚合方法进行对比;为了保证对比的公平性,本实施例使用R-FCN作为基础检测器,特征网络为ResNet-101,光流网络为FlowNet(Simple版本),实验结果如表2所示。
表2不同方法在ImageNet VID验证集所有类别上的精度对比
由表2可以看出,本发明的实例级别特征聚合方法大幅度提升了单帧检测基线R-FCN的性能(68.5→72.6↑4.1),说明实例级别的特征聚合能很好的利用多帧之间的实例级别信息。同样说明了本发明的运动位移预测算法能够很好地预测像素级别的运动位移,使得特征采样算法能准确的采样对应位置的特征。通过与FGFA聚合方法进行对比,可以发现本发明的实例级聚合方法比FGFA的帧级别聚合方法检测精度稍微高一些,说明了实例级聚合方法的必要性。而通过每类的识别精度可以看出,实例级特征聚合方法和帧级别特征聚合方法在很多类上各有优势,例如实例级特征聚合方法INS-AGG在熊,狗,马,狮子,猴子,摩托车,松鼠,龟这8个类别上的检测精度上大幅领先,而FGFA在飞机,自行车,狐狸,仓鼠,兔子,蛇,鲸鱼,斑马这8个类别上的检测精度上大幅领先,这说明两种方法可以互补,即帧级别方法和实例级别的方法结合起来一起使用理论上能进一步提升检测精度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (4)
1.一种基于时空采样的实例级别特征聚合方法,其特征在于:包括以下步骤:
步骤1、基于光流进行实例运动位移预测,得到相邻帧的候选框位置,具体方法为:
步骤1.1、通过光流网络提取视频图像第i帧与第i-t帧之间的光流特征Mi-t→i及第i帧与第i+t帧之间的光流特征Mi+t→i;
步骤1.2、将通过光流网络提取的视频图像的第i帧和第i-t帧之间的光流特征Mi-t→i以及第i帧与第i+t帧之间的光流特征Mi+t→i输入到运动位移预测网络,得到候选框坐标位置在相邻帧的运动位移,如下公式所示:
其中,表示运动位移预测网络,用于预测与候选框每个位置对应的运动位移,和分别表示候选框坐标位置在第i-t帧和第i+t帧的标准化的运动位移;
所述运动位移预测网络包括若干可变形卷积模块,每个可变形卷积模块包括一个补偿学习层和一个PS RoIPooling层;
步骤1.3、通过运动位移网络的PS RoIPooling层将候选框特征提取到固定大小,并回归每个局部位置的标准化的坐标位移得到预测候选框k在第i-t帧和第i+t帧的实例级别的运动位移和如下公式所示:
其中,γ为预定义的放缩因子,负责调整位移的量级,默认为0.1,表示元素级乘法,w,h分别为候选框的宽度和高度;
步骤1.4、通过RPN网络得到当前帧i中物体的候选框k的位置然后通过候选框k在第i-t帧和第i+t帧的实例级别的运动位移和用来对候选框k的位置进行调整,获得候选框k在第i-t帧和第i+t帧的预测位置和其中,
步骤2、基于运动位移进行实例级别的特征采样,得到候选框在当前帧及其前后相邻两帧的采样特征;
步骤3、基于光流质量和外观质量进行实例级权重计算,提取候选框k对应的位置敏感的实例级权重;
步骤4、将当前帧i与其相邻帧i-t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合,得到聚合后的实例级别的特征。
2.根据权利要求1所述的基于时空采样的实例级别特征聚合方法,其特征在于:所述步骤2的具体方法为:
使用R-FCN的位置敏感的候选区域池化层PS RoIPooling去采样候选框特征;
对于给定的候选框k,相邻帧i-t及候选框左上角的位置p0,PS RoIPooling划分候选框为k′×k′个小块,则相邻帧i-t的基于运动位移的采样特征为:
其中,为第i-t帧图像的采样特征,p0为候选框左上角位置,p为采样点位置,Δpmn表示运动位移中(m,n)位置的偏移值,fi-t为特征网络提取的第i-t帧的特征,Nmn为第(m,n)个小块中像素值的数量,bin(m,n)表示第(m,n)个小块的范围为 1≤m,n<k′,px和py为采样点位置p的x,y坐标值;
对于输出特征图中的每个小块(m,n)中的特征值,通过式(3)得到,使用双线性插值实现特征采样;
则第i+t帧的基于运动位移的采样特征为:
其中,为第i+t帧的采样特征,fi+t为特征网络提取的第i+t帧的特征;
当前帧i中候选框k特征的采样通过直接的可变形PS RoIPooling得到,首先计算当前帧候选框的几何变换位移,如下公式所示:
其中,表示当前帧i中候选框k的运动位移,conv表示卷积层,表示当前帧聚合后的帧级别特征;
然后计算当前帧i的采样特征如下公式所示:
3.根据权利要求2所述的基于时空采样的实例级别特征聚合方法,其特征在于:所述步骤3的具体方法为:
计算当前帧与相邻帧中候选框k的实例级别特征中每个采样点位置p的余弦相似性权重如下公式所示:
给定帧级别权重图和采样点位置p+Δp,则候选框k的采样权重如下公式所示:
通过公式(9),获得了对实例外观质量的评估权重,将其作为放缩因子,与余弦相似性权重结合,获得最后的位置敏感的聚合权重如下公式所示:
沿着候选框在多帧之间的运动轨迹归一化采样点位置p的权重,使得归一化操作通过SoftMax函数完成。
4.根据权利要求3所述的基于时空采样的实例级别特征聚合方法,其特征在于:步骤3所述得到的聚合后的实例级别的特征如下公式所示:
其中,为候选框k对应的位置敏感的实例级权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910230234.8A CN109993772B (zh) | 2019-03-26 | 2019-03-26 | 基于时空采样的实例级别特征聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910230234.8A CN109993772B (zh) | 2019-03-26 | 2019-03-26 | 基于时空采样的实例级别特征聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109993772A true CN109993772A (zh) | 2019-07-09 |
CN109993772B CN109993772B (zh) | 2022-12-20 |
Family
ID=67131523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910230234.8A Active CN109993772B (zh) | 2019-03-26 | 2019-03-26 | 基于时空采样的实例级别特征聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993772B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307872A (zh) * | 2020-06-12 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 用于检测目标对象的方法的和装置 |
CN112966581A (zh) * | 2021-02-25 | 2021-06-15 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN113642498A (zh) * | 2021-08-20 | 2021-11-12 | 浙江大学 | 一种基于多层次时空特征融合的视频目标检测系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304808A (zh) * | 2018-02-06 | 2018-07-20 | 广东顺德西安交通大学研究院 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
CN109360226A (zh) * | 2018-10-17 | 2019-02-19 | 武汉大学 | 一种基于时间序列多特征融合的多目标跟踪方法 |
US20190065885A1 (en) * | 2017-08-29 | 2019-02-28 | Beijing Samsung Telecom R&D Center | Object detection method and system |
-
2019
- 2019-03-26 CN CN201910230234.8A patent/CN109993772B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190065885A1 (en) * | 2017-08-29 | 2019-02-28 | Beijing Samsung Telecom R&D Center | Object detection method and system |
CN108304808A (zh) * | 2018-02-06 | 2018-07-20 | 广东顺德西安交通大学研究院 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
CN109360226A (zh) * | 2018-10-17 | 2019-02-19 | 武汉大学 | 一种基于时间序列多特征融合的多目标跟踪方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307872A (zh) * | 2020-06-12 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 用于检测目标对象的方法的和装置 |
CN112307872B (zh) * | 2020-06-12 | 2024-09-24 | 北京京东尚科信息技术有限公司 | 用于检测目标对象的方法的和装置 |
CN112966581A (zh) * | 2021-02-25 | 2021-06-15 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN112966581B (zh) * | 2021-02-25 | 2022-05-27 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN113642498A (zh) * | 2021-08-20 | 2021-11-12 | 浙江大学 | 一种基于多层次时空特征融合的视频目标检测系统及方法 |
CN113642498B (zh) * | 2021-08-20 | 2024-05-03 | 浙江大学 | 一种基于多层次时空特征融合的视频目标检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109993772B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN112215128B (zh) | 融合fcos的r-cnn城市道路环境识别方法及装置 | |
CN111695448B (zh) | 一种基于视觉传感器的路侧车辆识别方法 | |
CN109993772B (zh) | 基于时空采样的实例级别特征聚合方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN113486764B (zh) | 一种基于改进的YOLOv3的坑洼检测方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN107944354B (zh) | 一种基于深度学习的车辆检测方法 | |
CN112364931A (zh) | 基于元特征和权重调整的少样本目标检测方法及网络模型 | |
CN111126459A (zh) | 一种车辆细粒度识别的方法及装置 | |
Zheng et al. | Improvement of grayscale image 2D maximum entropy threshold segmentation method | |
CN107886507A (zh) | 一种基于图像背景和空间位置的显著区域检测方法 | |
CN117949942B (zh) | 基于雷达数据和视频数据融合的目标跟踪方法及系统 | |
CN113111722A (zh) | 基于改进Mask R-CNN的自动驾驶目标识别方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN115035164A (zh) | 一种运动目标识别方法及装置 | |
CN114241194A (zh) | 一种基于轻量级网络的仪表识别及读数方法 | |
CN111832641B (zh) | 一种基于级联下采样卷积神经网络的图像识别方法 | |
CN112288765A (zh) | 一种用于车载红外行人检测跟踪的图像处理方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN112070075B (zh) | 一种基于协同回归的人体检测方法 | |
CN115063890A (zh) | 基于两级加权均方损失函数的人体姿态估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |