CN111144376A - 视频目标检测特征提取方法 - Google Patents
视频目标检测特征提取方法 Download PDFInfo
- Publication number
- CN111144376A CN111144376A CN201911421577.9A CN201911421577A CN111144376A CN 111144376 A CN111144376 A CN 111144376A CN 201911421577 A CN201911421577 A CN 201911421577A CN 111144376 A CN111144376 A CN 111144376A
- Authority
- CN
- China
- Prior art keywords
- frame
- features
- rois
- current frame
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000008447 perception Effects 0.000 claims abstract description 38
- 230000004931 aggregating effect Effects 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 13
- 230000003287 optical effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 description 8
- 238000004220 aggregation Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了视频目标检测特征提取方法。所述方法包括:使用主干网络逐帧提取当前视频序列主干特征;构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征,通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征;逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征,聚合当前帧尺度感知特征和映射特征获得当前帧特征,使用区域生成网络生成当前帧RoIs;分别构建位置敏感和上下文敏感的RoIs特征提取网络分支分别提取当前帧RoIs特征,点乘融合两分支RoIs特征获得优化的当前帧RoIs。本发明通过解决视频目标的多尺度和形变异常问题,提高视频目标检测精度。
Description
技术领域
本发明涉及视频目标检测领域,更具体地,涉及视频目标检测特征提取方法。
背景技术
近年来,视频目标检测由于在实际应用中展现出巨大的潜能受到广泛地关注,如智能视频监控和自动驾驶。从现有工作来看,深度卷积神经网络已经成功运用在基于静态图像的目标检测,并取得了令人瞩目的成绩。然而,对于视频图像,由于存在目标多尺度以及由运动模糊,视频失焦、罕见姿势导致形变异常问题,直接使用基于单帧图像的检测器难以发挥出优秀的性能。下文进一步阐述这两个问题。
ImageNet VID数据集是大型的通用视频目标检测数据集,其存在严峻的目标多尺度问题。通过统计ImageNet VID数据集的目标相对尺度的累积分布,发现:在ImageNet VID训练集中,后10%目标(大目标)的相对尺度是前10%目标(小目标)的8.95倍,且验证集的目标相对尺度变化比训练集更大。由此可见,ImageNet VID数据集的目标相对尺度变化很大且场景多样性更复杂。然而使用主干网络提取的特征图具有固定感受野,难以适用具有多种目标尺度的场景,这将制约视频目标检测器的性能。
针对视频目标检测场景下目标的形变异常问题,现有的视频目标检测器大多利用多帧特征融合或聚合策略,未考虑更鲁棒的RoIs特征。在视频目标检测任务中,由于时序的连续性,物体在邻近几帧内的外观存在相似性,因此大多数方法融合邻近几帧的特征,以改善当前帧的特征质量。实验证明这种方式能有效改善特征响应并降低漏检。但这些工作往往忽略物体背景的特性,即物体背景在邻近几帧内同样保持一致,特别是在室外环境中,背景区域变化较小。因此,本发明引入上下文语义信息,并结合位置信息,提取鲁棒的RoIs特征,便于分辨目标类别并改善目标定位。
本发明针对上述两个问题,提出面向视频目标检测的特征提取方法,具体过程为:输入当前视频序列,使用主干网络逐帧提取当前视频序列的主干特征;设计多分支膨胀卷积层逐帧提取当前视频序列目标的多个尺度特征,通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征;逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征,聚合当前帧尺度感知特征和映射特征获得当前帧特征,使用区域生成网络生成当前帧RoIs;设计位置敏感和上下文敏感的RoIs特征提取网络分支分别提取当前帧RoIs特征,点乘融合两分支RoIs特征获得优化的当前帧RoIs;将其作为任务特征;使用任务特征执行目标分类和检测任务,产生当前帧的检测结果。整个过程可以端到端训练。本发明涉及到以下现有技术:
现有技术1(K.He,X.Zhang,S.Ren,J.Sun,Deep Residual Learning for ImageRecognition,in:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR),2016,pp.770–778.)提出残差学习的思想应对深层网络的梯度消失问题,并扩展网络层数至101层,甚至152层。该技术能够得到高质量的主干特征,并且已经在目标分类、目标检测、语义分割等任务中得到了广泛的运用。
现有技术2(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,A.L.Yuille,DeepLab:Semantic Image Segmentation with Deep Convolutional Nets,AtrousConvolution,and Fully Connected CRFs.,IEEE Transactions on Pattern Analysisand Machine Intelligence,40(4),2016,pp.834–848.)设计一个小型的膨胀卷积网络,以较为轻量的方式有效地扩大卷积核的感受野。
现有技术3(J.Dai,Y.Li,K.He,J.Sun,R-FCN:Object Detection via Region-based Fully Convolutional Networks,Proceedings of the Advances in NeuralInformation Processing Systems Conference(NIPS),2016,pp.379–387.)提出基于目标检测的区域全连接网络,对区域生成网络得到的感兴趣区域提取位置敏感RoIs特征,在精度和速度上都有不俗的表现。
现有技术4(X.Zhu,Y.Wang,J.Dai,L.Yuan,Y.Wei,Flow-Guided FeatureAggregation for Video Object Detection,in:Proceedings of the IEEEInternational Conference on Computer Vision(ICCV),2017,pp.408–417.)针对视频目标检测任务,提出基于光流的特征聚合方法,即通过光流密集地传播邻近帧特征到当前帧,并使用一个轻量的自适应权重网络j聚合多帧特征,以加强当前帧的特征表示。
本发明使用现有技术1提取主干特征;基于现有技术2,提出一个具有多分支膨胀卷积层和缓冲卷积层的尺度感知特征提取方法;在现有技术3的基础上,引入上下文敏感RoIs特征提取网络分支;简化现有技术4聚合多帧特征。
发明内容
本发明提供视频目标检测特征提取方法,旨在解决由于目标多尺度和形变异常限制检测器性能的问题。
本发明的目的至少通过如下技术方案之一实现。
视频目标检测特征提取方法,包括以下步骤:
步骤一、输入当前视频序列,使用主干网络逐帧提取当前视频序列主干特征;
步骤二、提取尺度感知特征:构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征,通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征;
步骤三、提取当前帧RoIs:逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征,聚合当前帧尺度感知特征和映射特征获得当前帧特征,使用区域生成网络生成当前帧RoIs;
步骤四、优化当前帧RoIs:分别构建位置敏感和上下文敏感的RoIs特征提取网络分支提取当前帧RoIs特征,点乘融合两分支RoIs特征获得优化的当前帧RoIs;
步骤五、根据优化的当前帧RoIs执行目标分类和检测。
进一步地,步骤一中,按时间轴逐帧输入的视频帧作为当前帧,视频序列的结构定义为前邻近帧+当前帧+后邻近帧;当前帧始终居中,前邻近帧的时间轴刻度较当前帧小,后邻近帧的时间轴刻度较当前帧大,相对于当前帧和预先确定的视频序列长度确定邻近帧帧数,视频序列长度定义为2t+1,则t为前邻近帧或后邻近帧数目,t=0,1,2,...,10;在训练阶段,前邻近帧和后邻近帧分别在当前帧的前后10帧中随机选择t帧;在测试阶段,前邻近帧和后邻近帧分别在当前帧的前后t帧中连续选择;若当前视频序列出现前邻近帧或后邻近帧缺失,则以当前帧填充方式补足。
进一步地,步骤一中,所述使用主干网络逐帧提取当前视频序列主干特征,具体如下:
其中,和分别表示主干网络提取的序号为i,i-τ和i+τ帧的主干特征;Nfeat(·)表示用作主干网络的ResNet-101网络;Ii,Ii-τ和Ii+τ表示序号为i,i-τ和i+τ的输入帧;i表示当前帧序号,i=1,2,...,l,l为视频序列的总帧数;i-τ,i+τ表示前邻近帧和后邻近帧的序号,τ∈[0,t];当t=0时,τ=0,即
进一步地,步骤二中,构建的多分支膨胀卷积层包括n个输出分支,n=1,2,...5,一个输出分支对应当前视频序列主干特征的一个尺度特征,多个尺度特征提取算法如下:
进一步地,多分支膨胀卷积层的构建具体如下:
1个分支由1个膨胀卷积层实现,获取n个分支膨胀卷积层的采样率即膨胀系数,分别为r1,r2,...,rn;按采样率升序排列n个分支膨胀卷积层;以最小采样率分支膨胀卷积层为起点,按步长1依次配对,使相邻膨胀卷积层对的采样率之差间具有固定增量,算法如下:
其中,S表示相邻膨胀卷积层对的采样率之差间的固定增量,S=1,2,…,5,其值由实验确定;rk-1∈[r1,rn-2],rk∈[r2,rn-1],rk+1∈[r3,rn];k表示1个膨胀卷积层分支,k∈[2,n-1];M(·)表示n个采样率间的最大公约数。
进一步地,步骤二中,所述通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征,具体如下:
所述特征为具有三个维度的特征表示,即(W,H,C),其中W表示宽,H表示高,C表示通道;对主干特征和多个尺度特征按通道维度逐帧合并,通过一个作为缓冲的卷积层,即缓冲卷积层,逐帧获得当前视频序列尺度感知特征,具体如下:
进一步地,步骤三包括以下步骤:
S3.1、使用光流网络逐帧计算邻近帧与当前帧之间的运动偏移,运动偏移指由帧之间的时间偏移导致的特征偏移,基于运动偏移旨在映射计算时对齐帧间特征,基于运动偏移逐帧分别映射前、后邻近帧的尺度感知特征至当前帧获得当前帧前邻近映射特征和当前帧后邻近映射特征,映射算法如式下:
其中,fi-τ→i表示当前帧前邻近映射特征,fi+τ→i表示当前帧后邻近映射特征;W(·)表示映射算法(warping function,X.Zhu,Y.Wang,J.Dai,L.Yuan,Y.Wei,Flow-GuidedFeature Aggregation for Video Object Detection,in:Proceedings of the IEEEInternational Conference on Computer Vision(ICCV),2017,pp.408-417.);F(·)表示光流网络,F(Ii-τ,Ii)表示序号为i-τ的帧与i帧间的运动偏移;F(Ii+τ,Ii)表示序号为i+τ的帧与i帧间的运动偏移;
S3.2、聚合当前帧尺度感知特征和映射特征,所述映射特征包括当前帧前邻近映射特征和当前帧后邻近映射特征,具体算法如下:
S3.3、使用区域生成网络算法生成当前帧RoIs,具体如下:
进一步地,步骤四中,分别构建位置敏感RoIs特征提取网络和上下文敏感RoIs特征提取网络;位置敏感的RoIs特征提取网络如下:
其中,表示当前帧位置敏感RoIs特征;Φpsroi(·)表示位置敏感RoI池化(position-sensitive RoI pooling,J.Dai,Y.Li,K.He,J.Sun,R-FCN:Object Detectionvia Region-based Fully Convolutional Networks.Proceedings of the Advances inNeural Information Processing Systems Conference(NIPS),2016,pp.379-387.);Npsroi(·)表示通道数为k×k×Cn的1个卷积层。
位置敏感的RoIs特征提取网络通过Φpsroi(·)对特定部位特征进行位置敏感RoI池化获得当前帧位置敏感RoIs特征,特征表示为(k,k,Cn),即W=k,H=k,C=Cn;所述位置敏感RoI池化默认使用最大池化;特定部位特征即使用通道数为k×k×Cn的1个卷积层Npsroi(·)从当前帧目标提取的k×k个特征,k∈[1,9];对于分类任务,Cn=Ccls+1,Cn表示目标类别数Ccls加1个背景类别;对于检测任务,Cn=4×2,表示一个候选框向量有4个维度,每个维度有目标和背景2种类别。
进一步地,所述上下文敏感RoIs特征提取网络算法如下:
上下文敏感RoIs特征提取网络通过Φcsroi(·)对上下文特征进行上下文敏感RoI池化获得当前帧上下文敏感RoIs特征,特征表述为(k,k,Cn),即W=k,H=k,C=Cn;所述上下文特征即使用Ncsroi(·)从当前帧目标提取的特征。所述上下文敏感RoI池化包括基于最大池化的RoI池化层和平均池化层:基于最大池化的RoI池化层针对上下文特征提取上下文RoIs粗特征,特征表述为((k×2m),(k×2m),Cn),即W=k×2m,H=k×2m,C=Cn,m∈[1,5];平均池化层用于细化上下文RoIs粗特征获得当前帧上下文敏感RoIs特征。
进一步地,步骤四中,所述两分支RoIs特征指位置敏感RoIs特征和上下文敏感RoIs特征,所述点乘融合方式如下:
本发明提供视频目标检测特征提取方法,主要解决视频目标多尺度和形变异常问题,与现有的视频目标检测技术相比,具有如下的优点和效果:
1)本发明使用多分支膨胀卷积层对主干特征进行多个尺度特征提取,与可变形卷积相比,只需要设置卷积核的膨胀系数即可,比较轻量,再通过缓冲卷积层与主干特征进行融合即可得到尺度感知特征;
2)本发明构建位置敏感和上下文敏感的RoIs特征提取网络分支分别提取当前帧RoIs特征,与只使用位置信息的R-FCN相比,两分支RoIs特征考虑了物体背景在邻近帧的一致性,点乘融合了位置和上下文语义信息,以助于目标分类和定位;
3)本发明在提取当前帧RoIs中,使用光流映射和简化的多帧特征聚合策略,在保证精度的情况下,极大地节约了本发明的计算开销。
附图说明
图1为本发明实施例中视频目标检测特征提取方法流程图;
图2为本发明实施例中提取尺度感知特征的网络结构图;
图3为本发明实施例中优化当前帧RoIs的网络结构图;
图4为本发明实施例中本发明和现有方法的结果对比图。
具体实施方式
提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解,但是这些被认为仅仅是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文描述的各种实施例进行各种改变和修改。另外,为了清楚和简明,可以省略对公知功能和结构的描述。
在下面的描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用使得能够清楚和一致地理解本公开。因此,本领域技术人员应该清楚,提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求及其等同物限定的本公开。
以下结合实施例,对本发明进行进一步详细说明。需指出的是,以下仅仅为举例,若有未特别详细说明的符号和过程,均是本领域技术人员可参照现有技术实现的。
实施例:
视频目标检测特征提取方法,如图1所示,包括以下步骤:
步骤一、输入当前视频序列,使用主干网络逐帧提取当前视频序列主干特征;
按时间轴逐帧输入的视频帧作为当前帧,视频序列的结构定义为前邻近帧+当前帧+后邻近帧;当前帧始终居中,前邻近帧的时间轴刻度较当前帧小,后邻近帧的时间轴刻度较当前帧大,相对于当前帧和预先确定的视频序列长度确定邻近帧帧数,视频序列长度定义为2t+1,则t为前邻近帧或后邻近帧数目,t=0,1,2,...,10;在训练阶段,前邻近帧和后邻近帧分别在当前帧的前后10帧中随机选择t帧;在测试阶段,前邻近帧和后邻近帧分别在当前帧的前后t帧中连续选择;若当前视频序列出现前邻近帧或后邻近帧缺失,则以当前帧填充方式补足。
所述使用主干网络逐帧提取当前视频序列主干特征,具体如下:
其中,和分别表示主干网络提取的序号为i,i-τ和i+τ帧的主干特征;Nfeat(·)表示用作主干网络的ResNet-101网络;Ii,Ii-τ和Ii+τ表示序号为i,i-τ和i+τ的输入帧;i表示当前帧序号,i=1,2,...,l,l为视频序列的总帧数;i-τ,i+τ表示前邻近帧和后邻近帧的序号,τ∈[0,t];当t=0时,τ=0,即
本实施例中,将每一帧图像的短边缩放至600像素,并在主干网络的顶层增加一个随机初始化的卷积层,其卷积核为3×3,将主干特征的通道数缩减为1024,最终提取的主干特征为3×3×1024的特征图。
步骤二、提取尺度感知特征:构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征,通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征,如图2所示(当前帧尺度感知特征提取示例);
构建的多分支膨胀卷积层包括n个输出分支,n=1,2,...5,一个输出分支对应当前视频序列主干特征的一个尺度特征,多个尺度特征提取算法如下:
多分支膨胀卷积层的构建具体如下:
1个分支由1个膨胀卷积层实现,获取n个分支膨胀卷积层的采样率即膨胀系数,分别为r1,r2,...,rn;按采样率升序排列n个分支膨胀卷积层;以最小采样率分支膨胀卷积层为起点,按步长1依次配对,使相邻膨胀卷积层对的采样率之差间具有固定增量,算法如下:
其中,S表示相邻膨胀卷积层对的采样率之差间的固定增量,S=1,2,...,5,其值由实验确定;rk-1∈[r1,rn-2],rk∈[r2,rn-1],rk+1∈[r3,rn];k表示1个膨胀卷积层分支,k∈[2,n-1];M(·)表示n个采样率间的最大公约数。
本实施例中,多分支膨胀卷积层具体参数为:卷积核为3×3,通道数为512,膨胀系数分别为1,3,6,10,15,最终获得5个尺度特征。
所述通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征,具体如下:
所述特征为具有三个维度的特征表示,即(W,H,C),其中W表示宽,H表示高,C表示通道;对主干特征和多个尺度特征按通道维度逐帧合并,通过一个作为缓冲的卷积层,即缓冲卷积层,逐帧获得当前视频序列尺度感知特征,具体如下:
本实施例中,首先逐帧合并主干特征和5个尺度特征,再使用一个1×1×1024的缓冲卷积层逐帧融合获得尺度感知特征
步骤三、提取当前帧RoIs:逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征,聚合当前帧尺度感知特征和映射特征获得当前帧特征,使用区域生成网络生成当前帧RoIs;包括以下步骤:
S3.1、使用光流网络逐帧计算邻近帧与当前帧之间的运动偏移,运动偏移指由帧之间的时间偏移导致的特征偏移,基于运动偏移旨在映射计算时对齐帧间特征,基于运动偏移逐帧分别映射前、后邻近帧的尺度感知特征至当前帧获得当前帧前邻近映射特征和当前帧后邻近映射特征,映射算法如式下:
其中,fi-τ→i表示当前帧前邻近映射特征,fi+τ→i表示当前帧后邻近映射特征;W(·)表示映射算法,本实施例中,映射算法为双线性插值;F(·)表示光流网络,本实施例中,光流网络为FlowNet的“Simple”版本,并将输入图像的短边缩短至300像素,以适主干网络和光流网络的步长不一致问题,F(Ii-τ,Ii)表示序号为i-τ的帧与i帧间的运动偏移;F(Ii+τ,Ii)表示序号为i+τ的帧与i帧间的运动偏移;
S3.2、本实施例中,采用平均权重聚合当前帧尺度感知特征和映射特征,所述映射特征包括当前帧前邻近映射特征和当前帧后邻近映射特征,具体算法如下:
其中,fi表示当前帧特征;当t=0时,fi+τ→i表示本实施例中,针对t取值,具体参数设置如下:在训练阶段,t=1,即使用3帧特征图,τ表示在视频间隔为10的视频序列中随机选取的某一帧图像;在测试阶段,t=9,即对于第i帧而言,选取连续的前9帧和后9帧。
S3.3、使用区域生成网络算法生成当前帧RoIs,具体如下:
步骤四、优化当前帧RoIs:分别构建位置敏感和上下文敏感的RoIs特征提取网络分支提取当前帧RoIs特征,点乘融合两分支RoIs特征获得优化的当前帧RoIs,如图3所示(以k=3,m=1为图示,本实施例中k=7,m=2)。
所述位置敏感的RoIs特征提取网络如下:
其中,表示当前帧位置敏感RoIs特征;Φpsroi(·)表示位置敏感RoI池化(position-sensitive RoI pooling,J.Dai,Y.Li,K.He,J.Sun,R-FCN:Object Detectionvia Region-based Fully Convolutional Networks.Proceedings of the Advances inNeural Information Processing Systems Conference(NIPS),2016,pp.379-387.);Npsroi(·)表示通道数为7×7×Cn的1个卷积层;
本实施例中,位置敏感的RoIs特征提取网络通过Φpsroi(·)对主干特征的后512维特征进行位置敏感RoIs池化获得当前帧位置敏感RoIs特征,本实施例中,当前帧位置敏感RoIs特征的表示为(7,7,Cn),即W=7,H=7,C=Cn;所述位置敏感RoI池化默认使用最大池化;特定部位特征即使用通道数为7×7×Cn的1个卷积层Npsroi(·)从当前帧提取的7×7个特征;本实施例中,对于分类任务,Cn=31;对于检测任务,Cn=8。
所述上下文敏感RoIs特征提取网络算法如下:
本实施例中,上下文敏感RoIs特征提取网络通过Φcsroi(·)对主干特征的后512维特征进行上下文敏感RoI池化获得当前帧上下文敏感RoIs特征,本实施例中,当前帧上下文敏感RoIs特征的表示为(7,7,Cn),即W=7,H=7,C=Cn。所述上下文特征即使用Ncsroi(·)从当前帧目标提取的特征。上下文敏感RoI池化包括基于最大池化的RoI池化层和平均池化层:基于最大池化的RoI池化层用于获得上下文RoIs粗特征,本实施例中,上下文RoIs粗特征的表示为(28,28,Cn);平均池化层用于细化上下文RoIs粗特征获得当前帧上下文敏感RoIs特征。
所述两分支RoIs特征指位置敏感RoIs特征和上下文敏感RoIs特征,所述点乘融合方式如下:
步骤五、根据优化的当前帧RoIs执行目标分类和检测。
本实施例在ImageNet VID数据集上进行训练和验证。本实施例中,使用4GPUs进行训练和测试。在训练阶段,每个mini batch中使用3张图像进行训练,且每个GPU只有1个mini batch,一共执行60000次迭代,其中前40000迭代是0.001,后20000迭代是0.0001。在推断阶段,使用19张图像来推断当前帧的检测结果,并且可以使用Seq-NMS对检测结果进行更精细的微调。本实施例采用视频目标检测的通用评价指标mAP(mean averageprecision)来评估检测性能。
表1是在单帧检测器R-FCN中加入提取当前帧RoIs、优化当前帧RoIs、提取尺度感知特征三种方案的消融实验结果对比。方法(a)表示R-FCN的检测精度。方法(b)表示在R-FCN中加入具有多帧特征聚合的提取当前帧RoIs方法能够提升1.9%mAP,这意味着使用前、后邻近帧特征能够有效改善当前帧特征,并且仅需要平均聚合即可得到较好的精测精度。方法(c)和方法(d)表示在方法(b)的基础上,分别加入优化RoIs和提取尺度感知特征的操作都能进一步提升mAP,提升的百分点为2.6和3.5。方法(e)表示本发明所提方法,在R-FCN的基础上加入了三种操作组成视频目标检测器,并获得了77.9%mAP。实验证明,本发明能够有效解决视频目标多尺度和形变异常问题,显著提高视频目标检测器的精度。
表1 ImageNet VID验证集在三种方案的消融实验结果对比
图4对比了本发明所提方法和现有方法在ImageNet VID验证集中各个类别AP及所有类别的mAP。相较于其他现有方法,本发明所提方法(Ours)在15个类别上都表现出最好的性能,并且在“sheep”类别中获得了15%mAP提升。本发明所提方法结合利用视频时序信息的Seq-NMS方法(Ours+Seq-NMS),检测精度从77.9%mAP提升到79.5%mAP,相较于R-FCN,足足提升了5.9%。这表明充分利用视频时序信息和应对视频目标存在的问题能够有效提升检测器的性能,而直接使用单帧检测器无法处理时序信息和目标多尺度及形变异常问题,难以满足视频场景的需要。
上述内容是结合具体的实施方式对本发明进行的详细说明,但并不能认定本发明的具体实施只限于此内容。对于本发明所属技术领域的普通技术人员而言,在不脱离本发明的原理和精神的前提下,还可以对这些实施进行若干调整、修改、替换和/或变型。本发明的保护范围由所附权利要求及其等同内容限定。
Claims (10)
1.视频目标检测特征提取方法,其特征在于,包括以下步骤:
步骤一、输入当前视频序列,使用主干网络逐帧提取当前视频序列主干特征;
步骤二、提取尺度感知特征:构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征,通过缓冲卷积层逐帧融合主干特征和多个尺度特征,逐帧获得当前视频序列尺度感知特征;
步骤三、提取当前帧RoIs:逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征,聚合当前帧尺度感知特征和映射特征获得当前帧特征,使用区域生成网络生成当前帧RoIs;
步骤四、优化当前帧RoIs:分别构建位置敏感和上下文敏感的RoIs特征提取网络分支提取当前帧RoIs特征,点乘融合两分支RoIs特征获得优化的当前帧RoIs;
步骤五、根据优化的当前帧RoIs执行目标分类和检测。
2.根据权利要求1所述的视频目标检测特征提取方法,其特征在于,步骤一中,按时间轴逐帧输入的视频帧作为当前帧,视频序列的结构定义为前邻近帧+当前帧+后邻近帧;当前帧始终居中,前邻近帧的时间轴刻度较当前帧小,后邻近帧的时间轴刻度较当前帧大,相对于当前帧和预先确定的视频序列长度确定邻近帧帧数,视频序列长度定义为2t+1,则t为前邻近帧或后邻近帧数目,t=0,1,2,...,10;在训练阶段,前邻近帧和后邻近帧分别在当前帧的前后10帧中随机选择t帧;在测试阶段,前邻近帧和后邻近帧分别在当前帧的前后t帧中连续选择;若当前视频序列出现前邻近帧或后邻近帧缺失,则以当前帧填充方式补足。
5.根据权利要求1所述的视频目标检测特征提取方法,其特征在于,多分支膨胀卷积层的构建具体如下:
1个分支由1个膨胀卷积层实现,获取n个分支膨胀卷积层的采样率即膨胀系数,分别为r1,r2,...,rn;按采样率升序排列n个分支膨胀卷积层;以最小采样率分支膨胀卷积层为起点,按步长1依次配对,使相邻膨胀卷积层对的采样率之差间具有固定增量,算法如下:
其中,S表示相邻膨胀卷积层对的采样率之差间的固定增量,S=1,2,...,5,其值由实验确定;rk-1∈[r1,rn-2],rk∈[r2,rn-1],rk+1∈[r3,rn];k表示1个膨胀卷积层分支,k∈[2,n-1];M(·)表示n个采样率间的最大公约数。
7.根据权利要求1所述的视频目标检测特征提取方法,其特征在于,步骤三包括以下步骤:
S3.1、使用光流网络逐帧计算邻近帧与当前帧之间的运动偏移,运动偏移指由帧之间的时间偏移导致的特征偏移,旨在映射计算时对齐帧间特征,基于运动偏移逐帧分别映射前、后邻近帧的尺度感知特征至当前帧获得当前帧前邻近映射特征和当前帧后邻近映射特征,映射算法如下:
其中,fi-τ→i表示当前帧前邻近映射特征,fi+τ→i表示当前帧后邻近映射特征;W(·)表示映射算法;F(·)表示光流网络,F(Ii-τ,Ii)表示序号为i-τ的帧与i帧间的运动偏移;F(Ii+τ,Ii)表示序号为i+τ的帧与i帧间的运动偏移;
S3.2、聚合当前帧尺度感知特征和映射特征,所述映射特征包括当前帧前邻近映射特征和当前帧后邻近映射特征,具体算法如下:
其中,fi表示当前帧特征;当t=0时,fi±τ→i表示fi scale;
S3.3、使用区域生成网络算法生成当前帧RoIs,具体如下:
fi rois=Nrpn(fi) (8)
其中,fi rois表示当前帧RoIs,Nrpn(·)表示区域生成网络。
8.根据权利要求1所述的视频目标检测特征提取方法,其特征在于,步骤四中,分别构建位置敏感RoIs特征提取网络和上下文敏感RoIs特征提取网络;位置敏感的RoIs特征提取网络如下:
fi psrois=Φpsroi(Npsroi(fi rois)) (9)
其中,fi psrois表示当前帧位置敏感RoIs特征;Φpsroi(·)表示位置敏感RoI池化;Npsroi(·)表示通道数为k×k×Cn的1个卷积层;
位置敏感的RoIs特征提取网络通过Φpsroi(·)对特定部位特征进行位置敏感RoI池化获得当前帧位置敏感RoIs特征,特征表示为(k,k,Cn),即W=k,H=k,C=Cn;所述位置敏感RoI池化默认使用最大池化;特定部位特征即使用通道数为k×k×Cn的1个卷积层Npsroi(·)从当前帧目标提取的k×k个特征,k∈[1,9];对于分类任务,Cn=Ccls+1,Cn表示目标类别数Ccls加1个背景类别;对于检测任务,Cn=4×2,表示一个候选框向量有4个维度,每个维度有目标和背景2种类别。
9.根据权利要求8所述的视频目标检测特征提取方法,其特征在于,所述上下文敏感RoIs特征提取网络算法如下:
fi csrois=Φcsroi(Ncsroi(fi rois)) (10)
其中,fi csrois表示当前帧上下文敏感RoIs特征;Φcsroi(·)表示上下文敏感RoI池化;Ncsroi(·)表示通道数为Cn的1个卷积层;
上下文敏感RoIs特征提取网络通过Φcsroi(·)对上下文特征进行上下文敏感RoI池化获得当前帧上下文敏感RoIs特征,特征表述为(k,k,Cn),即W=k,H=k,C=Cn;所述上下文特征即使用Ncsroi(·)从当前帧目标提取的特征;所述上下文敏感RoI池化包括基于最大池化的RoI池化层和平均池化层:基于最大池化的RoI池化层针对上下文特征提取上下文RoIs粗特征,特征表述为((k×2m),(k×2m),Cn),即W=k×2m,H=k×2m,C=Cn,m∈[1,5];平均池化层用于细化上下文RoIs粗特征获得当前帧上下文敏感RoIs特征。
10.根据权利要求1所述的视频目标检测特征提取方法,其特征在于,步骤四中,所述两分支RoIs特征指位置敏感RoIs特征和上下文敏感RoIs特征,所述点乘融合方式如下:
fi opt_rois=fi psrois⊙fi csrois (11)
其中,fi opt_rois表示经点乘融合获得的当前帧RoIs即优化的当前帧RoIs;⊙表示点乘计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421577.9A CN111144376B (zh) | 2019-12-31 | 2019-12-31 | 视频目标检测特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421577.9A CN111144376B (zh) | 2019-12-31 | 2019-12-31 | 视频目标检测特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144376A true CN111144376A (zh) | 2020-05-12 |
CN111144376B CN111144376B (zh) | 2023-12-05 |
Family
ID=70523007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911421577.9A Active CN111144376B (zh) | 2019-12-31 | 2019-12-31 | 视频目标检测特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144376B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783731A (zh) * | 2020-07-20 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 用于提取视频特征的方法和装置 |
CN112752045A (zh) * | 2020-12-29 | 2021-05-04 | 青岛信芯微电子科技股份有限公司 | 一种显示设备和显示方法 |
CN112911165A (zh) * | 2021-03-02 | 2021-06-04 | 杭州海康慧影科技有限公司 | 内窥镜曝光方法、装置及计算机可读存储介质 |
CN113033424A (zh) * | 2021-03-29 | 2021-06-25 | 广东众聚人工智能科技有限公司 | 一种基于多分支视频异常检测方法和系统 |
CN113284155A (zh) * | 2021-06-08 | 2021-08-20 | 京东数科海益信息科技有限公司 | 视频目标分割方法、装置、存储介质及电子设备 |
CN113516006A (zh) * | 2021-04-01 | 2021-10-19 | 广州云硕科技发展有限公司 | 一种用于智能机器人的高效信息处理方法及系统 |
CN113673616A (zh) * | 2021-08-26 | 2021-11-19 | 南通大学 | 一种耦合注意力和上下文的轻量化小目标检测方法 |
CN113837058A (zh) * | 2021-09-17 | 2021-12-24 | 南通大学 | 一种耦合上下文聚合网络的轻量化雨水篦子检测方法 |
CN113989754A (zh) * | 2021-07-01 | 2022-01-28 | 华南理工大学 | 基于特征提取与聚合的车载行人检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830205A (zh) * | 2018-06-04 | 2018-11-16 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN109583340A (zh) * | 2018-11-15 | 2019-04-05 | 中山大学 | 一种基于深度学习的视频目标检测方法 |
CN109829398A (zh) * | 2019-01-16 | 2019-05-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN109993096A (zh) * | 2019-03-26 | 2019-07-09 | 东北大学 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
-
2019
- 2019-12-31 CN CN201911421577.9A patent/CN111144376B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830205A (zh) * | 2018-06-04 | 2018-11-16 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN109583340A (zh) * | 2018-11-15 | 2019-04-05 | 中山大学 | 一种基于深度学习的视频目标检测方法 |
CN109829398A (zh) * | 2019-01-16 | 2019-05-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN109993096A (zh) * | 2019-03-26 | 2019-07-09 | 东北大学 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783731A (zh) * | 2020-07-20 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 用于提取视频特征的方法和装置 |
CN112752045A (zh) * | 2020-12-29 | 2021-05-04 | 青岛信芯微电子科技股份有限公司 | 一种显示设备和显示方法 |
CN112911165A (zh) * | 2021-03-02 | 2021-06-04 | 杭州海康慧影科技有限公司 | 内窥镜曝光方法、装置及计算机可读存储介质 |
CN113033424A (zh) * | 2021-03-29 | 2021-06-25 | 广东众聚人工智能科技有限公司 | 一种基于多分支视频异常检测方法和系统 |
CN113516006A (zh) * | 2021-04-01 | 2021-10-19 | 广州云硕科技发展有限公司 | 一种用于智能机器人的高效信息处理方法及系统 |
CN113284155A (zh) * | 2021-06-08 | 2021-08-20 | 京东数科海益信息科技有限公司 | 视频目标分割方法、装置、存储介质及电子设备 |
CN113284155B (zh) * | 2021-06-08 | 2023-11-07 | 京东科技信息技术有限公司 | 视频目标分割方法、装置、存储介质及电子设备 |
CN113989754A (zh) * | 2021-07-01 | 2022-01-28 | 华南理工大学 | 基于特征提取与聚合的车载行人检测方法 |
CN113673616A (zh) * | 2021-08-26 | 2021-11-19 | 南通大学 | 一种耦合注意力和上下文的轻量化小目标检测方法 |
CN113673616B (zh) * | 2021-08-26 | 2023-09-29 | 南通大学 | 一种耦合注意力和上下文的轻量化小目标检测方法 |
CN113837058A (zh) * | 2021-09-17 | 2021-12-24 | 南通大学 | 一种耦合上下文聚合网络的轻量化雨水篦子检测方法 |
CN113837058B (zh) * | 2021-09-17 | 2022-09-30 | 南通大学 | 一种耦合上下文聚合网络的轻量化雨水篦子检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144376B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144376A (zh) | 视频目标检测特征提取方法 | |
CN110245659B (zh) | 基于前背景相互关系的图像显著对象分割方法及装置 | |
CN110570458B (zh) | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
JP5025893B2 (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
CN111160407B (zh) | 一种深度学习目标检测方法及系统 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112950477B (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
US20110211233A1 (en) | Image processing device, image processing method and computer program | |
CN111242125B (zh) | 一种自然场景图像文本检测方法、存储介质及终端设备 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN107564007B (zh) | 融合全局信息的场景分割修正方法与系统 | |
CN111583279A (zh) | 一种基于pcba的超像素图像分割方法 | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
CN111414938B (zh) | 一种板式换热器内气泡的目标检测方法 | |
CN113850324A (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
CN113627368A (zh) | 基于深度学习的视频行为识别方法 | |
CN112529081A (zh) | 基于高效注意力校准的实时语义分割方法 | |
CN110826564A (zh) | 一种复杂场景图像中的小目标语义分割方法及系统 | |
Jeong et al. | Parallelization of levelset-based text baseline detection in document images | |
CN112802038B (zh) | 一种基于多尺度边缘注意力的全景分割方法 | |
CN113312959B (zh) | 一种基于dtw距离的手语视频关键帧采样方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |