CN111079674A - 一种基于全局和局部信息融合的目标检测方法 - Google Patents

一种基于全局和局部信息融合的目标检测方法 Download PDF

Info

Publication number
CN111079674A
CN111079674A CN201911333260.XA CN201911333260A CN111079674A CN 111079674 A CN111079674 A CN 111079674A CN 201911333260 A CN201911333260 A CN 201911333260A CN 111079674 A CN111079674 A CN 111079674A
Authority
CN
China
Prior art keywords
gru
information
scene
objects
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911333260.XA
Other languages
English (en)
Other versions
CN111079674B (zh
Inventor
齐妙
王建中
张燕妮
孔俊
吕英华
郑彩侠
徐慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Normal University
Original Assignee
Northeast Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Normal University filed Critical Northeast Normal University
Priority to CN201911333260.XA priority Critical patent/CN111079674B/zh
Publication of CN111079674A publication Critical patent/CN111079674A/zh
Application granted granted Critical
Publication of CN111079674B publication Critical patent/CN111079674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于全局和局部信息融合的目标检测方法,属于视频图像处理领域。首先,将场景送入卷积神经网络中增加网络的记忆能力,使网络更好的学习场景上下文信息,得到全局的场景特征;其次,借鉴注意力机制,自适应地建立物体与物体之间的关系,得到局部的物体特征;最后,通过信息传递融合场景特征和物体特征增强特征表达。本发明的优点是,同时考虑全局场景特征和局部物体特征,并通过信息传递更好的表征目标特征,大量的对比实验表明,其检测性能明显优于其它目标检测方法。

Description

一种基于全局和局部信息融合的目标检测方法
技术领域
本发明属于视频图像处理领域,尤其是指一种基于全局和局部信息融合的目标检测方法。
背景技术
目标检测在自主驾驶、机器人、视频监控、行人检测等领域有着广泛的应用,是计算机视觉和机器学习领域的研究热点。经典的目标检测技术主要是基于手动特征的使用,可以分为三个步骤:(1)目标区域的选择;(2)特征提取;(3)分类。在第一步中,广泛采用滑动窗口策略,利用不同维数和长宽比的滑动窗口,对候选区域进行详尽的搜索。第二步对候选区域进行分析,可以使用多种技术进行特征提取,如尺度不变特征变换(SIFT)、方向梯度直方图(HOG)和加速鲁棒特征(SURF)等传统方式。第三步,利用支持向量机、AdaBoost等分类器对候选区域进行分类。虽然经典方法得到了良好的检测效果,但仍然存在一些限制,阻碍了其在速度和精度上的突破。例如,由于滑动窗口策略会在原始图像中捕获许多候选区域,并且需要逐个提取区域的特征,因此经典的目标检测方法非常耗时。而且,由于人工设计的特征对物体形态、光照和遮挡的变化非常敏感,导致传统的目标检测方法缺乏鲁棒性。
近年来,一些深度学习技术被应用到物体检测中,克服了传统方法的局限性。目前最先进的基于深度学习的检测器大致可以分为两类。一种是两阶段方法,首先通过选择性搜索(Selective Search)、EdgeBoxes、深度掩码(DeepMask)或区域建议网络(RPN)形成一系列候选对象建议,然后将这些建议框输入卷积神经网络进行分类。另一种是一阶段方法,它直接预测多个对象在整个特征图上的置信度和位置,而不生成候选对象建议。
基于区域的卷积网络(R-CNN)是目标检测和深度学习相结合的开端,也是一种具有代表性的两阶段方法。该方法通过从候选区域中提取特征,并采用线性支持向量机作为分类器,达到了很好的目标检测精度。但是,由于卷积网络前向传递是针对每个对象建议独立执行的,因此R-CNN的计算成本很高。此外,包含特征提取、网络微调、训练支持向量机和边界框回归的多阶段训练策略也使得R-CNN的训练速度变慢。由此,He等人提出一种空间金字塔汇聚网络(SPPNet)。该方法虽然可以通过共享计算来提高R-CNN的速度,但它的训练也是一个多级管道。此外,SPPNet中提出的微调算法无法更新卷积层,在网络深度较深时限制了其准确性。为了进一步降低计算成本,提高目标检测的准确性,Girshick等人提出了一种快速的基于区域的卷积网络(Fast R-CNN)。Fast R-CNN利用一种新颖的RoI-pooling操作,从共享卷积特征图中提取每个候选区域的特征向量,大大提高了处理速度。在Fast R-CNN中,还可以通过在训练过程中更新所有网络层来提高检测精度。虽然SPPNet和Fast R-CNN有效地减少了目标检测网络的训练时间,但是区域建议计算仍然是它们的瓶颈。为了解决这个问题,Ren等人提出了Faster R-CNN,该方法用RPN代替选择性搜索方法实现端到端的训练。RPN通过与检测网络共享全图像卷积特征,使得几乎无损耗的区域方案能够解决FastR-CNN耗时的问题。然而,在RPN中,将一组固定的滤波器滑动到一组固定的卷积特征映射上所产生的多个尺度建议可能与对象的大小不一致。因此,Cai等人提出了多尺度卷积神经网络(MS-CNN)来匹配不同尺度对象的接受域,并采用多输出层进行对象检测。
与上述方法不同的是,一阶段方法可以在保证一定准确率的前提下实现完整的单网络训练。这一类的代表性算法有YOLO,YOLO9000,G-CNN和SSD等。通过将对象检测任务视为一个回归问题,YOLO在空间上分离边界框和相关的类概率。由于YOLO算法的整个检测管道是单个网络,可以直接对网络进行端到端优化。SSD方法将多个具有不同分辨率的特征图的预测组合起来,以检测各种大小的物体。由于在SSD中消除了提案生成、后续像素重采样和特征重采样阶段,因此易于训练。虽然单阶段方法的运行速度可以显著提高,但其精度始终低于两阶段方法。无论是一阶段还是两阶段算法,上述大部分算法都没有有效地利用对象之间的关系,只是利用与对象本身相关联的特征进行检测。
最近,一些研究者认识到关系的重要性,提出了一些方法通过探索对象之间的关系来达到更好的检测结果。Bell等人提出了一种空间递归神经网络(RNNs),用于探索整个图像的上下文信息。Xu等人提出了通过迭代消息传递生成场景图的方法。网络将单个对象视为拓扑中的一个点,将对象之间的关系视为边。通过在边和点之间传递信息,证明了物体之间关系的建立能够提高检测性能。Georgia等人提出了以人为主要线索建立与周围其他物体的关系。结果表明一个人的外部行为可以提供强大的信息来定位与之交互的对象。Liu等人提出了一种结构推理网(SIN),用于探测目标之间的结构关系。然而,SIN只考虑了对象提案的空间坐标,而忽略了物体的外观特征。Han等人提出了一个关系网络,该网络既考虑了物体的外观特征,又考虑了物体的几何特征。然而,在关系网络中忽略了场景级的特征。
发明内容
本发明提供一种基于全局和局部信息融合的目标检测方法,目的是为了更精确的检测图像中的物体,提出的方法适用于目标跟踪,目标识别,视频监控,视频压缩等。
本发明采取的技术方案是,包括下列步骤:
(1)读入一幅图像I;
(2)提取场景上下文信息;
通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能,将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图,特征图作为两部分的输入,一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入,在场景上下文模块中,在所有特征图上执行ROI-池化、拼接以及全连层接等操作,获得场景特征fs,并作为场景GRUs(1)的输入;
(3)建立物体之间的关系模型
为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息,而且利用所有周围物体的信息作为关系GRUr(1)的输入;
给定N个对象的输入集
Figure BDA0002330070500000031
其中
Figure BDA0002330070500000032
是卷积神经网络提取的第n个物体的原始外观特征,
Figure BDA0002330070500000033
表示由物体边界框的4维特征组成的第n个对象的位置特征,边界框的特征包括宽度w,高度h和中心坐标(x,y),关系通道是处理不同对象之间关系的模块,Nr是关系通道数量,Nr=64,通过对象关系通过模块,可以得到融合周围所有对象位置信息的
Figure BDA0002330070500000034
融合所有关系通道上的向量
Figure BDA0002330070500000035
Figure BDA0002330070500000036
获得物体特征
Figure BDA0002330070500000037
作为关系GRUr(1)的输入;
(4)建立信息传递模型场景GRUs(1)和关系GRUr(1)相互通信,以不断跟新物体特征,GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门,一个称为更新门z,它决定要传递多少来自以前时间和当前时间的信息,另一个门是复位门r,它控制有多少过去的信息被遗忘,使用两组并行方式传递信息,一组包括场景GRUs(1)和关系GRUr(1),另一组包括场景GRUs(2)和关系GRUr(2),利用原始的外观特征来表示网络的初始状态hi,场景GRUs(1)、GRUs(2)和关系GRUr(1)、GRUr(2)的处理机制是相同的,得到最终的场景特征和物体特征的融合信息;
(5)建立物体类别预测和边界框回归模型;
将场景GRUs(2)和关系GRUr(2)获得的综合信息输入到全连接层,并经过softmax预测物体的类别和边界检测框,预测物体分类是利用已经获得的融合特征信息,通过全连接层和softmax计算每个建议框应该具体属于哪个类别,并输出所属分类的概率;同时,利用边界框回归获得每个建议框的位置偏移量,使目标边界检测框更加精准,实现目标检测。
本发明所述步骤(3)中关系通道各模块的处理机制是相同的,其中一个关系通道模块的工作原理是:
首先,通过点积运算得到第m个和第n个物体之间的外观权重
Figure BDA00023300705000000416
Figure BDA0002330070500000041
其中,WK、WQ是将第m个物体和第n个物体原始外观特征
Figure BDA0002330070500000042
Figure BDA0002330070500000043
映射到子空间中的矩阵,·表示通过点积运算用以获得
Figure BDA0002330070500000044
Figure BDA0002330070500000045
的匹配程度,d是维度,设置为4096;
其次,计算位置权重
Figure BDA0002330070500000046
Figure BDA0002330070500000047
其中,εg是基于正弦和余弦函数嵌入到高维空间几何特征的操作,
Figure BDA0002330070500000048
Figure BDA0002330070500000049
分别是第m个物体和第n个物体的位置特性,包含如下六个相对位置信息,
Figure BDA00023300705000000410
这里,wm,hm,xm,ym分别是第m个物体的宽度,高度和中心坐标,wn,hn,xn,yn分别是第n个物体的宽度,高度和中心坐标;
然后,计算关系权重wmn
Figure BDA00023300705000000411
最后,得到具有周围物体对第n个物体的特征
Figure BDA00023300705000000412
Figure BDA00023300705000000413
其中,Wv用于对原始外观特征
Figure BDA00023300705000000414
进行线性变换,公式(5)是将物体和其他物体的信息整合到原始外观特征中的过程,输出
Figure BDA00023300705000000415
是其他物体初始外观特征的加权和,既包含其初始外观特征,又包含其周围所有对象的特征;
最终,通过关系通道模块,得到融合物体关系信息的物体特征
Figure BDA0002330070500000051
Figure BDA0002330070500000052
其中,带有关系的物体特征
Figure BDA0002330070500000053
包括提取的原始外观特征
Figure BDA0002330070500000054
(卷积层后的初始外观特征)和关系特征
Figure BDA0002330070500000055
(融合特定信道下所有周围物体的位置信息),在关系通道中,将其他对象的特征融合在一起,识别当前对象与其他对象的关系,最后通过全连通网络与原始外观特征融合得到
Figure BDA0002330070500000056
作为关系GRUr(1)的输入。
本发明所述步骤(4)中关系GRUr(1)的工作原理是:
首先,第t时间得到的复位门rt计算如下:
Figure BDA0002330070500000057
其中,σ是逻辑函数,[,]表示向量的串联,Wr是一个通过卷积神经网络学习到的权重矩阵,复位门rt的输出决定是否忘记先前的状态,当rt接近于0时,会忘记之前时刻的状态信息hi,将隐藏状态重置为当前·输入,同理,计算第t时刻zt的更新门为:
Figure BDA0002330070500000058
其中,zt用于确定可以继续传递多少以前的信息,Wz是一个权重矩阵,如果更新门的值较大,则前一时刻引入的状态信息较多,反之亦然,在GRU中,新的隐藏状态
Figure BDA00023300705000000513
Figure BDA0002330070500000059
其中,*代表矩阵点乘,新的隐藏状态
Figure BDA00023300705000000514
由重置门的值决定,W是一个权重矩阵,实际关系GRUr(1)输出为,
Figure BDA00023300705000000510
可以看出,以前的一些状态hi被传递,新的隐藏状态
Figure BDA00023300705000000511
会选择性的更新状态,场景GRUs(1)与关系GRUr(1)只是输入不同,工作原理相同,通过上面操作可以得到场景GRUs(1)的输出
Figure BDA00023300705000000512
最后,融合两者信息得到更丰富的信息,
Figure BDA0002330070500000061
融合的信息h′i将作为新的初始状态送到下一组场景GRUs(2)和关系GRUr(2)中,场景GRUs(2)和关系GRUr(2)的输出
Figure BDA0002330070500000062
Figure BDA0002330070500000063
在经过公式(11)得到最终的场景特征和物体特征的融合信息。
本发明首先利用图像外观特征和几何特征,提取场景的上下文信息;其次,借鉴注意力机制,自适应的建立物体与周围物体的之间关系;最后,通过消息传递融合场景信息和关系信息,实现对物体进行分类和回归;大量的实验和比较结果表明,该方法具有良好的检测性能并且优于现有的具有代表性的目标方法,适用于目标跟踪,目标识别,视频监控,视频压缩等。
本发明针对PASCAL VOC数据库和MS COCO数据集进行了实验对比与分析,并且从定性和定量两个角度评价了提出方法的有效性和优越性。大量的对比实验结果表明,本发明提出的方法不仅能够精准的检测目标,更能有效地检测出一些小目标或被遮挡目标。特别地,本发明于图像和视频同样适用。
本发明的有益效果:(1)本发明是针对图像(视频)的精确目标检测方法;(2)借鉴注意力机制,通过自适应的建立物体之间的关系可以检测一些小目标或被遮挡的目标;(3)场景信息和关系信息融合可矫正一些错误的检测结果,提高目标检测精度;(4)本发明可以广泛应用于各种场景的目标检测任务,有助于后续的识别和跟踪等任务。
附图说明
图1是PASCAL VOC数据集上的部分样例图像;
图2是MS COCO数据集上的部分样例图像;
图3是本发明的整体框架图;
图4是本发明关系通道模块图;
图5是本发明物体之间关系建立模型图;
图6是本发明提出发方法的部分检测结果图;
图7是本发明不同方法的检测结果比较图。
具体实施方式
包括以下步骤:
1、读入一幅图像I,如图1和2所示;
2、提取场景上下文信息;
通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能,将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图,特征图作为两部分的输入,一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入,如图3所示,在场景上下文模块中(图3的第I部分),在所有特征图上执行ROI-池化、拼接以及全连层接操作,获得场景特征fs,并作为场景GRUs(1)的输入;
3、建立物体之间的关系模型(图3的第II部分);
为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息,而且利用所有周围物体的信息作为关系GRUr(1)的输入;
给定N个对象的输入集
Figure BDA0002330070500000071
其中
Figure BDA0002330070500000072
是卷积神经网络提取的第n个物体的原始外观特征,
Figure BDA0002330070500000073
表示由物体边界框的4维特征组成的第n个对象的位置特征,边界框的特征包括宽度w,高度h和中心坐标(x,y),关系通道是处理不同对象之间关系的模块(如图4所示),Nr是关系通道数量(Nr=64);通过对象关系通过模块(如图5所示),可以得到融合周围所有对象位置信息的
Figure BDA0002330070500000074
融合所有关系通道上的向量
Figure BDA0002330070500000075
Figure BDA0002330070500000076
获得物体特征
Figure BDA0002330070500000077
因为关系通道各模块的处理机制是相同的,以一个关系通道模块为例来解释关系通道的工作原理;
首先,通过点积运算得到第m个和第n个物体之间的外观权重
Figure BDA0002330070500000078
Figure BDA0002330070500000079
其中,WK、WQ是将第m个物体和第n个物体原始外观特征
Figure BDA00023300705000000710
Figure BDA00023300705000000711
映射到子空间中的矩阵,·表示通过点积运算用以获得
Figure BDA00023300705000000712
Figure BDA00023300705000000713
的匹配程度,d是维度,本发明设置为4096。
其次,计算位置权重
Figure BDA00023300705000000714
Figure BDA00023300705000000715
其中,εg是基于正弦和余弦函数嵌入到高维空间几何特征的操作,
Figure BDA00023300705000000716
Figure BDA00023300705000000717
分别是第m个物体和第n个物体的位置特性,包含如下六个相对位置信息,
Figure BDA0002330070500000081
这里,wm,hm,xm,ym分别是第m个物体的宽度,高度和中心坐标,wn,hn,xn,yn分别是第n个物体的宽度,高度和中心坐标;
然后,计算关系权重wmn
Figure BDA0002330070500000082
最后,得到具有周围物体对第n个物体的特征
Figure BDA0002330070500000083
Figure BDA0002330070500000084
其中,Wv用于对原始外观特征
Figure BDA00023300705000000812
进行线性变换,公式(5)是将物体和其他物体的信息整合到原始外观特征中的过程,输出
Figure BDA0002330070500000085
是其他物体初始外观特征的加权和,既包含其初始外观特征,又包含其周围所有对象的特征;
最终,通过关系通道模块,得到融合物体关系信息的物体特征
Figure BDA0002330070500000086
Figure BDA0002330070500000087
其中,带有关系的物体特征
Figure BDA0002330070500000088
包括提取的原始外观特征
Figure BDA0002330070500000089
(卷积层后的初始外观特征)和关系特征
Figure BDA00023300705000000810
(融合特定信道下所有周围物体的位置信息),在关系通道中,将其他对象的特征融合在一起,识别当前对象与其他对象的关系,最后通过全连通网络与原始外观特征融合得到
Figure BDA00023300705000000811
作为关系GRUr(1)的输入。
4、建立信息传递模型(图3的第III部分);
场景GRUs(1)和关系GRUr(1)相互通信,以不断跟新物体特征,GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门,一个称为更新门z,它决定要传递多少来自以前时间和当前时间的信息;另一个门是复位门r,它控制有多少过去的信息被遗忘;使用两组并行方式传递信息,一组包括场景GRUs(1)和关系GRUr(1),另一组包括场景GRUs(2)和关系GRUr(2);利用原始的外观特征(没有任何场景信息或关系信息)来表示网络的初始状态hi,由于场景GRUs(1)、GRUs(2)和关系GRUr(1)、GRUr(2)的处理机制是相同的,本发明仅以关系GRUr(1)为例说明其工作原理。
首先,第t时间得到的复位门rt计算如下:
Figure BDA0002330070500000091
其中,σ是逻辑函数,[,]表示向量的串联,Wr是一个通过卷积神经网络学习到的权重矩阵,复位门rt的输出决定是否忘记先前的状态,当rt接近于0时,会忘记之前时刻的状态信息hi,将隐藏状态重置为当前·输入,同理,计算第t时刻zt的更新门为:
Figure BDA0002330070500000092
其中,zt用于确定可以继续传递多少以前的信息,Wz是一个权重矩阵,如果更新门的值较大,则前一时刻引入的状态信息较多,反之亦然,在GRU中,新的隐藏状态
Figure BDA0002330070500000093
Figure BDA0002330070500000094
其中,*代表矩阵点乘,新的隐藏状态
Figure BDA0002330070500000095
由重置门的值决定,W是一个权重矩阵,实际关系GRUr(1)输出为:
Figure BDA0002330070500000096
可以看出,以前的一些状态hi被传递,新的隐藏状态
Figure BDA0002330070500000097
会选择性的更新状态,场景GRUs(1)与关系GRUr(1)只是输入不同,工作原理相同,通过上面操作可以得到场景GRUs(1)的输出
Figure BDA0002330070500000098
最后,融合两者信息得到更丰富的信息;
Figure BDA0002330070500000099
其中,
Figure BDA00023300705000000910
表示场景GRUs(1)输出的信息,
Figure BDA00023300705000000911
表示关系GRUr(1)输出的信息,融合的信息hi'将作为新的初始状态送到下一组场景GRUs(2)和关系GRUr(2)中,场景GRUs(2)和关系GRUr(2)的输出
Figure BDA00023300705000000912
Figure BDA00023300705000000913
在经过公式(11)得到最终的场景特征和物体特征的融合信息;
5、建立物体类别预测和边界框回归模型
将场景GRUs(2)和关系GRUr(2)获得的融合信息输入到全连接层,并经过softmax预测物体的类别和边界检测框,如图6所示,预测物体分类是利用已经获得的融合特征信息,通过全连接层和softmax计算每个建议框应该具体属于哪个类别(如人,狗,猫等),并输出所属分类的概率;同时,利用边界框回归获得每个建议框的位置偏移量,使目标边界检测框更加精准,实现目标检测。
综上,给定一幅图像,通过提取和融合场景特征和物体特征,实现基于全局和局部信息融合的目标检测。
下面通过具体实验结果的分析与对比来进一步说明本发明的有益效果。
实验例
为了有效地和系统地评价提出的方法,在2个标准数据库PASCAL VOC和MS COCO2014上进行了大量的目标检测实验;其中,PASCAL VOC包含VOC 2007和VOC2012两个数据集,PASCAL VOC2007数据集中包含9963张标注过的图片,由train/val/test三部分组成,共标注出24640个物体。VOC2012数据集的train/val/test包含2008-2011年的所有对应图像,train+val有11540张图片共27450个物体。与PASCAL VOC数据集相比,MSCOCO 2014中的图片包含了自然图像以及生活中常见的目标图像,由train/minival两部分组成。该数据库中图像背景较为复杂,目标数量较多且目标尺寸更小,因此在MS COCO 2014数据集上做的任务更难更具挑战性。图1和图2分别给出了两个数据集中的部分图像。此外,从定量的角度将本发明提出方法(MIFNet)与一些有代表性的方法进行性能对比,包括Fast R-CNN、FasterR-CNN、SSD500、ION、CPF和SIN等方法。
为了评价提出方法的性能,采用两个度量来定量的评价本发明的性能,平均精度(AP)和平均精度均值(mAP),其中,AP表示每一类别精度(P值)的平均值,mAP是所有类别的AP取均值,P值的计算公示如下:
Figure BDA0002330070500000101
在具体目标检测实施过程中,表1给出了实验参数的设置,表2和表3给出了在PASCAL VOC 2007和2012两个数据集的基于平均精度均值的检测结果。可以看出,通过融合物体之间的关系和场景信息,能够检测一下小的并且高相关的物体,如图6所示,进而可以提高目标检测精度,表4给出了在MS COCO 2014数据集上的基于平均精度的检测结果,其中AP是所有类在交并比(IOU)从0.5变化到0.95的平均精度值,AP50表示IOU等于0.50时的mAP,AR10代表每幅图像中检测10个物体的最大召回率,上标S、M、L分别代表小,中、大物体,例如,物体面积在322和962之间的称为中等大小的物体。从表2-4可以看出,本发明在3个数据集上分别获得了77.1%,74.1%和26.0%的最高检测精度。由于SIN考虑了物体之间的关系,其性能高于其它一些方法,但是由于其没有考虑场景上下文信息,所以其性能低于本发明提出的方法,图7给出了不同方法的部分图像中的检测结果,对比结果可以看出本发明提出的方法能够更准确的检测目标。
为了验证全局场景信息和局部关系信息对提升检测精度的重要性,我们在两个数据集上进行了消融实验,表5和表6给出了只利用场景信息进行目标检测的结果,表7和表8给出了只利用关系信息进行目标检测的结果,可以看出,无论使用哪种信息,其检测性能均高于经典的Faster R-CNN方法。
为了验证信息传递模块的有效性,本发明进行了两组对比实验,一组是将场景特征和物体特征分别作为GRUs(1)和GRUr(1)的输入(GRUs+r即本发明方法),一组是将场景特征和物体连接在一起形成一个向量作为一个GRUs(1)的输入(GRUs)。从表9可以看出,两种方法的检测性能分别为77.1%和76.2%,这表明信息传递能够进一步提升检测性能。
表1.实验参数设置
Figure BDA0002330070500000111
表2.在PASCAL VOC 2007test上的检测结果.训练集:2007trainval+2012trainval.
Figure BDA0002330070500000112
表3.在PASCAL VOC 2012test上的检测结果.
训练集:2007trainval+2012trainval+2007test
Figure BDA0002330070500000121
表4.在MS COCO 2014minival上的检测结果,训练集:MS COCO 2014train.
Figure BDA0002330070500000122
表5.在PASCAL VOC 2007test上的消融实验结果(Baseline为Faster R-CNN.Scene表示只使用场景信息)
Figure BDA0002330070500000123
表6.在MS COCO 2014minival上的消融实验结果
表7.在PASCAL VOC 2007test上的消融实验结果(Baseline为Faster R-CNN.Relation表示只使用物体关系信息)
Figure BDA0002330070500000131
表8.在MS COCO 2014minival上的消融实验结果.
Figure BDA0002330070500000132
表9.场景特征和物体特征不同输入的比较
Figure BDA0002330070500000133
鉴于此,本发明在深度学习框架下,提出了一种基于全局和局部信息融合的目标检测方法。该方法同时考虑了场景上下文信息和物体之间的关系信息,通过关系传递更好的表示特征。特别地,分别在3个标准的数据集上进行了大量实验,通过对比实验验证了提出方法具有良好的检测性能。
以上所述仅为本发明的优选实施方式,本发明的保护范围并不仅限于上述实施方式,凡是属于本发明的原理的技术方案均属于本方面的保护范围,对于本领域的技术人员而言,在不脱离本发明的前提下进行的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于全局和局部信息融合的目标检测方法,其特征在于包括下列步骤:
(1)读入一幅图像I;
(2)提取场景上下文信息;
通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能,将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图,特征图作为两部分的输入,一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入,在场景上下文模块中,在所有特征图上执行ROI-池化、拼接以及全连层接等操作,获得场景特征fs,并作为场景GRUs(1)的输入;
(3)建立物体之间的关系模型
为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息,而且利用所有周围物体的信息作为关系GRUr(1)的输入;
给定N个对象的输入集
Figure FDA0002330070490000011
其中ft n是卷积神经网络提取的第n个物体的原始外观特征,
Figure FDA0002330070490000012
表示由物体边界框的4维特征组成的第n个对象的位置特征,边界框的特征包括宽度w,高度h和中心坐标(x,y),关系通道是处理不同对象之间关系的模块,Nr是关系通道数量,Nr=64,通过对象关系通过模块,可以得到融合周围所有对象位置信息的
Figure FDA0002330070490000013
融合所有关系通道上的向量
Figure FDA0002330070490000014
和ft n获得物体特征ft n′,作为关系GRUr(1)的输入;
(4)建立信息传递模型场景GRUs(1)和关系GRUr(1)相互通信,以不断跟新物体特征,GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门,一个称为更新门z,它决定要传递多少来自以前时间和当前时间的信息,另一个门是复位门r,它控制有多少过去的信息被遗忘,使用两组并行方式传递信息,一组包括场景GRUs(1)和关系GRUr(1),另一组包括场景GRUs(2)和关系GRUr(2),利用原始的外观特征来表示网络的初始状态hi,场景GRUs(1)、GRUs(2)和关系GRUr(1)、GRUr(2)的处理机制是相同的,得到最终的场景特征和物体特征的融合信息;
(5)建立物体类别预测和边界框回归模型;
将场景GRUs(2)和关系GRUr(2)获得的综合信息输入到全连接层,并经过softmax预测物体的类别和边界检测框,预测物体分类是利用已经获得的融合特征信息,通过全连接层和softmax计算每个建议框应该具体属于哪个类别,并输出所属分类的概率;同时,利用边界框回归获得每个建议框的位置偏移量,使目标边界检测框更加精准,实现目标检测。
2.根据权利要求1所述的一种基于全局和局部信息融合的目标检测方法,其特征在于:步骤(3)中关系通道各模块的处理机制是相同的,其中一个关系通道模块的工作原理是:
首先,通过点积运算得到第m个和第n个物体之间的外观权重
Figure FDA0002330070490000021
Figure FDA0002330070490000022
其中,WK、WQ是将第m个物体和第n个物体原始外观特征ft m和ft n映射到子空间中的矩阵,·表示通过点积运算用以获得WKft m和WQft n的匹配程度,d是维度,设置为4096;
其次,计算位置权重
Figure FDA0002330070490000023
Figure FDA0002330070490000024
其中,εg是基于正弦和余弦函数嵌入到高维空间几何特征的操作,
Figure FDA0002330070490000025
Figure FDA0002330070490000026
分别是第m个物体和第n个物体的位置特性,包含如下六个相对位置信息,
Figure FDA0002330070490000027
这里,wm,hm,xm,ym分别是第m个物体的宽度,高度和中心坐标,帅,hn,xn,yn分别是第n个物体的宽度,高度和中心坐标;
然后,计算关系权重wmn
Figure FDA0002330070490000028
最后,得到具有周围物体对第n个物体的特征
Figure FDA0002330070490000029
Figure FDA00023300704900000210
其中,Wv用于对原始外观特征ft n进行线性变换,公式(5)是将物体和其他物体的信息整合到原始外观特征中的过程,输出
Figure FDA00023300704900000211
是其他物体初始外观特征的加权和,既包含其初始外观特征,又包含其周围所有对象的特征;
最终,通过关系通道模块,得到融合物体关系信息的物体特征ft n′
Figure FDA0002330070490000031
其中,带有关系的物体特征ft n′包括提取的原始外观特征ft n(卷积层后的初始外观特征)和关系特征
Figure FDA0002330070490000032
(融合特定信道下所有周围物体的位置信息),在关系通道中,将其他对象的特征融合在一起,识别当前对象与其他对象的关系,最后通过全连通网络与原始外观特征融合得到ft n′,作为关系GRUr(1)的输入。
3.根据权利要求1所述的一种基于全局和局部信息融合的目标检测方法,其特征在于:所述步骤(4)中关系GRUr(1)的工作原理是:
首先,第t时间得到的复位门rt计算如下:
rt=σ(Wr[ft n′,hi]) (7)
其中,σ是逻辑函数,[,]表示向量的串联,Wr是一个通过卷积神经网络学习到的权重矩阵,复位门rt的输出决定是否忘记先前的状态,当rt接近于0时,会忘记之前时刻的状态信息hi,将隐藏状态重置为当前·输入,同理,计算第t时刻zt的更新门为:
zt=σ(Wz[ft n′,hi]) (8)
其中,zt用于确定可以继续传递多少以前的信息,Wz是一个权重矩阵,如果更新门的值较大,则前一时刻引入的状态信息较多,反之亦然,在GRU中,新的隐藏状态
Figure FDA0002330070490000033
Figure FDA0002330070490000034
其中,*代表矩阵点乘,新的隐藏状态
Figure FDA0002330070490000035
由重置门的值决定,W是一个权重矩阵,实际关系GRUr(1)输出为,
Figure FDA0002330070490000036
可以看出,以前的一些状态hi被传递,新的隐藏状态
Figure FDA0002330070490000037
会选择性的更新状态,场景GRUs(1)与关系GRUr(1)只是输入不同,工作原理相同,通过上面操作可以得到场景GRUs(1)的输出
Figure FDA0002330070490000038
最后,融合两者信息得到更丰富的信息,
Figure FDA0002330070490000041
融合的信息h′i将作为新的初始状态送到下一组场景GRUs(2)和关系GRUr(2)中,场景GRUs(2)和关系GRUr(2)的输出
Figure FDA0002330070490000042
Figure FDA0002330070490000043
在经过公式(11)得到最终的场景特征和物体特征的融合信息。
CN201911333260.XA 2019-12-22 2019-12-22 一种基于全局和局部信息融合的目标检测方法 Active CN111079674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911333260.XA CN111079674B (zh) 2019-12-22 2019-12-22 一种基于全局和局部信息融合的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911333260.XA CN111079674B (zh) 2019-12-22 2019-12-22 一种基于全局和局部信息融合的目标检测方法

Publications (2)

Publication Number Publication Date
CN111079674A true CN111079674A (zh) 2020-04-28
CN111079674B CN111079674B (zh) 2022-04-26

Family

ID=70316645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911333260.XA Active CN111079674B (zh) 2019-12-22 2019-12-22 一种基于全局和局部信息融合的目标检测方法

Country Status (1)

Country Link
CN (1) CN111079674B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860351A (zh) * 2020-07-23 2020-10-30 中国石油大学(华东) 一种基于行列自注意力全卷积神经网络的遥感图像鱼塘提取方法
CN111881849A (zh) * 2020-07-30 2020-11-03 Oppo广东移动通信有限公司 图像场景检测方法、装置、电子设备及存储介质
CN112001399A (zh) * 2020-09-07 2020-11-27 中国人民解放军国防科技大学 基于局部特征显著化的图像场景分类方法和装置
CN112084860A (zh) * 2020-08-06 2020-12-15 中国科学院空天信息创新研究院 目标对象检测、火力发电厂检测方法和装置
CN112434647A (zh) * 2020-12-09 2021-03-02 浙江光珀智能科技有限公司 一种人脸活体检测方法
CN112529637A (zh) * 2020-12-22 2021-03-19 烟台大学 基于情景感知的服务需求动态预测方法及系统
CN112766108A (zh) * 2021-01-08 2021-05-07 西安电子科技大学 基于上下文信息的sar图像目标检测方法
CN113065402A (zh) * 2021-03-05 2021-07-02 四川翼飞视科技有限公司 一种基于变形注意力机制的人脸检测方法
CN113761976A (zh) * 2020-06-04 2021-12-07 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
CN115509406A (zh) * 2022-11-23 2022-12-23 煤炭科学研究总院有限公司 煤矿多场景融合方法、装置、存储介质及电子设备
CN116994019A (zh) * 2022-09-30 2023-11-03 腾讯科技(深圳)有限公司 模型训练方法、相关设备、存储介质及计算机产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9210924D0 (en) * 1991-07-09 1992-07-08 Samsung Electronics Co Ltd Camcorder
JP2010154266A (ja) * 2008-12-25 2010-07-08 Olympus Corp 赤外線照射式撮像装置
US20140161354A1 (en) * 2012-12-06 2014-06-12 Nokia Corporation Method and apparatus for semantic extraction and video remix creation
CN105893936A (zh) * 2016-03-28 2016-08-24 浙江工业大学 一种基于hoirm和局部特征融合的行为识别方法
CN106446933A (zh) * 2016-08-31 2017-02-22 河南广播电视大学 基于上下文信息的多目标检测方法
CN106778687A (zh) * 2017-01-16 2017-05-31 大连理工大学 基于局部评估和全局优化的注视点检测方法
CN107274419A (zh) * 2017-07-10 2017-10-20 北京工业大学 一种基于全局先验和局部上下文的深度学习显著性检测方法
US20190069045A1 (en) * 2017-08-30 2019-02-28 Arris Enterprises Llc Automatic generation of descriptive video service tracks
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9210924D0 (en) * 1991-07-09 1992-07-08 Samsung Electronics Co Ltd Camcorder
JP2010154266A (ja) * 2008-12-25 2010-07-08 Olympus Corp 赤外線照射式撮像装置
US20140161354A1 (en) * 2012-12-06 2014-06-12 Nokia Corporation Method and apparatus for semantic extraction and video remix creation
CN105893936A (zh) * 2016-03-28 2016-08-24 浙江工业大学 一种基于hoirm和局部特征融合的行为识别方法
CN106446933A (zh) * 2016-08-31 2017-02-22 河南广播电视大学 基于上下文信息的多目标检测方法
CN106778687A (zh) * 2017-01-16 2017-05-31 大连理工大学 基于局部评估和全局优化的注视点检测方法
CN107274419A (zh) * 2017-07-10 2017-10-20 北京工业大学 一种基于全局先验和局部上下文的深度学习显著性检测方法
US20190069045A1 (en) * 2017-08-30 2019-02-28 Arris Enterprises Llc Automatic generation of descriptive video service tracks
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田泽宇: "基于空间关系的空间场景相似性检索研究", 《CNKI》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761976A (zh) * 2020-06-04 2021-12-07 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
WO2021244621A1 (zh) * 2020-06-04 2021-12-09 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
CN113761976B (zh) * 2020-06-04 2024-10-15 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
CN111860351B (zh) * 2020-07-23 2021-04-30 中国石油大学(华东) 一种基于行列自注意力全卷积神经网络的遥感图像鱼塘提取方法
CN111860351A (zh) * 2020-07-23 2020-10-30 中国石油大学(华东) 一种基于行列自注意力全卷积神经网络的遥感图像鱼塘提取方法
CN111881849A (zh) * 2020-07-30 2020-11-03 Oppo广东移动通信有限公司 图像场景检测方法、装置、电子设备及存储介质
CN112084860A (zh) * 2020-08-06 2020-12-15 中国科学院空天信息创新研究院 目标对象检测、火力发电厂检测方法和装置
CN112001399B (zh) * 2020-09-07 2023-06-09 中国人民解放军国防科技大学 基于局部特征显著化的图像场景分类方法和装置
CN112001399A (zh) * 2020-09-07 2020-11-27 中国人民解放军国防科技大学 基于局部特征显著化的图像场景分类方法和装置
CN112434647A (zh) * 2020-12-09 2021-03-02 浙江光珀智能科技有限公司 一种人脸活体检测方法
CN112529637A (zh) * 2020-12-22 2021-03-19 烟台大学 基于情景感知的服务需求动态预测方法及系统
CN112766108A (zh) * 2021-01-08 2021-05-07 西安电子科技大学 基于上下文信息的sar图像目标检测方法
CN113065402A (zh) * 2021-03-05 2021-07-02 四川翼飞视科技有限公司 一种基于变形注意力机制的人脸检测方法
CN116994019A (zh) * 2022-09-30 2023-11-03 腾讯科技(深圳)有限公司 模型训练方法、相关设备、存储介质及计算机产品
CN115509406B (zh) * 2022-11-23 2023-03-14 煤炭科学研究总院有限公司 煤矿多场景融合方法、装置、存储介质及电子设备
CN115509406A (zh) * 2022-11-23 2022-12-23 煤炭科学研究总院有限公司 煤矿多场景融合方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111079674B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN107038448B (zh) 目标检测模型构建方法
WO2018107760A1 (zh) 一种用于行人检测的协同式深度网络模型方法
KR102554724B1 (ko) 이미지 내 객체를 식별하기 위한 방법 및 상기 방법을 실행하기 위한 모바일 디바이스
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN106650690A (zh) 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
WO2018052587A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN110222718B (zh) 图像处理的方法及装置
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN110322445A (zh) 一种基于最大化预测和标签间相关性损失函数的语义分割方法
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
WO2023030182A1 (zh) 图像生成方法及装置
Li et al. A novel spatial-temporal graph for skeleton-based driver action recognition
CN113657414B (zh) 一种物体识别方法
CN106682681A (zh) 一种基于相关反馈的识别算法自动改进方法
Du et al. Real-time detection of vehicle and traffic light for intelligent and connected vehicles based on YOLOv3 network
Jemilda et al. Moving object detection and tracking using genetic algorithm enabled extreme learning machine
Khellal et al. Pedestrian classification and detection in far infrared images
CN118015539A (zh) 基于GSConv+VOV-GSCSP的改进YOLOv8密集行人检测方法
CN108921186A (zh) 一种基于孪生支持向量机的指纹图像分类系统与方法
CN114882423A (zh) 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法
CN113095199B (zh) 一种高速行人识别方法及装置
CN118230354A (zh) 一种基于改进YOLOv5的复杂场景下手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant