CN108062531A - 一种基于级联回归卷积神经网络的视频目标检测方法 - Google Patents
一种基于级联回归卷积神经网络的视频目标检测方法 Download PDFInfo
- Publication number
- CN108062531A CN108062531A CN201711422447.8A CN201711422447A CN108062531A CN 108062531 A CN108062531 A CN 108062531A CN 201711422447 A CN201711422447 A CN 201711422447A CN 108062531 A CN108062531 A CN 108062531A
- Authority
- CN
- China
- Prior art keywords
- mrow
- result
- convolutional neural
- neural networks
- cascade
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于级联回归卷积神经网络的视频目标检测方法,并包括如下步骤:一、输入视频图像序列,并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征;二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域,通过多尺度的卷积特征对建议区域进行级联分类和回归,并得到每帧图像的静态图片检测结果;三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值,在CNN特征的conv5‑3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域,并对时序建议区域进行级联分类和回归,得到时序检测结果;四、将静态图片检测结果和时序检测结果通过共生矩阵对检测结果中异常值进行抑制,从而得到最终检测结果。
Description
技术领域
本发明属于图像信息技术处理领域,具体地涉及一种基于级联回归卷积神经网络的视频目标检测方法。
背景技术
目标识别是自动在图像中定位目标的方法,是计算机视觉领域的基础问题,在很多方面都有应用,例如监控、人机交互,和医疗辅助。早期的方法能够通过滑动窗口或者级联分类器有效地检测图像的单一类别的目标,例如人脸和行人,但无法检测多类的目标。
近年来,得益于卷积神经网络的发展,多类别目标检测技术得到了显著提升。其中基于区域的卷积神经网络由区域建议和区域分类组成,R-CNN将目标检测转化为分类问题,并且对Imagenet数据库上预训练的分类网络进行微调。
虽然对于目标检测已经有了很多研究工作,但是因为遮挡、形变、运动模糊、光照变化和复杂背景等因素的影响,视频中的目标检测更加具有挑战性。Faster R-CNN在卷积神经网络中引入了RPN网络,RPN网络与分类网络共享全图的卷积特征图谱,并且通过交替训练的方式进行训练,两者都是基于卷积特征的分类器。随着卷积神精网络分类性能的提升,Faster R-CNN准确率不断提高,但是将其应用于视频目标检测时面临着两大问题。首先,每一帧图像中RPN网络得到的区域(region)并不总是可靠的,因为视频中的目标急剧的外观变化会影响网络的召回率。其次,单独的区域分类无法融合视屏中的时空信息和上下文信息,使得视频较为模糊的目标得分过低,影响检测的性能。
发明内容
本发明的目的在于针对现有技术的缺陷,提供一种基于级联回归卷积神经网络的视频目标检测方法。
本发明的技术方案如下:一种基于级联回归卷积神经网络的视频目标检测方法,包括如下步骤:一、输入视频图像序列,并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征;二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域,通过多尺度的卷积特征对所述建议区域进行级联分类和回归,并得到每帧图像的静态图片检测结果;三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值,在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域,并对所述时序建议区域进行级联分类和回归,得到时序检测结果;四、将所述静态图片检测结果和所述时序检测结果通过共生矩阵对检测结果中异常值进行抑制,从而得到最终检测结果。
优选地,在步骤二中具体包括如下步骤:所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量,再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归,判断输出ancher是否为object区域的分类结果和边界框的参数,并将得到的分类结果按置信度排序,选择置信度靠前的框作为建议区域;在级联分类和回归网络中对所述建议区域进行分类和对边界框的参数进行调整,根据所述建议区域的像素值选择不同层的卷积特征,并在此过程中得到每帧图像的静态图片检测结果。
优选地,在步骤二中,当所述建议区域在原图中大于56个相像素值时,选择所述CNN特征中的conv5-3卷积特征;当所述建议区域在原图中小于56个像素值时,选择所述CNN特征中的conv 4-3卷积特征。
优选地,在步骤三中,从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征,其尺寸为w×h×d;其中,w、h分别表示区域的高度和宽度,d表示通道的数量;所述相关滤波的搜索视野是整个裁剪出多通道特征x,并且对于每个位置,都有一个相应的高斯分布函数:
其中,高斯核宽度σ大小设置为0.1。
优选地,高斯核通过求解最小化问题得到:
其中λ是正则化参数,且λ=10-4;
通过每个通道的快速傅里叶变换求解所述高斯核,并且在频域中的第k个通道的相关滤波器表示为:
其中,Y是y的傅里叶变化,是x的傅里叶变换的复共轭,⊙表示对应元素相乘。
优选地,在步骤三中,对目标位移的估计转化为对于响应图上最大值的搜索,
如果给定下一帧的卷积特征的一部分特征z,设定特征z的大小为W×H×D;其中,W、H分别表示区域的高度和宽度,D表示通道的数量,则响应图通过傅里叶逆变换得到:
其中,Rk为在频域中的第k个通道的相关滤波器,是z的傅里叶变换的复共轭。
优选地,相关滤波器Rk通过如下方式更新:
其中A0和B0是从置信度靠前的检测结果中学到的每一类的初始化参数,μ是时序更新率,且μ=0.01。
优选地,在步骤四中,将置信度大于0.6且在整个视频中分布最为广泛的检测结果作为视频的显著类别,并将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。
优选地,在步骤四中,所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果,并且步骤四具体包括如下步骤:
通过共生矩阵,对所述初步检测结果中的异常值进行抑制,如果目标类别与显著类别冲突,则将所述目标类别的检测置信度减半;
在进行异常值抑制后,对所述初步检测结果进行非极大值抑制,得到最终检测结果。
本发明提供的技术方案具有如下有益效果:
所述基于级联回归卷积神经网络的视频目标检测方法通过RPN网络产生建议区域,并且通过相关滤波基于置信度较高帧的结果向前后做跟踪,并通过级联回归网络分类建议区域和回归限定框的方法进一步提高目标定位的效果,且还辅助以共生矩阵的引入,实现对检测结果中的异常情况的抑制,因此在鲁棒性和精度上取得了良好的效果,能够处理视频目标检测中出现的遮挡、形变、快速运动等挑战。
附图说明
图1为本发明实施例提供的基于级联回归卷积神经网络的视频目标检测方法的流程示意图;
图2为图1所示基于级联回归卷积神经网络的视频目标检测方法涉及的区域分类和边界框回归网络的示意图;
图3为图1所示基于级联回归卷积神经网络的视频目标检测方法涉及的级联区域回归网络的示意图;
图4为图1所示基于级联回归卷积神经网络的视频目标检测方法涉及的训练集、确认集、训练集和确认集、二值化共生矩阵的可视化示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
请参阅图1和图2,本发明实施例提供的基于级联回归卷积神经网络的视频目标检测方法融合了视频序列的空间信息和时序信息,通过级联回归分类和回归网络提高网络的分类准确率和边界框的精确度。
具体地,所述基于级联回归卷积神经网络的视频目标检测方法包括如下步骤:
一、输入视频图像序列,并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征。
二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域,通过多尺度的卷积特征对所述建议区域进行级联分类和回归,并得到每帧图像的静态图片检测结果。
具体地,在步骤二中具体包括如下步骤:
所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量,再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归,判断输出ancher是否为object区域的分类结果和边界框的参数,并将得到的分类结果按置信度排序,选择置信度靠前的框作为建议区域,其中,ancher区域是人为预设的对图像区域的划分,object区域是包含要检测目标的区域,例如其中有人、车等检测目标。
在级联分类和回归网络中对所述建议区域进行分类和对边界框的参数进行调整,根据所述建议区域的像素值选择不同层的卷积特征,并在此过程中得到每帧图像的静态图片检测结果。
需要说明的是,在步骤二中,将得到的分类结果按置信度排序后,可以选择置信度前300的框作为建议区域;
而且,在级联分类和回归网络中,由于区域敏感的特征能够得到更精确的定位结果,本发明中训练了多个级联区域回归网络来使用不同的卷积特征调整检测结果。例如,如图3所示,通过自适应池化将卷积特征转化为固定长度(7×7×512),并且在多层感知机前增加两个3×3的卷积层。需要说明的是,为了训练该模型,所述基于级联回归卷积神经网络的视频目标检测方法针对不同网络生成了一系列训练集,每个训练集与真实值有不同的大小的IoU。
而且,在步骤二的通过多尺度的卷积特征对所述建议区域进行级联分类和回归的过程中,根据所述建议区域的像素值选择不同层的卷积特征:
当所述建议区域在原图中大于56个相像素值时,选择所述CNN特征中的conv5-3卷积特征;当所述建议区域在原图中小于56个像素值时,选择所述CNN特征中的conv 4-3卷积特征。
三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值,在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域,并对所述时序建议区域进行级联分类和回归,得到时序检测结果。
具体地,在步骤三中,使用相关滤波来生成具有较大外观变化的时序建议区域,相关滤波通过学习生成模型,以滑动窗口方式在特征图上寻找最大响应区域来估计目标位移。而且,相关滤波的初始化位置是置信度大于0.6的检测结果,并以初始化帧为基准向前后帧进行传播。
需要说明的是,在步骤三中,从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征x,其尺寸为w×h×d;其中,w、h分别表示区域的高度和宽度,d表示通道的数量。而且,所示多通道特征x的大小是跟踪目标的两倍。
所述相关滤波的搜索视野是整个裁剪出多通道特征x,并且对于每个位置,都有一个相应的高斯分布函数:
其中,高斯核宽度σ大小设置为0.1。
所述高斯核通过求解最小化问题得到:
其中,λ是正则化参数,且λ=10-4。
通过所述多通道特征x中每个通道的快速傅里叶变换求解所述高斯核,并且在频域中的第k个通道的相关滤波器表示为:
其中,Y是y的傅里叶变化,是x的傅里叶变换的复共轭,⊙表示对应元素相乘。
在本实施例中,在步骤三中,对目标位移的估计转化为对于响应图上最大值的搜索。因此,如果给定下一帧的卷积特征的一部分特征z,设定特征z的大小为W×H×D;其中,W、H分别表示区域的高度和宽度,D表示通道的数量,则响应图通过傅里叶逆变换得到:
其中,Rk为在频域中的第k个通道的相关滤波器,是z的傅里叶变换的复共轭。
由于时序建议区域的初始化是针对各个类别的,本发明中将每一类的先验知识融合到模型中。从视频中选择高置信度的时序检测结果(得分高于0.6),并且保留各帧中最为相似的结果。这些时序检测结果根据距离初始化帧的时序距离分配归一化的参数。相关滤波器根据这些样本来进行更新。最终,时序建议区域通过在整个视频上向前和向后跟踪得到。其中,相关滤波器Rk通过如下方式更新:
其中A0和B0是从置信度靠前的时序检测结果中学到的每一类的先验知识,μ是时序更新率,且μ=0.01。通过上述方式可以保持相关滤波器的生成特性,并且通过逐渐更新相关滤波器来适应外观的变化。
由于不同的图像帧中,目标的尺度大小不同,但是相关滤波要求相关滤波器的大小不变,因此,本发明中对卷积特征图谱大小进行变换,使得目标的尺度保持不变。在本实施例中,将conv5-3卷积特征用于构建时序建议区域。
四、将所述静态图片检测结果和所述时序检测结果通过共生矩阵对检测结果中异常值进行抑制,从而得到最终检测结果。
具体地,所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果。而且,将置信度大于0.6且在整个视频中分布最为广泛的初始检测结果作为视频的显著类别。
需要说明的是,步骤四中,为了提高检测的正确率,利用上下文信息,包括视频的全局特征和检测目标之间的依赖关系进行异常值的抑制,例如,羊和牛常常是经常一起出现的,但是狮子和鲸鱼几乎不同时出现。
实际上,场景上下文信息是目标检测中的重要线索,一些特殊的类与场景有着很强的相关性,比如羊与草地之间的相关性,因此,在本发明中将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。
具体地,步骤四具体包括如下步骤:
通过共生矩阵,对所述初步检测结果中的异常值进行抑制,如果目标类别与显著类别冲突,则将所述目标类别的检测置信度减半;
在进行异常值抑制后,对所述初步检测结果进行非极大值抑制,得到最终检测结果。
例如,选择训练集和确认集中的所有多目标图像帧,训练集中有336219多目标的图像帧,确认集中有53192多目标图像帧,所有目标之间的共生关系如图4所示。编码共生矩阵的简单方式是使用概率图模型,由于本发明得到了视频的显著类别,因此可以将上下文模型简化为二值共生矩阵。
而且,在视频的显著类别确定后,从共生矩阵中将冲突类别选择出来,并将冲突的类别的置信度降低为一半,从而进行最后的极大值抑制环节,进而得到最终检测结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:包括如下步骤:
一、输入视频图像序列,并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征;
二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域,通过多尺度的卷积特征对所述建议区域进行级联分类和回归,并得到每帧图像的静态图片检测结果;
三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值,在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域,并对所述时序建议区域进行级联分类和回归,得到时序检测结果;
四、将所述静态图片检测结果和所述时序检测结果通过共生矩阵对检测结果中异常值进行抑制,从而得到最终检测结果。
2.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤二中具体包括如下步骤:
所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量,再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归,输出ancher是否为object区域的分类结果和边界框的参数,并将得到的分类结果按置信度排序,选择置信度靠前的框作为建议区域;
在级联分类和回归网络中对所述建议区域进行分类和对边界框的参数进行调整,根据所述建议区域的像素值选择不同层的卷积特征,并在此过程中得到每帧图像的静态图片检测结果。
3.根据权利要求2所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤二中,当所述建议区域在原图中大于56个相像素值时,选择所述CNN特征中的conv5-3卷积特征;当所述建议区域在原图中小于56个像素值时,选择所述CNN特征中的conv 4-3卷积特征。
4.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤三中,从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征x,其尺寸为w×h×d;其中,w、h分别表示区域的高度和宽度,d表示通道的数量;
所述相关滤波的搜索视野是整个裁剪出多通道特征x,并且对于每个位置,都有一个相应的高斯分布函数:
<mrow>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mfrac>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>-</mo>
<mi>w</mi>
<mo>/</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>-</mo>
<mi>h</mi>
<mo>/</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
</mrow>
</msup>
<mo>,</mo>
</mrow>
其中,高斯核宽度σ大小设置为0.1,其中,i,j均为正整数,表示x中的坐标。
5.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:高斯核r*通过求解最小化问题得到:
<mrow>
<msup>
<mi>r</mi>
<mo>*</mo>
</msup>
<mo>=</mo>
<mi>arg</mi>
<mi> </mi>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>H</mi>
</mrow>
</munderover>
<mo>|</mo>
<mo>|</mo>
<mi>r</mi>
<mo>&CenterDot;</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>r</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
</mrow>
其中λ是正则化参数,且λ=10-4;
通过每个通道的快速傅里叶变换求解所述高斯核,并且在频域中的第k个通道的相关滤波器表示为:
其中,Y是y的傅里叶变化,是x的傅里叶变换的复共轭,表示对应元素相乘。
6.根据权利要求5所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤三中,对目标位移的估计转化为对于响应图上最大值的搜索,
如果给定下一帧的卷积特征的一部分特征z,设定特征z的大小为W×H×D;其中,W、H分别表示区域的高度和宽度,D表示通道的数量,则响应图通过傅里叶逆变换得到:
其中,Rk为在频域中的第k个通道的相关滤波器,k为正整数,是z的傅里叶变换的复共轭。
7.根据权利要求5或6所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:相关滤波器Rk通过如下方式更新:
<mrow>
<msubsup>
<mi>R</mi>
<mi>t</mi>
<mi>k</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<msubsup>
<mi>A</mi>
<mi>t</mi>
<mi>k</mi>
</msubsup>
<mrow>
<msubsup>
<mi>B</mi>
<mi>t</mi>
<mi>k</mi>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中A0和B0是从置信度靠前的时序检测结果中学到的每一类的初始参数,μ是时序更新率,且μ=0.01。
8.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤四中,所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果;
将置信度大于0.6且在整个视频中分布最为广泛的初始检测结果作为视频的显著类别,并将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。
9.根据权利要求8所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:步骤四具体包括如下步骤:
通过共生矩阵,对所述初步检测结果中的异常值进行抑制,如果目标类别与显著类别冲突,则将所述目标类别的检测置信度减半;
在进行异常值抑制后,对所述初步检测结果进行非极大值抑制,得到最终检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422447.8A CN108062531B (zh) | 2017-12-25 | 2017-12-25 | 一种基于级联回归卷积神经网络的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422447.8A CN108062531B (zh) | 2017-12-25 | 2017-12-25 | 一种基于级联回归卷积神经网络的视频目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108062531A true CN108062531A (zh) | 2018-05-22 |
CN108062531B CN108062531B (zh) | 2021-10-19 |
Family
ID=62140028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711422447.8A Active CN108062531B (zh) | 2017-12-25 | 2017-12-25 | 一种基于级联回归卷积神经网络的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108062531B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145770A (zh) * | 2018-08-01 | 2019-01-04 | 中国科学院合肥物质科学研究院 | 一种基于多尺度特征融合网络与定位模型相结合的麦蜘蛛自动计数方法 |
CN109166106A (zh) * | 2018-08-02 | 2019-01-08 | 山东大学 | 一种基于滑动窗口的目标检测位置矫正方法和装置 |
CN109190581A (zh) * | 2018-09-17 | 2019-01-11 | 金陵科技学院 | 图像序列目标检测识别方法 |
CN109255351A (zh) * | 2018-09-05 | 2019-01-22 | 华南理工大学 | 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 |
CN109284735A (zh) * | 2018-10-17 | 2019-01-29 | 思百达物联网科技(北京)有限公司 | 鼠情监控方法、装置、处理器及存储介质 |
CN109299703A (zh) * | 2018-10-17 | 2019-02-01 | 思百达物联网科技(北京)有限公司 | 对鼠情进行统计的方法、装置以及图像采集设备 |
CN109343692A (zh) * | 2018-09-18 | 2019-02-15 | 河南大学 | 基于图像分割的移动设备显示器省电方法 |
CN109508408A (zh) * | 2018-10-25 | 2019-03-22 | 北京陌上花科技有限公司 | 一种基于帧密度的视频检索方法及计算机可读存储介质 |
CN109977816A (zh) * | 2019-03-13 | 2019-07-05 | 联想(北京)有限公司 | 一种信息处理方法、装置、终端及存储介质 |
CN110059667A (zh) * | 2019-04-28 | 2019-07-26 | 上海应用技术大学 | 行人计数方法 |
CN110084829A (zh) * | 2019-03-12 | 2019-08-02 | 上海阅面网络科技有限公司 | 目标跟踪方法、装置、电子设备及计算机可读存储介质 |
CN110111358A (zh) * | 2019-05-14 | 2019-08-09 | 西南交通大学 | 一种基于多层时序滤波的目标跟踪方法 |
CN110443150A (zh) * | 2019-07-10 | 2019-11-12 | 思百达物联网科技(北京)有限公司 | 一种跌倒检测方法、装置、存储介质 |
CN110634151A (zh) * | 2019-08-01 | 2019-12-31 | 西安电子科技大学 | 一种单目标跟踪方法 |
CN111325708A (zh) * | 2019-11-22 | 2020-06-23 | 济南信通达电气科技有限公司 | 一种输电线路检测方法和服务器 |
CN111931686A (zh) * | 2020-08-26 | 2020-11-13 | 北京建筑大学 | 一种基于背景知识增强的视频卫星目标跟踪方法 |
CN112381021A (zh) * | 2020-11-20 | 2021-02-19 | 安徽一视科技有限公司 | 一种基于深度学习的人员检测计数方法 |
CN112560857A (zh) * | 2021-02-20 | 2021-03-26 | 鹏城实验室 | 文字区域边界检测方法、设备、存储介质及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090226044A1 (en) * | 2008-03-07 | 2009-09-10 | The Chinese University Of Hong Kong | Real-time body segmentation system |
CN104252629A (zh) * | 2013-06-26 | 2014-12-31 | 范钦雄 | 目标检测与追踪方法及系统 |
CN105719292A (zh) * | 2016-01-20 | 2016-06-29 | 华东师范大学 | 利用两层级联的Boosting分类算法实现视频目标跟踪的方法 |
CN106446933A (zh) * | 2016-08-31 | 2017-02-22 | 河南广播电视大学 | 基于上下文信息的多目标检测方法 |
CN107368845A (zh) * | 2017-06-15 | 2017-11-21 | 华南理工大学 | 一种基于优化候选区域的Faster R‑CNN目标检测方法 |
-
2017
- 2017-12-25 CN CN201711422447.8A patent/CN108062531B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090226044A1 (en) * | 2008-03-07 | 2009-09-10 | The Chinese University Of Hong Kong | Real-time body segmentation system |
CN104252629A (zh) * | 2013-06-26 | 2014-12-31 | 范钦雄 | 目标检测与追踪方法及系统 |
CN105719292A (zh) * | 2016-01-20 | 2016-06-29 | 华东师范大学 | 利用两层级联的Boosting分类算法实现视频目标跟踪的方法 |
CN106446933A (zh) * | 2016-08-31 | 2017-02-22 | 河南广播电视大学 | 基于上下文信息的多目标检测方法 |
CN107368845A (zh) * | 2017-06-15 | 2017-11-21 | 华南理工大学 | 一种基于优化候选区域的Faster R‑CNN目标检测方法 |
Non-Patent Citations (2)
Title |
---|
HJL240: "基于相关滤波器的追踪(Correlation Filter-based Tracking)原理", 《HTTPS://BLOG.CSDN.NET/HJL240/ARTICLE/DETAILS/52174983》 * |
ZHE CHEN 等: "An Experimental Survey on Correlation Filter-based Tracking", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145770A (zh) * | 2018-08-01 | 2019-01-04 | 中国科学院合肥物质科学研究院 | 一种基于多尺度特征融合网络与定位模型相结合的麦蜘蛛自动计数方法 |
CN109166106A (zh) * | 2018-08-02 | 2019-01-08 | 山东大学 | 一种基于滑动窗口的目标检测位置矫正方法和装置 |
CN109166106B (zh) * | 2018-08-02 | 2021-07-30 | 山东大学 | 一种基于滑动窗口的目标检测位置矫正方法和装置 |
CN109255351A (zh) * | 2018-09-05 | 2019-01-22 | 华南理工大学 | 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 |
CN109255351B (zh) * | 2018-09-05 | 2020-08-18 | 华南理工大学 | 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 |
CN109190581A (zh) * | 2018-09-17 | 2019-01-11 | 金陵科技学院 | 图像序列目标检测识别方法 |
CN109190581B (zh) * | 2018-09-17 | 2023-05-30 | 金陵科技学院 | 图像序列目标检测识别方法 |
CN109343692A (zh) * | 2018-09-18 | 2019-02-15 | 河南大学 | 基于图像分割的移动设备显示器省电方法 |
CN109343692B (zh) * | 2018-09-18 | 2021-07-23 | 河南大学 | 基于图像分割的移动设备显示器省电方法 |
CN109299703B (zh) * | 2018-10-17 | 2020-02-21 | 思百达物联网科技(北京)有限公司 | 对鼠情进行统计的方法、装置以及图像采集设备 |
CN109284735A (zh) * | 2018-10-17 | 2019-01-29 | 思百达物联网科技(北京)有限公司 | 鼠情监控方法、装置、处理器及存储介质 |
CN109299703A (zh) * | 2018-10-17 | 2019-02-01 | 思百达物联网科技(北京)有限公司 | 对鼠情进行统计的方法、装置以及图像采集设备 |
CN109508408A (zh) * | 2018-10-25 | 2019-03-22 | 北京陌上花科技有限公司 | 一种基于帧密度的视频检索方法及计算机可读存储介质 |
CN110084829A (zh) * | 2019-03-12 | 2019-08-02 | 上海阅面网络科技有限公司 | 目标跟踪方法、装置、电子设备及计算机可读存储介质 |
CN109977816A (zh) * | 2019-03-13 | 2019-07-05 | 联想(北京)有限公司 | 一种信息处理方法、装置、终端及存储介质 |
CN110059667A (zh) * | 2019-04-28 | 2019-07-26 | 上海应用技术大学 | 行人计数方法 |
CN110111358A (zh) * | 2019-05-14 | 2019-08-09 | 西南交通大学 | 一种基于多层时序滤波的目标跟踪方法 |
CN110111358B (zh) * | 2019-05-14 | 2022-05-24 | 西南交通大学 | 一种基于多层时序滤波的目标跟踪方法 |
CN110443150A (zh) * | 2019-07-10 | 2019-11-12 | 思百达物联网科技(北京)有限公司 | 一种跌倒检测方法、装置、存储介质 |
CN110634151A (zh) * | 2019-08-01 | 2019-12-31 | 西安电子科技大学 | 一种单目标跟踪方法 |
CN110634151B (zh) * | 2019-08-01 | 2022-03-15 | 西安电子科技大学 | 一种单目标跟踪方法 |
CN111325708A (zh) * | 2019-11-22 | 2020-06-23 | 济南信通达电气科技有限公司 | 一种输电线路检测方法和服务器 |
CN111931686A (zh) * | 2020-08-26 | 2020-11-13 | 北京建筑大学 | 一种基于背景知识增强的视频卫星目标跟踪方法 |
CN111931686B (zh) * | 2020-08-26 | 2021-05-25 | 北京建筑大学 | 一种基于背景知识增强的视频卫星目标跟踪方法 |
CN112381021A (zh) * | 2020-11-20 | 2021-02-19 | 安徽一视科技有限公司 | 一种基于深度学习的人员检测计数方法 |
CN112381021B (zh) * | 2020-11-20 | 2022-07-12 | 安徽一视科技有限公司 | 一种基于深度学习的人员检测计数方法 |
CN112560857A (zh) * | 2021-02-20 | 2021-03-26 | 鹏城实验室 | 文字区域边界检测方法、设备、存储介质及装置 |
CN112560857B (zh) * | 2021-02-20 | 2021-06-08 | 鹏城实验室 | 文字区域边界检测方法、设备、存储介质及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108062531B (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062531A (zh) | 一种基于级联回归卷积神经网络的视频目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Shen et al. | Detection of stored-grain insects using deep learning | |
CN110033473B (zh) | 基于模板匹配和深度分类网络的运动目标跟踪方法 | |
CN106940816A (zh) | 基于3d全连接卷积神经网络的ct图像肺结节检测系统 | |
CN112837330A (zh) | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 | |
CN107665336A (zh) | 智能冰箱中基于Faster‑RCNN的多目标检测方法 | |
CN106709568A (zh) | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 | |
CN106780485A (zh) | 基于超像素分割和特征学习的sar图像变化检测方法 | |
CN107016357A (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN109241982A (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN107247930A (zh) | 基于cnn和选择性注意机制的sar图像目标检测方法 | |
CN111640136B (zh) | 一种复杂环境中的深度目标跟踪方法 | |
CN110826379B (zh) | 一种基于特征复用与YOLOv3的目标检测方法 | |
EP3566177A1 (en) | A method and apparatus for detecting objects of interest in images | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN107424171A (zh) | 一种基于分块的抗遮挡目标跟踪方法 | |
CN107274416A (zh) | 基于光谱梯度与层次结构的高光谱图像显著性目标检测方法 | |
CN108831530A (zh) | 基于卷积神经网络的菜品营养成分计算方法 | |
CN111368769A (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN106372597B (zh) | 基于自适应上下文信息的cnn交通检测方法 | |
CN108460336A (zh) | 一种基于深度学习的行人检测方法 | |
CN115937697A (zh) | 一种遥感影像变化检测方法 | |
Wang et al. | An efficient attention module for instance segmentation network in pest monitoring | |
CN113870157A (zh) | 一种基于CycleGAN的SAR图像合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |