CN111738211A - 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法 - Google Patents
基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法 Download PDFInfo
- Publication number
- CN111738211A CN111738211A CN202010695736.0A CN202010695736A CN111738211A CN 111738211 A CN111738211 A CN 111738211A CN 202010695736 A CN202010695736 A CN 202010695736A CN 111738211 A CN111738211 A CN 111738211A
- Authority
- CN
- China
- Prior art keywords
- frame
- moving object
- frames
- detection
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000000877 morphologic effect Effects 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012805 post-processing Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims 1
- 230000011218 segmentation Effects 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法。该方法包括:1.提取视频流中前、中、后相邻三帧的关键点特征并进行匹配,根据匹配点集,使用随机采样一致性算法计算单应性矩阵,剔除匹配置信度低的特征点对,然后通过单应性矩阵对前、后两帧图像进行投影变换,与中间帧进行配准;2.使用三帧差分运动目标检测算法提取候选区域,经形态学膨胀算子与最小凸包检测对运动目标进行粗定位;3.将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征,然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。
Description
技术领域
本发明涉及计算机视觉领域,具体而言,涉及一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法
背景技术
视频运动目标检测是计算机视觉的重要组成部分,它可以检测出视频中变化的区域,并将视频中的变化区域和运动目标提取出来,为目标分类、目标跟踪和行为分析等后续工作提供先验信息,但现有运动目标检测算法存在很多问题和极大局限性。帧间差分法是常用的运动目标检测与分割方法,其通过将前后两视频帧相减得到差分图像,然后通过阈值分割和形态学滤波提取运动目标的轮廓。帧间差分法的优点是算法简单,不易受环境光线影响,具有很好的实时性,但其不能用于运动的摄像头中;且无法识别静止或运动速度很慢的目标;运动目标表面有大面积灰度值相似区域的情况下,在做差分时图像会出现“空洞”、“双影”现象,在安防监控中,在设备有限的情况下,为扩大监控区域,多采用高清PTZ摄像机循环扫描对监控区域中的目标进行检测与识别,此时摄像机拍摄到的视频背景是动态变化的,此时不能直接采用帧间差分或者背景差分法对视频中运动的目标进行检测。同时,如果目标运动速度较快时,用帧间差分方法会出现在重影和空洞现象,不能准确提取无人机在画面中位置;另外由于树叶摇动、系统噪声等干扰会导致很多误检。
本发明创新性地提出一种基于动态背景补偿的运动目标检测与识别方法,首先对运动背景进行补偿,对前、中、后三帧进行配准,将动态背景中的运动目标检测转化为静止背景中运动目标检测,然后改进了三帧差分法提取运动目标候选区域,经形态学膨胀算子与最小凸包检测对运动目标进行粗定位,最后将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征,然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归,去除误检。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法。此方法属于两阶段目标检测,第一阶段提取候选区域,与传统的候选区域不同,本方法采用基于运动目标检测的候选区域方法,并采用动态背景补偿将动态背景中的运动目标检测转化为静态背景中的运动目标检测,快速地为第二阶段的目标检测提供了准确的候选区域;检测的第二阶段采用深度卷积神经网络对运动目标候选区域进行目标分类与位置回归。本发明可应用于对大范围监控区域进行循环扫描的PTZ摄像机,快速准确地对监控区域中的运动目标进行检测与识别。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,包括三个步骤,步骤一:提取视频流中前、中、后相邻三帧的关键点特征并进行匹配,根据匹配点集,使用随机采样一致性算法计算单应性矩阵,剔除匹配置信度低的特征点对,然后通过单应性矩阵对前、后两帧图像进行投影变换,与中间帧进行配准;步骤二:对于配准完的前、中、后三帧,采用三帧差分运动目标检测算法提取候选区域,使用形态学膨胀算子对候选区域进行后处理,结合最小凸包检测对运动目标进行粗定位;步骤三:将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征,然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。
针对步骤一中动态背景下运动目标候选区域提取,本发明先对前中后三帧视频图像进行图像尺度压缩,以减小计算复杂度,对压缩后的视频图像提取ORB(oriented FASTand rotated BRIEF)特征点,然后采用非极大值抑制去除聚集的特征点,对处理后的ORB特征点进行ORB特征描述,使用汉明距离进行特征点匹配,匹配后的对应点集为其中i∈{1,2,…,L},L为第m,n帧视频图像中匹配点的对数,为第m帧中第i个特征点的坐标,为剔除不良匹配点,利用随机采样一致性算法由公式(1)计算第m帧与第n帧的单应性矩阵剔除不良匹配点对单应性矩阵计算的影响。
其中通过以上计算过程分别计算第Ik-1帧与第Ik帧的单应性矩阵Hk|k-1和第Ik+1帧与第Ik帧的单应性矩阵Hk|k+1,然后根据公式(1)分别将前后帧(第Ik-1帧与第Ik+1)与中间帧第Ik帧配准,得到配准后的连续三帧Ik|k-1,Ik与Ik|k+1,将动态背景中的运动目标检测转化为静态背景中目标检测。
帧间差分法是常用的运动目标检测与分割方法,其通过将前后两视频帧相减得到差分图像,然后通过阈值分割和形态学滤波提取运动目标的轮廓,但当目标运动速度较快时,帧差后的图像会出现鬼影现象,导致误检增多,为缓解鬼影现象,在步骤二本发明对配准后的前中后三帧(分别用Ik|k-1,Ik,Ik|k+1表示)做三帧差分,计算过程如公式(2)、(3)、(4)所示:
D(x,y)=D1(x,y)∩D2(x,y) (4)
首先分别计算Ik|k-1与Ik的残差图,使用由实验确定的二值化阈值T将残差图二值化得到D1,对Ik与Ik|k+1采用相同的计算过程得到D2,对二值化图D1,D2做与运算(∩)得到三帧差分二值图D,其中(x,y)代表图像中的像素坐标,x=1,2...,M,y=1,2,...,N分别为像素的横纵坐标,M、N分别是图像的宽度和高度,为消除三帧差分二值图D中的孔洞与边缘裂缝,使用形态学膨胀算子对三帧差分二值图D进行处理并使用连通度检测算法获取二值图像中各个候选区域的轮廓区域集Ck={ci},i=1,…,T,T为第k帧中候选区域的数量,其中ci={zj},j=0,2,…,V,V为候选区域ci轮廓点的数量,zj=(xj,yj)为轮廓点的坐标,对每个轮廓区域进行最小凸包检测,其检测过程包括以下步骤:
(1)输入某轮廓点集c;
(2)选择c中坐标y最小的点作为基点z0(若有多个,选取其中x坐标最小的点);
(3)对z0与zi≠0构成的向量与x轴的夹角升序排列,得到{z1,z2,…,zV};
(4)将基点z0,z1,z2压入栈S;
(5)依次遍历从下标i=3到V的zi;
(6)判断Q1→Q2→zi构成的拆线是否为逆时针旋转,其中Q1,Q2分别为S的第二栈顶元素和栈顶元素;
(7)若Q1→Q2→zi顺时针旋转,Q2出栈,更新Q1,Q2,执行步骤(6);
(8)若Q1→Q2→zi逆时针旋转,将zi压入栈S,判断下标i是否大于V,若是,结束循环,若不是下标i自增1,执行步骤(6);
(9)返回栈S;
栈S中的轮廓点集即为最小凸包的顶点,由此得到每个运动目标候选区域的凸包,并由凸包得到最小外接矩形,作为下一步深度卷积神经网络的输入。
在步骤三中,本发明先生成步骤二中运动目标候区域的背景上下文,这里的背景上下文指的是以候选区域为中心,向外扩展2.5倍的图像块,将候选区域与其相对应的上下文信息分两路输入到深度卷积神经网络,其中特征提取主干网络为resnet50,经特征提取、特征向量拼接后,分成两条分支,一个分支负责目标分类,另一个分支负责精细位置回归。
本发明的有益效果在于:
1.设计了一种快速准确的候选区域提取方法,利用特征点匹配背景补偿算法将动态背景中的运动目标检测转化为静态背景下的运动目标检测;
2.改进了帧间差分法,消除了由于目标快速运动引起的鬼影现象,并使用形态学膨胀算子与最小凸集运算消除了空洞,平滑了候选区域的边缘,检测结果轮廓清晰,无空洞和重影现象,计算速度快,精度高,鲁棒性强;
3.加入背景上下文信息进行检测,使分类结果和位置回归更加准确;
4.本发明可应用于对大范围监控区域进行循环扫描的PTZ摄像机,快速准确地对监控区域中的运动目标进行检测与识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法流程图;
图2示出了视频帧的ORB特征点提取结果与相邻帧之间的匹配效果图;
图3示出运动背景补偿前后经帧间差分法后二值化分割图,图3(a)为运动背景补偿前的帧间差分法检测效果图,图3(b)为运动背景补偿后的帧间差分法检测效果图;
图4示出帧间差分法(左)与三帧差分法(右)的流程示意图;
图5示出了运动目标分割结果比较图,图5(a)为原视频帧,图5(b)为手动标注了分割真实值,图5(c)为无后处理的帧间差分二值化图,图5(d)为应用形态学及最小凸集运算后的帧间差分二值化分割图,图5(e)为无后处理的三帧差分二值化图,图5(f)为应用形态学及最小凸集运算后的三帧差分二值化分割图;
图6示出了结合背景上下文的深度卷积神经网络目标检测算法流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
图1示出了基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法流程图;根据本公开实施例的一个方面,提供了一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,包括三个步骤,步骤一:提取视频流中前、中、后相邻三帧的关键点特征并进行匹配,根据匹配点集,使用随机采样一致性算法计算单应性矩阵,剔除匹配置信度低的特征点对,然后通过单应性矩阵对前、后两帧图像进行投影变换,与中间帧进行配准;步骤二:对于配准完的前、中、后三帧,采用三帧差分运动目标检测算法提取候选区域,使用形态学膨胀算子对候选区域进行后处理,结合最小凸包检测对运动目标进行粗定位;步骤三:将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征,然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。
针对步骤一中动态背景下运动目标候选区域提取,本发明先对前中后三帧视频图像进行图像尺度压缩,以减小计算复杂度,对压缩后的视频图像提取ORB(oriented FASTand rotated BRIEF)特征点,然后采用非极大值抑制去除聚集的特征点,对处理后的ORB特征点进行ORB特征描述,使用汉明距离进行特征点匹配,匹配后的对应点集为其中i∈{1,2,…,L},L为第m,n帧视频图像中匹配点的对数,为第m帧中第i个特征点的坐标,为剔除不良匹配点,利用随机采样一致性算法由公式(1)计算第m帧与第n帧的单应性矩阵剔除不良匹配点对单应性矩阵计算的影响。
其中通过以上计算过程分别计算第Ik-1帧与第Ik帧的单应性矩阵Hk|k-1和第Ik+1帧与第Ik帧的单应性矩阵Hk|k+1,然后根据公式(1)分别将前后帧(第Ik-1帧与第Ik+1)与中间帧第Ik帧配准,得到配准后的连续三帧Ik|k-1,Ik与Ik|k+1,将动态背景中的运动目标检测转化为静态背景中目标检测,图2示出了视频帧的ORB特征点提取结果与相邻帧之间的匹配效果图,图3示出运动背景补偿前后经帧间差分法处理后的二值化分割图,图3(a)为运动背景补偿前的帧间差分法检测效果图,图3(b)为运动背景补偿后的帧间差分法检测效果图。
帧间差分法是常用的运动目标检测与分割方法,其通过将前后两视频帧相减得到差分图像,然后通过阈值分割和形态学滤波提取运动目标的轮廓,但当目标运动速度较快时,帧差后的图像会出现鬼影现象,导致误检增多,为消除鬼影现象,在步骤二本发明对配准后的前中后三帧(分别用Ik|k-1,IK,Ik|k+1表示)做三帧差分,计算过程如公式(2)、(3)、(4)所示:
D(x,y)=D1(x,y)∩D2(x,y) (4)
首先分别计算Ik|k-1与Ik的残差图,使用由实验确定的二值化阈值T将残差图二值化得到D1,对Ik与Ik|k+1采用相同的计算过程得到D2,对二值化图D1,2做与运算(∩)得到三帧差分二值图D,其中(x,y)代表图像中的像素坐标,x=1,2...,,y=1,2,...,分别为像素的横纵坐标,M、N分别是图像的宽度和高度,为消除三帧差分二值图D中的孔洞与边缘裂缝,使用形态学膨胀算子对三帧差分二值图D进行处理并使用连通度检测算法获取二值图像中各个候选区域的轮廓区域集Ck={ci},i=1,…,T,T为第k帧中候选区域的数量,其中ci={zj},j=0,2,…,V,V为候选区域ci轮廓点的数量,zj=(xj,yj)为轮廓点的坐标,对每个轮廓区域进行最小凸包检测,其检测过程包括以下步骤:
(1)输入某轮廓点集c;
(2)选择c中坐标y最小的点作为基点z0(若有多个,选取其中x坐标最小的点);
(3)对z0与zi≠0构成的向量与x轴的夹角升序排列,得到{z1,z2,…,zV};
(4)将基点z0,z1,z2压入栈S;
(5)依次遍历从下标i=3到V的zi;
(6)判断Q1→Q2→zi构成的拆线是否为逆时针旋转,其中Q1,Q2分别为S的第二栈顶元素和栈顶元素;
(7)若Q1→Q2→zi顺时针旋转,Q2出栈,更新Q1,Q2,执行步骤(6);
(8)若Q1→Q2→zi逆时针旋转,将zi压入栈S,判断下标i是否大于V,若是,结束循环,若不是下标i自增1,执行步骤(6);
(9)返回栈S;
栈S中的轮廓点集即为最小凸包的顶点,由此得到每个运动目标候选区域的凸包,并由凸包得到最小外接矩形,作为下一步深度卷积神经网络的输入。图4示出帧间差分法(左)与三帧差分法(右)的流程示意图,图5示出了运动目标分割结果比较图。图5(a)为原视频帧,图5(b)为手动标注了分割真实值,图5(c)为无后处理的帧间差分二值化图,图5(d)为应用形态学及最小凸集运算后的帧间差分二值化分割图,图5(e)为无后处理的三帧差分二值化图,图5(f)为应用形态学及最小凸集运算后的三帧差分二值化分割图。
在步骤三中,本发明先生成步骤二中运动目标候区域的背景上下文,这里的背景上下文指的是以候选区域为中心,向外扩展2.5倍的图像块,将候选区域与其相对应的上下文信息分两路输入到卷积神经网络,其中特征提取主干网络为resnet50,经特征提取、特征向量拼接后,分成两条分支,一个分支负责目标分类,由softmax层输出目标属于各个类别的概率,另一个分支负责精细位置回归,输出检测框的位置与长宽,由x*,y*,w*,h*表示,其中x*,y*为检测框的中心点坐标,w*,h*为检测框的长与宽。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (5)
1.一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,其特征在于,包括以下步骤:
步骤一:提取视频流中前、中、后相邻三帧的关键点特征并进行匹配,根据匹配点集,使用随机采样一致性算法计算单应性矩阵,剔除匹配置信度低的特征点对,然后通过单应性矩阵对前、后两帧图像进行投影变换,与中间帧进行配准;
步骤二:对于配准完的前、中、后三帧,使用三帧差分运动目标检测算法提取候选区域,使用形态学膨胀算子对候选区域进行后处理,结合最小凸包检测对运动目标进行粗定位;
步骤三:将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征,然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。
2.如权利要求1所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,其特征在于,所述步骤一中,对前中后三帧视频图像进行图像尺度压缩,对压缩后的视频图像提取ORB特征点,采用非极大值抑制去除聚集的特征点,对处理后的ORB特征点进行ORB特征描述,使用汉明距离进行特征点匹配,匹配后的对应点集为其中i∈{1,2,…,L},L为第m,n帧视频图像中匹配点的对数,为第m帧中第i个特征点的坐标,为剔除不良匹配点,利用随机采样一致性算法由公式(1)计算第m帧与第n帧的单应性矩阵剔除不良匹配点对单应性矩阵计算的影响。
3.如权利要求1所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,其特征在于,所述步骤二中对由步骤一配准后的前中后三帧(分别用Ik|k-1,Ik,Ik|k+1表示)做三帧差分,计算过程如公式(2)、(3)、(4)所示:
D(x,y)=D1(x,y)∩D2(x,y) (4)
首先分别计算Ik|k-1与Ik的残差图,使用由实验确定的二值化阈值T将残差图二值化得到D1,对Ik与Ik|k+1采用相同的计算过程得到D2,对二值化图D1,D2做与运算(∩)得到三帧差分二值图D,其中(x,y)代表图像中的像素坐标,x=1,2...,M,y=1,2,...,N分别为像素的横纵坐标,M、N分别是图像的宽度和高度,为消除三帧差分二值图D中的孔洞与边缘裂缝,使用形态学膨胀算子对三帧差分二值图D进行处理并使用连通度检测算法获取二值图像中各个候选区域的轮廓区域集Ck={ci},i=1,…,T,T为第k帧中候选区域的数量,其中ci={zj},j=0,2,…,V,V为候选区域ci轮廓点的数量,zj=(xj,yj)为轮廓点的坐标,对每个轮廓区域进行最小凸包检测。
4.如权利要求3所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,其特征在于,最小凸包检测过程包括以下步骤:
(1)输入某轮廓点集c;
(2)选择c中坐标y最小的点作为基点z0(若有多个,选取其中x坐标最小的点);
(3)对z0与zi≠0构成的向量与x轴的夹角升序排列,得到{z1,z2,…,zV};
(4)将基点z0,z1,z2压入栈S;
(5)依次遍历从下标i=3到V的zi;
(6)判断Q1→Q2→zi构成的拆线是否为逆时针旋转,其中Q1,Q2分别为S的第二栈顶元素和栈顶元素;
(7)若Q1→Q2→zi顺时针旋转,Q2出栈,更新Q1,Q2,执行步骤(6);
(8)若Q1→Q2→zi逆时针旋转,将zi压入栈S,判断下标i是否大于V,若是,结束循环,若不是下标i自增1,执行步骤(6);
(9)返回栈S;
栈S中的轮廓点集即为最小凸包的顶点,由此得到每个运动目标候选区域的凸包,并由凸包得到最小外接矩形,作为下一步深度卷积神经网络的输入。
5.如权利要求1所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法,其特征在于,所述步骤三中对由步骤二生成运动目标候区域的背景上下文,这里的背景上下文指的是以候选区域为中心,向外扩展2.5倍的图像块,将候选区域与其相对应的上下文信息分两路输入到深度卷积神经网络中,经特征提取、特征向量拼接后,分成两条支路,一个分支负责目标分类,另一个分支负责精细位置回归。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695736.0A CN111738211B (zh) | 2020-07-17 | 2020-07-17 | 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010695736.0A CN111738211B (zh) | 2020-07-17 | 2020-07-17 | 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738211A true CN111738211A (zh) | 2020-10-02 |
CN111738211B CN111738211B (zh) | 2023-12-19 |
Family
ID=72655019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010695736.0A Active CN111738211B (zh) | 2020-07-17 | 2020-07-17 | 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738211B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801032A (zh) * | 2021-02-22 | 2021-05-14 | 西南科技大学 | 一种用于运动目标检测的动态背景匹配方法 |
CN112954274A (zh) * | 2021-02-04 | 2021-06-11 | 三亚海兰寰宇海洋信息科技有限公司 | 一种用于船舶的视频抓拍方法及系统 |
CN113192057A (zh) * | 2021-05-21 | 2021-07-30 | 上海西井信息科技有限公司 | 目标检测方法、系统、设备及存储介质 |
CN115984634A (zh) * | 2023-03-20 | 2023-04-18 | 摩尔线程智能科技(北京)有限责任公司 | 图像检测方法、装置、设备、存储介质和程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184552A (zh) * | 2011-05-11 | 2011-09-14 | 上海理工大学 | 一种基于差分融合与图像边缘信息的运动目标检测方法 |
WO2016086754A1 (zh) * | 2014-12-03 | 2016-06-09 | 中国矿业大学 | 一种大场景视频图像拼接方法 |
CN106846359A (zh) * | 2017-01-17 | 2017-06-13 | 湖南优象科技有限公司 | 基于视频序列的运动目标快速检测方法 |
CN108109163A (zh) * | 2017-12-18 | 2018-06-01 | 中国科学院长春光学精密机械与物理研究所 | 一种航拍视频的运动目标检测方法 |
CN108154520A (zh) * | 2017-12-25 | 2018-06-12 | 北京航空航天大学 | 一种基于光流与帧间匹配的运动目标检测方法 |
CN108985170A (zh) * | 2018-06-15 | 2018-12-11 | 山东信通电子股份有限公司 | 基于三帧差分法及深度学习的输电线路悬挂物识别方法 |
CN111209920A (zh) * | 2020-01-06 | 2020-05-29 | 桂林电子科技大学 | 一种复杂动态背景下飞机检测方法 |
-
2020
- 2020-07-17 CN CN202010695736.0A patent/CN111738211B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184552A (zh) * | 2011-05-11 | 2011-09-14 | 上海理工大学 | 一种基于差分融合与图像边缘信息的运动目标检测方法 |
WO2016086754A1 (zh) * | 2014-12-03 | 2016-06-09 | 中国矿业大学 | 一种大场景视频图像拼接方法 |
CN106846359A (zh) * | 2017-01-17 | 2017-06-13 | 湖南优象科技有限公司 | 基于视频序列的运动目标快速检测方法 |
CN108109163A (zh) * | 2017-12-18 | 2018-06-01 | 中国科学院长春光学精密机械与物理研究所 | 一种航拍视频的运动目标检测方法 |
CN108154520A (zh) * | 2017-12-25 | 2018-06-12 | 北京航空航天大学 | 一种基于光流与帧间匹配的运动目标检测方法 |
CN108985170A (zh) * | 2018-06-15 | 2018-12-11 | 山东信通电子股份有限公司 | 基于三帧差分法及深度学习的输电线路悬挂物识别方法 |
CN111209920A (zh) * | 2020-01-06 | 2020-05-29 | 桂林电子科技大学 | 一种复杂动态背景下飞机检测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954274A (zh) * | 2021-02-04 | 2021-06-11 | 三亚海兰寰宇海洋信息科技有限公司 | 一种用于船舶的视频抓拍方法及系统 |
CN112801032A (zh) * | 2021-02-22 | 2021-05-14 | 西南科技大学 | 一种用于运动目标检测的动态背景匹配方法 |
CN112801032B (zh) * | 2021-02-22 | 2022-01-28 | 西南科技大学 | 一种用于运动目标检测的动态背景匹配方法 |
CN113192057A (zh) * | 2021-05-21 | 2021-07-30 | 上海西井信息科技有限公司 | 目标检测方法、系统、设备及存储介质 |
CN115984634A (zh) * | 2023-03-20 | 2023-04-18 | 摩尔线程智能科技(北京)有限责任公司 | 图像检测方法、装置、设备、存储介质和程序产品 |
CN115984634B (zh) * | 2023-03-20 | 2023-09-12 | 摩尔线程智能科技(北京)有限责任公司 | 图像检测方法、装置、设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111738211B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738211B (zh) | 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法 | |
CN105279772B (zh) | 一种红外序列图像的可跟踪性判别方法 | |
Shrenika et al. | Sign language recognition using template matching technique | |
WO2015066984A1 (zh) | 一种面向复杂背景的光学字符识别方法及装置 | |
CN109242032B (zh) | 一种基于深度学习的目标检测方法 | |
CN113592911A (zh) | 表观增强深度目标跟踪方法 | |
CN111696090B (zh) | 一种无约束环境下人脸图像质量评估方法 | |
CN110991398A (zh) | 一种基于改进步态能量图的步态识别方法及系统 | |
CN117372706A (zh) | 一种多尺度可变形的人物交互关系检测方法 | |
CN116051820A (zh) | 基于多模板的单目标检测方法 | |
CN111914627A (zh) | 一种车辆识别与追踪方法及装置 | |
Angelo | A novel approach on object detection and tracking using adaptive background subtraction method | |
CN107292910B (zh) | 一种基于像素建模的移动相机下运动目标检测方法 | |
CN104200455B (zh) | 一种基于运动统计特征分析的关键姿态提取方法 | |
CN113723188A (zh) | 一种结合人脸与步态特征的着装一致人员身份核验方法 | |
CN109102520A (zh) | 基于模糊均值聚类与卡尔曼滤波跟踪相结合的运动目标检测方法 | |
CN106446832B (zh) | 一种基于视频的实时检测行人的方法 | |
CN112184619A (zh) | 一种基于深度学习的金属部件表面缺陷检测方法 | |
CN107437257A (zh) | 一种移动背景下的运动物体检测与分割方法 | |
CN116051869A (zh) | 融合ovr-svm和psnr相似度的图像标签匹配方法及系统 | |
JP7253967B2 (ja) | 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム | |
CN107451574B (zh) | 一种基于类Haar视觉特征感知的运动估计方法 | |
CN112258548B (zh) | 基于改进ViBe算法的运动目标提取方法 | |
CN110781769A (zh) | 一种快速行人检测与跟踪的方法 | |
Hu et al. | Video text detection with text edges and convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |