CN108804981A - 基于长时间视频序列背景建模框架的运动目标检测方法 - Google Patents

基于长时间视频序列背景建模框架的运动目标检测方法 Download PDF

Info

Publication number
CN108804981A
CN108804981A CN201710298485.0A CN201710298485A CN108804981A CN 108804981 A CN108804981 A CN 108804981A CN 201710298485 A CN201710298485 A CN 201710298485A CN 108804981 A CN108804981 A CN 108804981A
Authority
CN
China
Prior art keywords
background
subclass
long
sorted
moving target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710298485.0A
Other languages
English (en)
Other versions
CN108804981B (zh
Inventor
丁洁
肖江剑
宋康康
彭成斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute of Material Technology and Engineering of CAS
Original Assignee
Ningbo Institute of Material Technology and Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute of Material Technology and Engineering of CAS filed Critical Ningbo Institute of Material Technology and Engineering of CAS
Priority to CN201710298485.0A priority Critical patent/CN108804981B/zh
Publication of CN108804981A publication Critical patent/CN108804981A/zh
Application granted granted Critical
Publication of CN108804981B publication Critical patent/CN108804981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于长时间视频序列背景建模框架的运动目标检测方法,其包括如下步骤:(a)通过固定式全景摄像机获取长时间全景视频;(b)对所述长时间全景视频进行解码处理,并通过栈式自编码神经网络对处理后的长时间全景视频进行合理描述,得到多个背景描述子;(c)通过聚类组织所述背景描述子,获取典型背景描述子,并将典型背景描述子以层次树的形式进行组织得到背景词袋;(d)采用ViBe背景建模方法对该背景词袋进行融合处理,得到背景建模框架,进而获得背景模型,再通过该背景模型对运动目标进行检测。

Description

基于长时间视频序列背景建模框架的运动目标检测方法
技术领域
本发明涉及计算机视觉技术和机器学习技术,特别涉及一种基于长时间视频序列背景建模框架的运动目标检测方法。
背景技术
在视频监控领域中,摄像机的应用越来越广泛。在视频监控中的一个重要的问题是如何通过背景建模得到运动目标。
现有的背景模型主要分为基于时域信息的模型和基于时空域信息融合的模型。基于时域信息的模型通常利用过去一小段时间内像素的统计特性来预测该像素短期未来的状态;基于时空域信息融合的模型在利用时域信息的同时也关注像素在空间域上的分布特性。
背景差分技术是指通过对背景合理的建模,从而区分出目标帧中的运动目标以及背景。但由于场景是有变化的,因而会产生背景模型不准确的问题,导致不能正确的获得运动目标。其中场景光线突变是一个难题,如果处理不好,运动目标检测准确率会大幅度降低,对后续视频处理算法带来困难。
发明内容
针对上述难题,本发明的目的在于提供一种基于长时间视频序列背景建模框架的运动目标检测方法,该检测方法可以通过背景检索的方式得到最佳背景模型,从而实现准确目标检测。
本发明提供一种基于长时间视频序列背景建模框架的运动目标检测方法,其包括如下步骤:
(a)通过固定式全景摄像机获取长时间全景视频;
(b)对所述长时间全景视频进行解码处理,并通过栈式自编码神经网络对处理后的长时间全景视频进行合理描述,得到多个背景描述子;
(c)通过聚类组织所述背景描述子,获取典型背景描述子,并将典型背景描述子以层次树的形式进行组织得到背景词袋;
(d)采用ViBe背景建模方法对该背景词袋进行融合处理,得到背景建模框架,进而获得背景模型,再通过该背景模型对运动目标进行检测。
其中,步骤(a)为通过固定式全景摄像机采集位于不同方向的多个相机在同一时刻拍摄的长时间视频流。
其中,步骤(b)具体包括以下步骤:
b1)对采集的长时间视频流进行剪辑,得到剪辑后的视频流;
(b2)通过计算机解码技术对剪辑后的视频流进行解码,获取多路YUV中灰度图像;
(b3)求所述剪辑后的视频流内的多路YUV中灰度图像的平均灰度图像,并将平均灰度图像表达为向量形式;
(b4)通过下采样对表达为向量形式的平均灰度图像进行降维,得到背景向量集;
(b5)通过栈式自编码神经网络对所述背景向量集进一步进行非线性降维,得到多个背景描述子。
其中,所述步骤(b5)具体为:
首先,将步骤(b4)所得到的背景向量集作为输入,利用稀疏自编码网络训练出第一个隐含层的网络参数,并利用训练好的第一个隐含层的网络参数算出第一个隐含层的输出;
然后,将第一个隐含层的输出作为第二个隐含层的输入,用稀疏自编码网络训练出第二个隐含层的网络参数;
最后,利用训练好的第二个隐含层的网络参数计算出第二个隐含层的输出,将此第二个隐含层的输出作为背景描述子。
其中,步骤(c)具体包括以下步骤:
((c1)采用随机森林谱聚类方法对多个背景描述子进行聚类处理,得到分类后的子类,并计算出该分类后的子类所对应的典型背景描述子;
(c2)采用K-means++对该分类后的子类进行再聚类处理,选出该分类后的子类中的典型类,并计算该分类后的子类中的典型类所对应的典型背景描述子;
(c3)将该分类后的子类中的典型类所对应的典型背景描述子以层次树的形式进行组织,得到背景词袋。
其中,所述步骤(c1)具体为:
(c11)计算n个背景描述子的相似度矩阵;
(c12)将相似度矩阵的每一列相加放到对应的对角位置处,求得对角矩阵;
(c13)通过对角矩阵求解拉普拉斯矩阵,并求解拉普拉斯矩阵的特征值;
(c14)取拉普拉斯矩阵的特征值中的前K个特征值所对应的特征向量,并将该前K个特征值所对应的特征向量组成新的n*K的矩阵R,其中K为谱聚类的聚类个数;
(c15)采用K-means++对矩阵R的每行元素进行聚类处理,得到的类别即为分类后的子类,并根据欧式距离计算出该分类后的子类所对应的典型背景描述子。
其中,所述步骤(c2)具体为:
首先,在步骤(c1)得到的该分类后的子类中的每一个子类中,选择多个距离较远的向量,将该多个距离较远的向量作为多个K-means++的初始中心;
然后,计算该分类后的子类中每一个子类的每个向量与该多个K-means++的初始中心之间的距离,并将每一向量分到与该向量距离最近的K-means++的初始中心所对应的子类,而得到该分类后的子类中的典型类;
最后,根据该分类后的子类中的典型类的向量重新计算该分类后的子类中的典型类的中心,并将该分类后的子类中的典型类中距离该分类后的子类中的典型类的中心最近的典型类的向量作为典型背景描述子。
其中,所述步骤(c3)具体为:将该分类后的子类中的典型类所对应的典型背景描述子进行粗聚类以及精细聚类,并将粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织,构成背景词袋。
其中,步骤(d)具体包括以下步骤:
(d1)当待检测的场景图中大量的背景像素被检为运动目标像素,且运动目标像素的比例变化幅度大于阈值,则认为该场景图发生突变,继续进行步骤(d2)及步骤(d3),否则认为该场景图未发生突变,通过ViBe背景建模算法建立背景模型,再利用该背景模型对运动目标进行检测;
(d2)对所述场景图经过上述步骤(b)的解码及栈式自编码神经网络处理,得到场景图的描述子,再从背景词袋中检索背景图,将背景词袋中与步骤(d1)中场景图的描述子距离最近的背景图作为新的背景图,通过ViBe背景建模算法及新的背景图进行模型初始化,得到重置后的背景模型;
(d3)通过该重置后的背景模型对运动目标进行检测。
其中,所述步骤(d2)具体为:通过计算背景词袋中背景描述子与场景图的描述子的欧式距离,将背景词袋中与场景图的描述子距离最近的背景图作为新的背景图。
相较于现有技术,本发明所述方法具有以下优点:
第一,通过栈式自编码神经网络得到背景描述子,可使得到的检测结果更加的准确。
第二,考虑长时间的背景存在周期性变化的特点,通过固定式全景摄像机获取长时间全景视频,而获得全景长时间的背景信息,进一步用来建立背景词袋,因此可使得所建立的背景模型更加准确。
第三,由于粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织,因而可快速检索到与此时刻场景图最相近的背景描述子,进而得到最相近的背景词袋中的背景来加速背景模型的更新,从而得到准确的运动目标。特别是在光照突变难题出现时,通过该方法可准确的检测出运动目标。
附图说明
图1为本发明所述一种基于长时间视频序列背景建模框架的运动目标检测方法流程图。
图2为本发明所述方法中步骤(b)获得背景描述子的流程示意图。
图3为本发明步骤(c3)中所示典型背景描述子以层次树的形式组织得到背景词袋的概念图。
图4为本发明所述方法中步骤(d)的检测运动目标的示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明提供一种基于长时间视频序列背景建模框架的运动目标检测方法,其包括如下步骤:
(a)通过固定式全景摄像机获取长时间全景视频;
(b)对所述长时间全景视频进行解码处理,并通过栈式自编码神经网络对处理后的长时间全景视频进行合理描述,得到多个背景描述子;
(c)通过聚类组织所述背景描述子,获取典型背景描述子,并将典型背景描述子以层次树的形式进行组织得到背景词袋;
(d)采用ViBe背景建模方法对该背景词袋进行融合处理,得到背景建模框架,进而获得背景模型,通过该背景模型对运动目标进行检测。
在步骤(a)中,通过固定式全景摄像机采集位于不同方向的多个相机在同一时刻拍摄的长时间视频流。
在步骤(b)中,对所采集的长时间视频流进行剪辑,并使用解码技术获取灰度图像。之后通过对剪辑后的视频流求取平均灰度图,再以下采样、降维的方式生成背景描述子。这些背景描述子是长时间全景视频的合理描述,将有利于背景词袋的构建。请参阅图2,步骤(b)具体包括以下步骤:
(b1)对采集的长时间视频流进行剪辑,得到剪辑后的视频流;
(b2)通过计算机解码技术对剪辑后的视频流进行解码,而获取多路YUV中灰度图像;
(b3)求所述剪辑后的视频流内的多路YUV中灰度图像的平均灰度图像,并将平均灰度图像表达为向量形式;
(b4)通过下采样对表达为向量形式的平均灰度图像进行降维,得到背景向量集;
(b5)通过栈式自编码神经网络对所述背景向量集进一步进行非线性降维,得到多个背景描述子。
本实施例中,步骤(b1)中,将长时间视频流进行剪辑,剪辑得到多个1分钟的短视频。
在步骤(b2)中,可通过OpenCV图像技术对每个短视频做处理,将视频图像中YUV通道中的Y灰度通道取出,之后将在灰度图上进行处理,得到多路YUV中灰度图像。
在步骤(b3)中,将(b2)中得到的短视频内的多路YUV中灰度图像求均值,得到平均灰度图像,并将平均灰度图像表达为向量形式。
在步骤(b4)中,可通过OpenCV中resize函数对表达为向量形式的平均灰度图像进行下采样,从而降低步骤(b5)的运算量。
所述(b5)具体包括:首先,将(b4)所得到的背景向量集作为输入,利用稀疏自编码网络训练出第一个隐含层的网络参数W1,并利用训练好的第一个隐含层的网络参数W1算出第一个隐含层的输出;然后,将第一个隐含层的输出作为第二个隐含层的输入,用稀疏自编码网络训练出第二个隐含层的网络参数W2;最后,利用训练好的第二个隐含层的网络参数W2计算出第二个隐含层的输出,将此第二个隐含层的输出作为背景描述子。
在步骤(c)中,对步骤(b)中生成的背景描述子进行分层聚类,保证背景词袋组织合理并且结构的优化,从而搭建背景词袋,并可提高检索速度。步骤(c)主要包括以下步骤:
(c1)采用随机森林谱聚类方法对多个背景描述子进行聚类处理,得到分类后的子类,并计算出该分类后的子类所对应的典型背景描述子;
(c2)采用K-means++对该分类后的子类进行再聚类处理,选出该分类后的子类中的典型类,并计算该分类后的子类中的典型类所对应的典型背景描述子;
(c3)将该分类后的子类中的典型类所对应的典型背景描述子以层次树的形式进行组织,得到背景词袋。
所述步骤(c1)具体包括:首先,计算n个背景描述子的相似度矩阵;其次,将相似度矩阵的每一列相加放到对应的对角位置处,求得对角矩阵;再次,通过对角矩阵求解拉普拉斯矩阵,并求解拉普拉斯矩阵的特征值;然后,取拉普拉斯矩阵的特征值中的前K个特征值所对应的特征向量,并将该前K个特征值所对应的特征向量组成新的n*K的矩阵R,其中K为谱聚类的聚类个数;最后,采用K-means++对矩阵R的每行元素进行聚类处理,得到的类别即为分类后的子类,并根据欧式距离计算出该分类后的子类所对应的典型背景描述子。
所述步骤(c2)具体包括:首先,在步骤(c1)得到的该分类后的子类中的每一个子类中,选择多个距离较远的向量,将该多个距离较远的向量作为多个K-means++的初始中心;然后,计算该分类后的子类中每一个子类的每个向量与该多个K-means++的初始中心之间的距离,并将每一向量分到与该向量距离最近的K-means++的初始中心所对应的子类,而得到该分类后的子类中的典型类;最后,根据该分类后的子类中的典型类的向量重新计算该分类后的子类中的典型类的中心,并将该分类后的子类中的典型类中距离该分类后的子类中的典型类的中心最近的典型类的向量作为典型背景描述子。
请参阅图3,所述步骤(c3)具体为:将该分类后的子类中的典型类所对应的典型背景描述子进行粗聚类以及精细聚类,并将粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织,构成背景词袋。
在步骤(d)中,将步骤(c)得到的背景词袋与ViBe背景建模方法融合,主要涉及判断突变机制,检索方法以及融合方法三个方面。主要包括:
(d1)当待检测的场景图中大量的背景像素被检为运动目标像素,且运动目标像素的比例变化幅度大于阈值,则认为该场景图发生突变,继续进行步骤(d2)及步骤(d3),否则认为该场景图未发生突变,通过ViBe背景建模算法建立背景模型,再利用该背景模型对运动目标进行检测;
(d2)对所述场景图经过上述步骤(b)的处理,得到场景图的描述子,再从背景词袋中检索与步骤(d1)中场景图的描述子距离最近的背景图作为新的背景图,通过ViBe背景建模算法并利用新的背景图进行模型初始化,得到重置后的背景模型;
(d3)通过该重置后的背景模型对运动目标进行检测。
本实施例中,步骤(d1)中,取阈值T为0.42,该阈值T值通过逻辑回归计算得到。
在步骤(d2)中,通过计算背景词袋中背景描述子与场景图的描述子的欧式距离,将背景词袋中与场景图的描述子的欧式距离最近的背景图作为新的背景图。换句话说,如果该场景图与背景词袋中背景图相似,而ViBe背景建模算法又无法很好的处理该场景图,则找到背景词袋中与该场景图最为相似的背景图作为此时新的背景图,并通过ViBe背景建模算法及新的背景图进行模型初始化,得到重置后的背景模型。
在步骤(d3)中,根据重置后的背景模型,将场景图与重置后的背景模型进行比较,将不符合背景模型的部分识别为运动目标。依照此检测方法可求得运动目标,即实现对运动目标检测。
相较于现有技术,本方法具有以下优点:
第一,通过栈式自编码神经网络得到背景描述子,可使得到的检测结果更加的准确。
第二,考虑长时间的背景存在周期性变化的特点,通过固定式全景摄像机获取长时间全景视频,而获得全景长时间的背景信息,进一步用来建立背景词袋,因此可使得所建立的背景模型更加准确。
第三,由于粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织,因而可快速检索到与此时刻场景图最相近的背景描述子,进而得到最相近的背景词袋中的背景来加速背景模型的更新,从而得到准确的运动目标。特别是在光照突变难题出现时,通过该方法可准确的检测出运动目标。
下面结合具体实施例对本申请提出的基于长时间视频序列背景建模框架的运动目标检测方法进行说明:
实施例
所述基于长时间视频序列背景建模框架的运动目标检测方法,实现全景视频的运动目标检测。
该背景词袋的构建方法包括如下步骤:
(a)通过固定式全景摄像机录制长时间全景视频;
(b)对所述长时间全景视频进行解码处理,并采用matlab来实现栈式自编码神经网络,从而获得对长时间全景背景帧合理描述,得到多个背景描述子;
(c)在matlab平台上通过谱聚类和k-means++聚类,来获取典型背景描述子,并将典型背景描述子以层次树的形式进行组织得到背景词袋;
(d)采用ViBe背景建模方法对该背景词袋进行融合处理,得到背景建模框架,进而获得合适的背景模型,通过该背景模型对运动目标进行检测。
在步骤(a)中,通过固定式摄像机录制长时间全景视频H.264视频流。
在步骤(b)中,调用OpenCV图像处理函数实现灰度图形的提取并求得剪辑视频的平均背景,之后使用OpenCV中resize函数对剪辑视频的平均背景下采样,最后在matlab上实现栈式自编码网络对灰度图像降维,得到背景描述子。
在步骤(c)中,通过谱聚类和K-means++聚类对典型背景描述子以层次树的形式进行组织,形成背景词袋。
在步骤(d)中,采用ViBe背景建模方法对该背景词袋进行融合处理,得到背景模型,通过该背景模型对运动目标进行检测,同时增强背景词袋的有效性。图像检索操作及词袋更新操作具体如下:
(1)使用步骤(b)的栈式自编码参数将新的图像表达为描述子。
(2)计算该描述子与背景词袋中背景描述子的欧式距离,将背景词袋中与该描述子距离最近的背景图作为此时的背景。
(3)采用ViBe背景建模算法对步骤(2)所得到的背景进行融合,重置短时空域模型。
(4)如果步骤(2)中该描述子与背景词袋中背景描述子的欧式距离大于阈值0.35,则采用先进先出的方式更新背景词袋。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于长时间视频序列背景建模框架的运动目标检测方法,其包括如下步骤:
(a)通过固定式全景摄像机获取长时间全景视频;
(b)对所述长时间全景视频进行解码处理,并通过栈式自编码神经网络对处理后的长时间全景视频进行合理描述,得到多个背景描述子;
(c)通过聚类组织所述背景描述子,获取典型背景描述子,并将典型背景描述子以层次树的形式进行组织得到背景词袋;
(d)采用ViBe背景建模方法对该背景词袋进行融合处理,得到背景建模框架,进而获得背景模型,再通过该背景模型对运动目标进行检测。
2.一种如权利要求1所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,步骤(a)为通过固定式全景摄像机采集位于不同方向的多个相机在同一时刻拍摄的长时间视频流。
3.一种如权利要求2所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,步骤(b)具体包括以下步骤:
(b1)对采集的长时间视频流进行剪辑,得到剪辑后的视频流;
(b2)通过计算机解码技术对剪辑后的视频流进行解码,获取多路YUV中灰度图像;
(b3)求所述剪辑后的视频流内的多路YUV中灰度图像的平均灰度图像,并将平均灰度图像表达为向量形式;
(b4)通过下采样对表达为向量形式的平均灰度图像进行降维,得到背景向量集;
(b5)通过栈式自编码神经网络对所述背景向量集进一步进行非线性降维,得到多个背景描述子。
4.一种如权利要求3所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,所述步骤(b5)具体为:
首先,将步骤(b4)所得到的背景向量集作为输入,利用稀疏自编码网络训练出第一个隐含层的网络参数,并利用训练好的第一个隐含层的网络参数算出第一个隐含层的输出;
然后,将第一个隐含层的输出作为第二个隐含层的输入,用稀疏自编码网络训练出第二个隐含层的网络参数;
最后,利用训练好的第二个隐含层的网络参数计算出第二个隐含层的输出,将此第二个隐含层的输出作为背景描述子。
5.一种如权利要求1所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,步骤(c)具体包括以下步骤:
(c1)采用随机森林谱聚类方法对多个背景描述子进行聚类处理,得到分类后的子类,并计算出该分类后的子类所对应的典型背景描述子;
(c2)采用K-means++对该分类后的子类进行再聚类处理,选出该分类后的子类中的典型类,并计算该分类后的子类中的典型类所对应的典型背景描述子;
(c3)将该分类后的子类中的典型类所对应的典型背景描述子以层次树的形式进行组织,得到背景词袋。
6.一种如权利要求5所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,所述步骤(c1)具体为:
(c11)计算n个背景描述子的相似度矩阵;
(c12)将相似度矩阵的每一列相加放到对应的对角位置处,求得对角矩阵;
(c13)通过对角矩阵求解拉普拉斯矩阵,并求解拉普拉斯矩阵的特征值;
(c14)取拉普拉斯矩阵的特征值中的前K个特征值所对应的特征向量,并将该前K个特征值所对应的特征向量组成新的n*K的矩阵R,其中K为谱聚类的聚类个数;
(c15)采用K-means++对矩阵R的每行元素进行聚类处理,得到的类别即为分类后的子类,并根据欧式距离计算出该分类后的子类所对应的典型背景描述子。
7.一种如权利要求5所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,所述步骤(c2)具体为:
首先,在步骤(c1)得到的该分类后的子类中的每一个子类中,选择多个距离较远的向量,将该多个距离较远的向量作为多个K-means++的初始中心;
然后,计算该分类后的子类中每一个子类的每个向量与该多个K-means++的初始中心之间的距离,并将每一向量分到与该向量距离最近的K-means++的初始中心所对应的子类,而得到该分类后的子类中的典型类;
最后,根据该分类后的子类中的典型类的向量重新计算该分类后的子类中的典型类的中心,并将该分类后的子类中的典型类中距离该分类后的子类中的典型类的中心最近的典型类的向量作为典型背景描述子。
8.一种如权利要求5所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,所述步骤(c3)具体为:将该分类后的子类中的典型类所对应的典型背景描述子进行粗聚类以及精细聚类,并将粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织,构成背景词袋。
9.一种如权利要求1所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,步骤(d)具体包括以下步骤:
(d1)当待检测的场景图中大量的背景像素被检为运动目标像素,且运动目标像素的比例变化幅度大于阈值,则认为该场景图发生突变,继续进行步骤(d2)及步骤(d3),否则认为该场景图未发生突变,通过ViBe背景建模算法建立背景模型,再利用该背景模型对运动目标进行检测;
(d2)对所述场景图经过上述步骤(b)的解码及栈式自编码神经网络处理,得到场景图的描述子,再从背景词袋中检索背景图,将背景词袋中与步骤(d1)中场景图的描述子距离最近的背景图作为新的背景图,通过ViBe背景建模算法及新的背景图进行模型初始化,得到重置后的背景模型;
(d3)通过该重置后的背景模型对运动目标进行检测。
10.一种如权利要求9所述的基于长时间视频序列背景建模框架的运动目标检测方法,其特征在于,所述步骤(d2)具体为:通过计算背景词袋中背景描述子与场景图的描述子的欧式距离,将背景词袋中与场景图的描述子距离最近的背景图作为新的背景图。
CN201710298485.0A 2017-04-28 2017-04-28 基于长时间视频序列背景建模框架的运动目标检测方法 Active CN108804981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710298485.0A CN108804981B (zh) 2017-04-28 2017-04-28 基于长时间视频序列背景建模框架的运动目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710298485.0A CN108804981B (zh) 2017-04-28 2017-04-28 基于长时间视频序列背景建模框架的运动目标检测方法

Publications (2)

Publication Number Publication Date
CN108804981A true CN108804981A (zh) 2018-11-13
CN108804981B CN108804981B (zh) 2021-01-26

Family

ID=64053253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710298485.0A Active CN108804981B (zh) 2017-04-28 2017-04-28 基于长时间视频序列背景建模框架的运动目标检测方法

Country Status (1)

Country Link
CN (1) CN108804981B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177462A (zh) * 2021-04-26 2021-07-27 四川大学 适用于法庭庭审监控的目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130251260A1 (en) * 2010-12-08 2013-09-26 Alcatel Lucent Method and system for segmenting an image
CN103456028A (zh) * 2013-08-30 2013-12-18 浙江立元通信技术有限公司 一种运动目标检测方法
CN103679704A (zh) * 2013-11-22 2014-03-26 中国人民解放军第二炮兵工程大学 一种基于光照补偿的视频运动阴影检测方法
CN104463219A (zh) * 2014-12-17 2015-03-25 西安电子科技大学 一种基于特征向量度量谱聚类的极化sar图像分类方法
US9454819B1 (en) * 2015-06-03 2016-09-27 The United States Of America As Represented By The Secretary Of The Air Force System and method for static and moving object detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130251260A1 (en) * 2010-12-08 2013-09-26 Alcatel Lucent Method and system for segmenting an image
CN103456028A (zh) * 2013-08-30 2013-12-18 浙江立元通信技术有限公司 一种运动目标检测方法
CN103679704A (zh) * 2013-11-22 2014-03-26 中国人民解放军第二炮兵工程大学 一种基于光照补偿的视频运动阴影检测方法
CN104463219A (zh) * 2014-12-17 2015-03-25 西安电子科技大学 一种基于特征向量度量谱聚类的极化sar图像分类方法
US9454819B1 (en) * 2015-06-03 2016-09-27 The United States Of America As Represented By The Secretary Of The Air Force System and method for static and moving object detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIATIAN ZHU等: ""Constructing Robust Affinity Graphs for Spectral Clustering"", 《IEEE XPLORE DIGITAL LIBRARY》 *
姚灿荣: ""复杂场景下目标跟踪与轨迹识别的研究"", 《万方知识服务平台》 *
胡昭华 等: ""基于Autoencoder 网络的数据降维和重构"", 《电子与信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177462A (zh) * 2021-04-26 2021-07-27 四川大学 适用于法庭庭审监控的目标检测方法
CN113177462B (zh) * 2021-04-26 2022-04-15 四川大学 适用于法庭庭审监控的目标检测方法

Also Published As

Publication number Publication date
CN108804981B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
WO2020173226A1 (zh) 一种时空行为检测方法
CN109472298B (zh) 用于小尺度目标检测的深度双向特征金字塔增强网络
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
JP4777059B2 (ja) 画像検索装置および画像検索方法
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN113361334B (zh) 基于关键点优化和多跳注意图卷积行人重识别方法及系统
CN109948497A (zh) 一种物体检测方法、装置及电子设备
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
WO2021050772A1 (en) Action recognition with high-order interaction through spatial-temporal object tracking
US20100067863A1 (en) Video editing methods and systems
CN104021381B (zh) 一种基于多层级特征的人体动作识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN108198202A (zh) 一种基于光流和神经网络的视频内容检测方法
WO2021050769A1 (en) Spatio-temporal interactions for video understanding
Ramirez-Alonso et al. Temporal weighted learning model for background estimation with an automatic re-initialization stage and adaptive parameters update
WO2022032652A1 (en) Method and system of image processing for action classification
CN109753984A (zh) 视频分类方法、装置和计算机可读存储介质
Zhang et al. Multiscale adaptation fusion networks for depth completion
CN109191485A (zh) 一种基于多层超图模型的多视频目标协同分割方法
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
Park et al. Binary dense sift flow based two stream CNN for human action recognition
CN110956097B (zh) 遮挡人体提取方法及模块、场景转换方法及装置
CN108804981A (zh) 基于长时间视频序列背景建模框架的运动目标检测方法
US20230076241A1 (en) Object detection systems and methods including an object detection model using a tailored training dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant