CN110008803B - 行人检测、训练检测器的方法、装置及设备 - Google Patents

行人检测、训练检测器的方法、装置及设备 Download PDF

Info

Publication number
CN110008803B
CN110008803B CN201811477859.6A CN201811477859A CN110008803B CN 110008803 B CN110008803 B CN 110008803B CN 201811477859 A CN201811477859 A CN 201811477859A CN 110008803 B CN110008803 B CN 110008803B
Authority
CN
China
Prior art keywords
detector
video frame
scene
preset
background model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811477859.6A
Other languages
English (en)
Other versions
CN110008803A (zh
Inventor
赵威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811477859.6A priority Critical patent/CN110008803B/zh
Publication of CN110008803A publication Critical patent/CN110008803A/zh
Application granted granted Critical
Publication of CN110008803B publication Critical patent/CN110008803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本说明书提供一种行人检测、训练检测器的方法、装置及设备,该方法包括可以预先训练有包括多个预设检测器的预设检测器集合,在对视频进行行人检测的过程中,可以根据视频帧的背景模型确定匹配的检测器进行行人检测,通过检测过程中实时调整检测器的方式,解决场景实时变化而引起行人识别率下降的问题。

Description

行人检测、训练检测器的方法、装置及设备
技术领域
本说明书涉及计算机视觉技术领域,尤其涉及行人检测、训练检测器的方法、装置及设备。
背景技术
行人检测是智能视频监控领域比较重要的一个研究方向,它是一种基于机器学习的计算机视觉技术,通过分析视频场景中的行人、交通工具等其他运动物体,来完成如人数统计、行人跟踪等任务。因此,提供一种检测精度较高的行人检测方案,无疑具有重要意义。
发明内容
为克服相关技术中存在的问题,本说明书提供了行人检测、训练检测器的方法、装置及设备。
根据本说明书实施例的第一方面,提供一种行人检测方法,包括:
接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
若匹配,则利用所述目标检测器对当前视频帧序列进行行人检测;
若不匹配,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景。
可选的,所述预设检测器集合中预设检测器预先利用对应场景的视频帧集合对样本检测器训练得到,所述预设检测器对应的背景模型利用所述对应场景的视频帧集合获取得到。
可选的,所述预设检测器集合中预设检测器的训练方式包括:
利用对应场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的预设检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器。
可选的,所述当前样本检测器对视频帧集合中每个视频帧进行行人检测的方式包括:上下文线索算法和/或聚类算法。
可选的,所述匹配程度基于背景模型的灰度直方图的相似度确定。
可选的,所述相似度通过如下方式计算得到:
其中,所述Sim(G,S)表示灰度直方图G与灰度直方图S的相似度,N表示标准片段背景模型的灰度直方图的灰度空间样点数,gi表示灰度直方图中第i个样点的灰度值,si表示灰度直方图中第i个样点的灰度值,Max(gi,si)表示gi与si两者中的较大值。
可选的,所述背景模型采用基于码本的建模方法获取得到。
根据本说明书实施例的第二方面,提供一种训练检测器的方法,所述方法包括:
获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到;
利用每个场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器;
将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
根据本说明书实施例的第三方面,提供一种行人检测装置,所述装置包括:
获取模块,用于:接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
确定模块,用于:确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
检测模块,用于:在匹配的情况下,则利用所述目标检测器对当前视频帧序列进行行人检测;在不匹配的情况下,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景。
可选的,所述预设检测器集合中预设检测器预先利用对应场景的视频帧集合对样本检测器训练得到,所述预设检测器对应的背景模型利用所述对应场景的视频帧集合获取得到。
可选的,所述预设检测器集合中预设检测器的训练方式包括:
利用对应场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的预设检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器。
可选的,所述当前样本检测器对视频帧集合中每个视频帧进行行人检测的方式包括:上下文线索算法和/或聚类算法。
可选的,所述匹配程度基于背景模型的灰度直方图的相似度确定。
可选的,所述相似度通过如下方式计算得到:
其中,所述Sim(G,S)表示灰度直方图G与灰度直方图S的相似度,N表示标准片段背景模型的灰度直方图的灰度空间样点数,gi表示灰度直方图中第i个样点的灰度值,si表示灰度直方图中第i个样点的灰度值,Max(gi,si)表示gi与si两者中的较大值。
可选的,所述背景模型采用基于码本的建模方法获取得到。
根据本说明书实施例的第四方面,提供一种训练检测器的装置,包括:
获取模块,用于:获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到;
训练模块,用于:利用每个场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器;
关联模块,用于:将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现前述的行人检测方法/训练检测器的方法。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中,可以预先训练有包括多个预设检测器的预设检测器集合,在对视频进行行人检测的过程中,可以根据视频帧的背景模型确定匹配的检测器进行行人检测,通过检测过程中实时调整检测器的方式,解决场景实时变化而引起行人识别率下降的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1A是本说明书根据一示例性实施例示出的一种训练检测器的方法的流程图。
图1B是本说明书根据一示例性实施例示出的一种行人检测方法的流程图。
图2A是本说明书根据一示例性实施例示出的另一种训练检测器的方法的流程图。
图2B是本说明书根据一示例性实施例示出的另一种行人检测方法的流程图。
图3是本说明书实施例行人检测装置/训练检测器的装置所在计算机设备的一种硬件结构图。
图4是本说明书根据一示例性实施例示出的一种行人检测装置的框图。
图5是本说明书根据一示例性实施例示出的一种训练检测器的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在图像处理领域,行人兼具有刚性和柔性物体的特征,外观易受穿着、尺度、遮挡、姿态或视角等影响,使得行人检测成为智能视频监控的研究难点和热点。行人检测通常分为两个环节,首先进行特征提取,然后进行分类与定位。
传统的行人检测方案大都是针对固定场景进行行人检测。此类方案使用一般场景下训练好的检测器,当对一个特定场景下的视频进行检测时,可能会由于实际场景与训练场景的差异性,最终造成检测过程中行人识别率的急剧下降。通用的解决方案是针对特定场景重新训练分类器,但提取样本需要花费大量的人工成本(例如需要技术人员逐帧地手工裁切出行人样本);此外还有采用迁移学习的方法自动学习特定场景下的检测器,可免去人工成本;以及采用不同检测器配置不同权值来提高准确率等方案。但这些方案依然只能解决固定场景的行人检测问题,如果场景是实时变化的,仍然会出现准确率急剧下降的问题。
基于此,本说明书实施例提供一种行人检测方案,能够提供有多个设定检测器,通过检测过程中实时调整检测器的方式,解决场景实时变化而引起行人识别率下降的问题。接下来对本说明书实施例进行详细说明。
本说明书实施例涉及两个阶段,一个是训练检测器获得设定检测器集合的阶段,一个是检测器上线,对视频帧序列进行行人检测的应用阶段。首先对训练阶段进行说明。
如图1A所示,图1A是本说明书根据一示例性实施例示出的一种训练检测器的方法的流程图,包括以下步骤:
在步骤102、获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到。
在步骤104、利用每个场景的视频帧集合,循环执行以下步骤1042和1044,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:
在步骤1042中、利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;
在步骤1044中、将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器。
在步骤106、将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
利用上述训练检测器的方案,可获得检测器集合,集合中包括多个检测器,每个检测器对应一种场景,每个检测器还对应有该场景的背景模型。基于此,可以利用该检测器集合进行行人检测。
可选的,实际应用中可以确定多个场景,并预先对各个场景拍摄视频,以获得每个场景的视频帧集合,视频帧集合中的视频帧数量可根据实际训练需要灵活配置。受光线或天气等影响,为了提高准确率,可以拍摄不同天气或时间段的视频,可使视频帧集合中视频帧的内容更为丰富,提供更高质量的视频帧集合。
本实施例中,每个场景的背景模型可通过视频帧集合中的视频帧确定,具体的背景建模方法可根据需要灵活配置,例如,可以采用基于码本的建模方法。
本实施例涉及多个场景,每个场景对应有视频帧集合,具体的训练检测器的方式可以是针对每个场景的视频帧训练对应的检测器,各个场景的检测器的训练方法可以相同,接下来对训练方法进行说明。
在训练过程中,可以在已有的行人检测器的基础上训练,本实施例称为样本检测器,记为Θ;可选的,该样本检测器可以是基于HOG(方向梯度直方图,Histogram ofOriented Gradient)+SVM(Support Vector Machine,支持向量机)的检测器,训练所需的样本集可以是已有的INRIA,记为源样本集Ds
用Θ对步骤102中视频帧集合的每一视频帧进行行人检测,以确定每一视频帧的标签。在视频帧集合中所有视频帧的标签都确定后,将确定标签的视频帧集合添加至源样本集Ds中,利用Ds重新训练Θ,循环执行上述流程;
由于样本检测器在初始阶段的检测准确率可能不高,重新训练后新的样本检测器再次对视频帧集合中的视频帧进行行人检测后,视频帧的标签可能会发生变化(例如上一次指示未有行人,而本次指示有行人),因此可以通过多次检测及训练的迭代过程,逐渐地提升检测器的准确率;当检测器的准确率提升到较高程度,则检测器对视频帧集合中视频帧的检测结果将会确定下来,因此训练的终止条件可以是视频帧集合中所有视频帧的标签与上一次检测的标签相同,此时可获得一个适配本场景的检测器。
接下来可以将该场景的检测器与该场景的背景模型相关联,对所有场景的检测器都采用上述训练方法,最终获得包含有多个检测器的检测器集合。实际应用中,每个检测器对应一个场景,而每个场景可以对应一个或多个检测器,例如,可以利用多种训练方法训练某个场景的检测器,或者是同一场景下有多个不同特点的视频帧集合,可以利用每个视频帧集合对应训练出适配该特点的检测器,使得该场景对应的检测器可以有多个。
通过上述方案,可以获得一个检测器集合,该检测器集合中包括有多个检测器,每个检测器对应一种场景,之后可应用于行人检测中。如图1B所示,是本说明书根据一示例性实施例示出的行人检测方法的流程图,包括:
在步骤112中、接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
在步骤114中、确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
在步骤116中、若匹配,则利用所述目标检测器对当前视频帧序列进行行人检测;
在步骤118中、若不匹配,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景。
实际应用中,由于无人机等一些移动拍摄设备具有移动的特点,此类设备可能从某个场景移动至另一个场景,拍摄的视频的背景将会发生变动。为了解决此种场景实时变换的行人检测识别率较低的问题,本实施例提供了预设检测器集合,该预设检测器集合中包括多个预设检测器,每个预设检测器关联有背景模型,每个预设检测器对应一种场景。
在对当前视频帧序列进行行人检测时,可以基于背景模型的匹配程度,预设检测器集合中的多个预设检测器中选取匹配的检测器进行行人识别,由于本实施例可以选取出合适的检测器,因此行人识别的准确率较高;并且,在场景实时变化过程中,由于本实施例可以通过背景模型的匹配程度及时地切换其他合适的检测器,因此可以解决场景实时变化过程中识别率下降的问题。
本实施例中,所述匹配程度可基于背景模型的灰度直方图的相似度确定。具体的相似度确定方式可根据需要灵活配置,作为例子所述相似度通过如下方式计算得到:
其中,所述Sim(G,S)表示灰度直方图G与灰度直方图S的相似度,N表示标准片段背景模型的灰度直方图的灰度空间样点数,gi表示灰度直方图中第i个样点的灰度值,si表示灰度直方图中第i个样点的灰度值,Max(gi,si)表示gi与si两者中的较大值。
接下来结合图2A和图2B对本说明书实施例再次进行说明。
步骤1、获取不同场景下利用视频监控设备拍摄的视频,所有场景记为1至N。
本实施例中,可以预先在不同场景下配置摄像头采集该场景的视频数据;可选的,可以是配置固定摄像头进行拍摄,也可以将移动监控设备固定在某一位置进行拍摄来获取。基于目标摄像机技术的发展,该步骤在实际应用的实现难度较小,可选的,摄像机采集的图像达到基本标清的程度即可,为了进一步降低光照的影响,可选取早、中、傍晚三个时间段的视频,还可以在在不同天气环境下拍摄视频,例如雨天、晴天或阴天等。
步骤2、从每一场景对应的视频数据中提取视频帧序列。
以场景N为例,可以选取不同时间段或环境下拍摄的视频帧构成视频帧集合,例如,可以从早、中、傍晚三个时间段视频(每段约90min,该数值可根据需要灵活配置)中各取前45min的200帧(该数值可根据需要灵活配置)用于训练检测器,从每段剩余45min中提取100帧用于测试。
步骤3、对每个场景进行背景建模。
背景建模有多种方案,实际应用中可根据需要灵活配置。本实施例以基于码本的建模方法为例,该方法可以处理静止背景下有运动目标的背景建模问题。该方法的处理过程包括:首先根据步骤2中的视频帧集合产生最初的码本,借助码字中的一个参数“最长未出现时间”进行时域滤波处理。这样可以滤除码本中可能代表前景图像的那些码字,最后再经过空域滤波,将上一步错误删除的代表较少出现的背景状态的码字恢复到码本中,根据码本得到背景模型。
步骤4、训练对应场景的检测器。
检测器的训练方法可根据需要灵活配置,本实施例可采用迁移学习的方法进行各个场景对应的检测器的学习,以其中一个场景为例,流程图如图2B所示,分为如下若干步骤(各个场景的检测器均可按照本实施例方法进行训练):
1)获取已有的样本检测器,可以使用已有HOG+SVM的方式训练得到,记为Θ,已有样本数据集INRIA,记为源样本集Ds
用Θ对步骤2中获取的每一视频帧进行检测,确定每个视频帧的标签,从而确定正样本集和负样本集;其中,正样本表示视频帧中包含有行人,负样本表示视频帧中未包含有行人。可选的,检测行人的方法可以结合上下文线索(比如位置、尺寸、路径、是否运动)和meanshift聚类方法(也可选用其他聚类方法);作为例子,上下文线索获取方式可如下:
位置信息:可用层次聚类的方法获取位置信息,用来排除错误样本,比如某个位置是棵树,但检测为行人。经过对该位置的检测窗口聚类发现该位置在连续多帧都没有变动,则可作为错误样本排除;
尺寸:建立包含行人的检测窗口尺寸的直方图,统计尺寸的分布;
路径:采用无监督学习的方式,用级联贝叶斯模型学习到行人路径的空间分布,作为路径信息;
运动:记当前帧It,It之前第50帧It-50,之后50帧It+50,用如下公式来计算It中运动像素的分布:
0.5(|It-It-50|+|It-It+50|)
3)将2)中得到的正负样本集(即确定了标签的视频帧集合)加入到Ds中,用Ds重新训练Θ;
4)用新得到的Θ再次执行步骤2)和3),直到视频帧集合中所有视频帧的标签不再变化,即视频帧集合中所有视频帧的标签与上一次检测的标签相同;
5)按照上述步骤训练完每个场景下的600帧,得到最终的检测器Θ。
6)用步骤2获取的测试帧对5)中获得的检测器Θ进行测试,以验证检测器的识别率是否合格。可选的,可采用FPPI(False Positive per Image)=1(每一帧中最多有一个检测窗口检测错误)的衡量标准,如果100帧中满足标准的帧数比例达到90%以上,则判定Θ合格;否则可增加训练样本集继续训练检测器,直到满足标准的帧数比例达到90%以上。
步骤5、将步骤3得到的背景模型和步骤4得到的检测器关联。
绑定的方案可以有多种,可选的,可以定义一个的数据结构,该数据结构包括两个属性,一个是背景模型,一个是检测器。
步骤6、应用阶段:以对移动监控设备拍摄的视频进行行人检测为例,例如无人机航拍或者车载摄像头等。
步骤7、从步骤6获取的视频中提取出视频帧序列进行检测。
以无人机航拍器为例,按照无人机的速度(实际拍摄中),假设每1分钟变换一个场景,视频帧率为30fps,规定背景模型的匹配程度为0.5,检测过程如下:
1)在检测的初始阶段,可先取前30帧用来获取背景模型,方法同步骤3,按照预先绑定的背景模型和检测器,从预设检测器集合中选择匹配的检测器。
可选的,可以是通过获取背景模型的灰度直方图,利用如下公式计算相似度,选择和该背景模型相似度最高的背景模型所绑定的检测器进行检测:
其中,所述Sim(G,S)表示灰度直方图G与灰度直方图S的相似度,N表示标准片段背景模型的灰度直方图的灰度空间样点数,gi表示灰度直方图中第i个样点的灰度值,si表示灰度直方图中第i个样点的灰度值,Max(gi,si)表示gi与si两者中的较大值。
可选的,有可能某个场景对应有多个检测器,实际应用中可以根据需要灵活选取其中一个检测器进行行人识别。
2)、视频监控设备持续拍摄中,本实施例可以每隔900帧(该数据可根据需要灵活配置),按照步骤1)的方法获取背景模型,然后和前一背景模型进行比较,仍采用直方图相似度的方法,如果匹配度小于规定的阈值,则切换检测器,检测器的选取方式同步骤1);如果匹配度大于规定阈值,说明原检测器适配当前的视频帧序列,可继续用原检测器检测。
3)、按照步骤1)、2)执行,直到所有视频帧都检测完。
与前述行人检测方法/训练检测器的方法的实施例相对应,本说明书还提供了行人检测装置/训练检测器的装置及其所应用的设备的实施例。
本说明书行人检测装置/训练检测器的装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书实施例行人检测装置/训练检测器的装置所在计算机设备的一种硬件结构图,除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外,实施例中装置331所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图4所示,图4是本说明书根据一示例性实施例示出的一种行人检测装置的框图,所述装置包括:
获取模块41,用于:接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
确定模块42,用于:确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
检测模块43,用于:在匹配的情况下,则利用所述目标检测器对当前视频帧序列进行行人检测;在不匹配的情况下,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景。
可选的,所述预设检测器集合中预设检测器预先利用对应场景的视频帧集合对样本检测器训练得到,所述预设检测器对应的背景模型利用所述对应场景的视频帧集合获取得到。
可选的,所述预设检测器集合中预设检测器的训练方式包括:
利用对应场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的预设检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器。
可选的,所述当前样本检测器对视频帧集合中每个视频帧进行行人检测的方式包括:上下文线索算法和/或聚类算法。
可选的,所述匹配程度基于背景模型的灰度直方图的相似度确定。
可选的,所述相似度通过如下方式计算得到:
其中,所述Sim(G,S)表示灰度直方图G与灰度直方图S的相似度,N表示标准片段背景模型的灰度直方图的灰度空间样点数,gi表示灰度直方图中第i个样点的灰度值,si表示灰度直方图中第i个样点的灰度值,Max(gi,si)表示gi与si两者中的较大值。
可选的,所述背景模型采用基于码本的建模方法获取得到。
如图5所示,图5是本说明书根据一示例性实施例示出的一种训练检测器的装置的框图,包括:
获取模块51,用于:获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到;
训练模块52,用于:利用每个场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器;
关联模块53,用于:将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
相应地,本实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
若匹配,则利用所述目标检测器对当前视频帧序列进行行人检测;
若不匹配,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景。
相应地,本实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到;
利用每个场景的视频帧集合,循环执行以下步骤,直到视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:利用当前样本检测器对视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练样本检测器,将训练得到的样本检测器确定为当前样本检测器;
将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
上述行人检测装置/训练检测器的装置中各个模块的功能和作用的实现过程具体详见上述行人检测装置/训练检测器的装置中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (10)

1.一种行人检测方法,包括:
接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
若匹配,则利用所述目标检测器对当前视频帧序列进行行人检测;
若不匹配,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;
其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景;所述预设检测器的训练方式包括:
获取利用源样本集和已有训练方法训练得到的检测器作为当前样本检测器,从所述源样本集中获取与所述当前样本检测器的场景对应的视频帧集合,循环执行以下步骤,直到获取到的视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的预设检测器:
利用当前样本检测器对所述获取到的视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;
将确定标签后的视频帧集合添加至所述源样本集后再次训练当前样本检测器,将训练得到的检测器确定为当前样本检测器。
2.根据权利要求1所述的方法,所述预设检测器集合中预设检测器预先利用对应场景的视频帧集合对样本检测器训练得到,所述预设检测器对应的背景模型利用所述对应场景的视频帧集合获取得到。
3.根据权利要求1所述的方法,所述当前样本检测器对视频帧集合中每个视频帧进行行人检测的方式包括:上下文线索算法和/或聚类算法。
4.根据权利要求1所述的方法,所述匹配程度基于背景模型的灰度直方图的相似度确定。
5.根据权利要求4所述的方法,所述相似度通过如下方式计算得到:
其中,所述Sim(G,S)表示灰度直方图G与灰度直方图S的相似度,N表示标准片段背景模型的灰度直方图的灰度空间样点数,gi表示灰度直方图中第i个样点的灰度值,si表示灰度直方图中第i个样点的灰度值,Max(gi,si)表示gi与si两者中的较大值。
6.根据权利要求1或2所述的方法,所述背景模型采用基于码本的建模方法获取得到。
7.一种训练检测器的方法,所述方法包括:
获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到;
获取利用源样本集和已有训练方法训练得到的检测器作为当前样本检测器,所述源样本集中获取与所述当前样本检测器的场景对应的视频帧集合,循环执行以下步骤,直到获取到的视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:利用当前样本检测器对所述获取到的视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练当前样本检测器,将训练得到的样本检测器确定为当前样本检测器;
将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
8.一种行人检测装置,所述装置包括:
获取模块,用于:接收待检测的当前视频帧序列,获取所述当前视频帧序列的背景模型;
确定模块,用于:确定所述当前视频帧序列的背景模型与上一视频帧序列的背景模型的匹配程度;所述上一视频帧序列由目标检测器进行行人检测;
检测模块,用于:在匹配的情况下,则利用所述目标检测器对当前视频帧序列进行行人检测;在不匹配的情况下,则基于预设检测器的背景模型与所述当前视频帧序列的背景模型的匹配程度,从预设检测器集合中选取出预设检测器,利用选取的预设检测器对所述当前视频帧序列进行行人检测;其中,所述预设检测器对应有背景模型,所述预设检测器集合中每个预设检测器对应一种场景;所述预设检测器的训练方式包括:获取利用源样本集和已有训练方法训练得到的检测器作为当前样本检测器,从所述源样本集中获取与所述当前样本检测器的场景对应的视频帧集合,循环执行以下步骤,直到获取到的视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的预设检测器:利用当前样本检测器对所述获取到的视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至所述源样本集后再次训练当前样本检测器,将训练得到的检测器确定为当前样本检测器。
9.一种训练检测器的装置,包括:
获取模块,用于:获取多个视频帧集合,利用每个所述视频帧集合确定每个场景的背景模型;其中,每个视频帧集合预先对对应场景拍摄得到;
训练模块,用于:获取利用源样本集和已有训练方法训练得到的检测器作为当前样本检测器,所述源样本集中获取与所述当前样本检测器的场景对应的视频帧集合,循环执行以下步骤,直到获取到的视频帧集合中所有视频帧的标签与上一次检测的标签相同,获得训练完成的该场景的检测器:利用当前样本检测器对所述获取到的视频帧集合中每个视频帧进行行人检测,根据检测结果确定每个视频帧的标签,所述标签指示所述视频帧中是否包含有行人;将确定标签后的视频帧集合添加至源样本集后训练当前样本检测器,将训练得到的样本检测器确定为当前样本检测器;
关联模块,用于:将训练完成的所述场景的检测器与该场景的背景模型关联,得到检测器集合。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至7任一所述的方法。
CN201811477859.6A 2018-12-05 2018-12-05 行人检测、训练检测器的方法、装置及设备 Active CN110008803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811477859.6A CN110008803B (zh) 2018-12-05 2018-12-05 行人检测、训练检测器的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811477859.6A CN110008803B (zh) 2018-12-05 2018-12-05 行人检测、训练检测器的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110008803A CN110008803A (zh) 2019-07-12
CN110008803B true CN110008803B (zh) 2023-11-21

Family

ID=67165038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811477859.6A Active CN110008803B (zh) 2018-12-05 2018-12-05 行人检测、训练检测器的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110008803B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307834A (zh) * 2019-07-31 2021-02-02 广州弘度信息科技有限公司 一种警卫服饰识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043953A (zh) * 2011-01-27 2011-05-04 北京邮电大学 一种实时鲁棒的针对特定场景的行人检测方法
CN103778435A (zh) * 2014-01-16 2014-05-07 大连理工大学 一种基于视频的行人快速检测方法
CN103729862A (zh) * 2014-01-26 2014-04-16 重庆邮电大学 基于码本背景模型的自适应阈值运动目标检测方法
CN104615986B (zh) * 2015-01-30 2018-04-27 中国科学院深圳先进技术研究院 利用多检测器对场景变化的视频图像进行行人检测的方法

Also Published As

Publication number Publication date
CN110008803A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
Mathe et al. Actions in the eye: Dynamic gaze datasets and learnt saliency models for visual recognition
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
US9798923B2 (en) System and method for tracking and recognizing people
CN111178120B (zh) 一种基于作物识别级联技术的害虫图像检测方法
US20130251246A1 (en) Method and a device for training a pose classifier and an object classifier, a method and a device for object detection
CN104615986A (zh) 利用多检测器对场景变化的视频图像进行行人检测的方法
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
CN113408566A (zh) 目标检测方法及相关设备
CN113160283B (zh) 一种基于sift的多摄像头场景下的目标跟踪方法
CN112991280B (zh) 视觉检测方法、系统及电子设备
CN113111947A (zh) 图像处理方法、装置和计算机可读存储介质
CN111738036A (zh) 图像处理方法、装置、设备及存储介质
CN113191183A (zh) 人员重新识别中的无监督域纠正伪标签方法及装置
CN114359669A (zh) 图片分析模型调整方法、装置以及计算机可读存储介质
CN110008803B (zh) 行人检测、训练检测器的方法、装置及设备
CN113269038B (zh) 一种基于多尺度的行人检测方法
CN106934339B (zh) 一种目标跟踪、跟踪目标识别特征的提取方法和装置
CN112766065A (zh) 一种移动端考生身份认证方法、装置、终端及存储介质
CN115735233A (zh) 对象检测模型的训练方法、对象检测方法及装置
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN112070181A (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN109767457A (zh) 在线多示例学习目标跟踪方法、终端设备及存储介质
CN111259701A (zh) 行人再识别方法、装置及电子设备
CN114863224A (zh) 训练方法、图像质量检测方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant