CN107133570B - 一种车辆/行人检测方法及系统 - Google Patents

一种车辆/行人检测方法及系统 Download PDF

Info

Publication number
CN107133570B
CN107133570B CN201710224733.7A CN201710224733A CN107133570B CN 107133570 B CN107133570 B CN 107133570B CN 201710224733 A CN201710224733 A CN 201710224733A CN 107133570 B CN107133570 B CN 107133570B
Authority
CN
China
Prior art keywords
vehicle
pedestrian
image
training
training image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710224733.7A
Other languages
English (en)
Other versions
CN107133570A (zh
Inventor
陈瑞军
王兴刚
胡滨
段雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Wise And Farsighted Video Signal Science And Technology Ltd
Original Assignee
Wuhan Wise And Farsighted Video Signal Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Wise And Farsighted Video Signal Science And Technology Ltd filed Critical Wuhan Wise And Farsighted Video Signal Science And Technology Ltd
Priority to CN201710224733.7A priority Critical patent/CN107133570B/zh
Publication of CN107133570A publication Critical patent/CN107133570A/zh
Application granted granted Critical
Publication of CN107133570B publication Critical patent/CN107133570B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种车辆/行人检测方法,其包括下列步骤:提取训练图像的深度卷积特征图;获取训练图像的目标候选区域;利用训练图像的深度卷积特征图,获取训练图像的目标候选区域的池化特征;基于训练图像的目标候选区域的池化特征,训练检测器,得到车辆/行人候选区域分类模型;利用车辆/行人候选区域分类模型检测待检测车辆/行人图像获得车辆和/或行人的类别和/或位置。本发明还公开了一种车辆/行人检测系统,该系统采用上述方法进行检测。本发明技术方案的方法采用对训练图像中的车辆/行人一并进行分类标记,只需要对一个检测器进行训练,所得车辆/行人候选区域分类模型即可用于识别多种类别的车辆和行人。

Description

一种车辆/行人检测方法及系统
技术领域
本发明属于计算机视觉领域,具体涉及一种车辆/行人检测方法及系统。
背景技术
计算机视觉技术的发展,对于智能交通系统起到了很大的帮助,其中车辆及行人检测技术,更是智能交通监控系统的核心技术。在实际的应用中,视频及图片是获取车辆、行人身份信息的重要途径。通常,视频、图片中包含有大量的车辆、行人信息,车辆及行人检测技术就是这样一种从大量信息中筛选出有效信息的计算机视觉技术。
车辆及行人检测技术,主要是为了帮助识别监控视频或图片中的车辆和/或行人,并对其进行身份确认。一般来说,车辆及行人检测技术是通过算法获取车辆、行人的特征数据,以此作为判断根据。智能交通监控系统对于所监控场景的智能分析,如车辆轨迹、车辆行为、异常检测等,很大程度上都需要依赖于车辆检测技术的结果。因此,高效、鲁棒的车辆检测方法对于智能交通监控系统具有重要的意义。
现有技术的车辆检测方法,主要有两种。具体的,如CN201610601274所公开的车辆识别方法及系统,是按照车辆姿态将多个车辆图像分为不同的类别,基于每个类别的车辆图像特征分别训练不同类别的车辆姿态分类器,进而对待测车辆图像进行识别。这种方法对车辆图像姿态分类过多,需要进行大量的分类器训练,每一个分类训练器只能进行一种特征姿态的分类活动,其处理的过程过于复杂。除此之外,其还需要大量的车辆和行人数据作为分类基础。又如CN201310020953所公开的车辆识别方法,其先对视频图片进行前景检测,提取到车辆图像的特征点后,将这些特征数据与预先纪录的特征数据、颜色进行比对,以确定检测车辆是否是目标车辆。其需要预先录入大量特定目标的标记数据,对于多数不确定目标的车辆和/或行人识别效果并不明显。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种车辆/行人检测方法及系统。本发明提供的方法及系统,只需要对一个识别器进行训练,只需要少量的训练数据,就可以实现快速识别待测图像中的车辆和行人。且该方法及系统不光可以对单一、具体的目标进行识别,对多数不特定目标的识别效果也很好。
为实现上述目的,按照本发明技术方案的一方面,提供了一种车辆/行人检测方法,其特征在于,包括以下步骤:
S1提取训练图像的深度卷积特征图;
S2获取训练图像的目标候选区域;
S3利用训练图像的深度卷积特征图,获取训练图像的目标候选区域的池化特征;
S4基于训练图像的目标候选区域的池化特征,训练检测器,得到车辆/行人候选区域分类模型;
S5利用车辆/行人候选区域分类模型检测待检测车辆/行人图像获得车辆和/或行人的类别和/或位置。
本发明技术方案提供的车辆、行人检测方法中,检测器的行为主要分为两个部分,识别训练和检测识别。具体来说,第一步,采用半监督深度神经网络方法对检测器进行训练,使其具备一定的自我学习和识别能力,从而获得一个车辆、行人候选区域分类模型。第二步,采用上述车辆、行人候选区域分类模型对待测车辆、行人图像进行识别,区分出其中车辆和/或行人的类别和/或位置信息,并作出相应的信息报告。
本发明技术方案中,检测器的识别训练,需要经过多个步骤。车辆、行人图像集中的训练图像作为检测器的训练基础,其并不能直接用于对检测器进行训练,而是需要经过一系列图像处理过程,提取到每张训练图像中的特征点,并进行计算处理后,才能对检测器进行训练。具体来说,对于车辆、行人图像集中的任意训练图像,第一步需要提取其深度卷积特征图,一般是采用卷积神经网络(CNN)完成上述工作。第二步,对于第一步中的图像使用选择性搜索算法提取图像中的目标候选区域,一般来说,这些候选区域中包含有车辆和/或行人的类别和/或位置信息。图像经过上述处理后,获得一定数量的目标区域,本发明技术方案中,目标区域数量优选为2000。第三步,利用第一步中获得的卷积特征图进行映射,将第二步中获得的每个目标区域进行池化,获取每个目标候选区域的ROI(region ofintrest)池化特征,最终每个ROI会输出一定数量的固定尺寸特征图。最后,对车辆、行人图像集中的每张训练图像进行上述处理,获得每张图像的数据信息,采用半监督深度神经网络的方法,来对检测器进行训练,以得到车辆/行人候选区域分类模型。
作为本发明的一个优选技术方案,步骤S4具体包括:
S41标记训练图像的车辆/行人所在位置和/或类别,其中所述标记包括包含位置信息和类别信息的全标记以及仅包含类别信息的半标记;
S42按照标记对训练图像的目标候选区域进行自动标定,获得图像标签和图像目标候选区域标签;
S43提取训练图像的目标候选区域的池化特征,利用所述池化特征和标签对检测器进行训练,得到车辆/行人候选区域分类模型,所述标签为图像标签和/或图像目标候选区域标签。
本发明技术方案的车辆、行人检测方法中,在检测器实际进行检测之前,需要经过一定的训练,具体来说,就是通过学习已有的车辆、行人图像集中的车辆、行人特征信息,使其具备识别多种车辆特征、多种行人特征的能力。车辆、行人图像集中的训练图像在用于训练检测器之前,需要对其进行处理。首先,需要对训练图像进行标记,具体来说,是按照步骤S2获取训练图像的目标候选区域后,对其中的目标候选区域进行标记,可以进行标记的内容包括车辆/行人目标框左上角的横坐标和纵坐标、目标框的宽度和高度、目标框里车辆及行人的类别。标记的形式有全标记和半标记两种形式,全标记的标记内容包括车辆/行人目标框左上角的横坐标和纵坐标、目标框的宽度和高度、目标框里车辆及行人的类别;半标记的标记内容仅包括目标框里车辆及行人的类别。第二步,根据全标记和半标记的内容,按照一定规则对训练图像的图像目标候选区域进行自动标定,图像目标候选区域经过上述标定后获得该标记区域的图像标签和图像候选目标区域标签。其中,半标记区域的图像图像候选目标区域标签为缺省状态。第三步,训练图像的池化特征和图像或者图像目标区域的标签,是对检测器进行训练的基础,经过多张图像训练后形成一个车辆/行人候选区域分类模型。
作为本发明的一个优选技术方案,步骤S43所述的训练具体包括:
S431对训练图像的池化特征进行两次全链接,将全链接结果分别通过两条支路进行处理,其中,第一支路全链接到多维向量上,归一化得到第一概率分布向量;第二支路经过全局最大池化后全链接到多维向量上,归一化得到第二概率分布向量;将所述第一概率分布向量和/或第二概率分布向量输入所述检测器完成检测器的正向计算;所述多维向量的维度由车辆/行人的具体类别确定;
S432所述第一支路上利用图像目标候选区域标签计算训练图像的损失和梯度,更新检测参数;所述第二支路利用图像标签计算训练图像的损失和梯度,更新检测参数;完成检测器的反向计算。
检测器的训练过程,包括正向训练和反向训练。在检测器的正向训练过程中,训练图像的池化特征需要经过两次全链接,得到的全链接结果分别通过两条支路进行处理。在第一支路上,将该全链接结果直接全链接到一个多维向量上,进一步利用softmax计算得到第一支路的概率分布向量并录入检测器;在第二支路上,将该全链接结果进行全局最大池化后,进一步链接到一个多维向量上,最后经softmax计算得到第二支路的概率分布向量并录入检测器。步骤S431中所述多维向量的维度与图像标签的维度一致。标记过程中,全标记和半标记都需要标记车辆/行人的类别,对于一个具有确定的车辆/行人类别的应用场景来说,其图像标签的维度和图像候选目标区域标签的维度是确定的。正向传播完成后,对每幅图像进行反向传播计算。第一支路上,对具有图像候选目标区域标签信息的全标记区域,使用softmax损失函数计算,进行归一化处理,得到损失和梯度,并用随机梯度下降(SGD)的训练方法更新参数;对图像候选目标区域标签信息缺省的半标记区域,不进行反向计算。第二支路上,对全标记图像和半标记图像,都利用其图像标签,使用多类别交叉熵损失函数计算图像标签的损失和梯度和softmax输出层的损失和梯度,并用随机梯度下降(SGD)的训练方法更新参数。
作为本发明的一个优选技术方案,步骤S3具体包括,
S31将训练图像的目标候选区域信息映射到训练图像的深度卷积特征图,得到训练图像的目标区域特征图;
S32根据训练图像的目标区域特征图,对候选区域进行最大池化,即可获得目标候选区域的池化特征。
本发明技术方案中,获取目标候选区域的池化特征分两步进行。首先,根据步骤S2提取得到车辆、行人图像的候选区域信息后,将每个候选区域映射到步骤S1中提取的图像特征图中,经过数据处理可以得到一定数量的不定尺寸ROI特征图。。然后,根据上述ROI区域的深度卷积特征,进行ROI最大池化,输出一定数量的固定尺寸特征图。第二步,根据上述步骤获得的ROI区域的深度卷积特征,进行ROI最大池化。ROI池化层使用最大池化将任何尺寸的ROI特征转换成具有固定尺寸的特征图,该固定尺寸独立于任何特定尺寸的ROI区域。ROI最大池化通过将ROI窗口划分为若干个子窗口网格,然后将每个子窗口中取最大值输出到到对应的网格单元。
作为本发明的一个优选技术方案,步骤S5具体包括,
S51提取待测车辆和/或行人图像的深度卷积特征图;
S52获取待测车辆和/或行人图像中的目标候选区域;
S53分别获取待测车辆和/或行人图像的每个目标候选区域的池化特征;
S54利用车辆/行人候选区域分类模型对待测车辆和/或行人图像的池化特征进行识别分类,以获得车辆/行人的类别和/或位置信息。
对于待测图像,在检测器对其进行检测之前,需要经过与训练图像类似的处理过程。将经过上述处理得到的图像特征信息输入检测器,检测器利用训练所得的车辆/行人候选区域分类模型对于待检信息进行识别。如果待测区域中有车辆和/或行人,则输出该车辆和/或行人的类别和/或位置信息。
按照本发明技术方案的另一方面,提供一种车辆、行人检测系统,其特征在于,包括,
卷积模块,用于提取训练图像的深度卷积特征图;
区域选择模块,用于获取训练图像的目标候选区域;
池化模块,用于利用训练图像的深度卷积特征图,获取训练图像的目标候选区域的池化特征;
训练模块,用于基于训练图像的目标候选区域的池化特征,训练检测器,以得到车辆/行人候选区域分类模型;
检测模块,用于利用车辆/行人候选区域分类模型检测待检测车辆/行人图像获得车辆和/或行人的类别和/或位置。
作为本发明的一个优选技术方案,训练模块包括下列单元,
标记单元,用于标记训练图像的车辆/行人所在位置和/或类别,其中所述标记包括包含位置信息和类别信息的全标记以及仅包含类别信息的半标记;
标定单元,用于按照所述标记对训练图像的目标候选区域进行自动标定,以获得图像标签和图像目标候选区域标签;
训练单元,用于提取训练图像的目标候选区域的池化特征,利用所述池化特征与所述图像标签和/或所述图像目标候选区域对检测器进行训练,以得到车辆/行人候选区域分类模型。
作为本发明的一个优选技术方案,训练单元包括下列单元,
正向训练单元,用于对训练图像的池化特征进行两次全链接,将全链接结果分别通过两条支路进行处理,其中,第一支路全链接到多维向量上,归一化得到第一概率分布向量;第二支路经过全局最大池化后全链接到多维向量上,归一化得到第二概率分布向量;再将所述第一概率分布向量和/或第二概率分布向量输入所述检测器,完成检测器的正向训练,其中所述多维向量的维度由车辆/行人类别确定;
反向训练单元,用于在所述第一支路上利用图像目标候选区域标签计算训练图像的损失和梯度,更新检测器的检测参数;同时用于在所述第二支路利用图像标签计算训练图像的损失和梯度,更新检测器的检测参数,以此完成检测器的反向训练。
作为本发明的一个优选技术方案,池化模块包括下列单元,
映射单元,用于将训练图像的目标候选区域信息映射到训练图像的深度卷积特征图,以得到训练图像的目标区域特征图;
池化单元,用于根据训练图像的目标区域特征图,对候选区域进行最大池化,以获得目标候选区域的池化特征。
作为本发明的一个优选技术方案,检测模块包括下列单元,
卷积单元,用于提取待测车辆和/或行人图像的深度卷积特征图;
选择单元,用于获取待测车辆和/或行人图像中的目标候选区域;
池化单元,用于分别获取待测车辆和/或行人图像的每个目标候选区域的池化特征;
训练单元,用于利用车辆/行人候选区域分类模型对待测车辆和/或行人图像的池化特征进行识别分类,即可获得车辆/行人的类别和/或位置信息。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1)本发明技术方案的车辆、行人检测方法,采用对训练图像中的车辆/行人一并进行分类标记,训练时并不对车辆或者行人作出单一识别,而是对其进行无差别的逐一识别的方法,因此只需要对一个检测器进行训练,所得车辆/行人候选区域分类模型即可用于识别多种类别的车辆和行人。
2)本发明技术方案的车辆、行人检测方法,在训练过程中,只需要对30%的图像进行全标记,即涵盖了图像中的车辆/行人类别和/或位置信息。相较于现有技术的标记方法,大大减少了训练检测器所需要的车辆和行人数据量。
3)本发明技术方案的车辆、行人检测系统,对于训练图像的车辆/行人类别信息没有具体的要求,经过训练的检测器既可以识别一般不特定对象信息,也可以识别特定目标的信息,相较于现有技术可以识别多数不确定目标的车辆和/或行人信息。
附图说明
图1是本发明一个实施例的检测方法的流程图;
图2是图1的方法中步骤S4的流程图;
图3是本发明一个实施例的检测系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。
本发明的基于半监督深度神经网络的车辆及行人检测方法,对图像中的车辆及行人进行检测和类别识别,并输出车辆及行人的坐标位置和类别型号。
图1是本发明一个实施例的检测方法的流程图。如图1所示,本发明的一个实施例的车辆/行人检测方法,包括下述步骤:
S1获取车辆及行人图像集中图像的深度卷积特征图。
本实施例中,其具体步骤为:对车辆及行人图像集中的每张图像,使用卷积神经网络(CNN)获取该图像的深度卷积特征。具体地,在开源caffe框架上,利用已用ImageNet数据预训练好的模型CaffeNet计算图像的深度特征。首先,将宽度w和高度h的图像,调整大小为s=min(w,h)的正方形;然后取CaffeNet的前五层卷积层参数,对每张调整大小后的正方形图像进行卷积、Relu、池化等逐层计算,得到256张深度卷积特征图。
S2获取车辆及行人图像集中图像的车辆及行人目标候选区域(proposal)。
本实施例中,其具体步骤为:对车辆及行人图像集中的每张图像,使用selectivesearch(选择性搜索)算法提取图像中的目标候选区域。具体地,使用该算法提取到若干个可能包含车辆及行人目标的矩形框,每个矩形框用(x,y,w,h)的形式来表示,其中x和y分别代表矩形框左上角点的横坐标和纵坐标,w和h分别代表矩形框的宽度和高度。使用selective search算法给每张图提取到K个目标候选区域,其中,K为该图像目标区域,本实施例在优选大小约为2000。
S3获取每张图像中每个目标候选区域的ROI(region of intrest)池化特征。
本实施例中其具体步骤包括:
S31对于车辆及行人图像集中的图像,根据步骤S2中的提取到该图像的所有候选区域信息。对每个候选区域信息进行映射,映射到步骤S1中提取到图像特征图,得到图像特征图ROI位置。具体地,ROI是一个卷积特征图内的一个矩形窗口。每个ROI由指定其左上角坐标(xr,yr)及其高度和宽度(hr,wr)的四元组(xr,yr,hr,wr)定义。
对于某图像的候选区域信息为[(x1,y1,w1,h1),(x2,y2,w2,h2)...(xK,yK,wK,hK)],某候选区域框的坐标(x,y,w,h),变换到图像特征图ROI的坐标(xr,yr,hr,wr)为其中,S为图像深度卷积特征图尺寸与图像尺寸的比值。因此,对于任一候选区域得到256张不定尺寸的ROI特征图。
S32根据步骤S31中获取的ROI区域的深度卷积特征,进行ROI最大池化。ROI池化层使用最大池化(max pooling)将任何尺寸的ROI特征转换成具有固定尺寸H×W(例如,7×7)的小特征图,其中H和W是输出特征图的高度和宽度,独立于任何特定尺寸的ROI。ROI最大池化通过将hr×wr的ROI窗口划分为大约hr/H×wr/W的子窗口的H×W网格,然后将每个子窗口中取最大值输出到到对应的网格单元。因此,每个ROI最终输出为256张尺寸为H*W的固定尺寸特征图。
S4利用半监督深度神经网络方法,训练车辆及行人候选区域分类模型。图2为步骤S4的流程图。本实施例中其具体包括以下步骤:
S41取训练图像集中每张图像的所有车辆及行人所在位置和类别。具体地,在训练图像集中通过人工标注的方法对部分训练图像的车辆及行人目标进行全标记,画取包围矩形框,并记录包含车辆及行人目标矩形框的坐标信息和标记车辆及行人目标的类别,记录为(x,y,w,h,c),其中x和y是车辆及行人目标框左上角的横坐标和纵坐标,w和h是目标框的宽度和高度,c是目标框里车辆及行人的类别,对于用C类车辆及行人类别的应用场景,c∈{1,2,3……C}。若某图像中有j个车辆及行人,则该图像的标记信息为[(x1,y1,w1,h1),(x2,y2,w2,h2)...(xK,yK,wK,hK)]。此外,对剩下部分图像进行半标记,只标记记录车辆及行人目标的类别,若图像中有j个车辆及行人,则该图像的标记信息为[c1,c2,...cj]。具体地,在训练过程中,只对30%的图像进行全标记,即标记了车辆及行人包围框坐标信息。
S42对训练图像集中的图像候选目标区域进行自动标定。本实施例中其具体步骤为:
S421对于全标记的图像,利用步骤2,获得训练图像集中图像的目标候选区信息,并根据候选区与车辆及行人目标矩形框的重叠度,分别对图像和图像的候选区进行自动标定。具体地,用以下规则进行自动标定:
首先,对于图像标记信息[(x1,y1,w1,h1,c1),(x2,y2,w2,h2,c2),...(xj,yj,wj,hj,cj)],该图像的标签为一个C+1维度的向量L∈R(C+1)×1,其中第0维表示图像中是否存在背景,第i维表示图像是否存在类别i,若存在则L[i]=1,否则L[i]=0。即,对于上述的标记信息中的ck,k∈{1,...j},L(ck)=1,L(0)=1。
其次,计算图像的候选区与标记信息中的重叠度,重叠度的表示方法为IOU(两个区域交集面积与并集的比值)。若某候选区(xp,yp,wp,hp)与标记信息中某车辆/行人区域(xk,yk,wk,hk,ck),k∈{1,2,...j}的IOU大于0.5,则将该候选区标记为
(xp,yp,wp,hp,lp),lp∈R(C+1)×1
其中图像某候选区的标签也为一个C+1维度的向量lp[i]=1ifi=ckelselp[i]=0。
S422对于半标记的图像,利用步骤4.1的标记信息[c1,c2,...cj],则该图像的标签为一个C+1维度的向量L∈R(C+1)×1,其中第0维表示图像中是否存在背景,第i维表示图像是否存在类别i,若存在则L[i]=1,否则L[i]=0。即,对于上述的标记信息中的ck,k∈{1,...j},L(ck)=1,L(0)=1;在半标记图像中,图像候选区的标签为缺省状态。
S43对于每个ROI区域,按照如如图的方式训练进行训练,并最终得到车辆及行人候选区域分类模型。本实施例中其具体包括:
S431具体地,每次训练过程中,进行一次正向的计算特征,对每张图像,首先安州步骤3的方式提取ROI池化特征,然后经过两次全链接以及Relu非线性计算,这里的全链接计算均得到256个4096维的向量,令两次全链接层的输出为FC1和FC2。接着,分两条支路进行,第一条计算ROI的区域类别标签概率分布,首先对FC1全链接到一个C+1维的向量上,进一步softmax就算得到概率分布向量;第二条首先对FC2进行全局最大池化,得到1*4096的向量,进一步全链接到一个C+1维的向量上,进一步softmax计算得到概率分布向量。
S432在每次训练过程中,进行正向传播后,对每幅图像进行反向传播计算,在S431中的第一条支路上,对缺省的半标记图像不进行反向计算,对全标记的图像利用ROI区域标签lp,使用softmax损失计算损失和梯度,并用SGD(随机梯度下降)的训练方法更新参数;在S431中的第二条支路上,对半标记或全标记的图像都利用图像的标签L,使用多类别交叉熵损失函数计算L与其softmax输出层的损失和梯度,并用SGD(随机梯度下降)的训练方法更新参数。
S5利用车辆及行人候选区域分类模型检测待检测车辆及行人图像中的车辆及行人类别和位置,本实施例中其具体步骤为:
S51按照步骤S1对待检测车辆及行人图像提取深度卷积特征图。
S52按照步骤S2中selective search算法给待检测车辆及行人图像提取车辆及行人目标候选区域,并利用S3中的ROI映射和ROI池化,将深度卷积特征图上的ROI特征表示为一组固定尺寸的特征。
S53按照步骤S4中学习到的车辆及行人候选区域分类器对S52中的ROI特征进行识别分类,并判断是否为车辆及行人以及判断车辆及行人的类别,作为输出识别结果。
S54利用S53中的输出识别结果,来确定候选区域是否为要检测的目标。若是,则输出该候选区的坐标信息,以及识别的车辆及行人类别。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种车辆/行人检测方法,其特征在于,包括以下步骤,
S1提取训练图像的深度卷积特征图;
S2获取训练图像的目标候选区域;
S3利用训练图像的深度卷积特征图,获取训练图像的目标候选区域的池化特征;
S4基于训练图像的目标候选区域的池化特征,训练检测器,得到车辆/行人候选区域分类模型;
S5利用车辆/行人候选区域分类模型检测待检测车辆/行人图像,获得车辆和/或行人的类别和/或位置;
其中,步骤S4具体包括,
S41标记训练图像的车辆/行人所在位置和/或类别,其中所述标记包括包含位置信息和类别信息的全标记以及仅包含类别信息的半标记;
S42按照所述标记对训练图像的目标候选区域进行自动标定,获得图像标签和图像目标候选区域标签;
S43提取训练图像的目标候选区域的池化特征,利用所述池化特征以及所述图像标签和图像目标候选区域标签对检测器进行训练,得到车辆/行人候选区域分类模型;
其中,步骤S43所述的训练具体包括,
S431对训练图像的池化特征进行两次全链接,将全链接结果分别通过两条支路进行处理,其中,第一支路全链接到多维向量上,归一化得到第一概率分布向量;第二支路经过全局最大池化后全链接到多维向量上,归一化得到第二概率分布向量;将所述第一概率分布向量和/或第二概率分布向量输入所述检测器,完成检测器的正向训练,其中所述多维向量的维度由车辆/行人类别确定;
S432在所述第一支路上利用图像目标候选区域标签计算训练图像的损失和梯度,更新检测器的检测参数;在所述第二支路利用图像标签计算训练图像的损失和梯度,更新检测器检测参数,以此完成检测器的反向训练。
2.根据权利要求1所述的一种车辆/行人检测方法,其中,步骤S3具体包括,
S31将训练图像的目标候选区域信息映射到训练图像的深度卷积特征图,得到训练图像的目标区域特征图;
S32根据训练图像的目标区域特征图,对候选区域进行最大池化,即可获得目标候选区域的池化特征。
3.根据权利要求1或2所述的一种车辆/行人检测方法,其中,步骤S5具体包括,
S51提取待测车辆和/或行人图像的深度卷积特征图;
S52获取待测车辆和/或行人图像中的目标候选区域;
S53分别获取待测车辆和/或行人图像的每个目标候选区域的池化特征;
S54利用车辆/行人候选区域分类模型对待测车辆和/或行人图像的池化特征进行识别分类,即可获得车辆/行人的类别和/或位置信息。
4.一种车辆/行人检测系统,其特征在于,包括,
卷积模块,用于提取训练图像的深度卷积特征图;
区域选择模块,用于获取训练图像的目标候选区域;
池化模块,用于利用训练图像的深度卷积特征图,获取训练图像的目标候选区域的池化特征;
训练模块,用于基于训练图像的目标候选区域的池化特征,训练检测器,以得到车辆/行人候选区域分类模型;
检测模块,用于利用车辆/行人候选区域分类模型检测待检测车辆/行人图像获得车辆和/或行人的类别和/或位置;
其中,所述训练模块包括下列单元,
标记单元,用于标记训练图像的车辆/行人所在位置和/或类别,其中所述标记包括包含位置信息和类别信息的全标记以及仅包含类别信息的半标记;
标定单元,用于按照所述标记对训练图像的目标候选区域进行自动标定,以获得图像标签和图像目标候选区域标签;
训练单元,用于提取训练图像的目标候选区域的池化特征,利用所述池化特征与所述图像标签和/或所述图像目标候选区域对检测器进行训练,以得到车辆/行人候选区域分类模型;
其中,所述训练单元包括下列单元,
正向训练单元,用于对训练图像的池化特征进行两次全链接,将全链接结果分别通过两条支路进行处理,其中,第一支路全链接到多维向量上,归一化得到第一概率分布向量;第二支路经过全局最大池化后全链接到多维向量上,归一化得到第二概率分布向量;再将所述第一概率分布向量和/或第二概率分布向量输入所述检测器,完成检测器的正向训练,其中所述多维向量的维度由车辆/行人类别确定;
反向训练单元,用于在所述第一支路上利用图像目标候选区域标签计算训练图像的损失和梯度,更新检测器的检测参数;同时用于在所述第二支路利用图像标签计算训练图像的损失和梯度,更新检测器的检测参数,以此完成检测器的反向训练。
5.根据权利要求4所述的一种车辆/行人检测系统,其中,所述池化模块包括下列单元,
映射单元,用于将训练图像的目标候选区域信息映射到训练图像的深度卷积特征图,以得到训练图像的目标区域特征图;
池化单元,用于根据训练图像的目标区域特征图,对候选区域进行最大池化,以获得目标候选区域的池化特征。
6.根据权利要求4或5所述的一种车辆/行人检测系统,其中,所述检测模块包括下列单元,
卷积单元,用于提取待测车辆和/或行人图像的深度卷积特征图;
选择单元,用于获取待测车辆和/或行人图像中的目标候选区域;
池化单元,用于分别获取待测车辆和/或行人图像的每个目标候选区域的池化特征;
训练单元,用于利用车辆/行人候选区域分类模型对待测车辆和/或行人图像的池化特征进行识别分类,即可获得车辆/行人的类别和/或位置信息。
CN201710224733.7A 2017-04-07 2017-04-07 一种车辆/行人检测方法及系统 Expired - Fee Related CN107133570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710224733.7A CN107133570B (zh) 2017-04-07 2017-04-07 一种车辆/行人检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710224733.7A CN107133570B (zh) 2017-04-07 2017-04-07 一种车辆/行人检测方法及系统

Publications (2)

Publication Number Publication Date
CN107133570A CN107133570A (zh) 2017-09-05
CN107133570B true CN107133570B (zh) 2018-03-13

Family

ID=59716538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710224733.7A Expired - Fee Related CN107133570B (zh) 2017-04-07 2017-04-07 一种车辆/行人检测方法及系统

Country Status (1)

Country Link
CN (1) CN107133570B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583266A (zh) * 2017-09-28 2019-04-05 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置、计算机设备及存储介质
CN109993031B (zh) * 2017-12-29 2021-07-20 杭州海康威视数字技术股份有限公司 一种畜力车目标违章行驶行为检测方法、装置及相机
CN110008792B (zh) * 2018-01-05 2021-10-22 比亚迪股份有限公司 图像检测方法、装置、计算机设备及存储介质
CN108805196B (zh) * 2018-06-05 2022-02-18 西安交通大学 用于图像识别的自动增量学习方法
CN110659548B (zh) * 2018-06-29 2023-08-11 比亚迪股份有限公司 车辆及其目标检测方法、装置
CN109145759B (zh) * 2018-07-25 2023-04-18 腾讯科技(深圳)有限公司 车辆属性识别方法、装置、服务器及存储介质
CN109447171A (zh) * 2018-11-05 2019-03-08 电子科技大学 一种基于深度学习的车辆姿态分类方法
CN109726661B (zh) * 2018-12-21 2021-12-17 网易有道信息技术(北京)有限公司 图像处理方法及装置、介质和计算设备
US10692002B1 (en) * 2019-01-28 2020-06-23 StradVision, Inc. Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same
CN110332929A (zh) * 2019-07-10 2019-10-15 上海交通大学 车载行人定位系统及方法
CN110399514B (zh) * 2019-07-29 2022-03-29 中国工商银行股份有限公司 用于对图像进行分类和标注的方法和装置
CN110837789B (zh) * 2019-10-31 2023-01-20 北京奇艺世纪科技有限公司 一种检测物体的方法、装置、电子设备及介质
CN111161848B (zh) * 2019-10-31 2023-08-29 杭州深睿博联科技有限公司 Ct图像的病灶标注方法及装置、存储介质
CN110929774B (zh) * 2019-11-18 2023-11-14 腾讯科技(深圳)有限公司 图像中目标物的分类方法、模型训练方法和装置
CN111597959B (zh) * 2020-05-12 2023-09-26 盛景智能科技(嘉兴)有限公司 行为检测方法、装置及电子设备
CN112256906A (zh) * 2020-10-23 2021-01-22 安徽启新明智科技有限公司 在显示屏上标记批注的方法、装置和存储介质
CN116524474B (zh) * 2023-07-04 2023-09-15 武汉大学 一种基于人工智能的车辆目标检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997045790A1 (en) * 1996-05-31 1997-12-04 Emc Corporation Method and apparatus for independent and simultaneous access to a common data set
CN104063719A (zh) * 2014-06-27 2014-09-24 深圳市赛为智能股份有限公司 基于深度卷积网络的行人检测方法及装置
CN105956560A (zh) * 2016-05-06 2016-09-21 电子科技大学 一种基于池化多尺度深度卷积特征的车型识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997045790A1 (en) * 1996-05-31 1997-12-04 Emc Corporation Method and apparatus for independent and simultaneous access to a common data set
CN104063719A (zh) * 2014-06-27 2014-09-24 深圳市赛为智能股份有限公司 基于深度卷积网络的行人检测方法及装置
CN105956560A (zh) * 2016-05-06 2016-09-21 电子科技大学 一种基于池化多尺度深度卷积特征的车型识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于混合高斯模型的运动车辆检测方法;卢清华等;《光电子 激光》;20130430;第751-757页 *

Also Published As

Publication number Publication date
CN107133570A (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
CN107133570B (zh) 一种车辆/行人检测方法及系统
CN108596277B (zh) 一种车辆身份识别方法、装置和存储介质
Najjar et al. Combining satellite imagery and open data to map road safety
CN102043945B (zh) 基于车辆实时跟踪和二进指数分类车牌字符识别的方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN106845487A (zh) 一种端到端的车牌识别方法
CN107545239A (zh) 一种基于车牌识别与车辆特征匹配的套牌检测方法
CN107992819B (zh) 一种车辆属性结构化特征的确定方法与装置
CN105930791A (zh) 基于ds证据理论的多摄像头融合的路面交通标志识别方法
CN106022232A (zh) 基于深度学习的车牌检测方法
CN110188807A (zh) 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法
CN106372666B (zh) 一种目标识别方法及装置
CN108491797A (zh) 一种基于大数据的车辆图像精确检索方法
CN107085696A (zh) 一种基于卡口图像的车辆定位及型号识别方法
CN106529578A (zh) 一种基于深度学习的车辆品牌型号精细识别方法与系统
CN107145889A (zh) 基于具有RoI池化的双CNN网络的目标识别方法
CN106815604A (zh) 基于多层信息融合的注视点检测方法
CN108090429A (zh) 一种分级前脸卡口车型识别方法
CN104392232B (zh) 一种交通场景下视频元数据的校正方法
CN104050447A (zh) 一种交通信号灯识别方法和装置
CN109949593A (zh) 一种基于路口先验知识的交通信号灯识别方法及系统
CN108875803A (zh) 一种基于视频图像的危化品运输车辆检测与识别方法
CN107273832A (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN111914761A (zh) 一种热红外人脸识别的方法及系统
CN108549901A (zh) 一种基于深度学习的快速迭代目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180313