CN110309790B - 一种用于道路目标检测的场景建模方法和装置 - Google Patents

一种用于道路目标检测的场景建模方法和装置 Download PDF

Info

Publication number
CN110309790B
CN110309790B CN201910599129.1A CN201910599129A CN110309790B CN 110309790 B CN110309790 B CN 110309790B CN 201910599129 A CN201910599129 A CN 201910599129A CN 110309790 B CN110309790 B CN 110309790B
Authority
CN
China
Prior art keywords
scene
network
transformation
block
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910599129.1A
Other languages
English (en)
Other versions
CN110309790A (zh
Inventor
汪涛
肖国宝
曾坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minjiang University
Original Assignee
Minjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minjiang University filed Critical Minjiang University
Priority to CN201910599129.1A priority Critical patent/CN110309790B/zh
Publication of CN110309790A publication Critical patent/CN110309790A/zh
Application granted granted Critical
Publication of CN110309790B publication Critical patent/CN110309790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

发明人提供了一种用于道路目标检测的场景建模方法,包括步骤:通过目标检测模块的基础网络获得各分块的特征;以一分块特征作为场景分类网络的输入,获得场景分类网络的输出;通过场景变换网络T对所述空间分布热力图
Figure DDA0002118667440000011
进行变换,得到根据输入信息校准后的场景布局特征;将
Figure DDA0002118667440000012
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。上述技术方案能够利用基于迁移和变换两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比物体的场景布局特征图。

Description

一种用于道路目标检测的场景建模方法和装置
技术领域
本发明涉及计算机软件领域,特别涉及一种用于道路目标检测的场景建模方法和装置。
背景技术
伴随着城市中监控摄像头以及车辆行车记录仪的大量普及,这些摄像头采集了大量包含道路目标的视频和图像数据。对于这类大量产生且实时性强的视频流,通过人工查看方式进行分析,不能满足智慧城市以及自动驾驶等应用的需求。对此类包含道路目标的视频和图像进行实时分析,是目前工业界和学术界都关注的问题。
目标检测(Object Detection)作为一种视频和图像分析中的基础技术,是目标跟踪、行为分析等更高级的场景理解方法中不可或缺的模块。目前,包含目标检测在内的技术所采用的主流解决方案是神经网络,大致上分为以Faster RCNN、R-FCN等为代表的基于目标题名(Object Proposals)的方法,以及以YOLO、SSD、DSOD等为代表的单次(One-shot)方法。上述两类方法都没有直接考虑场景的布局,即根据场景的类型和行车道、人行道、建筑物等的方位来推断物体大体上可能出现的位置。
虽然道路布局有很强的先验性和规则性,但在不同城市的道路场景中,道路场景的布局仍然有很大的不同。此外,由于摄像头视角变化等因素,更增加了场景布局的多样性。表示场景布局的传统方法以参数化方法为主,如针对室外场景的分段平面假设法以及针对室内场景的曼哈顿世界假设法,同时还有专门针对道路场景的顶视图参数化方法等。此类参数化方法的主要局限性在于难以穷尽地刻画道路场景布局的多样性,遇到方法设计时未考虑到的场景布局时,方法有效性受到较大影响。
发明内容
为此,有必要提供一种用于道路目标检测的场景建模方法。基于此,发明人提供了一种用于道路目标检测的场景建模方法,包括如下步骤:
通过目标检测模块的基础网络获得各分块的特征;
以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure BDA0002118667420000021
通过场景变换网络T对所述空间分布热力图
Figure BDA0002118667420000022
进行变换,得到根据输入信息校准后的场景布局特征
Figure BDA0002118667420000023
Figure BDA0002118667420000024
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述的用于道路目标检测的场景建模方法中,所述步骤“通过场景变换网络T对所述空间分布热力图
Figure BDA0002118667420000025
进行变换”具体包括空间变换处理和精细化处理,所述空间变换处理具体包括:
Figure BDA0002118667420000026
以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图
Figure BDA0002118667420000027
作为空间变换网络的输出。
进一步地,所述的用于道路目标检测的场景建模方法中,所述精细化处理具体包括:
以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
Figure BDA0002118667420000028
进一步地,所述的用于道路目标检测的场景建模方法中,评估所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
Figure BDA0002118667420000031
其中Im为第m张训练图像,
Figure BDA0002118667420000032
为网络输出的第i个元素。
进一步地,所述的用于道路目标检测的场景建模方法中,所述场景变换的损失函数为:
Figure BDA0002118667420000033
其中,
Figure BDA0002118667420000034
发明人同时还提供了一种用于道路目标检测的场景建模装置,包括分块特征获取单元、计算单元、场景变换单元、基础特征获取单元、目标检测单元;
所述分块特征获取单元用于通过目标检测模块的基础网络获得各分块的特征;
所述计算单元用于以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure BDA0002118667420000035
所述场景变换单元用于通过场景变换网络T对所述空间分布热力图
Figure BDA0002118667420000036
进行变换,得到根据输入信息校准后的场景布局特征
Figure BDA0002118667420000037
所述基础特征获取单元用于将
Figure BDA0002118667420000038
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,所述目标检测单元用于并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换单元包括空间变换模块与精细化处理模块;所述空间变换模块用于进行空间变换处理,具体包括:
所述空间变换模块用于:以
Figure BDA0002118667420000047
以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图
Figure BDA0002118667420000041
作为空间变换网络的输出。
进一步地,所述的用于道路目标检测的场景建模装置中,所述精细化处理模块用于以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
Figure BDA0002118667420000042
进一步地,所述的用于道路目标检测的场景建模装置中,还包括损失函数评估单元,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
Figure BDA0002118667420000043
其中Im为第m张训练图像,
Figure BDA0002118667420000044
为网络输出的第i个元素。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换的损失函数为:
Figure BDA0002118667420000045
其中,
Figure BDA0002118667420000046
区别于现有技术,上述技术方案能够利用基于迁移(对应场景分类网络)和变换(场景变换网络)两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比目标的空间分布热力图。该热力图可作为一种通用图像特征,用于其它场景的场景理解任务。
附图说明
图1为本发明一实施方式所述的用于道路目标检测的场景建模方法的流程图;
图2为本发明一实施方式所述的用于道路目标检测的场景建模装置的结构示意图。
附图标记说明:
1-分块特征获取单元
2-计算单元
3-场景变换单元;31-空间变换模块;32-精细化处理模块
4-基础特征获取单元
5-目标检测单元
6-损失函数评估单元
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述的用于道路目标检测的场景建模方法的流程图;所述方法包括如下步骤:
S1、通过目标检测模块的基础网络获得各分块的特征;
S2、以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure BDA0002118667420000061
S3、通过场景变换网络T对所述空间分布热力图
Figure BDA0002118667420000062
进行变换,得到根据输入信息校准后的场景布局特征
Figure BDA0002118667420000063
S4、将
Figure BDA0002118667420000064
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述步骤S3“通过场景变换网络T对所述空间分布热力图
Figure BDA0002118667420000065
进行变换”又具体包括步骤S31空间变换处理和步骤S32精细化处理,所述空间变换处理具体包括:
S31、以
Figure BDA0002118667420000066
以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图
Figure BDA0002118667420000067
作为空间变换网络的输出。
所述精细化处理具体包括:
S32、以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
Figure BDA0002118667420000068
进一步地,本实施方式中,还可以对所述的用于道路目标检测的场景建模方法进行评估其的联合训练的损失函数L。L包括场景分类损失函数Lcls和场景变换损失函数Lstn
所述场景分类损失函数Lcls为:
Figure BDA0002118667420000071
其中Im为第m张训练图像,
Figure BDA0002118667420000072
为网络输出的第i个元素。
所述场景变换的损失函数为:
Figure BDA0002118667420000073
其中,
Figure BDA0002118667420000074
本实施方式技术方案的实质是提出一种用于道路目标检测的非参数布局迁移变换场景建模方法,具体而言,通过共享卷积神经网络的特征层,在得到目标检测边界盒(BoundingBox)的同时,得到输入图像或视频帧的场景目标空间分布热力图。该热力图的形式是给定目标类别、尺度和长宽比时,目标在成像平面上出现的概率分布热力图。
其中,对所谓共享卷积神经网络的特征层的理解如下:由于卷积神经网络的基础网络的作用是特征提取,而这部分特征是可以同时用于目标检测与场景布局估计的,所以共享这些特征层,可以减少计算量。具体举例来说,例如步骤S1所述:通过目标检测模块的基础网络获得各分块的特征。对此处分块的理解如下:由于本实施方式采用ResNet作为基础网络,ResNet中就有分块这一概念,即把一系列结构相对固定的神经网络层统称为一个分块。分块概念是为了用模块化的方式,比较方便地表示层数很多且结构自相似的神经网络。而这里各分块的特征,具体指的是上述每一个分块中最后一层的特征。在本发明涉及的技术方案中,这些不同分块的特征一般是自底向上逐渐抽象的图像的语义特征。
举一例进行说明:例如分块从第一至第六分块分别为{C1,C2,C3,C4,C5,C6},根据卷积神经网络的特性,不同分块的特征分辨率逐块减半,这是由于使用了ResNet作为基础网络的缘故所产生的特点:特征分辨率逐块减半是自底向上的。假如输入的图像是512*768,则C1中最后一层特征分辨率是256*384,C2是128*192,以此类推,C5是16*24,C6是8*12。
对目标检测边界盒的理解:目标检测边界盒是一种对目标的姿态的简化数学表示,例如,可以用一个矩形框来表示目标的位置,此时往往表示为框住目标的矩形框的左上角和右下角在图像平面上的x、y坐标,共4个实数。
对场景目标的空间分布热力图的理解:为了构建空间分布热力图,需要对待检测的目标进行基于混合模型(mixture model)的建模,也就是将目标根据不同的语义类别、不同尺度、不同长宽比分入K个混合模型成分(component)中,其中每一个成分对应特定目标类别、特定尺度、特定长宽比,并且对应一张大小为W*H的空间概率分布的热力图,其中W和H分别是热力图的宽度和高度。这张热力图的每一个像素位置对应的是输入图像对应位置上出现特定目标类别、特定尺度、特定长宽比目标的概率,因此每个像素位置上的实数取值范围都是[0,1](可通过归一化实现),全部K个场景目标空间分布热力图维度是W*H*K。)该特征与卷积神经网络的特征层进行级联(Concatenation)后,共同作为目标检测模块的输入特征。从而,在目标检测模块中实现了与场景布局在特征层的早期融合,而非后期融合。
对步骤S2“以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure BDA0002118667420000081
”,可以参照以下的例子进行理解:使用基础网络中某一分块,例如C6的特征,作为场景分类网络的输入,得到以空间分布热力图为形式的输出,为一个预先聚类得到的共计N个聚类的场景码本的第i个聚类,i∈{1,...,N}。并且,第i个类别对应聚类时统计的不同目标类别在不同尺度、长宽比下的空间分布热力图
Figure BDA0002118667420000082
亦即场景目标的空间分布热力图。该步骤通过非参数方法找寻聚类中码本中的最近邻,并采用检索(retrieval)的方式得到目标的空间分布热力图。
其中,场景分类网络是一个由若干卷积层和全连接层构成的子网络。它的输入是C6的特征,如输入图像是512*768,那么C6的维度就是8*12*256,其中256是通道数。这是一个高维特征,对其通过若干卷积层和全连接层降维后,可以得到一个固定长度的一维向量,其长度为N,即聚类的个数。这样加上Softmax层就可以进行分类了(通过将长度为N的one-hot向量再变回为长度为1的向量,可以认为输出是i,但实际上输出准确地说是一个长度为N的one-hot向量)。这个场景分类网络可以看做是从基础网络中独立出来的一个分支,该分支的作用就是对场景进行分类。分类的结果又会继续作为后续步骤的场景变换网络的输入之一。
步骤S3进行的是场景变换处理,其必要性在于:通过检索得到的场景目标的空间分布热力图可能存在以下问题:(1)由于聚类数量相比场景的变化而相对有限,得到的场景目标的空间分布热力图较为粗糙,无法得到物体的准确位置;(2)该特征所反映的是一类场景布局下物体的分布情况,无法对输入图片有更准确的目标位置、尺度估计。因此,通过步骤S3所述的场景目标的空间分布热力图
Figure BDA0002118667420000091
进行变换,得到根据输入图像或视频帧校准后的场景目标的空间分布热力图
Figure BDA0002118667420000092
其中T为场景变换网络。
步骤S31中,空间变换使用空间变换网络(SpatialTransformerNetwork),该网络的主要特征是:支持任何可参数化的特征变换,且可以进行梯度反向传播。以2D仿射变换为例,设xc=(ax,ay),并设变换前后的坐标是(ax,ay)和
Figure BDA0002118667420000093
则该变换可以写为以下齐次坐标形式:
Figure BDA0002118667420000094
空间变换网络的输入是
Figure BDA0002118667420000095
和基础网络的某一分块,如C6,通过卷积层处理后将两个特征进行级联,再通过卷积层和全连接层回归得到θ=[θ11,θ12,θ13,θ21,θ22,θ23]。由于变换后坐标
Figure BDA0002118667420000096
定义在网格
Figure BDA0002118667420000097
上,可以通过式(1)求出对应的变换前坐标(ax,ay)并在变换前的场景目标的空间分布热力图上采样,得到经过仿射变换后的特征
Figure BDA0002118667420000101
步骤S32进行的精细化处理实质上也是一个卷积神经网络模块,其输入为基础网络的某一分块,如C3,以及空间变换网络的输出
Figure BDA0002118667420000102
该模块是一个全卷积网络,由多个卷积层构成,用R表示,最终输出为
Figure BDA0002118667420000103
本发明中的场景模型的重要特点之一是:与目标检测算法在特征层进行融合,并可实现目标检测与场景建模的联合训练。联合训练的损失函数L的数学表达式如下:
L=Ldet+Lcls+Lstn (2)
其中Ldet是目标检测的多任务损失函数,包括目标分类与边界盒回归等。Lcls和Lstn为场景分类损失函数和场景变换损失函数。
场景分类的损失函数为以下多类别交叉熵:
Figure BDA0002118667420000104
其中Im为第m张训练图像,
Figure BDA0002118667420000105
为网络输出的第i个元素。
场景变换的损失函数为以下形式:
Figure BDA0002118667420000106
其中
Figure BDA0002118667420000107
是由累加第m幅训练图像的地真标注得到的,和构建码本得到的
Figure BDA0002118667420000108
类似,其数学表达式为:
Figure BDA0002118667420000109
式(3)右边的项是正则项,其中θ*是恒等变换,Nθ是θ的元素个数。加入该正则项可以使得训练更容易收敛,并且能避免过拟合。
对步骤S4、“将
Figure BDA00021186674200001010
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。”的理解具体如下:将
Figure BDA00021186674200001011
Figure BDA00021186674200001012
进行必要的上/下采样并级联后得到新的卷积神经网络基础特征,并作为目标检测模块的输入特征,进行目标检测。由于在具体实现中,
Figure BDA0002118667420000111
Figure BDA0002118667420000112
都是固定分辨率的,因为
Figure BDA0002118667420000113
是通过检索方式得到的,那么存储的时候必定是以某个固定的分辨率,比如是64*96进行存储。而
Figure BDA0002118667420000114
又是
Figure BDA0002118667420000115
进一步变换得到的,因此也是同样的分辨率,即同样是64*96。但是C1-C6的分辨率是逐层对半下采样的,比如C1是256*384,C2就是128*192……。这时候,为了使
Figure BDA0002118667420000116
和C1-C6能够进行直接的级联(concatenation,因为级联的要求是分辨率要一样),我们就对
Figure BDA0002118667420000117
通过双线性插值法进行上下采样,使得它的分辨率与C1-C6完全相同。比如要级联的是C1,那么就把
Figure BDA0002118667420000118
通过插值从64*96变成256*384,等等。)
在具体应用中,所述的场景分类网络需要使用场景码本作为输入,场景码本的构建可以有多种方法,一个实施方式的码本构建方法如下:使用预训练的用于图像分类的神经网络特征(如:ResNet-50的pool5层特征),对图像用标准聚类方法(如:K-means)进行聚类,类别数为N;对第i个聚类,统计属于该聚类的所有训练图像的地真标注,获取场景目标的空间分布热力图
Figure BDA0002118667420000119
具体方法可举例如下:对于每一张训练图像,将图像切分为4*4=16个网格区域,统计每个网格区域的每一类目标地真标注的数量,并进行数量归一化后缓存到
Figure BDA00021186674200001110
作为场景目标的空间分布热力图。该热力图的主要特点是:包含了第i个聚类中不同位置的每一类目标的分布信息。构建场景码本后,使用基础网络的某一分块,如C6作为输入,通过带有一个或多个卷积层以及全连接层的神经网络,使用Softmax函数得到场景分类属于第i类(Softmax输出的第i个logit最大)后,从码本中选取
Figure BDA00021186674200001111
作为场景变换网络的输入。
本发明技术方案在进行模型训练时,需要使用带有地真标注的训练数据库,可使用公开的数据库如MIO-TCD、KITTI等,也可以使用任何人工标注边界盒的数据库,并确定训练集和测试集。同时需要确定所结合使用的目标检测算法,如FasterRCNN、YOLO、DSOD等。
本发明另一实施方式提供了一种用于道路目标检测的场景建模方法,包括场景分类网络、场景变换网络以及与之相匹配的基础网络与目标检测算法。此外具体实施中需要的硬件还包括影像采集设备(如摄像头)与计算设备(如计算机),摄像头用于采集交通监控图像或行车记录仪图像等,计算机的主要作用包括:(1)模型的训练,下面详述;(2)处理视频图像输出场景目标的空间分布热力图与目标检测结果。实施的具体步骤如下:
1、准备带有地真标注的训练数据库,可使用公开的数据库如MIO-TCD、KITTI等,也可以使用任何人工标注边界盒的数据库,并确定训练集和测试集。同时确定所结合使用的目标检测算法为Faster RCNN。
2、进行场景码本的构建,使用预训练好的ResNet-50模型在训练数据库上提取全图的特征,然后使用K-means算法进行聚类。训练后得到每个聚类的场景目标的空间分布热力图
Figure BDA0002118667420000121
3、进行基于损失函数Ldet的第一次训练,即在训练数据集上单独对Faster RCNN进行初始化训练。训练时使用FasterRCNN文献中的标准方法进行。对大目标RPN的anchor大小为32,小目标为8。训练图像的输入尺度为短边500像素。
4、进行场景分类网络的训练。场景分类网络的输入是基础网络,由最大值池化层maxpool,卷积层conv,全连接层fc和输出层softmax组成。训练使用随机梯度下降(SGD)法,初始化学习率为0.0025,训练回合数为30000(根据数据库规模进行调整),期间学习率下降一次,下降后为0.00025,时机为第20000回合。训练时基础网络部分固定,损失函数为Lcls
5、进行场景变换网络的训练。场景变换网络由空间变换(SpatialTransformation)和精细化处理(Refinement)两个模块组成。训练时固定网络其它部分,损失函数为Lstn
6、空间变换模块的输入为:(1)基础网络,(2)根据场景分类结果,由聚类得到的场景目标的空间分布热力图
Figure BDA0002118667420000131
该模块由三个卷积层conv1,conv2,conv3与两个全连接层fc1,fc2,以及空间变换网络(Spatial Transformation Network)组成(包含网格生成器和采样器)。
7、精细化处理模块的输入为:(1)基础网络,(2)空间变换网络的输出场景目标的空间分布热力图。该模块由两个卷积层conv4,conv5组成,是一个全卷积网络。
8、再次固定场景分类网络和场景变换网络,基于损失函数Ldet对目标检测算法进行再次训练,初始化学习率为0.01,训练回合数为50000(根据数据库规模进行调整),期间学习率下降一次,下降后为0.001,时机为第40000回合。
9、训练完成后进行目标检测,同时得到场景目标的空间分布热力图。
参照图2,为发明人同时提供的一种用于道路目标检测的场景建模装置的结构示意图,所述装置包括分块特征获取单元1、计算单元2、场景变换单元3、基础特征获取单元4、目标检测单元5;
所述分块特征获取单元1用于通过目标检测模块的基础网络获得各分块的特征;
所述计算单元2用于以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure BDA0002118667420000132
所述场景变换单元3用于通过场景变换网络T对所述空间分布热力图
Figure BDA0002118667420000133
进行变换,得到根据输入信息校准后的场景布局特征
Figure BDA0002118667420000135
所述基础特征获取单元4用于将
Figure BDA0002118667420000134
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,所述目标检测单元5用于并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换单元3包括空间变换模块31与精细化处理模块32;所述空间变换模块31用于进行空间变换处理,具体包括:
所述空间变换模块31用于:以
Figure BDA0002118667420000141
以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的场景目标的空间分布热力图上采样,得到经过仿射变换的热力图
Figure BDA0002118667420000142
作为空间变换网络的输出。
进一步地,所述的用于道路目标检测的场景建模装置中,所述精细化处理模块32用于以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
Figure BDA0002118667420000143
进一步地,所述的用于道路目标检测的场景建模装置中,还包括损失函数评估单元6,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
Figure BDA0002118667420000144
其中Im为第m张训练图像,
Figure BDA0002118667420000145
为网络输出的第i个元素。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换的损失函数为:
Figure BDA0002118667420000146
其中,
Figure BDA0002118667420000147
区别于现有技术,上述技术方案能够利用基于迁移(对应场景分类网络)和变换(场景变换网络)两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比目标的空间分布热力图。该热力图可作为一种通用图像特征,用于其它场景的场景理解任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (6)

1.一种基于道路目标检测的场景建模方法,其特征在于,包括如下步骤:
通过目标检测模块的基础网络获得各分块的特征;所述分块指一系列结构相对固定的神经网络层;所述各分块的特征指上述每一个分块中最后一层的特征;
以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure FDA0003098251170000011
通过场景变换网络T对所述空间分布热力图
Figure FDA0003098251170000012
进行变换,得到根据输入信息校准后的场景布局特征
Figure FDA0003098251170000013
Figure FDA0003098251170000014
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
2.如权利要求1所述的基于道路目标检测的场景建模方法,其特征在于,所述步骤“通过场景变换网络T对所述空间分布热力图
Figure FDA0003098251170000015
进行变换”具体包括空间变换处理和精细化处理,所述空间变换处理具体包括:
Figure FDA0003098251170000016
以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的特征图上采样,得到经过仿射变换的特征
Figure FDA0003098251170000017
作为空间变换网络的输出。
3.如权利要求2所述的基于道路目标检测的场景建模方法,其特征在于,所述精细化处理具体包括:
以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
Figure FDA0003098251170000018
4.一种基于道路目标检测的场景建模装置,其特征在于,包括分块特征获取单元、计算单元、场景变换单元、基础特征获取单元、目标检测单元;
所述分块特征获取单元用于通过目标检测模块的基础网络获得各分块的特征;所述分块指一系列结构相对固定的神经网络层;所述各分块的特征指上述每一个分块中最后一层的特征;
所述计算单元用于以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
Figure FDA0003098251170000021
所述场景变换单元用于通过场景变换网络T对所述空间分布热力图
Figure FDA0003098251170000022
进行变换,得到根据输入信息校准后的场景布局特征
Figure FDA0003098251170000023
所述基础特征获取单元用于将
Figure FDA0003098251170000024
与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,所述目标检测单元用于并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
5.如权利要求4所述的基于道路目标检测的场景建模装置,其特征在于,所述场景变换单元包括空间变换模块与精细化处理模块;所述空间变换模块用于进行空间变换处理,具体包括:
所述空间变换模块用于:以
Figure FDA0003098251170000025
以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的特征图上采样,得到经过仿射变换的特征
Figure FDA0003098251170000026
作为空间变换网络的输出。
6.如权利要求5所述的基于道路目标检测的场景建模装置,其特征在于,所述精细化处理模块用于以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
Figure FDA0003098251170000027
CN201910599129.1A 2019-07-04 2019-07-04 一种用于道路目标检测的场景建模方法和装置 Active CN110309790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910599129.1A CN110309790B (zh) 2019-07-04 2019-07-04 一种用于道路目标检测的场景建模方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910599129.1A CN110309790B (zh) 2019-07-04 2019-07-04 一种用于道路目标检测的场景建模方法和装置

Publications (2)

Publication Number Publication Date
CN110309790A CN110309790A (zh) 2019-10-08
CN110309790B true CN110309790B (zh) 2021-09-03

Family

ID=68079104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910599129.1A Active CN110309790B (zh) 2019-07-04 2019-07-04 一种用于道路目标检测的场景建模方法和装置

Country Status (1)

Country Link
CN (1) CN110309790B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969138A (zh) * 2019-12-10 2020-04-07 上海芯翌智能科技有限公司 人体姿态估计方法及设备
CN113542800B (zh) * 2021-06-28 2023-07-18 宜宾中星技术智能系统有限公司 视频画面定标方法、装置、终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529467A (zh) * 2016-11-07 2017-03-22 南京邮电大学 基于多特征融合的群体行为识别方法
CN108229474A (zh) * 2017-12-29 2018-06-29 北京旷视科技有限公司 车牌识别方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130293408A1 (en) * 2010-11-11 2013-11-07 The University Of Sydney Radar image processing
CN105574488B (zh) * 2015-12-07 2019-03-22 北京航空航天大学 一种基于低空航拍红外图像的行人检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529467A (zh) * 2016-11-07 2017-03-22 南京邮电大学 基于多特征融合的群体行为识别方法
CN108229474A (zh) * 2017-12-29 2018-06-29 北京旷视科技有限公司 车牌识别方法、装置及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Target recognition in large scene SAR images based on region proposal regression;Sifei Wang et al;《2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)》;20171004;3297-3300 *
基于CNN模型的遥感图像复杂场景分类;张康等;《国土资源遥感》;20181231;第30卷(第4期);49-55 *
复杂背景下对地多运动目标检测;许倩倩;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190215;第2019年卷(第2期);第1.2.2.1节,第4.1、4.3、4.5.1节 *
自适应调节学习率和样本训练方式的场景分类;储珺等;《模式识别与人工智能》;20180731;第31卷(第7期);625-633 *

Also Published As

Publication number Publication date
CN110309790A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
US11232318B2 (en) Methods and apparatuses for vehicle appearance feature recognition, methods and apparatuses for vehicle retrieval, storage medium, and electronic devices
Workman et al. A unified model for near and remote sensing
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
US8620026B2 (en) Video-based detection of multiple object types under varying poses
Khan et al. SD-Net: Understanding overcrowded scenes in real-time via an efficient dilated convolutional neural network
CN108960114A (zh) 人体识别方法及装置、计算机可读存储介质及电子设备
CN110176024B (zh) 在视频中对目标进行检测的方法、装置、设备和存储介质
US10289884B2 (en) Image analyzer, image analysis method, computer program product, and image analysis system
CN111242127A (zh) 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN110309790B (zh) 一种用于道路目标检测的场景建模方法和装置
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
Atto et al. Timed-image based deep learning for action recognition in video sequences
WO2023221790A1 (zh) 图像编码器的训练方法、装置、设备及介质
Jiang et al. A self-attention network for smoke detection
Bhuiyan et al. Video analytics using deep learning for crowd analysis: a review
WO2021047492A1 (zh) 目标跟踪方法、装置及计算机系统
Yang et al. Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation
CN114169425A (zh) 训练目标跟踪模型和目标跟踪的方法和装置
CN116310688A (zh) 基于级联融合的目标检测模型及其构建方法、装置及应用
Fan et al. Generating high quality crowd density map based on perceptual loss
CN112651351B (zh) 一种数据处理的方法和装置
CN114091519A (zh) 一种基于多粒度遮挡感知的遮挡行人重识别方法
Huang et al. Research on motion recognition algorithm based on bag-of-words model
Wang et al. Learning to remove reflections from windshield images
AlShehri et al. Detecting Threats from Live Videos using Deep Learning Algorithms.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant