CN110309790A - 一种用于道路目标检测的场景建模方法和装置 - Google Patents
一种用于道路目标检测的场景建模方法和装置 Download PDFInfo
- Publication number
- CN110309790A CN110309790A CN201910599129.1A CN201910599129A CN110309790A CN 110309790 A CN110309790 A CN 110309790A CN 201910599129 A CN201910599129 A CN 201910599129A CN 110309790 A CN110309790 A CN 110309790A
- Authority
- CN
- China
- Prior art keywords
- scene
- network
- target detection
- input
- piecemeal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000008859 change Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 230000000903 blocking effect Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 23
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 8
- 239000004744 fabric Substances 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30256—Lane; Road marking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/61—Scene description
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
发明人提供了一种用于道路目标检测的场景建模方法,包括步骤:通过目标检测模块的基础网络获得各分块的特征;以一分块特征作为场景分类网络的输入,获得场景分类网络的输出;通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征;将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。上述技术方案能够利用基于迁移和变换两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比物体的场景布局特征图。
Description
技术领域
本发明涉及计算机软件领域,特别涉及一种用于道路目标检测的场景建模方法和装置。
背景技术
伴随着城市中监控摄像头以及车辆行车记录仪的大量普及,这些摄像头采集了大量包含道路目标的视频和图像数据。对于这类大量产生且实时性强的视频流,通过人工查看方式进行分析,不能满足智慧城市以及自动驾驶等应用的需求。对此类包含道路目标的视频和图像进行实时分析,是目前工业界和学术界都关注的问题。
目标检测(Object Detection)作为一种视频和图像分析中的基础技术,是目标跟踪、行为分析等更高级的场景理解方法中不可或缺的模块。目前,包含目标检测在内的技术所采用的主流解决方案是神经网络,大致上分为以Faster RCNN、R-FCN等为代表的基于目标题名(Object Proposals)的方法,以及以YOLO、SSD、DSOD等为代表的单次(One-shot)方法。上述两类方法都没有直接考虑场景的布局,即根据场景的类型和行车道、人行道、建筑物等的方位来推断物体大体上可能出现的位置。
虽然道路布局有很强的先验性和规则性,但在不同城市的道路场景中,道路场景的布局仍然有很大的不同。此外,由于摄像头视角变化等因素,更增加了场景布局的多样性。表示场景布局的传统方法以参数化方法为主,如针对室外场景的分段平面假设法以及针对室内场景的曼哈顿世界假设法,同时还有专门针对道路场景的顶视图参数化方法等。此类参数化方法的主要局限性在于难以穷尽地刻画道路场景布局的多样性,遇到方法设计时未考虑到的场景布局时,方法有效性受到较大影响。
发明内容
为此,有必要提供一种用于道路目标检测的场景建模方法。基于此,发明人提供了一种用于道路目标检测的场景建模方法,包括如下步骤:
通过目标检测模块的基础网络获得各分块的特征;
以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征
将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述的用于道路目标检测的场景建模方法中,所述步骤“通过场景变换网络T对所述空间分布热力图进行变换”具体包括空间变换处理和精细化处理,所述空间变换处理具体包括:
以以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图作为空间变换网络的输出。
进一步地,所述的用于道路目标检测的场景建模方法中,所述精细化处理具体包括:
以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
进一步地,所述的用于道路目标检测的场景建模方法中,评估所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
其中Im为第m张训练图像,为网络输出的第i个元素。
进一步地,所述的用于道路目标检测的场景建模方法中,所述场景变换的损失函数为:
其中,
发明人同时还提供了一种用于道路目标检测的场景建模装置,包括分块特征获取单元、计算单元、场景变换单元、基础特征获取单元、目标检测单元;
所述分块特征获取单元用于通过目标检测模块的基础网络获得各分块的特征;
所述计算单元用于以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
所述场景变换单元用于通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征
所述基础特征获取单元用于将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,所述目标检测单元用于并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换单元包括空间变换模块与精细化处理模块;所述空间变换模块用于进行空间变换处理,具体包括:
所述空间变换模块用于:以以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图作为空间变换网络的输出。
进一步地,所述的用于道路目标检测的场景建模装置中,所述精细化处理模块用于以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
进一步地,所述的用于道路目标检测的场景建模装置中,还包括损失函数评估单元,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
其中Im为第m张训练图像,为网络输出的第i个元素。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换的损失函数为:
其中,
区别于现有技术,上述技术方案能够利用基于迁移(对应场景分类网络)和变换(场景变换网络)两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比目标的空间分布热力图。该热力图可作为一种通用图像特征,用于其它场景的场景理解任务。
附图说明
图1为本发明一实施方式所述的用于道路目标检测的场景建模方法的流程图;
图2为本发明一实施方式所述的用于道路目标检测的场景建模装置的结构示意图。
附图标记说明:
1-分块特征获取单元
2-计算单元
3-场景变换单元;31-空间变换模块;32-精细化处理模块
4-基础特征获取单元
5-目标检测单元
6-损失函数评估单元
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述的用于道路目标检测的场景建模方法的流程图;所述方法包括如下步骤:
S1、通过目标检测模块的基础网络获得各分块的特征;
S2、以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
S3、通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征
S4、将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述步骤S3“通过场景变换网络T对所述空间分布热力图进行变换”又具体包括步骤S31空间变换处理和步骤S32精细化处理,所述空间变换处理具体包括:
S31、以以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图作为空间变换网络的输出。
所述精细化处理具体包括:
S32、以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
进一步地,本实施方式中,还可以对所述的用于道路目标检测的场景建模方法进行评估其的联合训练的损失函数L。L包括场景分类损失函数Lcls和场景变换损失函数Lstn;
所述场景分类损失函数Lcls为:
其中Im为第m张训练图像,为网络输出的第i个元素。
所述场景变换的损失函数为:
其中,
本实施方式技术方案的实质是提出一种用于道路目标检测的非参数布局迁移变换场景建模方法,具体而言,通过共享卷积神经网络的特征层,在得到目标检测边界盒(BoundingBox)的同时,得到输入图像或视频帧的场景目标空间分布热力图。该热力图的形式是给定目标类别、尺度和长宽比时,目标在成像平面上出现的概率分布热力图。
其中,对所谓共享卷积神经网络的特征层的理解如下:由于卷积神经网络的基础网络的作用是特征提取,而这部分特征是可以同时用于目标检测与场景布局估计的,所以共享这些特征层,可以减少计算量。具体举例来说,例如步骤S1所述:通过目标检测模块的基础网络获得各分块的特征。对此处分块的理解如下:由于本实施方式采用ResNet作为基础网络,ResNet中就有分块这一概念,即把一系列结构相对固定的神经网络层统称为一个分块。分块概念是为了用模块化的方式,比较方便地表示层数很多且结构自相似的神经网络。而这里各分块的特征,具体指的是上述每一个分块中最后一层的特征。在本发明涉及的技术方案中,这些不同分块的特征一般是自底向上逐渐抽象的图像的语义特征。
举一例进行说明:例如分块从第一至第六分块分别为{C1,C2,C3,C4,C5,C6},根据卷积神经网络的特性,不同分块的特征分辨率逐块减半,这是由于使用了ResNet作为基础网络的缘故所产生的特点:特征分辨率逐块减半是自底向上的。假如输入的图像是512*768,则C1中最后一层特征分辨率是256*384,C2是128*192,以此类推,C5是16*24,C6是8*12。
对目标检测边界盒的理解:目标检测边界盒是一种对目标的姿态的简化数学表示,例如,可以用一个矩形框来表示目标的位置,此时往往表示为框住目标的矩形框的左上角和右下角在图像平面上的x、y坐标,共4个实数。
对场景目标的空间分布热力图的理解:为了构建空间分布热力图,需要对待检测的目标进行基于混合模型(mixture model)的建模,也就是将目标根据不同的语义类别、不同尺度、不同长宽比分入K个混合模型成分(component)中,其中每一个成分对应特定目标类别、特定尺度、特定长宽比,并且对应一张大小为W*H的空间概率分布的热力图,其中W和H分别是热力图的宽度和高度。这张热力图的每一个像素位置对应的是输入图像对应位置上出现特定目标类别、特定尺度、特定长宽比目标的概率,因此每个像素位置上的实数取值范围都是[0,1](可通过归一化实现),全部K个场景目标空间分布热力图维度是W*H*K。)该特征与卷积神经网络的特征层进行级联(Concatenation)后,共同作为目标检测模块的输入特征。从而,在目标检测模块中实现了与场景布局在特征层的早期融合,而非后期融合。
对步骤S2“以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图”,可以参照以下的例子进行理解:使用基础网络中某一分块,例如C6的特征,作为场景分类网络的输入,得到以空间分布热力图为形式的输出,为一个预先聚类得到的共计N个聚类的场景码本的第i个聚类,i∈{1,...,N}。并且,第i个类别对应聚类时统计的不同目标类别在不同尺度、长宽比下的空间分布热力图亦即场景目标的空间分布热力图。该步骤通过非参数方法找寻聚类中码本中的最近邻,并采用检索(retrieval)的方式得到目标的空间分布热力图。
其中,场景分类网络是一个由若干卷积层和全连接层构成的子网络。它的输入是C6的特征,如输入图像是512*768,那么C6的维度就是8*12*256,其中256是通道数。这是一个高维特征,对其通过若干卷积层和全连接层降维后,可以得到一个固定长度的一维向量,其长度为N,即聚类的个数。这样加上Softmax层就可以进行分类了(通过将长度为N的one-hot向量再变回为长度为1的向量,可以认为输出是i,但实际上输出准确地说是一个长度为N的one-hot向量)。这个场景分类网络可以看做是从基础网络中独立出来的一个分支,该分支的作用就是对场景进行分类。分类的结果又会继续作为后续步骤的场景变换网络的输入之一。
步骤S3进行的是场景变换处理,其必要性在于:通过检索得到的场景目标的空间分布热力图可能存在以下问题:(1)由于聚类数量相比场景的变化而相对有限,得到的场景目标的空间分布热力图较为粗糙,无法得到物体的准确位置;(2)该特征所反映的是一类场景布局下物体的分布情况,无法对输入图片有更准确的目标位置、尺度估计。因此,通过步骤S3所述的场景目标的空间分布热力图进行变换,得到根据输入图像或视频帧校准后的场景目标的空间分布热力图其中T为场景变换网络。
步骤S31中,空间变换使用空间变换网络(SpatialTransformerNetwork),该网络的主要特征是:支持任何可参数化的特征变换,且可以进行梯度反向传播。以2D仿射变换为例,设xc=(ax,ay),并设变换前后的坐标是(ax,ay)和则该变换可以写为以下齐次坐标形式:
空间变换网络的输入是和基础网络的某一分块,如C6,通过卷积层处理后将两个特征进行级联,再通过卷积层和全连接层回归得到θ=[θ11,θ12,θ13,θ21,θ22,θ23]。由于变换后坐标定义在网格上,可以通过式(1)求出对应的变换前坐标(ax,ay)并在变换前的场景目标的空间分布热力图上采样,得到经过仿射变换后的特征
步骤S32进行的精细化处理实质上也是一个卷积神经网络模块,其输入为基础网络的某一分块,如C3,以及空间变换网络的输出该模块是一个全卷积网络,由多个卷积层构成,用R表示,最终输出为
本发明中的场景模型的重要特点之一是:与目标检测算法在特征层进行融合,并可实现目标检测与场景建模的联合训练。联合训练的损失函数L的数学表达式如下:
L=Ldet+Lcls+Lstn (2)
其中Ldet是目标检测的多任务损失函数,包括目标分类与边界盒回归等。Lcls和Lstn为场景分类损失函数和场景变换损失函数。
场景分类的损失函数为以下多类别交叉熵:
其中Im为第m张训练图像,为网络输出的第i个元素。
场景变换的损失函数为以下形式:
其中是由累加第m幅训练图像的地真标注得到的,和构建码本得到的类似,其数学表达式为:
式(3)右边的项是正则项,其中θ*是恒等变换,Nθ是θ的元素个数。加入该正则项可以使得训练更容易收敛,并且能避免过拟合。
对步骤S4、“将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。”的理解具体如下:将与进行必要的上/下采样并级联后得到新的卷积神经网络基础特征,并作为目标检测模块的输入特征,进行目标检测。由于在具体实现中,和都是固定分辨率的,因为是通过检索方式得到的,那么存储的时候必定是以某个固定的分辨率,比如是64*96进行存储。而又是进一步变换得到的,因此也是同样的分辨率,即同样是64*96。但是C1-C6的分辨率是逐层对半下采样的,比如C1是256*384,C2就是128*192……。这时候,为了使和C1-C6能够进行直接的级联(concatenation,因为级联的要求是分辨率要一样),我们就对通过双线性插值法进行上下采样,使得它的分辨率与C1-C6完全相同。比如要级联的是C1,那么就把通过插值从64*96变成256*384,等等。)
在具体应用中,所述的场景分类网络需要使用场景码本作为输入,场景码本的构建可以有多种方法,一个实施方式的码本构建方法如下:使用预训练的用于图像分类的神经网络特征(如:ResNet-50的pool5层特征),对图像用标准聚类方法(如:K-means)进行聚类,类别数为N;对第i个聚类,统计属于该聚类的所有训练图像的地真标注,获取场景目标的空间分布热力图具体方法可举例如下:对于每一张训练图像,将图像切分为4*4=16个网格区域,统计每个网格区域的每一类目标地真标注的数量,并进行数量归一化后缓存到作为场景目标的空间分布热力图。该热力图的主要特点是:包含了第i个聚类中不同位置的每一类目标的分布信息。构建场景码本后,使用基础网络的某一分块,如C6作为输入,通过带有一个或多个卷积层以及全连接层的神经网络,使用Softmax函数得到场景分类属于第i类(Softmax输出的第i个logit最大)后,从码本中选取作为场景变换网络的输入。
本发明技术方案在进行模型训练时,需要使用带有地真标注的训练数据库,可使用公开的数据库如MIO-TCD、KITTI等,也可以使用任何人工标注边界盒的数据库,并确定训练集和测试集。同时需要确定所结合使用的目标检测算法,如FasterRCNN、YOLO、DSOD等。
本发明另一实施方式提供了一种用于道路目标检测的场景建模方法,包括场景分类网络、场景变换网络以及与之相匹配的基础网络与目标检测算法。此外具体实施中需要的硬件还包括影像采集设备(如摄像头)与计算设备(如计算机),摄像头用于采集交通监控图像或行车记录仪图像等,计算机的主要作用包括:(1)模型的训练,下面详述;(2)处理视频图像输出场景目标的空间分布热力图与目标检测结果。实施的具体步骤如下:
1、准备带有地真标注的训练数据库,可使用公开的数据库如MIO-TCD、KITTI等,也可以使用任何人工标注边界盒的数据库,并确定训练集和测试集。同时确定所结合使用的目标检测算法为Faster RCNN。
2、进行场景码本的构建,使用预训练好的ResNet-50模型在训练数据库上提取全图的特征,然后使用K-means算法进行聚类。训练后得到每个聚类的场景目标的空间分布热力图
3、进行基于损失函数Ldet的第一次训练,即在训练数据集上单独对Faster RCNN进行初始化训练。训练时使用FasterRCNN文献中的标准方法进行。对大目标RPN的anchor大小为32,小目标为8。训练图像的输入尺度为短边500像素。
4、进行场景分类网络的训练。场景分类网络的输入是基础网络,由最大值池化层maxpool,卷积层conv,全连接层fc和输出层softmax组成。训练使用随机梯度下降(SGD)法,初始化学习率为0.0025,训练回合数为30000(根据数据库规模进行调整),期间学习率下降一次,下降后为0.00025,时机为第20000回合。训练时基础网络部分固定,损失函数为Lcls。
5、进行场景变换网络的训练。场景变换网络由空间变换(SpatialTransformation)和精细化处理(Refinement)两个模块组成。训练时固定网络其它部分,损失函数为Lstn。
6、空间变换模块的输入为:(1)基础网络,(2)根据场景分类结果,由聚类得到的场景目标的空间分布热力图该模块由三个卷积层conv1,conv2,conv3与两个全连接层fc1,fc2,以及空间变换网络(Spatial Transformation Network)组成(包含网格生成器和采样器)。
7、精细化处理模块的输入为:(1)基础网络,(2)空间变换网络的输出场景目标的空间分布热力图。该模块由两个卷积层conv4,conv5组成,是一个全卷积网络。
8、再次固定场景分类网络和场景变换网络,基于损失函数Ldet对目标检测算法进行再次训练,初始化学习率为0.01,训练回合数为50000(根据数据库规模进行调整),期间学习率下降一次,下降后为0.001,时机为第40000回合。
9、训练完成后进行目标检测,同时得到场景目标的空间分布热力图。
参照图2,为发明人同时提供的一种用于道路目标检测的场景建模装置的结构示意图,所述装置包括分块特征获取单元1、计算单元2、场景变换单元3、基础特征获取单元4、目标检测单元5;
所述分块特征获取单元1用于通过目标检测模块的基础网络获得各分块的特征;
所述计算单元2用于以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
所述场景变换单元3用于通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征
所述基础特征获取单元4用于将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,所述目标检测单元5用于并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换单元3包括空间变换模块31与精细化处理模块32;所述空间变换模块31用于进行空间变换处理,具体包括:
所述空间变换模块31用于:以以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的场景目标的空间分布热力图上采样,得到经过仿射变换的热力图作为空间变换网络的输出。
进一步地,所述的用于道路目标检测的场景建模装置中,所述精细化处理模块32用于以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
进一步地,所述的用于道路目标检测的场景建模装置中,还包括损失函数评估单元6,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
其中Im为第m张训练图像,为网络输出的第i个元素。
进一步地,所述的用于道路目标检测的场景建模装置中,所述场景变换的损失函数为:
其中,
区别于现有技术,上述技术方案能够利用基于迁移(对应场景分类网络)和变换(场景变换网络)两个步骤进行的场景建模,提供了一种可与目标检测联合训练的方案,提高目标检测算法性能的同时,得到不同类别、不同尺度、不同长宽比目标的空间分布热力图。该热力图可作为一种通用图像特征,用于其它场景的场景理解任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (10)
1.一种用于道路目标检测的场景建模方法,其特征在于,包括如下步骤:
通过目标检测模块的基础网络获得各分块的特征;
以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征
将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
2.如权利要求1所述的用于道路目标检测的场景建模方法,其特征在于,所述步骤“通过场景变换网络T对所述空间分布热力图进行变换”具体包括空间变换处理和精细化处理,所述空间变换处理具体包括:
以以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图作为空间变换网络的输出。
3.如权利要求2所述的用于道路目标检测的场景建模方法,其特征在于,所述精细化处理具体包括:
以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
4.如权利要求3所述的用于道路目标检测的场景建模方法,其特征在于,评估所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
其中Im为第m张训练图像,为网络输出的第i个元素。
5.如权利要求4所述的用于道路目标检测的场景建模方法,其特征在于,所述场景变换的损失函数为:
其中,
6.一种用于道路目标检测的场景建模装置,其特征在于,包括分块特征获取单元、计算单元、场景变换单元、基础特征获取单元、目标检测单元;
所述分块特征获取单元用于通过目标检测模块的基础网络获得各分块的特征;
所述计算单元用于以一分块特征作为场景分类网络的输入,获得场景分类网络的输出,所述场景分类网络的输出为N个聚类的场景码本的第i个聚类统计的不同目标类别在不同条件下的空间分布热力图
所述场景变换单元用于通过场景变换网络T对所述空间分布热力图进行变换,得到根据输入信息校准后的场景布局特征
所述基础特征获取单元用于将与各分块进行预设方案的上下采样和级联处理后获得卷积神经网络基础特征,所述目标检测单元用于并以此卷积神经网络基础特征作为目标检测模块的输入特征,进行目标检测。
7.如权利要求6所述的用于道路目标检测的场景建模装置,其特征在于,所述场景变换单元包括空间变换模块与精细化处理模块;所述空间变换模块用于进行空间变换处理,具体包括:
所述空间变换模块用于:以以及基础网络的一分块作为输入,通过卷积层处理后将两个特征进行级联;
通过卷积层和全连接层作回归处理,通过空间变换网络求出对应的变换前坐标;
在变换前的热力图上采样,得到经过仿射变换的热力图作为空间变换网络的输出。
8.如权利要求7所述的用于道路目标检测的场景建模装置,其特征在于,所述精细化处理模块用于以基础网络的一分块以及一经过空间变换网络的输出作为输入,经过一全卷积网络R处理后,输出
9.如权利要求8所述的用于道路目标检测的场景建模装置,其特征在于,还包括损失函数评估单元,用于评估所述场景建模方法的联合训练的损失函数L,所述场景建模方法的联合训练的损失函数L包括场景分类损失函数Lcls和场景变换损失函数Lstn,所述场景分类损失函数Lcls为:
其中Im为第m张训练图像,为网络输出的第i个元素。
10.如权利要求9所述的用于道路目标检测的场景建模装置,其特征在于,所述场景变换的损失函数为:
其中,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599129.1A CN110309790B (zh) | 2019-07-04 | 2019-07-04 | 一种用于道路目标检测的场景建模方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599129.1A CN110309790B (zh) | 2019-07-04 | 2019-07-04 | 一种用于道路目标检测的场景建模方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309790A true CN110309790A (zh) | 2019-10-08 |
CN110309790B CN110309790B (zh) | 2021-09-03 |
Family
ID=68079104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910599129.1A Active CN110309790B (zh) | 2019-07-04 | 2019-07-04 | 一种用于道路目标检测的场景建模方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309790B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969138A (zh) * | 2019-12-10 | 2020-04-07 | 上海芯翌智能科技有限公司 | 人体姿态估计方法及设备 |
CN113542800A (zh) * | 2021-06-28 | 2021-10-22 | 宜宾中星技术智能系统有限公司 | 视频画面定标方法、装置、终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130293408A1 (en) * | 2010-11-11 | 2013-11-07 | The University Of Sydney | Radar image processing |
CN105574488A (zh) * | 2015-12-07 | 2016-05-11 | 北京航空航天大学 | 一种基于低空航拍红外图像的行人检测方法 |
CN106529467A (zh) * | 2016-11-07 | 2017-03-22 | 南京邮电大学 | 基于多特征融合的群体行为识别方法 |
CN108229474A (zh) * | 2017-12-29 | 2018-06-29 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
-
2019
- 2019-07-04 CN CN201910599129.1A patent/CN110309790B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130293408A1 (en) * | 2010-11-11 | 2013-11-07 | The University Of Sydney | Radar image processing |
CN105574488A (zh) * | 2015-12-07 | 2016-05-11 | 北京航空航天大学 | 一种基于低空航拍红外图像的行人检测方法 |
CN106529467A (zh) * | 2016-11-07 | 2017-03-22 | 南京邮电大学 | 基于多特征融合的群体行为识别方法 |
CN108229474A (zh) * | 2017-12-29 | 2018-06-29 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
SIFEI WANG ET AL: "Target recognition in large scene SAR images based on region proposal regression", 《2017 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM (IGARSS)》 * |
储珺等: "自适应调节学习率和样本训练方式的场景分类", 《模式识别与人工智能》 * |
张康等: "基于CNN模型的遥感图像复杂场景分类", 《国土资源遥感》 * |
许倩倩: "复杂背景下对地多运动目标检测", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969138A (zh) * | 2019-12-10 | 2020-04-07 | 上海芯翌智能科技有限公司 | 人体姿态估计方法及设备 |
CN113542800A (zh) * | 2021-06-28 | 2021-10-22 | 宜宾中星技术智能系统有限公司 | 视频画面定标方法、装置、终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110309790B (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107292256B (zh) | 基于辅任务的深度卷积小波神经网络表情识别方法 | |
CN108334847B (zh) | 一种真实场景下的基于深度学习的人脸识别方法 | |
CN108875600A (zh) | 一种基于yolo的车辆信息检测和跟踪方法、装置及计算机存储介质 | |
CN108596108B (zh) | 基于三元组语义关系学习的航拍遥感图像变化检测方法 | |
Nouanesengsy et al. | Adr visualization: A generalized framework for ranking large-scale scientific data using analysis-driven refinement | |
US8429163B1 (en) | Content similarity pyramid | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN109711399A (zh) | 基于图像的店铺识别方法、装置,电子设备 | |
Liu et al. | Subtler mixed attention network on fine-grained image classification | |
CN113159232A (zh) | 一种三维目标分类、分割方法 | |
CN109255357A (zh) | 一种rgbd图像协同显著性检测方法 | |
CN102708589B (zh) | 一种基于特征聚类的三维目标多视点视图建模方法 | |
Tatzgern | Situated visualization in augmented reality | |
CN110309790A (zh) | 一种用于道路目标检测的场景建模方法和装置 | |
CN107341505A (zh) | 一种基于图像显著性与Object Bank的场景分类方法 | |
CN103839066A (zh) | 一种源于生物视觉的特征提取方法 | |
CN111680579A (zh) | 一种自适应权重多视角度量学习的遥感图像分类方法 | |
Yang et al. | Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation | |
Hu et al. | Supervised multi-scale attention-guided ship detection in optical remote sensing images | |
Shuai et al. | Regression convolutional network for vanishing point detection | |
CN102129570B (zh) | 用于动态视觉的基于流形正则化的半监督分类器设计方法 | |
CN104331711B (zh) | 基于多尺度模糊测度与半监督学习的sar图像识别方法 | |
Ma et al. | A three-dimensional display for big data sets | |
Zhou | 3D urban modeling from city-scale aerial LiDAR data | |
Shi et al. | RAOD: refined oriented detector with augmented feature in remote sensing images object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |