CN108230330B

CN108230330B - 一种快速的高速公路路面分割和摄像机定位的方法

Info

Publication number: CN108230330B
Application number: CN201810088021.1A
Authority: CN
Inventors: 王亚涛; 江龙; 赵英; 郑全新; 张磊
Original assignee: Beijing Tongfang Software Co Ltd
Current assignee: Beijing Tongfang Software Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2020-02-07
Anticipated expiration: 2038-01-30
Also published as: CN108230330A

Abstract

一种快速的高速公路路面分割和摄像机定位的方法，涉及基于视频图像的目标检测、应用于高速公路交通场景下的视频监控数据的智能事件分析系统。本发明的方法步骤为：1）样本收集和模型训练；2）网络模型设计；3)模型损失函数；4)模型训练；5)模型预测。同现有技术相比，本发明能解决多场景下、不同天气情况下、不同路面状态下的高速路面定位分割问题；同时解决多场景下、不同天气情况下、不同路面状态下摄像机相对路面位置定位问题。

Description

一种快速的高速公路路面分割和摄像机定位的方法

技术领域

本发明涉及基于视频图像的目标检测、应用于高速公路交通场景下的视频监控数据的智能事件分析系统，特别是将分割和分类问题，转化为多任务的回归和分类问题，快速高效地完成高速公路路面分割和摄像机相对路面位置定位的方法。

背景技术

2006年Hinton提出神经网络新的训练方法起，深度学习发展迅速，促使人工智能在图像、语音、自然语言处理等多个领域有了实质性的突破，达到产业应用标准。

卷积神经网络(CNN)是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点，是深度学习常用的一种模型。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。

参看图1，输入图像通过和三个可训练的滤波器和可加偏置进行卷积，卷积后在C1层产生三个特征映射图，然后特征映射图中每组的四个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再进过滤波得到C3层。这个层级结构再和S2一样产生S4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，最终得到输出。

一般地，C层为特征提取层，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来；S层是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数，降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层（C-层）都紧跟着一个用来求局部平均与二次提取的计算层（S-层），这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。卷积网络的核心思想是局部感受野、权值共享（或者权值复制）以及时间或空间亚采样，这三种结构思想结合起来获得了某种程度的位移、尺度、形变不变性。

卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

在利用机器学习分析具体问题时，需要将问题抽象为有监督学习问题或者无监督问题。如果是有监督问题，还需要进一步抽象成分类或回归问题，最后再选择适合的算法来训练模型。深度学习本质上仍属机器学习范畴，因此利用深度学习解决实际问题，需要同样的问题抽象过程：

与传统机器学习一样，有监督学习问题和无监督学习问题主要由样本数据是否需要标签来决定：

（1）有监督学习问题通过有标签训练数据集的形式，在输入和输出的数据之间建立相关性。

（2）无监督学习问题通过分析非标记数据，帮助检测数据的相似性和差异性，譬如图片搜索和欺诈检测等应用场景。

当问题定位为有监督问题后，需进一步确认是分类问题还是回归问题，判断原则如下：

（1）回归问题通常用来预测一个值，如预测下一季度银行卡消费金额、交易笔数等等，回归是对真实值的一种逼近预测。

（2）分类问题是用于将数据打上一个标签，通常结果为离散值，分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。

当实际问题抽象成具体深度学习技术问题后，即可以结合问题的数据类型选择合适的深度网络结构进行模型训练，譬如图像数据处理，选择卷积神经网络等。

上述分类方式几乎都是基于统计特征的，这就意味着在进行分辨前必须提取某些特征。然而，显式的特征提取并不容易，在一些应用问题中也并非总是可靠的。卷积神经网络，它避免了显式的特征取样，隐式地从训练数据中进行学习。这使得卷积神经网络明显有别于其他基于神经网络的分类器，通过结构重组和减少权值将特征提取功能融合进多层感知器。它可以直接处理图片，能够直接用于处理基于图像的分类。

回归算法用于连续型分布预测，使用回归可以在给定输入的时候预测出一个数值，给定一个数据集，用一个函数去拟合这个数据集，并使数据集与拟合函数之间误差最小，该函数即为我们所求的回归函数。

上述现有技术中存在的不足是，图像分割算法是图像识别和计算机视觉中重要的预处理环节，正确的分割作为后续目标识别的基础，因此分割算法的效果直接影响目标识别的效果。为了有效地对完成目标分割，国内外大量的工作者都做了大量的研究工作，其中主要分为以下两个方面的工作：

1.传统的目标分割算法

1.1阈值分割算法对阈值具有较强的依赖性，光照不均匀、噪声的影响、图像中存在不清晰的部分，以及阴影等，常常发生分割错误。

1.2区域分割常用的包括区域生长和区域分裂合并算法，其中区域生长的思想是将具有相似性质的像素集合起来构成区域，相似性准则可以是灰度级、彩色、纹理、梯度等特性。选取的种子像素可以是单个像素，也可以是包含若干个像素的小区域。区域分裂合并的思想是将整图不断分类得到各个子区域然后再把前景区域合并实现目标提取。该类方法需要人为确定种子点，对噪声敏感，可能导致区域内有空洞，同时当目标较大时，计算量较大，分割速度较慢。

1.3边缘分割法通过检测灰度级或者结构具有突变的地方，表明一个区域的终结，也是另一个区域开始的地方。该算法算子对噪声敏感，只适合于噪声较小不太复杂的图像。

1.4聚类分析方法是将图像中的像素用对应的特征空间点表示，根据它们在特征空间的聚集情况对特征空间进行分割，并将它们映射回原图像空间，从而得到分割结果。由于对原始图像一般情况下不知道有多少类目标，初始的聚类数无法确定，因此算法对初始参数极为敏感，有时需要人工干预参数的初始化才能求得最优解。

2.基于深度学习的目标分割

2.1 end-to-end目标检测算法，目前主流的目标检测算法，如faster rcnn，yolo，ssd等基本分为两个步骤，第一步完成目标区域的粗定位，提取bounding box，在粗定位的基础上再进行目标的精确定位；第二步对目标区域进行分类。深度学习的目标检测算法对通用的场景都有较好的检测效果，但是由于算法提取出来的目标都是矩形区域，对于一些其他多边形形状的目标无法准确分割。

2.2 FCN目标分割，FCN将传统CNN中的全连接层转化成一个个的卷积层。FCN的缺点也比较明显：一是得到的结果还是不够精细，上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。二是对各个像素进行分类，没有充分考虑像素与像素之间的关系，忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。

发明内容

针对上述现有技术中存在的不足，本发明的目的提供一种快速的高速公路路面分割和摄像机定位的方法。它能解决多场景下、不同天气情况下、不同路面状态下的高速路面定位分割问题；同时解决多场景下、不同天气情况下、不同路面状态下摄像机相对路面位置定位问题。

为了达到上述发明目的，本发明的技术方案以如下方式实现：

一种快速的高速公路路面分割和摄像机定位的方法，它的方法步骤为：

首先，对大量的有代表性的图像训练样本，标注路面区域的五个关键特征点和摄像机的位置信息，其次定义损失函数，最后进行深度学习迭代训练，当训练收敛之后，选择当前的训练模型作为结果模型；

1）样本收集和模型训练：

收集不同路面的图像数据，对图像数据进行数据标注，标注路面区域的五个点为路面区域的五个边界关键点，其中上面两个点为路面边缘，下面三个点为两个路面边缘点和图像的边界点；

图像上面部分的两个点在标注过程中，根据图像大小，动态设置上面两个点的高度线位置信息，该高度线与路面边缘的交点作为上面两个边界关键点；

对坐标位置采用相对于图像的高度和宽度的比例进行归一化操作，即相对坐标位置信息；

对摄像机位置采用相对于路面的位置信息；

2）网络模型设计：

设计了如下的网络结构模型，分为3个conv层，3个pool层，4个Relu层和2个全连接层；其中conv层的作用是提取图像中具有平移、旋转、尺度不变的特征，同时完成对图像特征维度降维，防止过拟合，提高模型泛化能力；卷积层的特点包括局部感知、参数共享、多核卷积。第一个conv层具有96个卷积核，每个核的大小为5*5，步长为2，第二个conv层具有96个卷积核，每个核的大小为3*3，步长为2，第三个conv层具有128个卷积核，每个核的大小为3*3，步长为2；

pool层的卷积核为只取对应位置的最大值或者平均值（最大池化、平均池化），并且不经过反向传播的修改。pool层的主要作用是可以忽略目标的倾斜、旋转之类的相对位置的变化。以此提高精度，同时降低了特征图的维度并且已定成度上可以避免过拟合。

Relu层是线性修正函数层，是在深度学习网络模型中常用的激活函数，该层的主要作用是为了增加神经网络模型的非线性。Relu激活函数的优点在于梯度不饱和和计算速度快。梯度计算公式为：1{x>0}。因此在反向传播过程中，减轻了梯度弥散的问题，神经网络前几层的参数也可以很快的更新。正向传播过程中，Relu函数仅需要设置阈值。如果x<0,f(x)=0，如果x>0,f(x)=x。加快了正向传播的计算速度。

全连接是矩阵乘法，相当于一个特征空间变换，可以把有用的信息提取整合。同时加上激活函数的非线性映射，多层全连接层理论上可以模拟任何非线性变换。全连接的另外一个作用是维度变换，尤其是可以把高维变到低维，同时把有用的信息保留下来。对于最后一层全连接而言，就是分类的显示表达或者是回归的结果表达。共有两个全连接层，第一个全连接层主要完成将高维数据降维的作用，使数据特征维度降低到192维，然后再经过第二个全连接层的处理，输出11维的结果信息，即是模型最终的输出结果信息。

3)模型损失函数:

采用如下函数作为损失函数，该函数具有计算简单快速的特点，同时精度满足实际需求。针对回归路面位置和摄像机位置两类数据设计了综合损失函数，其中路面位置信息的10维数据与摄像机位置的1维数据具有不同的权重，该函数的定义和特征如下所示：

4)模型训练：

模型训练过程就是通过对大量样本数据以及对应的标签数据不断迭代训练，使模型的预测结果与标签数据的损失函数值最小。在训练过程中，根据一次前向训练之后生成模型的损失值，反向更新模型中所有参数的值。通过不断的迭代，最终生成可迁移学习的模型。

训练过程主要包括4步，这4步被分为两个阶段：

第一阶段，前向传播阶段：

a）从样本集中提取样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op。

在此过程中，原始图像数据经过网络模型的处理，完成3次conv运算和3个pool运行，进行2次全连接运算，最终输出结果信息。其实质主要完成了模型各个层的卷积核与图像进行卷积运算、降维、数据拉伸处理的操作。

第二阶段，后向反馈阶段：

a）根据实际输出Op结果与GroundTruth通过损失函数计算Loss值，计算该Loss值对各层卷积核的偏导值；

b）根据偏导值及学习率反向传播调整模型参数。

5)模型预测:

模型训练完成后，输入图像数据即可完成结果预测输出，流程相对于训练过程缺少了与标签数据计算损失函数的过程，其他的流程环节完全一样。根据设计的网络模型，结果会输出11维的数据，其中前10维代表路面的5个关键点的（x,y）坐标信息，第11维表示摄像机相对于路面的位置信息。

输入原始图像数据，其中前10个数表示预测的5个关键点数据，顺序和标注数据一致，将5个关键点映射到输入图像上，同时连接5个点形成一个区域，即为路面区域，完成了对路面分割。

输出结果中的第11个数据代表摄像机与路面的位置关系。

本发明由于采用了上述方法，归纳为：

1. 基于回归算法的分割思想；

2. 分割、分类问题，转化为多任务回归的思想；

3. 结合深度学习的分割思想；

4. 分割问题转换成回归问题的思想；

5. 基于深度学习和回归算法的分割方法；

6. 基于深度学习和回归算法的摄像机相对位置定位方法。

同现有技术相比，本发明方法的优点在于：

1. 首次将分割问题转换成回归问题，并创新性的应用于路面分割；

2. 快速，单张图片从输入到结果输出平均0.1s；

3. 高效，一路场景只需输入判断一次，不需要不断计算；

4. 稳定，路面上有车、无车、车多情况，都可以正常分割路面和摄像机定位；

5. 鲁棒性高，雨天、雪天都可以正常分割路面和摄像机定位。

下面结合附图和具体实施方式对本发明作进一步说明。

附图说明

图1为现有技术中卷积神经网络的概念示意图；

图2为本发明实施例中的视频图像标注示意图；

图3为本发明实施例中网络模型图；

图4为本发明实施例中的模型预测结果图。

图5为本发明实施例中的技术流程图。

具体实施方式

参看图2至图5，本发明快速的高速公路路面分割和摄像机定位的方法，其步骤为：

1.样本收集和模型训练：

收集不同路面的图像数据，对图像数据进行数据标注，标注方式如图2所示，标注的五个点为路面区域的五个边界关键点。数据标注的时候，按照从1点到5点的顺序进行标注。根据实际标注发现，图像下面部分的三个点（图2中的2点，3点，4点）的标注比较容易，可以很容易地标注路面边界位置。

图像上面部分的两个点（图中1点，5点），由于不同场景的高速路面前端的情况不一致，同时特别靠上的路面区域边界特征不明显，因此在标注的时候，对前端的两个点的数据进行标准化设置。在标注过程中，我们根据图像大小，动态设置上面两个点的高度位置信息，高度为图像高度的16%，如图2中横线位置信息，该线与路面边缘的交点作为上面两个边界关键点。该标注方式一方面可以对上面的两个点进行标准化处理，同时又忽略了太靠上的路面的影响，经过实际测试该标注方式比不设置高度线的方式精度更高。

另外在标注过程中，对坐标位置进行了归一化操作，采用的相对坐标位置信息，即坐标位置相对于图像的高度和宽度的比例。采用归一化的数据，可以更好地设计网络结构，有利于提高模型精度。

另外标注摄像机相对于路面的位置信息，如摄像机在路面左侧则数据位置为0，中间为1，右侧数据为2。

2.网络模型设计：

参看图3，本发明中设计了如下的网络结构模型，分为3个conv层，3个pool层，4个Relu层和2个全连接层。其中conv层的作用是提取图像中具有平移、旋转、尺度不变的特征，同时完成对图像特征维度降维，防止过拟合，提高模型泛化能力。卷积层的特点包括局部感知、参数共享、多核卷积。第一个conv层具有96个卷积核，每个核的大小为5*5，步长为2，第二个conv层具有96个卷积核，每个核的大小为3*3，步长为2，第三个conv层具有128个卷积核，每个核的大小为3*3，步长为2。

全连接是矩阵乘法，相当于一个特征空间变换，可以把有用的信息提取整合。同时加上激活函数的非线性映射，多层全连接层理论上可以模拟任何非线性变换。全连接的另外一个作用是维度变换，尤其是可以把高维变到低维，同时把有用的信息保留下来。对于最后一层全连接而言，就是分类的显示表达或者是回归的结果表达。本发明共有两个全连接层，第一个全连接层主要完成将高维数据降维的作用，使数据特征维度降低到192维，然后再经过第二个全连接层的处理，输出11维的结果信息，即是模型最终的输出结果信息。

3.模型损失函数:

本发明采用如下函数作为损失函数，该函数具有计算简单快速的特点，同时精度满足实际需求。本发明针对回归路面位置和摄像机位置两类数据设计了综合损失函数，其中路面位置信息的10维数据与摄像机位置的1维数据具有不同的权重，该函数的定义和特征如下所示：

4.模型训练:

训练过程主要包括4步，这4步被分为两个阶段：

第一阶段，前向传播阶段：

a）从样本集中提取样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op。

第二阶段，后向反馈阶段：

b）根据偏导值及学习率反向传播调整模型参数。

5.模型预测

输入原始图像数据，模型输出数据（0.9063,0.1619,0.0057,0.4432,0.0085,0.9914,0.8239,0.9914,0.9830,0.1619,2）,其中前10个数表示预测的5个关键点数据，顺序和标注数据一致，将5个关键点映射到输入图像上，同时连接5个点形成一个区域，即为路面区域，这样我们就完成了对路面分割，如图4所示。

输出结果中的第11个数据代表摄像机与路面的位置关系，本次结果输出的2表示摄像机在图像右侧。根据测试发现路面位置信息和摄像机位置信息符合预期结果。

本发明实际应用中可采用如下替代方案，均属于本发明保护的范围：

1.本发明结合深度学习的CNN模型的技术方案可替换为结合其他深度学习模型或者机器学习的方案；

2.本发明利用回归方法完成路面分割和摄像机定位可替换为只完成路面分割或者只完成摄像机定位；

3.本发明利用回归方法完成路面分割和摄像机定位可替换为使用分类算法完成摄像机定位。

Claims

1.一种快速的高速公路路面分割和摄像机定位的方法，它的方法步骤为：

1）样本收集和模型训练：

对摄像机位置采用相对于路面的位置信息；

2）网络模型设计：

设计了如下的网络结构模型，分为3个conv层，3个pool层，4个Relu层和2个全连接层；其中conv层的作用是提取图像中具有平移、旋转、尺度不变的特征，同时完成对图像特征维度降维，防止过拟合，提高模型泛化能力；卷积层的特点包括局部感知、参数共享、多核卷积；第一个conv层具有96个卷积核，每个核的大小为5*5，步长为2，第二个conv层具有96个卷积核，每个核的大小为3*3，步长为2，第三个conv层具有128个卷积核，每个核的大小为3*3，步长为2；

pool层的卷积核为只取对应位置的最大值或者平均值，并且不经过反向传播的修改；

Relu层是线性修正函数层，梯度计算公式为：1{x>0}，正向传播过程中，Relu函数仅需要设置阈值，如果x<0,f(x)=0，如果x>0,f(x)=x；

全连接是矩阵乘法，共有两个全连接层，第一个全连接层主要完成将高维数据降维的作用，使数据特征维度降低到192维，然后再经过第二个全连接层的处理，输出11维的结果信息，即是模型最终的输出结果信息；

3)模型损失函数:

针对回归路面位置和摄像机位置两类数据设计了综合损失函数，其中路面位置信息的10维数据与摄像机位置的1维数据具有不同的权重，该函数的定义和特征如下所示：

4)模型训练：

模型训练过程包括4步，这4步被分为两个阶段：

第一阶段，前向传播阶段：

a）从样本集中提取样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op；

在此过程中，原始图像数据经过网络模型的处理，完成3次conv运算和3个pool运行，进行2次全连接运算，最终输出结果信息；

第二阶段，后向反馈阶段：

b）根据偏导值及学习率反向传播调整模型参数；

5)模型预测:

根据设计的网络模型，结果会输出11维的数据，其中前10维代表路面的5个关键点的（x,y）坐标信息，第11维表示摄像机相对于路面的位置信息。

2.根据权利要求1所述快速的高速公路路面分割和摄像机定位的方法，其特征在于，所述损失函数采用欧氏距离。