CN107092883A

CN107092883A - 物体识别追踪方法

Info

Publication number: CN107092883A
Application number: CN201710260693.1A
Authority: CN
Inventors: 张飞云
Original assignee: Shanghai Jilian Network Technology Co Ltd
Current assignee: Shanghai Jilian Network Technology Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2017-08-25

Abstract

本发明公开了一种物体识别追踪方法，提出一种消费级视频内物体识别及追踪的方法，该方法包含两个阶段，在第一阶段使用神经网络快速从视频中检测出物体的位置并识别出该物体类别，分割出物体区域送入第二阶段处理，第二阶段对物体进行跟踪；本发明提供的物体识别追踪方法，使用物体识别追踪系统从输入图像中快速准确地识别出该物体类别及对它定位跟踪；物体识别追踪系统的核心问题在于从输入视频中检测出物体的类别以及精确位置，然后进行跟踪。

Description

物体识别追踪方法

技术领域

本发明涉及一种物体识别追踪方法，具体的是从输入图像中快速准确地识别出该物体类别及对它定位跟踪。

背景技术

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的基于区域的卷积神经网络是第一个真正多层结构的学习算法，它利用空间相对关系减少参数数目以提高训练性能。深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1)强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2)明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

随着信息技术的高速发展，图像内物体识别在学术以及工业界都有很强需求的应用，基于深度学习的物体检测具有尽管图像中的物体可能千变万化：不同的大小和尺寸，甚至被旋转。即使物体只有部分可见也能够被识别出来等优势，日益受到人们的关注和重视。

传统物体识别通常采用人工选择特征，此方法具有耗时耗力，且识别效果不佳等缺陷，基于深度学习的物体检测具有特征自主学习的优势，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。目前大部分物体视频都是在图片级别，本发明主要解决消费级视频中物体视频。相比于图片级别，视频中物体具有背景虚化，位置多变，拍摄角度不同等难点。

综上所述，针对现有技术中存在的上述缺陷，本发明申请方案在物体识别基础上增加了跟踪模块，跟踪模块和识别模块可以互相矫正，提高正确率。

发明内容

本发明为解决上述技术问题而采用的技术方案是提供一种物体识别追踪方法，其中，具体实现方法是：

1)对输入视频预处理；

处理步骤为视频解码，视频图像化，图像归一化；

2)利用神经网络对视频图片进行检测识别；

步骤一：输入图像；

由1)中采集的图像送入步骤二；

步骤二：检测目标区域；

步骤一中的图像会经过提取候选框，即目标区域的网络，提取感兴趣的区域；

步骤三：识别物体类别；

本步骤对步骤二中的候选框的内容进行识别分类；采用改进的ZF网络，使用224×224的输入图片大小，每批次训练图片个数为256，测试图片个数为1；网络的每一层是一个大小为w×h×d的三维矩阵，其中h和w代表图像的高度和宽度，d是滤波器的个数或者信道维数，利用上述三维矩阵得出网络每一层的神经单元个数；网络的输入为150528(224×224×3，以下计算方式相同)维；网络每一层的输出计算公式为：

其中：

ho为输出图像高度，hi为输入图像高度；

pad为填充大小，指定在每次输入的图像的每一边加上多少个像素；

kernel_size为卷积核大小；

stride为步长，指滤波器滤波时候的滑动步长，即指定每次间隔几个像素值进行滤波；

输出宽度wo采用同样的方法计算；

步骤四：计算神经网络特征，经过softmax分类器进行分类从而生成C个物体类别的概率；又由于每个候选框的位置在步骤一中就会给出，至此，识别以及定位结束；

3)通过物体跟踪模块跟踪；

识别出物体的图片帧输入到检测识别模块中，同时输入识别出的物体位置及类别信息，在这一帧就初始化跟踪器，并且在接下来的视频序列中对这个检测到的物体进行跟踪，直到发生跟踪丢失的情况或者发生了镜头切换，至此一个跟踪序列结束；

4)进行投票操作；

2)与3)中既有检测结果又有跟踪结果，那么就牵扯到融合，在融合之后，便得到了一个个物体识别序列，为了得到最终的识别结果，需要一个投票操作；经过了这个投票操作后，对于每一个序列均会得到一个统一的标注、一个统一的分数；至此经过对整个视频的扫描后，对这个视频内的物体信息分析完毕。

上述的物体识别追踪方法，其种：

对输入视频预处理方法中，采用从输入视频中截取帧的方法获取图片，其中帧率为25FPS,然后对截图的图片进行归一化处理，实验中采用224×224像素大小。

上述的物体识别追踪方法，其种：

通过物体跟踪模块跟踪过程中，同一帧的画面中同时跟踪多个目标，每检测识别一次需要150ms，并采用了加速方法，每隔十帧检测识别一次。

上述的物体识别追踪方法，其种：

4)步骤中，每一个物体识别序列包含如下信息：序列开始帧号、序列结束帧号、帧数、位置、识别的类别号、识别的置信度。

上述的物体识别追踪方法，其种：

步骤二：检测目标区域中，其中每张图片提取2000个候选框。

上述的物体识别追踪方法，其种：

步骤2)中：

网络的学习率：学习率是指随机梯度下降过程中，从某个峰值开始，向下一步的步伐大小；初始时为0.01，每迭代一定次数后，学习率降为原来的十分之一；0.01是随机设置的值，一般训练神经网络时，从某个值比如0.1或1开始设置，观察训练误差的变化，若训练误差增大，则应减小学习率，若误差减小，则这个值可以使用；

动量为0.99：神经网络在批处理训练时会陷入局部最小值，也就是说误差基本不变化，其返回的信号总误差又大于训练结果设定的总误差条件；这个时候加入一个动量因子有助于其反馈的误差信号使神经元的权值重新振荡起来；

权重衰减系数为0.0005：神经网络的代价函数有一个规则化项，权重衰减系数即是权重衰减项的系数，用以防止过度拟合，减小权重的幅度，0.0005是一个经验值。

本发明相对于现有技术具有如下有益效果：

1)本发明与现有技术相比，可以更好地实现消费级视频中物体识别及跟踪系统中的各个模块的性能；

2)基于神经网络的物体检测及定位方法比传统的方法更加准确快速，更能适应由于光照、旋转等引起的图像畸变；

3)最后，检测和跟踪会互相矫正提高识别及跟踪效果。因此，该发明提出的方法计算上较传统的方法更快，同时具有更好的性能。

附图说明

图1为本发明提供的物体识别追踪方法的流程图。

具体实施方式

本发明要解决的技术问题是：使用物体识别追踪系统从输入图像中快速准确地识别出该物体类别及对它定位跟踪；物体识别追踪系统的核心问题在于从输入视频中检测出物体的类别以及精确位置，然后进行跟踪。

本发明提供的物体识别追踪方法，该方法包含两个阶段，在第一阶段使用神经网络快速从视频中检测出物体的位置并识别出该物体类别，分割出物体区域送入第二阶段处理，第二阶段对物体进行跟踪。

1、输入视频预处理

本阶段核心在于将解码出来的视频帧以图片的方式送入检测识别模块和实时跟踪模块。主要步骤为视频解码，视频图像化，图像归一化；本方法中，我们采用从输入视频中截取帧的方法获取图片，其中帧率为25FPS,然后对截图的图片进行归一化处理，实验中采用224×224像素大小。

2、利用神经网络对视频图片进行检测识别

本阶段核心在于如何从一幅图像中快速准确地进行像定位出物体区域，进而识别出物体类别，并对物体进行跟踪。主要步骤如下所示。

步骤一：输入图像。由5.1中采集的图像送入步骤二

步骤二：检测目标区域。步骤一中的图像会经过提取候选框(目标区域)的网络，提取感兴趣的区域。其中每张图片提取2000个候选框。

步骤三：识别物体类别。本步骤对步骤二中的2000个候选框的内容进行识别分类。本发明采用改进的ZF网络，使用224×224的输入图片大小，每批次训练图片个数为256，测试图片个数为1。网络的每一层是一个大小为w×h×d的三维矩阵，其中h和w代表图像的高度和宽度，d是滤波器的个数或者信道维数，利用上述三维矩阵可得出网络每一层的神经单元个数。网络的输入为150528(224×224×3，以下计算方式相同)维。网络每一层的输出计算公式为：

ho＝(hi+2*pad-kernel_size)/stride+1；

其中：

ho为输出图像高度，hi为输入图像高度；

kernel_size为卷积核大小，其大小值是随意设置的，根据图片大小而定，图片比较大可以设大一点，图片比较小可以设小一点，但不是绝对的，但卷积核大小一般都是奇数，这样卷积模板就是中心对称的，可以设一些经验值如5，7，11等；

输出宽度wo采用同样的方法计算；

网络的学习率为——学习率是指随机梯度下降过程中，从某个峰值开始，向下一步的步伐大小。初始时为0.01，每迭代一定次数后，学习率降为原来的十分之一。0.01是随机设置的值，一般训练神经网络时，从某个值比如0.1或1开始设置，观察训练误差的变化，若训练误差增大，则应减小学习率，若误差减小，则这个值可以使用。学习率的选取原则是：使得训练误差减小，呈逐渐收敛的趋势，但收敛速度不要太慢，若收敛得太慢，则应适当增加学习率。

动量为0.99——神经网络在批处理训练时会陷入局部最小值，也就是说误差基本不变化，其返回的信号对权值调整很小但是总误差又大于训练结果设定的总误差条件。这个时候加入一个动量因子有助于其反馈的误差信号使神经元的权值重新振荡起来。

权重衰减系数为0.0005——神经网络的代价函数有一个规则化项(也叫权重衰减项)，权重衰减系数即是权重衰减项的系数，用以防止过度拟合，减小权重的幅度。0.0005是一个经验值。

步骤四：计算神经网络特征，经过softmax分类器进行分类从而生成C个物体类别的概率；又由于每个候选框的位置在步骤一中就会给出，至此，识别以及定位结束。

3、物体跟踪模块

经2中识别出物体的图片帧输入到检测识别模块中，同时输入识别出的物体位置及类别信息，在这一帧就初始化跟踪器，并且在接下来的视频序列中对这个检测到的物体进行跟踪，直到发生跟踪丢失的情况或者发生了镜头切换，至此一个跟踪序列结束；

同一帧的画面中同时跟踪多个目标，每检测识别一次却需要150ms，并采用了加速方法，每隔十帧才检测识别一次；

接下来，在每十帧的时候有可能既有检测结果又有跟踪结果，那么就牵扯到融合，在融合之后，便得到了一个个物体识别序列，每一个序列都包含如下信息：序列开始帧号、序列结束帧号、帧数、位置、识别的类别号、识别的置信度；于是，为了得到最终的识别结果，需要一个投票操作；经过了这个投票操作后，对于每一个序列均会得到一个统一的标注、一个统一的分数；至此经过对整个视频的扫描后，对这个视频内的物体信息已经分析完毕。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种物体识别追踪方法，其特征在于：

1)对输入视频预处理；

处理步骤为视频解码，视频图像化，图像归一化；

2)利用神经网络对视频图片进行检测识别；

步骤一：输入图像；

由1)中采集的图像送入步骤二；

步骤二：检测目标区域；

步骤三：识别物体类别；

本步骤对步骤二中的候选框的内容进行识别分类；采用改进的ZF网络，使用适合网络大小的图片作为输入，网络的每一层是一个大小为w×h×d的三维矩阵，其中h和w代表图像的高度和宽度，d是滤波器的个数或者信道维数，利用上述三维矩阵得出网络每一层的神经单元个数；网络的输入为w×h×d维；网络每一层的输出计算公式为：

其中：

ho为输出图像高度，hi为输入图像高度；

kernel_size为卷积核大小；

输出宽度wo采用同样的方法计算；

3)通过物体跟踪模块跟踪；

4)进行投票操作；

2.如权利要求1所述的物体识别追踪方法，其特征在于：

3.如权利要求2所述的物体识别追踪方法，其特征在于：

4.如权利要求2所述的物体识别追踪方法，其特征在于：

5.如权利要求4所述的物体识别追踪方法，其特征在于：

步骤二：检测目标区域中，其中每张图片提取2000个候选框。

6.如权利要求5所述的物体识别追踪方法，其特征在于：

步骤2)中：