CN105550701A

CN105550701A - 实时图像提取识别方法及装置

Info

Publication number: CN105550701A
Application number: CN201510906131.0A
Authority: CN
Inventors: 潘晨劲; 赵江宜
Original assignee: Foochow Hua Ying Heavy Industry Machinery Co Ltd
Current assignee: Foochow Hua Ying Heavy Industry Machinery Co Ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2016-05-04
Anticipated expiration: 2035-12-09
Also published as: CN105550701B

Abstract

一种实时图像提取识别方法及装置，其中方法包括如下步骤：对整体图像进行切分，划分区域标的；针对整体图片需要提取的特征，设计相应的滤波器，用所述滤波器对所有区域标的进行卷积，然后添加一个偏置，得到特征矢量的卷积层；对图像上不同位置的图像特征进行聚合统计，得到采样层；构建包括输入层、卷积层、采样层、输出层的第一卷积神经模型；用随机梯度下降算法训练第一卷积神经模型参数。本发明通过划分区块设计卷积神经模型，进行训练，达到了识别实时图像的技术效果。

Description

实时图像提取识别方法及装置

技术领域

本发明涉及无人车图像识别领域，尤其涉及一种基于卷积伸进网络的试试图像物体提取识别方法及装置。

背景技术

无人车在行驶过程中，需要根据路况进行决策。路况包括了无人车决策需要考虑的范围内，所有可能影响决策的物体。比如各种动态物体(轿车/公交车/卡车/摩托车、自行车、行人)，静态需要注意的物体(路标/交通灯)以及可以忽略的物体。对这些物体进行快速准确的识别是无人驾驶系统一个重要的环节。无人车需要对周围这些可能影响到自身行驶的物体进行完整的侦测、识别/分类才能准确的推测它们可能的行为，避免碰撞，实现安全驾驶。

对于物体的识别分类主要有几种方法：1、基于激光雷达扫描的物体速度/尺寸模型推测法；2、基于视觉的方法；3、基于其他类别传感器的方法，如微波雷达或声纳等。视觉物体检测与识别，比起激光或者其他模态的传感器的最大的潜在优势就是在于图像中丰富的多的信息含量。然而，丰富的图像信息也增加了信息的提取和分析的难度，本文通过卷积神经网络模型来模仿人类视觉神经对于图像的信息数据分析，从而使得无人车能够识别所处环境中各物体的分类。

卷积神经网络本质上是一种由输入到输出的映射，模型能够通过大量的学习样本数据输入和输出间的映射关系，而不需要对其作出精确的数学表达式，继而能运用学习到的映射模式来分辨物体种类。其优点在于，一是卷积神经网络对几何变换、形变、光照具有一定程度的不变性，二是通过权值共享和并行运算，训练过的卷积神经网络可以用较小的计算代价扫描整幅待检测图像，因此，被广泛应用于目标检测。

发明内容

为此，需要提供一种实时图像提取识别的方法，解决车辆行驶过程中快速实时图像提取识别的问题。

为实现上述目的，发明人提供了

一种实时图像提取识别方法，包括如下步骤：对整体图像进行切分，划分区域标的；

针对整体图片需要提取的特征，设计相应的滤波器，用所述滤波器对所有区域标的进行卷积，然后添加一个偏置，得到特征矢量的卷积层；

对图像上不同位置的图像特征进行聚合统计，得到采样层；

构建包括输入层、卷积层、采样层、输出层的第一卷积神经模型；

用随机梯度下降算法训练第一卷积神经模型参数。

具体地，所述第一卷积神经模型包括第一卷积层、第二采样层、第三卷积层、第四采样层、第五采样层、第六连接层、第七连接层；

所述第一卷积层用于对整体图片进行过滤得到第一特征矢量图；

所述第二采样层用于对第一特征矢量图进行压缩，再通过加权、增加偏置或激活函数得到压缩后的第二特征映射图；

所述第三卷积层用于对第二特征映射图进行过滤得到第三特征矢量图；

所述第四采样层用于对第三特征矢量图进行压缩采样，得到第四特征映射图；

所述第五卷积层用于对第四特征映射图进行过滤，得到第五特征矢量图；

所述第六连接层用于对第五特征矢量图进行加权、偏置或半波校正得到第六特征矢量图；

所述第七连接层用于对第六特征矢量图进行加权、偏置或半波校正得到第七特征矢量图。

进一步地，“用随机梯度下降算法训练第一卷积神经模型参数”后还包括步骤：对样本进行筛选，设定区域标的的IoU激活函数阈值，若IoU激活函数值高于阈值则选用该区域标的，否则不选用该区域标的。

优选地，还包括步骤，将所述随机梯度下降算法中随机梯度下降值设为0.01。

进一步地，还包括反卷积步骤：利用特征过滤器卷积特征矢量图，得到输入图像。

一种实时图像提取识别装置，包括切分模块、卷积层设计模块、采样层设计模块、模型构建模块、训练模块：

所述切分模块用于对整体图像进行切分，划分区域标的；

所述卷积层设计模块用于针对整体图片需要提取的特征，设计相应的滤波器，用所述滤波器对所有区域标的进行卷积，然后添加一个偏置，得到特征矢量的卷积层；

所述采样层设计模块用于对图像上不同位置的图像特征进行聚合统计，得到采样层；

模型构建模块用于构建包括输入层、卷积层、采样层、输出层的第一卷积神经模型；

训练模块用于用随机梯度下降算法训练第一卷积神经模型参数。

进一步地，还包括参数设定模块，所述参数设定模块用于对样本进行筛选，设定区域标的的IoU激活函数阈值，若IoU激活函数值高于阈值则选用该区域标的，否则不选用该区域标的。

进一步地，所述参数设定模块还用于将所述随机梯度下降算法中随机梯度下降值设为0.01。

具体地，还包括反卷积模块，所述反卷积模块用于进行反卷积，利用特征过滤器卷积特征矢量图，得到输入图像。

区别于现有技术，上述技术方案通过划分区块设计卷积神经模型，进行训练，达到了识别实时图像的技术效果。

附图说明

图1为本发明具体实施方式所述的实时图像提取识别方法流程图；

图2为本发明具体实施方式所述的实时图像提取识别装置模块图；

图3为本发明具体实施方式所述的分割区域标的示意图；

图4为本发明具体实施方式所述的经过缩放调整后的训练图片示意图；

图5为本发明具体实施方式所述的分割区域标的示意图；

图6为本发明具体实施方式所述的卷积神经网络的构造的简易图；

附图标记说明：

200、切分模块；

202、卷积层设计模块；

204、采样层设计模块；

206、模型构建模块；

208、训练模块；

210、参数设定模块；

212、反卷积模块。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

1、本文总体思路

如图3所示，本文中的模型在进行物体检测时，先将输入图片分割成小块的区域标的，在其中选出2000个区域标的作为模型的输入值，而后对图片格式进行缩放调整后输入模型，在模型中，这些区域标的作为层级结构中的最底层的输入，信息通过各层的滤波器，选出图片检测数据中最显著的特征，最后再通过分类器得出图像物体的分类结果。

模型流程

一般来说，卷积神经网络通常是由输入、卷积层、子采样层、全连接层、分类层、输出这些基本要素来组成的，具体的模型设计应该要根据实际的应用需求或者特定针对的问题，来决定要用多少卷积层和子采样层、采用什么分类器等等。当确定好了卷积神经网络模型结构以后，一般采用向前传播和向后传播的方法来训练模型，从而得出相应的参数值。如上图所示，第一步是将设计好结构的模型通过大量的分类样本图片数据进行预训练，得出各参数值。第二步才是将训练好的模型运用于具体的目标图片任务，从而得出图片中各物体的分类结果。图片中的模型结构设计只是个示例，本文主要是在Alex模型的基础上做了一些改进措施。

用卷积神经网络模型进行图像物体检测

图像物体检测系统包括三个主要步骤。第一步是对整体图片进行切分，划分出区域标的，这些区域标的包含了能被检测出来的所有信息。第二部是运用卷积神经网络来从每个区域标的中提取固定长度的特征矢量。最后，是通过就特征信息数据进行各物体分类的线性分析和阀值判断得出物体分类结果。

2、用卷积神经网络模型进行图像物体检测

1)划分区域标的

请参阅图1，为本发明实时图像提取识别方法流程示意图，

包括步骤S100对整体图像进行切分，划分区域标的；图片分割最主要的目的是为了简化模型输入值，缩减计算时间。当然，一般来说一张普通的图像中，背景区域的面积会大大超过需检测物体的面积，如何有效分割图片选取出合意的区域标的也是需要考虑的。

如图3所示，一张1000*1000像素的图片，相当于拥有一百万个隐藏单元，在做模型输入时，如果用他们全部连接的话，就意味着模型有10^6^2个参数，将导致模型庞大且运算缓慢。并且考虑到图像本身而言，只有相互接近的部分关联紧密，而离得越远的图像之间关联度越低，所以如果将图像分割成10*10像素的区域标的，则意味着参数立刻降到了10^4^2个，大大提升了运算效率。

当然，涉及到具体的图片分割的方法有很多，本文中运用的是通过SelectiveSearch(如有必要可另文展开)对图像选取出1000个区域标的。区域标的选取完成后还需将图片统一缩放到250*250像素的格式(含一个8宽度的边框，这样可以将背景也纳入以提供先验信息)，以便适应模型的输入格式。这里要注意的是，除了图像分割方法会影响模型的检测精度以外，各种缩放方法也会对模型最后的精度产生影响。如图4所示：经过缩放调整后的训练图片。

2)特征提取

还包括步骤S102，针对整体图片需要提取的特征，设计相应的滤波器，S104用所述滤波器对所有区域标的进行卷积，然后添加一个偏置，得到特征矢量的卷积层；特征提取的基本思想是针对整体图片需要提取的各类特征，设计出相应的可训练的滤波器，用每种滤波器对所有分割后的区域标的进行卷积，然后添加一个偏置，从而得出特征矢量的卷积层。用同一种滤波器卷积所有区域标的，并将得到的参数共享的前提假设是不同区域标的的统计特征是近似的。

如图5所示，一张1000*1000像素的图片在分割成10*10的区域标的后，仍有10^8个参数，参数数量过大会导致运行缓慢，统计效率低下。但是，每个区域标的中的参数值只有100个。如果对所有的标的区域我们都采用同一个10*10大小的滤波器去卷积图像，则两层之间的连接参数立马下降成100个，极大地提升了模型的计算效率。当然，这样单一的滤波器能过提取的图像特征是很有限的，所以在经过多个滤波器过滤后就可以得出针对多个类别提取的特征图。所以假设我们用100个10*10大小的滤波器去卷积图像，每种滤波器参数不同，其针对图像不同的特征提取出相应的数据，从而得到图像在不同特征过滤后的特征矢量图。这样，100个滤波器，每个滤波器100个参数，总体的参数值就降到了一万个。这里的参数个数和具体的图片分割无关，只和滤波器的大小和种类相关。在设计滤波器的时候有三个因素是需要重点考虑的：滤波器的大小、滤波器的数目和滤波器的步长。滤波器越大、数目越多，提取图片的特征信息也越大，学习能力就越强，但是同时计算变得更为复杂，容易出现过度拟合的现象。特别是滤波器的大小会对后面的分类计算效率产生巨大影响。所以，在具体设计的时候，应根据实际的需求情况来选取恰当的滤波器。

本来，在获取了这些图像的特征矢量之后，应该进入下一步，运用这些提取所得的特征信息去训练分类器，然而，即使我们通过卷积在一定程度上降低了参数数量，却还是要面临计算量上的挑战。举例来说，对一个100*100像素的图像，通过10*10的滤波器进行特征提取，可以得到一个8281维的特征矢量(这里考虑了偏置)。在实际运用中，如果有300个这样的滤波器进行特征提取，则每个样本将得到一个2484300维度的特征矢量图。而要在这样维度大小上进行分类选择将极大影响运算效率，而且容易出现过度拟合的现象。为了解决这个问题，我们引入了采样层，因此本方法还包括步骤S106，对图像上不同位置的图像特征进行聚合统计，得到采样层；利用图像局部相关性的原理，对图像进行子采样，以便减少数据处理量，同时保留有用的信息。另外，通过这种特有的二次特征提取结构，使得模型在进行物体检测时，对输入的样本具有较高的畸变容忍能力。

当然子采样的方法也是多种多样的，总体上的思路在于对一个图像上不同位置的图像特征进行聚合统计。譬如，可以计算一个区域上某个特定特征的平均值或是最大值。这些概要统计特征不仅具有低得多的维度，同时还能改善拟合效果。

之后还包括步骤S108，构建包括输入层、卷积层、采样层、输出层的第一卷积神经模型；

图6即为一个卷积神经网络的构造的简易图，Input为原始输入图像，C层为特征提取层，该结构中用三个可训练的滤波器去卷积原始输入图像，然后加入一个偏置，得到三个卷积层C1，然后再通过一个子采样过程和一个激活函数，产生一个维度缩小的卷积层S2。S层是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。C3和S4是类似C1和S2的过程。

本文中是通过对分割成250*250像素的区域标的，运用涵盖5层卷积层和2层连接层的卷积神经网络，向前传播过滤后，可以得到一个1028维度的特征向量。

下面用全虚拟的数字对该简化的模型输入、输出做个说明。

假设原图为100*100大小，在第一层卷积层中，我们用5个11*11的滤波器进行过滤，从而可以得到90*90大小的特征矢量图。并且，在这一层中，可训练参数有(11*11+1)*5＝610个，共610*90*90＝4，941，000个连接。要说明的是，可训练的参数个数仅取决于滤波器的大小和个数。在模型里，输入图片的大小、卷积的层数、每层卷积滤波器的个数、大小、步长都是可以自行设定的，这些量的选择会影响到参数数量、模型运算效率和最终模型精度。

然后进入第二层采样层，不同的采样方法对维度也有影响，假设我们简单的用上个卷积层过滤出来的每一个特征矢量图的每相邻九个像素求和变为一个像素，并且在通过加权和增加偏置后，随之通过一个激活函数(激活函数也有很多种类)，就能得到一个大概缩小九倍的特征映射图。即通过采样，我们能得到5个30*30的特征矢量图，并且在本层中有12个可训练参数和45000个连接。

随后的第三层卷积层假设也是用16个11*11的滤波器去卷积采样层得出的特征图，这样可以得到20*20的特征矢量图。值得注意的是，第三层的每个特征矢量图是连接到第二层采样层中的全部5个或者其中几个特征矢量图的，意味着本层的特征矢量图是上一层提取到的特征矢量图的不同组合(这个做法也并不是唯一的)。之所以不把第二层采样层中的每个特征矢量图连接到每个第三层卷积层的特征矢量图，原因在于：一是不完全的连接机制能将连接的数量保持在合理的范围内；第二，也是最重要的，其破坏了网络的对称性。由于不同的特征图有不同的输入，所以迫使他们抽取不同的特征(希望是互补的)。在这里简单假设一下：本层中的前6个特征矢量图以第二层采样层中3个相邻的特征矢量图子集为输入；接下来6个特征图以第二层采样层中4个相邻特征图子集为输入；随后的3个以不相邻的4个特征矢量图子集为输入；最后一个将第二层采样层中所有特征图为输入。这样得出的第三层卷积层有7155个可训练参数和2，862，000个连接。

然后进入第四层采样层，由16个10*10大小的特征图构成。特征矢量图中的每个单元与第三层卷积层中相应特征图的2*2邻域相连接，跟第一层卷积层和第二层采样层之间的连接相似(随便起的数字，这里不好再按九倍缩减，就改成按四倍缩减，实际设计中最好改成和前面一样的算法和取数以简化计算)。S4层有32个可训练参数(每个特征图1个因子和一个偏置)和8000个连接。

第五层也是一个卷积层，假设由100个10*10的过滤器去卷积第四层，则能得出100个1*1大小的特征矢量图。每个单元与第四层采样层的全部16个单元的10*10邻域相连。这样第五层卷积层有160，100个连接。这里要说明的是，由于最初设定的数字很随意，导致到这里不得不改变滤波器大小，实际运用中还是建议统一滤波器规格。一般来说，这层得出的特征矢量图也不至于是1*1大小的，不然更像是全连接层。但是要说明的是，这层的思路和前面两层的卷积层完全一样，所以也就不再做数字上的更改了，本领域技术人员在阅读后能够理解本来的意图。关于连接层的功能在下文说明。

3、关于模型运行时间的分析

有两个特性能提升模型进行物体检测的效率。一是所有的卷积神经网络参数值在所有种类中进行共享。二是相比其他模型，通过卷积神经网络计算出的特征矢量维度较低。

参数的权值共享使得模型在计算区域标的和特征提取的时间被所有类别分摊了(一个GPU处理一个图像平均只需要13秒，一个CPU处理一个图像平均只要53秒)。模型中，唯一要针对类别区分，分类进行计算的是在提取完特征矢量之后，计算SVM权重和在使用Non-MaximumSuppression激活函数的时候。在实际运用中，模型计算的特征矢量通常是2000*1028维的，而SVM权重通常是1028*N维的(N为类别数量)。

本模型可以处理上千个物体类别。如果使用的是现代多核CPU，即使有10万个物体种类，在考虑了分类影响之后，我们的模型计算也只需要10秒钟时间。

4、模型训练

下面开始对模型进行训练步骤，

(1)监督下的预训练

一般推荐使用公开的Caffe卷积神经网络模型对ILSVRC2012数据进行预训练。不过在简化了训练过程之后，我们的模型精度比Alex模型低了大约2.2％。

(2)特定区域微调

为了让我们的模型能适用于分析我们调整过的输入图像，我们只用压缩过的区域标的，优选地实施例中，还包括步骤S110用随机梯度下降算法训练第一卷积神经模型参数。我们的卷积神经模型从结构上沿用了Alex模型，只不过我们将最后一个Softmax层从1000种的分类层替换成了21种的连接层(20个VOC种类加上背景)。另外的一些实施例中还包括步骤S112参数微调，具体地，还包括步骤：对样本进行筛选，设定区域标的的IoU激活函数阈值，若IoU激活函数值高于阈值则选用该区域标的，否则不选用该区域标的。还包括步骤，将所述随机梯度下降算法中随机梯度下降值设为0.01。如果区域标的的IoU大于等于0.5，同时ground-truthbox在boxes分类中分值为正的话，我们将其视为正样本，否则为负样本。我们将所述随机梯度下降算法中随机梯度下降值设为0.01(相当于预训练时随机梯度下降值的十分之一)，这样模型既能获取到新的信息，又不至于完全否定掉既得信息。由于通过SelectiveSearch方法选出的区域标的样本中的负样本过多，我们统一用32个正样本和96个背景样本来构建出一个含128个样本的mini-batch。通过以上微调，我们能将模型精度提升大约8个百分点。

(3)物体类别的分类器

以训练一个用来检测汽车的二分分类器为例。含汽车部分越多的图像越有可能是正样本，而与汽车无关的背景图像自然是负样本。但是，部分包含汽车的区域就不好说了。我们通过对IoU激活函数设定阀值来解决这一问题。一旦样本分值低于阀值，我们就认定其为负样本。通过对阀值的调整测试，我们最后选出能使得模型精度达到最高的阀值0.3。而正样本则直接被简单定义成每种物体类别的ground-truthboundingboxes。

一旦特征数据被提取出，我们即可将其用在每个种类的线性SVM分类器上。同时，由于训练数据过大，我们采用的是standardhardnegativemining法。

另外，用SVM来替代最后一层Softmax的原因在于，Softmax中的背景样本是共享的，而SVM中的背景样本是独立的，最后的统计结果显示，替换后模型的平均检测精度能提升大概四个百分点。

5、将提取出的特征信息图像化

在某些实施例中还包括步骤S114：进行反卷积，利用特征过滤器卷积特征矢量图，得到输入图像。

经过第一层过滤后的数据包含了初始的边界和相对颜色信息，这些可以被直接图像化，层数越靠后过滤出来的特征数据，在还原时计算也相应的越复杂。总的来说，我们将神经网络中的某一特征取出，将其视为物体探测器，我们把所有区域标的的激活值(大约有1千万个)按从高往低排序，通过non-maximumsuppression选出得分最高的区域。

本文示例中我们选取的是以第五层采样层的9216维特征矢量作为原始数据进行拟合的。

在正常的卷积过程中，是用特征过滤器来卷积输入的图像以得到特征矢量图，而反卷积过程则是用特征过滤器来卷积特征矢量图，以得到输入图像。

6、各层提取出数据的比较

为了弄清楚那些数据对图像的物体检测模型能起到关键性作用，我们将模型的最后三层(即第五层采样层和第六、七层连接层)的数据剥离出来作比较。

上节说过第五层采样层是2304维的特征矢量。第六层连接层是用第五层的特征矢量乘以1028*2304维的权重量后，再加上一个偏置量，并通过半波校正后得出的。同样的，第七层连接层则是用第六层矢量乘以一个1028*1028维权重矢量，加上偏置量，再通过半波校正后得出的。

(1)使用经过预训练，但未进行微调的模型来比较各层数据作为输入值的物体检测分析结果显示：第七层数据的检测分析精度(44.7％)劣于第六层数据分析精度(46.2％)。这意味着，卷积神经网络模型的参数中的29％(相当于一千六百八十万个参数数据)可以被移除，而不会对模型的物体检测精度造成重大的影响。甚至于只使用第五层的数据(即只有卷积神经网络全部参数数据的6％)，也能得到不错的检测精度(44.2％)。这说明传统的卷积神经网络模型对物体检测时，进行图像特征提取的能力是主要集中在模型的卷积层中的。这也意味着，对检测精度要求不是特别高的时候，可以在第五层特征矢量数据的基础上，尝试直接运用更为传统的、计算更为简略的方向梯度直方图或是滑动窗口等分析方法来检测物体。不过一般来说，这样会使得模型的物体检测精度大幅下降，基本要损失十个百分点左右的检测精度。

(2)使用经过预训练，且经过微调的模型比较各层数据作为输入值的物体检测分析结果显示：从总体上来说，经过微调能使得模型的物体检测精度上升大约八个百分点，而且出人意料的改变了传统卷积神经网络模型得出的各层次数据的比较结果。数据显示，经过微调的模型使用第五、六、七层数据作为输入值得到的物体检测的平均精度为47.3％、53.1％和54.2％，与传统模型完全不同的是，微调使得后两层数据的模型检测精度得以大幅提升。这个分析结果显示，第五层提取出来的特征数据只是概要性的，模型检测精度的提升，主要得益于模型中针对特定区域的非线性分类器对特征数据的处理。

7、检测误差分析

通过对模型误差项的检验，分析结果显示：相比较于传统的DPM模型，我们的模型误差更多的来自于图像主要物体的定位不好，而不是源于分不清背景或是物体类别区分不好。这说明卷积神经网络模型比方向梯度直方图更具有识别力。

8、Boundingbox的回归分析

基于上一节的误差分析，我们使用一个线性回归模型(这个模型是按照DPM中同类别模型的理念另行设计出来的)，并使用卷积神经网络模型中第五层中提取得出的图像特征信息数据，来预测定位需检验的图像的主要窗口。该回归模型的分析结果显示，能够大幅降低定位误差，并使得整体模型的检测精度再次提高四个百分点。

9、本文中的模型还可用于文字提取和语义分割

在本文中模型的基础上，后来又发展出了检测效率更高的FASTERR-CNN模型和检测精度更高的DEEP-IDNET模型，在模型设计时，亦可加以参考。除了二维图像为原始输入的上述处理模型外，能处理3D视频的卷积神经模型也是当前研发热点。

10、发明人的一点思考

对于无人车驾驶来说，若仅是出于安全行驶目的，其需要分析辨别的物体种类并不多，特别是在考虑到模型本身对于特征相近的物体区分度不高(譬如自行车和电动车)之后，需要分析判断的大类物体种类很有限，最主要的集中在各类汽车、公交车/大型客车、自行车/电动车/摩托车、人、信号灯、各类路标这几个大类上。如果模型有针对性的搜索分析这些少数种类，有助于提高运算效率。

另外，这些物体还可以通过其自身大小、运行速度、在图像上所处方位等其他信息进行辅助判断，以便提高分辨精度。

此外，用来预训练模型的图片库是采用公开的数据库还是选用无人车驾驶中采集到的图片并人工给出定位和分类，也是值得斟酌的事。

11、关于卷积神经网络模型的各参数之间关系的简单说明

我们已经知道在卷积神经网络模型中，每个层都有多个特征提取图，每个特征提取图通过一种卷积滤波器提取输入的一种特征(即通过卷积运算使得原信号特征增强，并且降低噪音)，然后每个特征提取图有多个神经元。虽然原理和构思是这么设定的，但是这个模型本身的各项参数设计都是开放式的，其中各环节涉及的算法也是多种多样，在实际操作中可以有针对性的进行选择和设计，设计标准无非是运算速度和最后判断的精度。

一种实时图像提取识别装置，包括切分模块200、卷积层设计模块202、采样层设计模块204、模型构建模块206、训练模块208：

所述切分模块用于对整体图像进行切分，划分区域标的；

在具体的实施例中，所述第一卷积神经模型包括第一卷积层、第二采样层、第三卷积层、第四采样层、第五采样层、第六连接层、第七连接层；

进一步的一些实施例中，还包括参数设定模块210，所述参数设定模块用于对样本进行筛选，设定区域标的的IoU激活函数阈值，若IoU激活函数值高于阈值则选用该区域标的，否则不选用该区域标的。

另一些具体的实施例中，还包括反卷积模块212，所述反卷积模块用于进行反卷积，利用特征过滤器卷积特征矢量图，得到输入图像。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种实时图像提取识别方法，其特征在于，包括如下步骤：对整体图像进行切分，划分区域标的；

对图像上不同位置的图像特征进行聚合统计，得到采样层；

用随机梯度下降算法训练第一卷积神经模型参数。

2.根据权利要求1所述的实时图像提取识别方法，其特征在于，所述第一卷积神经模型包括第一卷积层、第二采样层、第三卷积层、第四采样层、第五采样层、第六连接层、第七连接层；

3.根据权利要求1所述的实时图像提取识别方法，其特征在于，“用随机梯度下降算法训练第一卷积神经模型参数”后还包括步骤：对样本进行筛选，设定区域标的的IoU激活函数阈值，若IoU激活函数值高于阈值则选用该区域标的，否则不选用该区域标的。

4.根据权利要求3所述的实时图像提取识别方法，其特征在于，还包括步骤，将所述随机梯度下降算法中随机梯度下降值设为0.01。

5.根据权利要求1所述的实时图像提取识别方法，其特征在于，还包括反卷积步骤：利用特征过滤器卷积特征矢量图，得到输入图像。

6.一种实时图像提取识别装置，其特征在于，包括切分模块、卷积层设计模块、采样层设计模块、模型构建模块、训练模块：

所述切分模块用于对整体图像进行切分，划分区域标的；

7.根据权利要求6所述的实时图像提取识别装置，其特征在于，所述第一卷积神经模型包括第一卷积层、第二采样层、第三卷积层、第四采样层、第五采样层、第六连接层、第七连接层；

8.根据权利要求6所述的实时图像提取识别装置，其特征在于，还包括参数设定模块，所述参数设定模块用于对样本进行筛选，设定区域标的的IoU激活函数阈值，若IoU激活函数值高于阈值则选用该区域标的，否则不选用该区域标的。

9.根据权利要求8所述的实时图像提取识别装置，其特征在于，所述参数设定模块还用于将所述随机梯度下降算法中随机梯度下降值设为0.01。

10.根据权利要求1所述的实时图像提取识别装置，其特征在于，还包括反卷积模块，所述反卷积模块用于进行反卷积，利用特征过滤器卷积特征矢量图，得到输入图像。