CN106780612A

CN106780612A - 一种图像中的物体检测方法及装置

Info

Publication number: CN106780612A
Application number: CN201611248557.2A
Authority: CN
Inventors: 叶昕
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-31
Anticipated expiration: 2036-12-29
Also published as: CN106780612B

Abstract

本发明实施例公开了一种图像中的物体检测方法及装置，用以提高物体检测的实时性，该方法中将待检测的图像输入到预先训练完成的卷积神经网络中，该卷积神经网络在图像中确定每个候选区域对应的特征向量，针对每个候选区域对应的特征向量，当特征向量中类别参数的最大值大于设定阈值时，确定所述候选区域包含的物体的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。由于本发明实施例采用卷积神经网络在进行检测时确定了候选区域，计算每个候选区域对应的特征向量，从而识别每个物体的类别和位置，无需进行重复操作，提高了检测的实时性。

Description

一种图像中的物体检测方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种图像中的物体检测方法及装置。

背景技术

随着视频监控技术的发展，智能视频监控应用在越来越多的场景中，例如交通、商场、医院、小区、公园等等，智能视频监控的应用为各种场景中，通过图像进行物体检测奠定了基础。

现有技术在图像中进行物体检测时，一般采用基于候选区域-卷积神经网络(Region Convolutional Neural Network，R-CNN)及其延伸Fast RCNN和Faster RCNN。图1为采用R-CNN进行物体检测的流程示意图，其检测过程包括：接收输入图像，在图像中提取候选区域(region proposal)，计算每个候选区域的CNN特征，并采用分类和回归的方法确定物体的类型和位置。上述过程中，需要在图像中提取出2000个候选区域，整个提取的过程需要耗时1～2s的时间，然后针对每个候选区域，需要计算该候选区域的CNN特征，而候选区域中有很多是存在重叠的，因此在计算CNN特征时也会存在很多的重复工作；并且该检测过程中还包括后续步骤：proposal的特征学习，以及对确定的物体的位置进行校正和消除虚检等处理，整个检测过程可能需要2～40s的时间，大大影响了物体检测的实时性。

另外，采用R-CNN进行物体检测的过程中，图像的提取是采用显著性检测(selective search)提取的，之后采用卷积神经网络计算CNN特征，最后再使用支持向量机模型(SVM)进行分类，从而确定物体的位置。而上述三个步骤都是相互独立的方法，没办法对整个检测过程进行整体优化。

图2为采用Faster RCNN进行物体检测的过程示意图，该过程采用卷积神经网络进行，每个滑动窗在中间层(intermediate layer)将会生成一个256维的数据，在分类层(clslayer)检测目标的类别，在回归层(reg layer)检测物体的位置。上述对物体的类别和位置的检测是两个独立的步骤，两个步骤中都需要针对256维的数据分别进行检测，因此该过程也将会增长检测的时长，从而影响物体检测的实时性。

发明内容

本发明实施例公开了一种图像中的物体检测方法及装置，用以提高物体检测的实时性，并便于对物体检测进行整体优化。

为达到上述目的，本发明实施例公开了一种图像中的物体检测方法，应用于电子设备，所述方法包括：

将待检测的图像输入到预先训练完成的第一卷积神经网络中，其中所述第一卷积神经网络在所述图像中识别每个包含物体的候选区域，对每个候选区域进行自适应下采样后进行全连接计算，确定每个候选区域对应的特征向量，其中所述特征向量中包含所述候选区域的位置参数和多个类别参数；

针对每个候选区域对应的特征向量，识别所述特征向量中类别参数的最大值，当所述最大值大于设定阈值时，确定所述候选区域包含的物体的类别为所述最大值的类别参数对应的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。

进一步地，所述位置参数包括物体所在矩形框的设定点的位置信息及所述矩形框的外形尺寸参数，所述根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息包括：

根据所述位置参数中的设定点的位置信息，确定物体所在矩形框的设定点在所述图像中的位置信息；

根据所述位置信息及所述矩形框的外形尺寸参数，确定所述矩形框所在的区域，将所述矩形框所在的区域，确定为所述候选区域包含的物体的位置信息。

进一步地，所述矩形框的设定点为所述矩形框的四个顶点中的任意一个，或所述矩形框的中心点。

进一步地，所述第一卷积神经网络包括多对卷积层和下采样层，且包括最后一层卷积层，所述第一卷积神经网络采用与所述最后一层卷积层串联的两个并联的全连接卷积层在所述图像中识别每个包含物体的候选区域。

进一步地，所述第一卷积神经网络的训练过程包括：

针对样本图像集中的每个样本图像，采用矩形框标注目标物体；

根据标注后每个目标物体所在的矩形框，确定每个目标物体对应的特征向量，其中，所述特征向量中包含所述矩形框中所述目标物体的类别参数、所述矩形框的设定点的位置信息和所述矩形框的外形尺寸参数；

根据样本图像中确定了每个目标物体对应的特征向量，对第一卷积神经网络进行训练。

进一步地，所述根据样本图像中确定了每个目标物体对应的特征向量，对第一卷积神经网络进行训练包括：

在所述样本图像集中选取子样本图像，其中选取的所述子样本图像的数量小于所述样本图像集中样本图像的数量；

采用选取的每个所述子样本图像，对第一卷积神经网络进行训练。

进一步地，当确定所述候选区域包含的物体的类别为人，并确定所述候选区域包含的人位于车辆中的车窗区域时，所述方法还包括：

采用预先训练完成的第二卷积神经网络，识别位于所述车窗区域的人是否佩戴安全带。

进一步地，所述第二卷积神经网络的训练过程包括：

在样本图像集的驾驶员候选区域中，采用相应的检测模型，检测驾驶员所在的位置；

根据每个样本图像集检测到的驾驶员的图像及该驾驶员是否佩戴安全带的信息，对卷积神经网络进行训练。

本发明实施例公开了一种图像中的物体检测装置，所述装置包括：

确定模块，用于将待目标检测的图像输入到预先训练完成的卷积神经网络中，其中所述卷积神经网络在所述图像中识别每个包含物体的候选区域，对每个候选区域进行自适应下采样后进行全连接计算，确定每个候选区域对应的特征向量，其中所述特征向量中包含所述候选区域的位置参数和多个类别参数；

检测模块，用于针对每个候选区域对应的特征向量，识别所述特征向量中类别参数的最大值，当所述最大值大于设定阈值时，确定所述候选区域包含的物体的类别为所述最大值的类别参数对应的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。

进一步地，所述检测模块，具体用于根据所述位置参数中的设定点的位置信息，确定物体所在矩形框的设定点在所述图像中的位置信息；根据所述位置信息及所述矩形框的外形尺寸参数，确定所述矩形框所在的区域，将所述矩形框所在的区域，确定为所述候选区域包含的物体的位置信息。

进一步地，所述确定模块中所述卷积神经网络包括多对卷积层和下采样层，且包括最后一层卷积层，所述卷积神经网络采用与所述最后一层卷积层串联的两个并联的全连接层在所述图像中识别每个包含物体的候选区域。

进一步地，所述装置还包括：

第一训练模块，用于针对样本图像集中的每个样本图像，采用矩形框标注目标物体；根据标注后每个目标物体所在的矩形区域，确定每个目标物体对应的特征向量，其中，所述特征向量中包含所述矩形框中所述目标物体的类别参数、所述矩形框的设定点的位置信息和所述矩形框的外形尺寸参数；根据样本图像中确定了每个目标物体对应的特征向量，对卷积神经网络进行训练。

进一步地，所述第一训练模块，具体用于在所述样本图像集中选取子样本图像，其中选取的所述子样本图像的数量小于所述样本图像集中样本图像的数量；采用选取的每个所述子样本图像，对卷积神经网络进行训练。

进一步地，所述装置还包括：

识别模块，用于当确定所述候选区域包含的物体的类别为人，并确定所述候选区域包含的人位于车辆中的车窗区域时，采用预先训练完成的第二卷积神经网络，识别位于所述车窗区域的人是否佩戴安全带。

进一步地，所述装置还包括：

第二训练模块，用于在样本图像集的驾驶员候选区域中，采用相应的检测模型，检测驾驶员所在的位置；根据每个样本图像集检测到的驾驶员的图像及该驾驶员是否佩戴安全带的信息，对卷积神经网络进行训练。

本发明实施例提供了一种图像中的物体检测方法及装置，该方法中将待检测的图像输入到预先训练完成的卷积神经网路中，该卷积神经网络在图像中识别每个包含物体的候选区域，对每个候选区域进行自适应下采样后进行全连接计算，确定每个候选区域对应的特征向量，其中所述特征向量中包含所述候选区域的位置参数和多个类别参数，针对每个候选区域对应的特征向量，识别所述特征向量中类别参数的最大值，当所述最大值大于设定阈值时，确定所述候选区域包含的物体的类别为所述最大值的类别参数对应的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。由于本发明实施例采用卷积神经网络一次性识别物体的位置和类别信息，便于对该检测过程进行整体优化，并且在进行检测时确定了候选区域，计算每个候选区域对应的特征向量，从而识别每个物体的类别和位置，无需进行重复操作，提高了检测的实时性及检测的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为采用R-CNN进行物体检测的流程示意图；

图2为采用Faster RCNN进行物体检测的过程示意图；

图3为本发明实施例提供的一种图像中的物体检测过程示意图；

图4A为现有的卷积神经网络的结构示意图；

图4B为本发明实施例提供的该卷积神经网络的结构示意图；

图4C为本发明实施例提供的该候选区域选取模块的结构示意图；

图5为本发明实施例提供的该卷积神经网络的训练过程；

图6为本发明实施例提供的目标物体的标注结果示意图；

图7A为本发明实施例提供的另一卷积神经网络的结构示意图；

图7B为本发明实施例提供的一种图像中的物体检测装置结构示意图。

具体实施方式

为了有效提高物体检测的效率，提高物体检测的实时性，便于物体检测整体优化，本发明实施例提供了一种图像中的物体检测方法及装置。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图3为本发明实施例提供的一种图像中的物体检测过程示意图，该过程包括以下步骤：

S301：将待检测的图像输入到预先训练完成的卷积神经网络中，其中所述卷积神经网络在所述图像中识别每个包含物体的候选区域，对每个候选区域进行自适应下采样后进行全连接计算，确定每个候选区域对应的特征向量，其中所述特征向量中包含所述候选区域的位置参数和多个类别参数。

本发明实施例应用于电子设备，具体的该电子设备可以是台式机、笔记本、其他具有处理能力的智能设备等。另外，本发明实施例中的图像中的物体检测可以是检测交通场景的图像中的物体，也可以检测视频监控的其他场景中的物体，例如公园、公寓、超市等等。

在对待检测的图像进行检测时，直接将该图像输入到预先训练完成的卷积神经网络中。本发明实施例提供的卷积神经网络如图4B所示，该卷积神经网络包括：多对卷积层和下采样层及最后一个卷积层，最后一个卷积层串联有两个并联的全连接层，并与自适应下采样层及全连接层连接。其中两个并联的全连接层可以在卷积层得到的特征图中进行候选区域的识别，自适应下采样层针对识别的每个候选区域，进行自适应下采样，全连接层针对自适应下采样的结果确定每个候选区域对应的特征向量。

该特征向量中包含该候选区域的位置参数和多个类别参数，其中该位置参数包括物体所在矩形框的设定点的位置信息及所述矩形框的外形尺寸参数。所述矩形框的设定点为所述矩形框的四个顶点中的任意一个，或所述矩形框的中心点，该矩形框的外形尺寸参数包括该矩形框的高度和宽度。例如该特征向量可以表示为(x，y，w，h，cls1,cls2,cls3,…,clsn)，其中，x、y、w和h为位置参数，其中x和y为该矩形框的设定点的位置信息，w和h为矩形框的外形尺寸参数，具体的，w为矩形框的宽度，h为矩形框的高度，cls1,cls2,cls3,…,clsn为每个类别参数。

S302：针对每个候选区域对应的特征向量，识别所述特征向量中类别参数的最大值，当所述最大值大于设定阈值时，确定所述候选区域包含的物体的类别为所述最大值的类别参数对应的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。

检测到的该特征向量中包含每个类别参数对应的值，为采用该卷积神经网络确定的该候选区域包含的物体是每种类别的概率，具体的该概率是根据该物体与每种类别的匹配度确定的，因此，在本发明实施例中针对每个特征向量，识别该特征向量中类别参数的最大值，即该候选区域包含的物体最有可能的类别，当该最大值大于设定阈值时，确定候选区域包含的物体的类别为所述最大值的类别参数对应的类别。例如上述特征向量中(x，y，w，h，cls1,cls2,cls3,…,clsn)，cls3的值为0.7，为所有类别参数对应的值中的最大值，设定阈值为0.4，则可以确定cls3对应的类别为该候选区域中包含的物体的类别，cls3的类别为自行车，则可知该候选区域中包含的物体为自行车。

由于本发明实施例采用卷积神经网络一次性识别物体的位置和类别信息，无需与其他方式进行结合，因此便于对该检测过程进行整体优化，并且在进行检测时确定了候选区域，计算每个候选区域对应的特征向量，从而识别每个物体的类别和位置，无需进行重复操作，提高了检测的实时性及检测的效率。

本发明实施例中通过训练完成的卷积神经网络，对待检测的图像进行检测。图4A为现有的卷积神经网络的结构示意图，现有的卷积神经网络包括若干对卷基层和下采样层，最后一对中的下采样层与全连接层连接，从而得到检测结果。由于现有技术中全连接层的尺寸是一定的，因此其决定了卷积神经网络中输入的图像的尺寸也是固定的。当输入的图像尺寸不同时，将无法实现目标的检测。

本发明实施例为了对不同尺寸的图像进行检测，提供一种新的卷积神经网络，图4B为本发明实施例提供的该卷积神经网络的结构示意图，该卷积神经网络包括：多对卷积层和下采样层及最后一个卷积层，最后一个卷积层与候选区域选取模块相连接，该候选区域选取模块与自适应下采样层相连接，通过与自适应下采样层连接的全连接层输出检测结果。

具体的，候选区域选取模块会选取出多个可能包含物体的候选区域，该候选区域的大小可能是不同的，但全连接层需要输入大小固定的图像，因此在本发明实施例中该卷积神经网络在候选区域选取模块及全连接层之间还包括自适应下采样层，该自适应下采样层在最后一层卷积层确定的卷积特征图中，对每个候选区域进行自适应下采样，将每个候选区域转化为固定大小，输入到全连接层确定每个候选区域对应的特征向量，从而实现对物体的检测。

在本发明实施例中该卷积神经网络在图像中进行了候选区域的选取，在选取的候选区域中检测物体。该候选区域选取模块也是一个卷积神经网络，图4C为本发明实施例提供的该候选区域选取模块的结构示意图，该候选区域选取模块包括两个并联的全连接卷积层，该两个并联的全连接卷积层与最后一层卷积层连接，并与自适应下采样层连接。

其中两个并联的全连接卷积层是在最后一层卷积层得到的卷积特征图中进行候选区域的选择，具体的通过两个并联的全连接卷积层，分别基于确定的卷积特征图，确定类别特征图和区域特征图，通过该类别特征图可以确定每个区域存在物体的概率，例如可以是通过该类别特征图确定每个区域存在物体的概率分别为0或1，其中0表示该区域不存在物体，1表示该区域存在物体，当然也可以采用其他方式记录每个区域是否存在物体的概率，例如，设定一个概率阈值，大于概率阈值的说明存在物体，小于概率阈值的说明不存在物体。通过区域特征图可以确定每个区域的位置信息。根据类别特征图确定的每个区域是否存在物体，识别每个候选区域，具体的为识别存在物体的区域，将识别出的每个区域作为候选区域，并根据区域特征图中确定每个候选区域的位置参数。

图5为本发明实施例提供的该卷积神经网络的训练过程，该过程包括以下步骤：

S501：针对样本图像集中的每个样本图像，采用矩形框标注目标物体。

本发明实施例中采用大量的样本图像对卷积神经网络进行训练，则大量的样本图像构成样本图像集。采用矩形框在每个样本图像中标注目标物体。

具体的，如图6所示的目标物体的标注结果示意图，图6中的样本图像中存在3个目标物体分别为狗、自行车和小轿车。在对每个目标物体进行标注时，分别在样本图像中识别每个目标物体在上、下、左、右(相对图6所示的上、下、左、右方向)四个方向的顶点，如果该顶点为上、下顶点，则将分别经过上、下顶点平行于样本图像上下底边的两条线作为矩形框的两条边，如果该顶点为左、右顶点，则将分别经过左、右顶点平行于样本图像左右侧边的两条线作为矩形框的另外两条边。如图6中用虚线标注的狗、自行车和小轿车的矩形框。

S502：根据标注后每个目标物体所在的矩形框，确定每个目标物体对应的特征向量，其中，所述特征向量中包含矩形框中所述目标物体的类别参数、矩形框的设定点的位置信息和所述矩形框的外形尺寸参数。

样本图像中每个目标物体对应一个特征向量，该特征向量为一个多维向量，该特征向量至少包括：类别参数和位置参数，其中类别参数为目标物体归属的类别对应的类别参数，该位置参数又包括：物体所在矩形框的设定点的位置信息和矩形框的外形尺寸参数。在训练过程中，每个目标物体的对应的特征向量中的位置信息的确定方式，与检测过程中采用的位置信息的确定方式相同即可，例如在训练时，将矩形框左上角的顶点作为设定点，确定其位置信息，则在检测时确定的位置信息也为矩形框左上角的顶点，即训练和检测时采用相同的位置信息确定方式即可。

S503：根据样本图像中确定了每个目标物体对应的特征向量，对卷积神经网络进行训练。

具体的，在本发明实施例中，可以采用样本图像集中的所有样本图像对卷积神经网络进行训练。但因为样本图像集中包含大量的样本图像，为了提高训练的效率，在本发明实施例中根据样本图像中确定了每个目标物体对应的特征向量，对卷积神经网络进行训练包括：

采用选取的每个所述子样本图像，对卷积神经网络进行训练。

通过随机选取远小于样本图像总数量的子样本图像，对卷积神经网络进行训练，不断更新卷积神经网络的参数，直到预测的物体的信息与标注的信息之间的误差收敛为止。

上述在样本图像中进行标注的过程，可以确定样本图像中每个目标物体对应的特征向量，在本发明实施例中每个目标物体对应的特征向量可以表示为(x，y，w，h，cls1,cls2,cls3,…,clsn)，其中，x、y、w和h为位置参数，其中x和y为该目标物体所在矩形框的设定点的位置信息，该设定点可以为该矩形框四个顶点中的任意一个，例如左上角的顶点，或者其中心点等，w和h为该矩形框的外形尺寸参数。

因为该卷积神经网络可以对多种类型的目标物体进行检测，因此在本发明实施例中目标物体的类别参数有多个，在本发明实施例中采用类别参数cls来表示，cls1、cls2、……、clsn分别表示不同类别的目标物体，n为目标物体的类别的种类。例如n可以为20，即共有20种类别的目标物体，cls1表示的目标物体类别为小轿车，cls2表示的目标物体类别为狗、cls3表示的目标物体类别为自行车。在进行标注时，根据标注的该目标物体的类别，将该类别对应的类别参数设置为1，其他的类别参数设置为0。还以图6为例进行说明，从下往上(图6中所示的上下)每个目标物体对应的特征向量中，第一个目标物体对应的特征向量中的类别参数中cls2为1，其他类别参数为0，第二个目标物体对应的特征向量中的类别参数中cls3为1，其他类别参数为0，第三个目标物体对应的特征向量中的类别参数中cls1为1，其他类别参数为0。

该特征向量中包含的位置信息x和y为该矩形框中设定点的位置信息，其数值为矩形框的设定点的横纵坐标值，其中该设定点例如可以为该矩形框的左上角的顶点，或者为该矩形框的中心点等。其中该样本图像中每个点的坐标，根据该样本图像中固定的参考点来确定，该固定的参考点可以为样本图像的左上角的顶点，或者右上角的顶点等，即将样本图像中固定的参考点作为该样本图像的坐标原点，根据样本图像中每个矩形框的设定点相对于坐标原点的偏移，确定每个矩形框的设定点的x和y的值。其中，根据相对位置的偏移，确定x和y值的过程属于现有技术，在本发明实施例中对该过程不进行赘述。位置参数中w和h为矩形框的外形尺寸参数，其数值为目标物体所在矩形框的宽度和高度的值。

采用上述方式对大量的样本图像进行标注后，采用标注后的样本图像对卷积神经网络进行训练。具体的，在本发明实施例中采用的多个子样本图像，对卷积神经网络进行的训练。在本发明实施例中该卷积神经网络包括多对卷积层和下采样层及最后一层卷积层，在训练过程中，对样本图像进行多次卷积和下采样操作，在每次卷积后得到该样本图像的卷积特征图，下采样层对该卷积特征图进行下采样操作，达到降低样本图像分辨率的目的，从而减小计算量，提高检测的效率。

在最后一层卷积层得到样本图像的卷积特征图。该卷积神经网络中与最后一层卷积层连接的为候选区域选取模块，该候选区域选取模块包括两个并联的全连接卷积层，该卷积特征图通过该两个并联的全连接卷积层后，分别得到类别特征图和区域特征图，根据类别特征图和区域特征图可以计算多个区域的位置参数，以及每个区域是否存在物体的概率，根据设置的概率阈值，将概率大于概率阈值的区域作为候选区域，并根据区域特征图中确定每个候选区域的位置参数。

因为本发明实施例中采用矩形框对目标物体进行了标注，虽然在进行卷积神经网络中对样本图像进行了下采样，但最终确定的区域特征图中的每个候选区域还是一个矩形框。因此根据该区域特征图中每个候选区域大小，及该卷积神经网络中进行的下采样操作，可以确定该区域特征图中预测的每个候选区域对应的位置参数x、y、w和h，其中预测的每个候选区域对应的位置参数，即将该候选区域还原后在样本图像中对应的位置参数。

根据该候选区域选择模块得到的类别特征图，预测的是每个区域是否存在物体的概率，在本发明实施例中当预测该区域存在物体时，其对应的概率为1，否则，其对应的概率为0，当然在预测候区域存在物体时，其对应的概率也可以是大于0的其他值。

在本发明实施例中该卷积神经网络中与该候选区域选取模块连接的为目标检测模块，该目标检测模块包括相互连接的自适应下采样层和全连接层。候选区域选取模块预测的每个候选区域的大小是不确定的，而全连接层需要一个固定尺寸的输入，因此在全连接层之前还包括一个自适应下采样层。

针对候选区域选择模块确定的类别特征图，识别存在物体的每个候选区域。针对存在物体的每个候选区域，该自适应下采样层将大小不确定的每个存在物体的候选区域进行转换，将其转换为固定尺寸。

通过卷积神经网络中全连接层的计算，预测每个样本图像中每个候选区域对应的特征向量(x，y，w，h，cls1，……，cls20)，其中该特征向量中的位置参数x，y，w，h，即为上述候选区域预测确定的在该特征图中该候选区域的位置参数，该特征向量中的每个类别参数，为预测的该候选区域包含的物体为每种类别的概率，该概率为0和1之间的数值。

在训练过程中针对每个子样本图像，通过计算预测信息与标注信息的误差，调整卷积神经网络的网络参数，通过每次随机选取远小于样本图像总数量(batch)的子样本图像，对卷积神经网络进行训练，并更新其网络参数，直到每个网格的预测信息与标注信息之间的误差收敛。根据子样本图像对卷积神经网络进行训练，调整卷积神经网络的网络参数，直至卷积神经网络训练完成的过程属于现有技术，在本发明实施例中对该过程不进行赘述。

另外，在本发明实施例中该卷积神经网络也可以对车辆中位于车窗区域的人进行识别，位于车窗区域的人可以是位于驾驶位的驾驶员，也可以是位于副驾驶位的人。在进行样本图像的选择时，可以选择大量的正样本图像和负样本图像，其中正样本图像是指包含有车窗区域的图像，负样本图像为不包含车窗区域的图像。具体的在对样本图像进行标注时，与上述方法相同，采用矩形框对位于车窗区域的人进行标注，根据人所在的区域，确定人所在的矩形框与上述实施方式相同，在本发明实施例中不再赘述。可以确定人对应的类别为cls1，将车窗区域其他物体对应的类别确定为cls2，当然也可以将位于驾驶位的人用类别cls1标注，位于副驾驶位的人用类别cls2标注，将车窗区域其他物体用类别cls3标注。

根据标注后的车窗区域中每个物体对应的特征向量(x，y，w，h，cls1,…,clsn)，对卷积神经网络进行训练的过程也与上述实施方式相同，在此不再进行赘述。因此通过该训练完成的卷积神经网络，可以对位于车窗区域的人进行检测。

当根据确定的候选区域包含的物体的类别的位置信息，确定物体为车辆中位于车窗区域的人时，采用预先训练完成的另一卷积神经网络，可以识别位于车窗区域的人是否佩戴安全带。

其中该另一卷积神经网络的训练过程包括：

本发明实施例中样本图像集中包括大量的样本图像，在每个样本图像中包含车窗区域，在样本图像的车窗区域中选择车窗右侧2/3的区域，作为驾驶员候选区域。在驾驶员候选区域中检测驾驶员所在的位置，可以采用相应的检测模型，其中该检测模型包括人脸检测模型和头肩检测模型，较佳地，可以选择检测效果较好的头肩检测模型。通过头肩检测模型可以检测出驾驶员候选区域中驾驶员的头和肩膀所在的区域，获取该区域对应的图像，将该区域对应的图像作为驾驶员的图像。

根据每个驾驶员的图像，确定每个驾驶员是否佩戴安全带，根据驾驶员的图像及该驾驶员是否佩戴安全带的信息，对卷积神经网络进行训练。

在对卷积神经网络进行训练之前，还包括对每个驾驶员的图像进行归一化处理，归一化后的驾驶员的图像大小相同。

具体的，在本发明实施例中在对卷积神经网络进行训练时，该卷积神经网络包括卷积层、1/2降采样层、直连层和回归层。其中卷积层可以对输入的图像采用若干个卷积核进行卷积操作；1/2降采样层对输入的图像进行降采样，每横向和纵向两个像素点合并为一个像素点，达到减低图像分辨率的目的；直连层为普通的神经网络连接，直连层的每一个节点均与上一层的输出节点相连接；回归层对输入的特征进行回归，输出判别结果。

该卷积神经网络的具体结构如图7A所示，在本发明实施例中在对驾驶员的图像进行归一化后，驾驶员的图像大小为64*64，卷积层的卷积核的大小为3*3，m、n、p的值分别取48、96和128，直连层的节点数为400个。

参见图7A所示，归一化后的驾驶员的图像输入到卷积神经网络，先经过3个3*3的卷积层，再经过一个1/2降采样层，1/2降采样层的输出结果作为2个3*3的卷积层的出入，再经过一个1/2降采样层，1/2降采样层的输出结果作为2个3*3的卷积层的出入，再经过一个1/2降采样层，1/2降采样层与直连层连接，通过softmax回归层得到判别结果。

卷积神经网络训练完成后，即可在检测到的车窗区域中，对驾驶员是否佩戴安全带进行检测。卷积神经网络具有强大的特征学习能力，能够克服由人工置顶特征所带来的描述不够准确的问题，另外，在本发明实施例中采用12层的网络，较小的卷积核，可以在保证准确率的基础上，减低计算量。

由于本发明实施例采用卷积神经网络一次性识别物体的位置和类别信息，便于对该检测过程进行整体优化，并且在进行检测时确定了候选区域，计算每个候选区域对应的特征向量，从而识别每个物体的类别和位置，无需进行重复操作，提高了检测的实时性及检测的效率。

图7B为本发明实施例提供的一种图像中的物体检测装置的结构示意图，该装置包括：

确定模块71，用于将待目标检测的图像输入到预先训练完成的第一卷积神经网络中，其中所述第一卷积神经网络在所述图像中识别每个包含物体的候选区域，对每个候选区域进行自适应下采样后进行全连接计算，确定每个候选区域对应的特征向量，其中所述特征向量中包含所述候选区域的位置参数和多个类别参数；

检测模块72，用于针对每个候选区域对应的特征向量，识别所述特征向量中类别参数的最大值，当所述最大值大于设定阈值时，确定所述候选区域包含的物体的类别为所述最大值的类别参数对应的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。

所述检测模块72，具体用于根据所述位置参数中的设定点的位置信息，确定物体所在矩形框的设定点在所述图像中的位置信息；根据所述位置信息及所述矩形框的外形尺寸参数，确定所述矩形框所在的区域，将所述矩形框所在的区域，确定为所述候选区域包含的物体的位置信息。

所述确定模块71中所述第一卷积神经网络包括多对卷积层和下采样层，且包括最后一层卷积层，所述第一卷积神经网络采用与所述最后一层卷积层串联的两个并联的全连接卷积层在所述图像中识别每个包含物体的候选区域。

所述装置还包括：

第一训练模块73，用于针对样本图像集中的每个样本图像，采用矩形框标注目标物体；根据标注后每个目标物体所在的矩形区域，确定每个目标物体对应的特征向量，其中，所述特征向量中包含所述矩形框中所述目标物体的类别参数、所述矩形框的设定点的位置信息和所述矩形框的外形尺寸参数；根据样本图像中确定了每个目标物体对应的特征向量，对第一卷积神经网络进行训练。

所述第一训练模块73，具体用于在所述样本图像集中选取子样本图像，其中选取的所述子样本图像的数量小于所述样本图像集中样本图像的数量；采用选取的每个所述子样本图像，对卷积神经网络进行训练。

所述装置还包括：

识别模块74，用于当确定所述候选区域包含的物体的类别为人，并确定所述候选区域包含的人位于车辆中的车窗区域时，采用预先训练完成的第二卷积神经网络，识别位于所述车窗区域的人是否佩戴安全带。

所述装置还包括：

第二训练模块75，用于在样本图像集的驾驶员候选区域中，采用相应的检测模型，检测驾驶员所在的位置；根据每个样本图像集检测到的驾驶员的图像及该驾驶员是否佩戴安全带的信息，对卷积神经网络进行训练。

本发明实施例提供了一种图像中的物体检测方法及装置，该方法中将待目标检测的图像输入到预先训练完成的卷积神经网路中，该卷积神经网络在图像中识别每个包含物体的候选区域，对每个候选区域进行自适应下采样后进行全连接计算，确定每个候选区域对应的特征向量，其中所述特征向量中包含所述候选区域的位置参数和多个类别参数，针对每个候选区域对应的特征向量，识别所述特征向量中类别参数的最大值，当所述最大值大于设定阈值时，确定所述候选区域包含的物体的类别为所述最大值的类别参数对应的类别，并根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息。由于本发明实施例采用卷积神经网络一次性识别物体的位置和类别信息，便于对该检测过程进行整体优化，并且在进行检测时确定了候选区域，计算每个候选区域对应的特征向量，从而识别每个物体的类别和位置，无需进行重复操作，提高了检测的实时性及检测的效率。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像中的物体检测方法，其特征在于，应用于电子设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述位置参数包括物体所在矩形框的设定点的位置信息及所述矩形框的外形尺寸参数，所述根据所述特征向量中的位置参数，确定所述候选区域包含的物体的位置信息包括：

3.根据权利要求2所述的方法，其特征在于，所述矩形框的设定点为所述矩形框的四个顶点中的任意一个，或所述矩形框的中心点。

4.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络包括多对卷积层和下采样层，且包括最后一层卷积层，所述第一卷积神经网络采用与所述最后一层卷积层串联的两个并联的全连接卷积层在所述图像中识别每个包含物体的候选区域。

5.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述根据样本图像中确定了每个目标物体对应的特征向量，对第一卷积神经网络进行训练包括：

7.根据权利要求1所述的方法，其特征在于，当确定所述候选区域包含的物体的类别为人，并确定所述候选区域包含的人位于车辆中的车窗区域时，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述第二卷积神经网络的训练过程包括：

9.一种图像中的物体检测装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述检测模块，具体用于根据所述位置参数中的设定点的位置信息，确定物体所在矩形框的设定点在所述图像中的位置信息；根据所述位置信息及所述矩形框的外形尺寸参数，确定所述矩形框所在的区域，将所述矩形框所在的区域，确定为所述候选区域包含的物体的位置信息。

11.根据权利要求10所述的装置，其特征在于，所述确定模块中所述卷积神经网络包括多对卷积层和下采样层，且包括最后一层卷积层，所述卷积神经网络采用与所述最后一层卷积层串联的两个并联的全连接层在所述图像中识别每个包含物体的候选区域。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述第一训练模块，具体用于在所述样本图像集中选取子样本图像，其中选取的所述子样本图像的数量小于所述样本图像集中样本图像的数量；采用选取的每个所述子样本图像，对卷积神经网络进行训练。

14.根据要求9所述的装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：