CN106446784A

CN106446784A - 一种图像检测方法及装置

Info

Publication number: CN106446784A
Application number: CN201610765498.XA
Authority: CN
Inventors: 邹达; 邹博; 李安邦; 李锋
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-02-22

Abstract

本发明公开了一种图像检测方法及装置，包括：利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像，其中，所述第一窗口图像包含或不包含所述目标图像的图像内容；利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，其中，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像；根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。本发明在对被检测图像中的目标图像进行检测时，能够提高目标图像的检测速度。

Description

一种图像检测方法及装置

技术领域

本发明涉及图像检测技术领域，尤其涉及一种图像检测方法及装置。

背景技术

随着深度学习算法的不断发展，深度学习算法在图像处理领域的应用越来越多。

比如，在智能交通领域，对监控视频中的车辆进行检测是非常重要的一个环节，检测结果的准确性将直接影响后续算法的效果，而CNN(Convolutional Neural Network，卷积神经网络)是一种应用在图像处理领域的深度学习算法，当采用CNN算法检测视频图像中的车辆时，虽然检测结果的准确性比较高，但是检测速度却比较慢。

发明内容

有鉴于此，本发明实施例的主要目的在于提供一种图像检测方法及装置，在对被检测图像中的目标图像进行检测时，能够提高目标图像的检测速度。

本发明实施例提供了一种图像检测方法，包括：

利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像，其中，所述第一窗口图像包含或不包含所述目标图像的图像内容；

利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，其中，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像；

根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。

可选的，所述根据所述所有第二窗口图像，确定所述被检测图像中的目标图像，包括：

利用训练得到的BBOX回归器，对所述第二窗口图像对应的窗口数据进行BBOX回归得到第三窗口图像，其中，所述窗口数据包括所述第二窗口图像的图像特征和所述第二窗口图像在所述被检测图像中的位置信息，所述第三窗口图像包含所述目标图像的全部或大部分图像内容；

根据所有所述第三窗口图像得到一个第四窗口图像，其中，所述第四窗口图像包含所述目标图像的全部或大部分图像内容。

可选的，所述根据所有所述第三窗口图像得到一个第四窗口图像，包括：

对所有所述第三窗口图像对应的窗口进行非极大值抑制NMS过滤，得到一个第四窗口图像。

可选的，所述被检测图像是视频图像的前景图像。

可选的，当所述被检测图像中包含两个以上的目标图像时，所述方法采用图像处理器并行检测所述被检测图像中的每个目标图像。

本发明实施例还提供了一种图像检测装置，包括：

图像定位单元，用于利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像，其中，所述第一窗口图像包含或不包含所述目标图像的图像内容；

图像识别单元，用于利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，其中，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像；

图像检测单元，用于根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。

可选的，所述图像检测单元，包括：

位置调优子单元，用于利用训练得到的BBOX回归器，对所述第二窗口图像对应的窗口数据进行BBOX回归得到第三窗口图像，其中，所述窗口数据包括所述第二窗口图像的图像特征和所述第二窗口图像在所述被检测图像中的位置信息，所述第三窗口图像包含所述目标图像的全部或大部分图像内容；

图像检测子单元，用于根据所有所述第三窗口图像得到一个第四窗口图像，其中，所述第四窗口图像包含所述目标图像的全部或大部分图像内容。

可选的，所述图像检测子单元，具体用于对所有所述第三窗口图像对应的窗口进行非极大值抑制NMS过滤，得到一个第四窗口图像。

可选的，所述被检测图像是视频图像的前景图像。

可选的，当所述被检测图像中包含两个以上的目标图像时，所述装置采用图像处理器并行检测所述被检测图像中的每个目标图像。

本发明实施例提供的图像检测方法及装置，利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像；利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像；根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。本实施例利用adaboost分类器在被检测图像中进行目标图像的粗定位，然后在此基础上，利用深度学习模型对粗定位到的图像进行目标图像的准确识别，由于adaboost分类器的定位速度较快且深度学习模型对图像的识别准确性较高，所以采用上述方式可以快速且准确的检测出被检测图像中的目标图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像检测方法的流程示意图；

图2为本发明实施例提供的被检测图像示意图之一；

图3为本发明实施例提供的被检测图像示意图之二；

图4为本发明实施例提供的被检测图像示意图之三；

图5为本发明实施例提供的被检测图像示意图之四；

图6为本发明实施例提供的被检测图像示意图之五；

图7为本发明实施例提供的图像并行处理示意图；

图8为本发明实施例提供的图像检测装置的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，当采用深度学习模型(比如CNN)检测被检测图像中的目标图像时，虽然检测目标图像的准确性比较高，即能够比较准确的定位被检测图像中的目标图像，但是检测速度比较慢。与上述深度学习模型相比，当采用adaboost分类器检测被检测图像中的目标图像时，其检测速度较快，但检测目标图像的准确性较低。因此，本发明实施例提供了一种图像检测方法，利用adaboost分类器的检测速度以及深度学习模型的检测准确性，可以较快且较准确的检测到被检测图像中的目标图像，即，本实施例利用adaboost分类器在被检测图像中进行目标图像的粗定位，然后在此基础上，利用深度学习模型对粗定位到的图像进行目标图像的准确识别，从而快速且准确的检测出被检测图像中的目标图像。

其中，adaboost分类器，是一种迭代算法，其是针对同一个训练集训练不同的分类器(即弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(即强分类器)。

其中，CNN(Convolutional Neural Network，卷积神经网络)，是一种前馈神经网络，它的神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。具体训练卷积神经网络CNN时，卷积神经网络的网络结构使用的是AlexNet，并使用ImageNet2012数据集进行预训练，并在此基础上使用目标图像(比如车辆)样本对网络进行调优。

下面具体介绍本发明实施例。

参见图1，为本发明实施例提供的图像检测方法的流程示意图，该方法包括步骤101至103，下面结合图2至图8所示的被检测图像示意图来介绍本发明实施例：

步骤101：利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像，其中，所述第一窗口图像包含或不包含所述目标图像的图像内容。

在本实施例中，需要预先训练得到一个adaboost分类器，利用该adaboost分类器可以对被检测图像中的目标图像进行识别。需要说明的是，本实施例不对目标图像进行限制，所述目标图像可以是车辆或人脸等。

假设该adaboost分类器是利用大量正样本(即包含车辆的图像)和大量负样本(即不包含车辆的图像)训练而成的，其可以用于识别图像中的车辆。参见图2所示的被检测图像，图2作为被检测图像输入到该adaboost分类器中，该adaboost分类器利用一检测窗口遍历被检测图像，并应用haar+adaboost方法对检测窗口中的图像进行特征识别，以确定检测窗口中是否包含有车辆的全部或局部图像，对于检测窗口所框选的区域，如果通过adaboost分类器的识别，确定其包含了汽车中的全部或局部图像，则定位该检测窗口所框选的图像区域并定义该图像区域为所述第一窗口图像，经过adaboost分类器对车辆的定位，最终得到图3中的多个第一窗口图像，即图3中每个框中的图像即为所述第一窗口图像。

在一些实施方式中，所述被检测图像可以是任何来源的图像，具体地，所述被检测图像可以是视频图像的前景图像。在这种实施方式中，比如，道路摄像头拍摄到的车辆运行视频，由于摄像头拍摄到的道路始终是静止的，因此，道路即为视频图像的背景图像，与道路的静止状态相比，道路上的车辆通常是运动的，所以车辆即为视频图像的前景图像。由于视频图像中的背景图像是静止不变的、而视频图像中的前景图像是动态变化的，因此，可以对视频图像进行背景建模，这样，每次在对同一拍摄位置的视频图像进行车辆检测时，可以将该视频的帧图像输入到背景模型中，识别帧图像中的背景图像，以便从帧图像中提取出前景图像，并可以直接将帧图像中的前景图像作为被检测图像。基于上述将前景图像作为被检测图像的方式，在识别被检测图像中的目标图像比如车辆时，可以不必重复性的识别视频图像中的背景图像是否包含目标图像。

综上，通过背景建模节省了对被检测图像的背景图像进行识别的时间，且adaboost分类器能够快速的定位被检测图像中的目标图像，因此，本实施将adaboost分类器与背景建模进行结合，能够快速定位到被检测图片中的目标图像。

步骤102：利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，其中，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像。

由于采用adaboost分类器对被检测图像中的目标图像进行检测时，会存在误识别的情况，即上述多个第一窗口图像中，可能有的窗口图像中并不包含目标图像比如车辆中的图像内容，例如，这种误识别体现在图4所示的最左侧检测窗口，其框选的图像区域只是车辆的影子，并非真正的车辆图像。

基于上述误识别的可能性，本实施例首先采用adaboost分类器在被检测图像中对目标图像进行快速的粗定位，在此基础上，将所述第一窗口图像分别输入到深度学习模型比如CNN中，采用深度学习模型分别对所述第一窗口图像进行识别判断，判断所述第一窗口图像中是否包含目标图像的图像内容，如果是，则保留，如果否，则去除，为便于描述，本实施例将保留下的每个第一窗口图像定义为第二窗口图像。比如，图4中标记“叉”的窗口图像即为被去除的第一窗口图像。

基于上述内容，本实施例可以使用深度学习模型去除误识别的第一窗口图像，具体地，可以预先训练得到一个可以用于识别目标图像的深度学习模型，实现步骤102时，将adaboost检测结果输入到深度学习模型中，即对每个第一窗口图像分别执行下面操作：将第一窗口图像输入到训练得到的深度学习模型中，再利用深度学习模型提取第一窗口图像的图像特性(比如CNN特征)，并根据图像特性识别第一窗口图像中是否包含所述目标图像的图像内容，如果是，则保留该第一窗口图像，如果否，则去除该第一窗口图像。

步骤103：根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。

在一些实施方式中，步骤103可以包括步骤A1和A2：

步骤A1：利用训练得到的BBOX回归器，对所述第二窗口图像对应的窗口数据进行BBOX回归得到第三窗口图像，其中，所述窗口数据包括所述第二窗口图像的图像特征和所述第二窗口图像在所述被检测图像中的位置信息，所述第三窗口图像包含所述目标图像的全部或大部分图像内容。

在本实施例中，需要预先训练得到一bounding box(BBOX)回归器，BBOX是一种调优检测结果位置的回归计算方法，其训练样本来自于adaboost分类器的检测结果，以及从检测结果中提取的CNN图像特征。通过大量样本训练得到的BBOX回归器，可以针对所述目标图像的局部图像(比如车轮)相比于所述目标图像(比如整车)之间的位置关系、特征关系等，对adaboost分类器检测结果进行位置调优，即基于局部图像的特征及位置确定被检测图像中的目标图像。

在步骤A1中，具体对每个第二窗口图像进行以下操作，得到每个对应的第三窗口图像，即得到一系列接近准确的车辆位置：

利用所述第二窗口图像的CNN特征(即通过CNN从所述第二窗口图像中提取的图像特征)、以及所述第二窗口图像在所述被检测图像中的位置信息，进行BBOX回归，得到第三窗口图像。例如，参见图4所示的被检测图片，通过对每个框(除标记“叉”的框)中的第二窗口图像进行BBOX回归操作，使每个第二窗口图像对应的检测窗口进行调整，使其基本框选了整个车辆，得到图5中的一系列窗口图像即所述第三窗口图像。可见，由于是重复利用上述CNN特征，所以省去了BBOX特征提取的耗时，所以BBOX操作耗时非常少，并且BBOX回归操作能有效调优adaboost的检测结果。

此外，当深度学习模型为CNN模型时，由于CNN的检测结果只能是正方形的窗口图像，而本实施例通过BBox回归操作能够修正CNN检测结果并跳出正方形窗口的限制，BBox回归结果不但可以是正方形还可以是长方形的窗口图像，对于一些长方形的目标图像，采用BBox回归操作所定位出的结果将更加精准。

步骤A2：根据所有所述第三窗口图像得到一个第四窗口图像，其中，所述第四窗口图像包含所述目标图像的全部或大部分图像内容。

在一些实施方式中，步骤A2可以包括：对所有所述第三窗口图像对应的窗口进行非极大值抑制NMS过滤，得到一个第四窗口图像。在这种实施方式中，参见图5所示的第三窗口图像，由于得到的第三窗口图像可能是多个，而为了消除多余的窗口框，找到最佳的物体检测的位置，即找到一个最能表达目标图像的窗口框，可以通过NMS((Non-maximumsuppression，非极大值抑制)方法，对满足一定重叠条件的目标图像候选框进行过滤及融合处理，使得最终融合结果即所述第四窗口图像，能够准确定位被检测图像中的目标图像，比如基于图5得到图6所示的第四窗口图像。

可见，BBox回归结果配合NMS过滤操作，解决了上述一车多框的问题，从而得出了目标图像的准确位置；

进一步地，当所述被检测图像中包含两个以上的目标图像时，上述图像检测方法可以采用GPU(Graphics Processing Unit，图形处理器)并行检测所述被检测图像中的每个目标图像。具体地，当被检测图像中存在多个目标图像时，可以以batch(也称为批处理脚本)的方式，通过GPU(Graphics Processing Unit，图形处理器)对被检测图像并行处理，例如，参见图7所示的图像并行处理示意图，该被检测图像中包括三个目标图像即三个车辆，可以采用上述图像检测方法对这三个车辆进行并行检测。可见，采用这种并行运算方式，可以大大提高目标图像的检测速度和检测效率。

本发明实施例提供的图像检测方法，利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像；利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像；根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。本实施例利用adaboost分类器在被检测图像中进行目标图像的粗定位，然后在此基础上，利用深度学习模型对粗定位到的图像进行目标图像的准确识别，由于adaboost分类器的定位速度较快且深度学习模型对图像的识别准确性较高，所以采用上述方式可以快速且准确的检测出被检测图像中的目标图像。

参见图8，为本发明实施例提供的图像检测装置的组成示意图，该装置包括：

图像定位单元801，用于利用训练得到的adaboost分类器定位被检测图像中的目标图像，得到每个第一窗口图像，其中，所述第一窗口图像包含或不包含所述目标图像的图像内容；

图像识别单元802，用于利用训练得到的深度学习模型，分别识别每个所述第一窗口图像中是否包含所述目标图像的图像内容，得到所有第二窗口图像，其中，所述第二窗口图像为包含所述目标图像的图像内容的第一窗口图像；

图像检测单元803，用于根据所述所有第二窗口图像，确定所述被检测图像中的目标图像。

在一些实施方式中，所述图像检测单元803，包括：

在一些实施方式中，所述图像检测子单元，具体用于对所有所述第三窗口图像对应的窗口进行非极大值抑制NMS过滤，得到一个第四窗口图像。

在一些实施方式中，所述被检测图像是视频图像的前景图像。

在一些实施方式中，当所述被检测图像中包含两个以上的目标图像时，所述装置采用图像处理器并行检测所述被检测图像中的每个目标图像。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本发明各个实施例或者实施例的某些部分所述的方法。

需要说明的是，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述所有第二窗口图像，确定所述被检测图像中的目标图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所有所述第三窗口图像得到一个第四窗口图像，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述被检测图像是视频图像的前景图像。

5.根据权利要求1至3任一项所述的方法，其特征在于，当所述被检测图像中包含两个以上的目标图像时，所述方法采用图像处理器并行检测所述被检测图像中的每个目标图像。

6.一种图像检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述图像检测单元，包括：

8.根据权利要求7所述的装置，其特征在于，所述图像检测子单元，具体用于对所有所述第三窗口图像对应的窗口进行非极大值抑制NMS过滤，得到一个第四窗口图像。

9.根据权利要求6至8任一项所述的装置，其特征在于，所述被检测图像是视频图像的前景图像。

10.根据权利要求6至8任一项所述的装置，其特征在于，当所述被检测图像中包含两个以上的目标图像时，所述装置采用图像处理器并行检测所述被检测图像中的每个目标图像。