CN111753702A

CN111753702A - 目标检测方法、装置及设备

Info

Publication number: CN111753702A
Application number: CN202010561372.7A
Authority: CN
Inventors: 程战战
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-09
Also published as: CN112633255A; CN112633255B

Abstract

本发明提供一种目标检测方法、装置及设备，可确定被检测出的目标对象在图像中的图像质量。该方法包括：获取待检测的目标图像，所述目标图像包含目标对象；将所述目标图像输入至已训练的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的目标特征信息，所述目标特征信息是在所述目标对象检测网络检测目标对象的位置信息的过程中输出的；将所述目标特征信息输入至质量检测网络，以得到图像质量参数，所述图像质量参数用于表征所述目标对象在所述目标图像中的图像质量。

Description

目标检测方法、装置及设备

技术领域

本发明涉及目标检测技术领域，尤其涉及的是一种目标检测方法、装置及设备。

背景技术

目标检测往往是理解场景的第一步。在一些场景中，会拍摄到大量的目标对象在姿态、遮挡、光照、尺寸等方面各异的图像，而这些图像中，有些图像的质量比较差，目标对象在图像中并不清晰、或者并不完整，不利于正确地理解场景。比如，在失焦(即对焦未对准)情况下采集的图像中，目标对象会非常模糊。又如，在目标对象未完整进入摄像机设备视场的情况下采集的图像中，目标对象会不完整，比如只有半个人。

目前，在执行目标检测任务时不会确定图像质量，在图像质量较差时目标检测任务仍能完成，所以会产生检出的目标对象不全、目标对象极小、可辨认度低等情况，而这些情况也无法得到区分，所有的检测结果会被继续使用，进而会导致基于这些检测结果的进一步处理出现问题，比如导致监控系统误报警等，影响系统稳定性。

发明内容

有鉴于此，本发明提供一种目标检测方法、装置及设备，可确定被检测出的目标对象在图像中的图像质量。

本发明第一方面提供一种目标检测方法，包括：

获取待检测的目标图像，所述目标图像包含目标对象；

将所述目标图像输入至已训练的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的目标特征信息，所述目标特征信息是在所述目标对象检测网络检测目标对象的位置信息的过程中输出的；

将所述目标特征信息输入至质量检测网络，以得到图像质量参数，所述图像质量参数用于表征所述目标对象在所述目标图像中的图像质量。

根据本发明的一个实施例，

所述目标对象检测网络和所述质量检测网络为同一神经网络的不同子网络；

或者，

所述目标对象检测网络和所述质量检测网络为两个相互独立的神经网络。

根据本发明的一个实施例，该方法进一步包括：

将所述目标特征信息输入至位置检测网络，以得到准确度指标，所述准确度指标用于指示所述目标对象检测网络检测的所述目标对象的位置信息的准确性；

所述位置检测网络与所述目标对象检测网络和所述质量检测网络中的至少一个集成在同一神经网络；或者，

所述位置检测网络、所述目标对象检测网络和所述质量检测网络为相互独立的神经网络。

根据本发明的一个实施例，目标对象检测网络通过以下方式训练：

获取训练样本集，所述训练样本集包括多个图像样本，每一图像样本被标定有对应的第一标签信息，所述第一标签信息用于指示图像样本中对象的位置与类别；

利用所述训练样本集中的图像样本及对应的第一标签信息对初始目标对象检测网络进行训练，以得到所述目标对象检测网络。

根据本发明的一个实施例，所述训练样本集的图像样本还被标定有对应的第二标签信息；所述第二标签信息用于指示对象在图像样本中的图像质量；

所述质量检测网络通过以下方式训练：

在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测检测对象的位置信息的过程中输出的，并输出至初始质量检测网络，以由初始质量检测网络基于输入的特征信息预测图像质量标签信息并输出；

基于所述初始质量检测网络输出的图像质量标签信息与所述图像样本对应的第二标签信息优化所述初始质量检测网络，并在优化后的初始质量检测网络满足第一训练结束条件时，将优化后的初始质量检测网络确定为所述质量检测网络。

根据本发明的一个实施例，所述训练样本集的图像样本还被标定有对应的第三标签信息；所述第三标签信息用于指示所述第一标签信息所指示位置的准确性；

所述位置检测网络通过以下方式训练：

在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测检测对象的位置信息的过程中输出的，并输出至初始位置检测网络，以由初始位置检测网络基于输入的特征信息预测位置准确性标签信息并输出；

基于所述初始位置检测网络输出的位置准确性标签信息与所述图像样本对应的第三标签信息优化所述初始位置检测网络，并在优化后的初始位置检测网络满足第二训练结束条件时，将优化后的初始位置检测网络确定为所述位置检测网络。

根据本发明的一个实施例，

所述质量检测网络包括至少一个卷积层和与卷积层相连接的全连接层；所述卷积层先于所述全连接层对输入至质量检测网络的目标特征信息进行处理。

本发明第二方面提供一种目标检测装置，包括：

目标图像获取模块，用于获取待检测的目标图像，所述目标图像包含目标对象；

目标检测模块，用于将所述目标图像输入至已训练的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的目标特征信息，所述目标特征信息是在所述目标对象检测网络检测目标对象的位置信息的过程中输出的；

质量检测模块，用于将所述目标特征信息输入至质量检测网络，以得到图像质量参数，所述图像质量参数用于表征所述目标对象在所述目标图像中的图像质量。

根据本发明的一个实施例，所述目标对象检测网络和所述质量检测网络为同一神经网络的不同子网络；

或者，

根据本发明的一个实施例，该装置进一步包括：

位置准确性检测模块，用于将所述目标特征信息输入至位置检测网络，以得到准确度指标，所述准确度指标用于指示所述目标对象检测网络检测的所述目标对象的位置信息的准确性；

根据本发明的一个实施例，目标对象检测网络通过以下模块训练：

训练样本集获取模块，用于获取训练样本集，所述训练样本集包括多个图像样本，每一图像样本被标定有对应的第一标签信息，所述第一标签信息用于指示图像样本中对象的位置与类别；

目标对象检测网络训练模块，用于利用所述训练样本集中的图像样本及对应的第一标签信息对初始目标对象检测网络进行训练，以得到所述目标对象检测网络。

所述质量检测网络通过以下模块训练：

第一预测模块，用于在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始质量检测网络，以由初始质量检测网络基于输入的特征信息预测图像质量标签信息并输出；

第一优化模块，用于基于所述初始质量检测网络输出的图像质量标签信息与所述图像样本对应的第二标签信息优化所述初始质量检测网络，并在优化后的初始质量检测网络满足第一训练结束条件时，将优化后的初始质量检测网络确定为所述质量检测网络。

所述位置检测网络通过以下模块训练：

第二预测模块，用于在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始位置检测网络，以由初始位置检测网络基于输入的特征信息预测位置准确性标签信息并输出；

第二优化模块，用于基于所述初始位置检测网络输出的位置准确性标签信息与所述图像样本对应的第三标签信息优化所述初始位置检测网络，并在优化后的初始位置检测网络满足第二训练结束条件时，将优化后的初始位置检测网络确定为所述位置检测网络。

根据本发明的一个实施例，

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的目标检测方法。

本发明第四方面提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的目标检测方法。

本发明实施例具有以下有益效果：

本发明实施例中，在目标对象检测网络检测目标图像中的目标对象的位置信息的过程中，可得到目标对象检测网络中的至少一个指定处理层输出的目标特征信息，将目标特征信息输入至质量检测网络，可得到图像质量参数，用于表征目标对象在目标图像中的图像质量，图像质量参数可作为目标对象检测网络的检测结果是否继续被使用的参考，进而可避免图像质量较差的目标对象的检测结果被使用的问题，有利于防止系统误报警发生。

附图说明

图1是本发明一实施例的目标检测方法的流程示意图；

图2是本发明一实施例的目标对象检测网络与质量检测网络的关系示意图；

图3是本发明一实施例的目标对象检测网络与质量检测网络、位置检测网络的关系示意图；

图4是本发明一实施例的目标对象检测网络与质量检测网络、位置检测网络的结构框图；

图5是本发明一实施例的目标检测装置的结构框图；

图6是本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本发明范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

神经网络：一种通过模仿大脑结构抽象而成的技术，该技术将大量简单的函数进行复杂的连接，形成一个网络系统，该系统可以拟合极其复杂的函数关系，一般可以包括卷积/反卷积操作、激活操作、池化操作，以及加减乘除、通道合并、元素重新排列等操作。使用特定的数据对网络进行训练，调整其中的连接，可以让神经网络学习拟合输入和输出之间的映射关系。

在相关的目标检测方式中，虽然也会采用置信度来对检测结果进行一定的过滤，在置信度较低时过滤掉相应的检测结果，以减少系统误报警等问题，但是，置信度是基于检测结果确定的，本身不准确的可能性较大，更重要的是，置信度反映的是检测结果正确的概率，不代表目标对象在图像中的质量好坏，也无法分辨出检出的目标对象不全、目标对象极小、可辨认度低等情况。因此，上述方式仍会导致图像质量较差的目标对象的检测结果被使用的问题。

下面对本发明实施例的目标检测方法进行更具体的描述，但不应以此为限。

在一个实施例中，参看图1，一种目标检测方法，可以包括以下步骤：

S100：获取待检测的目标图像，所述目标图像包含目标对象；

S200：将所述目标图像输入至已训练的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的目标特征信息，所述目标特征信息是在所述目标对象检测网络检测目标对象的位置信息的过程中输出的；

S300：将所述目标特征信息输入至质量检测网络，以得到图像质量参数，所述图像质量参数用于表征所述目标对象在所述目标图像中的图像质量。

本发明实施例中，目标检测方法的执行主体为电子设备，更具体的是电子设备的处理器。电子设备可以是摄像机设备、或者是计算机设备，具体类型不限，只要具备一定的数据处理能力即可。

本发明实施例的目标检测方法，可以应用在各种需要进行目标检测的场景中，如门禁系统、卡口系统、电子护照系统、公安系统、交通系统、银行自助系统、信息安全系统等场景，尤其是一些后续还需要基于检测结果进行进一步处理比如识别或报警等的场景。当然，具体场景不限于此。

步骤S100中，获取待检测的目标图像，所述目标图像包含目标对象。

目标图像可以是当前采集到的图像，在监控场景中，摄像机设备采集的每一个图像都可以作为目标图像，进行目标对象的检测。当然，目标图像可以是其他途径获得的图像，比如从数据库中检索获得的图像等，具体来源不限。

目标图像包含目标对象，目标对象的类型不限，比如可以包括人、车辆、动物等，可根据实际应用场景而定。

步骤S200中，将所述目标图像输入至已训练的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的目标特征信息，所述目标特征信息是在所述目标对象检测网络检测目标对象的位置信息的过程中输出的。

目标对象检测网络可以预先训练好，并保存在电子设备本地或者外部设备中，需要时进行调用。在训练出目标对象检测网络后，可利用目标对象检测网络进行目标对象的检测。

在将目标图像输入至目标对象检测网络之后，目标对象检测网络可以对目标图像进行特征提取，基于提取出的特征信息检测出目标图像中目标对象的位置信息。位置信息可以是目标对象在目标图像中所处区域的区域位置信息，比如可以是目标对象的检测框(一般为包围目标对象的最小矩形框)的位置信息，如果目标对象在图像中的尺寸大，则位置信息对应的区域的尺寸就大。

当然，除了检测出目标对象的位置信息，目标对象检测网络还可以基于提取出的特征信息检测出目标对象的类别信息，即检测结果可以包括目标对象的位置信息和类别信息。可选的，类别信息比如包括：人、车辆、动物等，具体不做限定。

目标图像中可以包含一个或多个目标对象，在包含多个目标对象的情况下，目标对象检测网络可以检测出每一目标对象的位置信息和类别信息。

目标对象检测网络包括多个处理层，处理层的类型不限，只要是所有处理层配合可实现基于目标图像的目标对象的检测即可。

指定处理层则可以是目标对象检测网络中的任一个或多个处理层。优选来说，指定处理层可以是目标对象检测网络中用于输出位置信息及类型信息的处理层之外的处理层，比如，目标对象检测网络包括5个处理层，可以将目标对象检测网络中的第1个处理层、第2个处理层、第3个处理层、和/或、第4个处理层输出的特征信息作为目标特征信息。

指定处理层比如可以是目标对象检测网络中任一个卷积层，具体不做限定，当然也可以是其他层比如分类层、池化层等。

本实施例中，改变了通常目标对象检测网络的输出，除了输出通常的检测结果之外，还需在指定处理层输出目标特征信息，而这目标特征信息是由目标对象检测网络中至少一个指定处理层基于目标图像或目标图像经提取过的特征进行处理得到的特征信息，可表征目标对象，这是目前的目标对象检测网络或目标检测方式所不曾有的。

可选的，目标对象检测网络可以采Faster-RCNN(一种基于深度学习的目标检测技术)、YOLO(You Only Look Once，采用一个单独的CNN模型实现端到端的目标检测)、SSD(single shot multibox detector，一种直接预测目标框的坐标和类别的目标检测算法)等架构来实现，具体不限于此。

步骤S300中，将所述目标特征信息输入至质量检测网络，以得到图像质量参数，所述图像质量参数用于表征所述目标对象在所述目标图像中的图像质量。

质量检测网络同样可以预先训练好，并保存在电子设备本地或者外部设备中，需要时进行调用。

质量检测网络是与目标对象检测网络配合使用的，质量检测网络的输入为目标对象检测网络中的指定处理层输出的目标特征信息，质量检测网络的输出为目标对象在所述目标图像中的图像质量参数。

图像质量参数用于表征目标对象在所述目标图像中的图像质量。图像质量参数的值越低，说明目标对象的图像质量越低；图像质量参数的值越高，说明目标对象的图像质量越高。

可选的，图像质量参数可以在一个固定的取值范围内取值，比如在[0,1]中取值，0表示目标对象的图像质量最差，1表示目标对象的图像质量最高。

这里的图像质量可以体现在目标对象在目标图像中的清晰度、完整性、尺寸、姿态等各个方面。一般来说，目标对象在这些方面都达到相应的要求，则说明目标对象在目标图像中的图像质量较高。

经过上述步骤S100-S300，可以在检测出目标图像中目标对象的位置信息的同时，确定被检测出的目标对象在目标图像中的图像质量参数，图像质量参数可作为目标对象检测网络的检测结果是否继续被使用的参考，即可以根据图像质量参数确定检测结果是否可用，比如，在图像质量参数的值高于设定阈值时，确定被检测出的目标对象的检测结果可用。

可选的，在被检测出的一个目标对象的检测结果可用时，可以将该检测结果和目标图像进行保存，之后批量地发送给服务器；或者，可以直接将该检测结果和目标图像发送给服务器。服务器在收到检测结果和目标图像之后，可以基于检测结果和目标图像进行进一步的处理。

比如，在周界防范场景中，服务器可以在检测结果为指定对象类型(比如人)时进行报警，并同步显示目标图像、或者可以根据检测结果从目标图像中截取出目标对象所处的区域进行显示，通过上述方式，可以避免误报警的问题。

又如，在需要进一步确认目标对象的身份信息时，可以在检测结果为指定对象类型(比如车辆)时，基于检测结果从目标对象中截取出目标对象所处区域，并对该区域进行车牌识别，可以避免对图像质量较低的目标对象进行识别影响识别效率的问题。

当然，上述只是举例，服务器还可以基于检测结果和目标图像进行其他处理，具体不限于此，可根据应用场景的需求而定。

在一个实施例中，所述目标对象检测网络和所述质量检测网络为同一神经网络的不同子网络。

举例来说，参看图2，目标对象检测网络200和质量检测网络300可以连接在一起构成一整个神经网络，具体来说，可以将质量检测网络300与目标对象检测网络200的一个处理层(即指定处理层)相连接，在将目标图像输入至目标对象检测网络200之后，目标对象检测网络200通过各处理层检测出目标图像中目标对象的位置信息，在此过程中，目标对象检测网络200的一个处理层可以输出目标特征信息至质量检测网络300，质量检测网络300基于目标特征信息确定目标对象在目标图像中的图像质量参数并输出。

在另一个实施例中，所述目标对象检测网络和所述质量检测网络为两个相互独立的神经网络。

在此情况下，可以由网络之外的外部程序来实现将目标对象检测网络输出的目标特征信息输入至质量检测网络，可以起到与前述实施例相同的效果。

在一个实施例中，该方法进一步包括：

S400：将所述目标特征信息输入至位置检测网络，以得到准确度指标，所述准确度指标用于指示所述目标对象检测网络检测的所述目标对象的位置信息的准确性。

位置检测网络同样可以预先训练好，并保存在电子设备本地或者外部设备中，需要时进行调用。

位置检测网络是与目标对象检测网络配合使用的，位置检测网络的输入为目标对象检测网络中的指定处理层输出的目标特征信息，位置检测网络的输出为准确度指标。

准确度指标用于指示所述目标对象的位置信息的准确性。准确度指标的值越低，说明目标对象检测网络输出的位置信息的准确性越低；准确度指标的值越高，说明目标对象检测网络输出的位置信息的准确性越高。准确度指标的具体取值范围不限。

本实施例中，可以将目标对象检测网络在基于目标图像检测目标对象的过程中提取出的目标特征信息输出并作为位置检测网络的输入，以由位置检测网络基于目标特征信息输出准确度指标，以确定被检测出的目标对象的位置信息的准确性，与置信度不同的是，准确度指标的确定过程并不依赖于检测结果即检测出的位置信息，准确度更高，这同样是目前的目标检测方式中所不曾有的。

经过上述步骤S100-S400，可以在检测出目标图像中目标对象的位置信息的同时，确定被检测出的目标对象在目标图像中的图像质量参数、以及指示该位置信息的准确性的准确度指标，图像质量参数和准确度指标可同时作为目标对象检测网络的检测结果是否继续被使用的参考，即可以根据图像质量参数和准确度指标确定检测结果是否可用，比如，在图像质量参数的值高于设定阈值、且准确度指标达到设定准确度指标时，确定被检测出的目标对象的检测结果可用。

在一个实施例中，所述位置检测网络与所述目标对象检测网络和所述质量检测网络中的至少一个集成在同一神经网络。

举例来说，参看图3，目标对象检测网络200和质量检测网络300、位置检测网络400可以连接在一起构成一整个神经网络，具体来说，可以将质量检测网络300与目标对象检测网络200的一个处理层(即指定处理层)相连接，位置检测网络400也与目标对象检测网络200的该处理层连接。在将目标图像输入至目标对象检测网络之后，目标对象检测网络200通过各处理层检测出目标图像中目标对象的位置信息，在此过程中，目标对象检测网络200的一个处理层可以输出目标特征信息至质量检测网络300和位置检测网络400，质量检测网络300基于目标特征信息确定目标对象在目标图像中的图像质量参数并输出，位置检测网络400基于目标特征信息确定准确度指标并输出。

当然，实际也可以是：位置检测网络与所述目标对象检测网络集成在同一神经网络，而质量检测网络为独立的神经网络；或者，质量检测网络与所述目标对象检测网络集成在同一神经网络，而位置检测网络为独立的神经网络，具体不做限定。

在另一个实施例中，所述位置检测网络、所述目标对象检测网络和所述质量检测网络为相互独立的神经网络。

在此情况下，可以由网络之外的外部程序来实现将目标对象检测网络输出的目标特征信息输入至质量检测网络和位置检测网络，可以起到与前述实施例相同的效果。

在一个实施例中，目标对象检测网络通过以下方式训练：

T100：获取训练样本集，所述训练样本集包括多个图像样本，每一图像样本被标定有对应的第一标签信息，所述第一标签信息用于指示图像样本中对象的位置与类别；

T200：利用所述训练样本集中的图像样本及对应的第一标签信息对初始目标对象检测网络进行训练，以得到所述目标对象检测网络。

图像样本可以通过场景中抓拍获取，也可以从已保存有不同对象的图像的数据库中获取，具体获取方式不限。

训练样本集中的图像样本包含的对象的图像质量可以有好有差。每一图像样本中都可以包含对象，在目标对象的姿态、遮挡、尺寸、光照和/或清晰度等这些方面可以有所不同。

可选的，训练样本集中的一部分图像样本中对象的图像质量满足设定要求，另一部分图像样本中对象的图像质量不满足设定要求。

其中，对象的图像质量满足设定要求比如：对象在图像样本中的尺寸、清晰度、姿态、完整性等均满足对应的设定要求。这部分图像样本可以为对象的证件图像，比如，对象为人脸情况下，证件图像是用在身份证、签证等证件上的人脸图像，通常用固定的模式(比如在单一背景颜色下)采集；对象为车牌的情况下，证件图像是用在行驶证等证件上的车牌图像；对象为车辆的情况下，证件图像是用在行驶证等证件上的车辆图像等等。

对象的图像质量不满足设定要求比如：对象在图像样本中的尺寸、清晰度、姿态、完整性等任一项不满足对应的设定要求。这部分图像样本可以为从监控场景中抓拍得到的图像，可以为每一对象准备合适而丰富的抓拍图像，这里的“丰富”是指要照顾到对象的不同姿态、光照、尺度、完整性、清晰度等因素，覆盖足够丰富成像的图像素材，确保后续训练出的网络的稳定性。

在获得所需的图像样本之后，可以对每一图像样本进行标定，得到包含多个被标定有标签信息的图像样本的训练样本集。本实施例中，可以先只标定第一标签信息，第一标签信息用于指示图像样本中对象的位置与类别。当然，在目标对象检测网络所需的检测结果还包括其他信息，还可以标定其他标签信息。这些标签信息可以由人工标定，也可以采用其他方式标定，具体不做限定。

在对图像样本标定完成之后，可以将标定完成的图像样本组成为训练样本集，在得到训练样本集后，可以利用所述训练样本集中的图像样本及对应的第一标签信息对初始目标对象检测网络进行训练，以得到所述目标对象检测网络。

可选的，利用所述训练样本集中的图像样本及对应的第一标签信息对初始目标对象检测网络进行训练，可以包括以下步骤：

将训练样本集中的图像样本输入至初始目标对象检测网络，以使初始目标对象检测网络从输入的图像样本中提取特征信息并基于提取的特征信息预测位置标签信息和类别标签信息；

基于初始目标对象检测网络输出的对象标签信息、类别标签信息与图像样本对应的第一标签信息优化初始目标对象检测网络，并在优化后的初始目标对象检测网络满足设定的训练结束条件时，将优化后的初始目标对象检测网络确定为目标对象检测网络。

当然，目标对象检测网络的具体训练方式不限于此，只要能够利用训练样本集中的图像样本及对应的第一标签信息训练出用于检测目标对象的网络即可。

在一个实施例中，所述训练样本集的图像样本还被标定有对应的第二标签信息；所述第二标签信息用于指示对象在图像样本中的图像质量。

第二标签信息比如可以是评价对象的图像质量的分值，具体取值范围不限，比如可在[0,1]中取值。

可选的，训练样本集中各图像样本的第二标签信息可以在标定第一标签信息时同时标定，以节省标定时间。

在一个实施例中，所述质量检测网络通过以下方式训练：

T300：在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始质量检测网络，以由初始质量检测网络基于输入的特征信息预测图像质量标签信息并输出；

T400：基于所述初始质量检测网络输出的图像质量标签信息与所述图像样本对应的第二标签信息优化所述初始质量检测网络，并在优化后的初始质量检测网络满足第一训练结束条件时，将优化后的初始质量检测网络确定为所述质量检测网络。

如果目标对象检测网络和质量检测网络一起训练得到，则在训练过程中需要调整这两个网络的网络参数，这两个网络是前后关联的，因而两者的网络参数会相互影响，很难调准，容易导致训练出的网络性能不佳。

因而，本实施例中，先训练出目标对象检测网络，在得到目标对象检测网络之后，在目标对象检测网络的基础上，利用训练样本集中的图像样本及对应的第二标签信息对初始质量检测网络进行训练，得到质量检测网络。

可选的，在训练目标对象检测网络之前，可以将初始目标对象检测网络与初始质量检测网络连接在一起。比如，初始质量检测网络的输入端可以与初始目标对象检测网络的指定处理层的输出端连接。或者，可以在训练出目标对象检测网络之后，再将目标对象检测网络与初始质量检测网络连接在一起。比如，初始质量检测网络的输入端可以与目标对象检测网络的指定处理层的输出端连接。可以理解，具体不作限定。

训练过程中，初始质量检测网络的网络参数会发生变化，预测结果也可能会有所变化，训练就是通过改变网络参数，使得预测结果能够更准确，更逼近所需要的结果。

由于目标对象检测网络已经被训练完成，所以在将图像样本输入至目标对象检测网络之后，得到的指定处理层输出的特征信息已经可以很好地表征目标对象。将特征信息输入至初始质量检测网络之后，初始质量检测网络基于输入的特征信息预测图像质量标签信息，将输出的图像质量标签信息与输入的图像样本被标定的第二标签信息进行比对，根据比对结果来优化初始质量检测网络，使得初始质量检测网络可以学习到特征信息与对应的第二标签信息之间的映射关系，以减小后续预测的图像质量标签信息与第二标签信息的差异。

随着初始质量检测网络不断被优化，预测出的图像质量标签信息会逐渐逼近于输入的图像样本被标定的第二标签信息。通过训练，初始质量检测网络学习了目标对象检测网络中至少一指定处理层输出的特征信息到对应的第二标签信息的映射关系，在优化后的初始质量检测网络满足第一训练结束条件时，将优化后的初始质量检测网络确定为所述质量检测网络，否则，可以继续进行训练。

确定优化后的初始质量检测网络满足第一训练结束条件的方式可以有多种，比如包括：当前针对初始质量检测网络的训练次数达到第一设定训练次数；或者，初始质量检测网络的性能达到第一设定性能指标；或者，训练样本集中不存在未输入至目标对象检测网络的图像样本，等等。

可选的，在优化后的初始质量检测网络未满足第一训练结束条件时，继续从训练样本集中选择未输入至目标对象检测网络的图像样本，并将图像样本输入至训练出的目标对象检测网络的操作。通过不断的训练，得到所需的质量检测网络。

在一个实施例中，所述训练样本集的图像样本还被标定有对应的第三标签信息；所述第三标签信息用于指示所述第一标签信息所指示位置的准确性。

本实施例中，训练样本集中的图像样本，除了被标定有对应的第一标签信息之外，还被标定有对应的第三标签信息。第三标签信息用于指示第一标签信息所指示位置的准确性，比如可以是评价位置准确性的分值，具体取值范围不限。

可选的，训练样本集中各图像样本的第三标签信息可以在标定第一标签信息时同时标定，以节省标定时间。

在一个实施例中，所述位置检测网络通过以下方式训练：

T500：在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始位置检测网络，以由初始位置检测网络基于输入的特征信息预测位置准确性标签信息并输出；

T600：基于所述初始位置检测网络输出的位置准确性标签信息与所述图像样本对应的第三标签信息优化所述初始位置检测网络，并在优化后的初始位置检测网络满足第二训练结束条件时，将优化后的初始位置检测网络确定为所述位置检测网络。

如果目标对象检测网络和位置检测网络一起训练得到，则在训练过程中需要调整这两个网络的网络参数，这两个网络是前后关联的，因而两者的网络参数会相互影响，很难调准，容易导致训练出的网络性能不佳。

因而，本实施例中，先训练出目标对象检测网络，在得到目标对象检测网络之后，在目标对象检测网络的基础上，利用训练样本集中的图像样本及对应的第三标签信息对初始位置检测网络进行训练，得到位置检测网络。

可选的，在训练目标对象检测网络之前，可以将初始目标对象检测网络与初始位置检测网络连接在一起。比如，初始位置检测网络的输入端可以与初始目标对象检测网络的指定处理层的输出端连接。或者，可以在训练出目标对象检测网络之后，再将目标对象检测网络与初始位置检测网络连接在一起。比如，初始位置检测网络的输入端可以与目标对象检测网络的指定处理层的输出端连接。可以理解，具体不作限定。

训练过程中，初始位置检测网络的网络参数会发生变化，预测结果也可能会有所变化，训练就是通过改变网络参数，使得预测结果能够更准确，更逼近所需要的结果。

由于目标对象检测网络已经被训练完成，所以在将图像样本输入至目标对象检测网络之后，得到的指定处理层输出的特征信息已经可以很好地表征目标对象。将特征信息输入至初始位置检测网络之后，初始位置检测网络基于输入的特征信息预测位置准确性标签信息，该位置准确性标签信息用于指示预测出的第一标签信息所指示的位置的准确性，将输出的位置准确性标签信息与输入的图像样本被标定的对应第三标签信息进行比对，根据比对结果来优化初始位置准确性标签信息，使得初始位置准确性标签信息可以学习到特征信息与对应的第三标签信息之间的映射关系，以减小后续预测的位置准确性标签信息与第三标签信息的差异。

随着初始质量检测网络不断被优化，预测出的位置准确性标签信息会逐渐逼近于输入的图像样本被标定的第三标签信息。通过训练，初始位置检测网络学习了目标对象检测网络中至少一指定处理层输出的特征信息到对应的第三标签信息的映射关系，在优化后的初始位置检测网络满足第二训练结束条件时，将优化后的初始位置检测网络确定为所述位置检测网络，否则，可以继续进行训练。

确定优化后的初始位置检测网络满足第二训练结束条件的方式可以有多种，比如包括：当前针对初始位置检测网络的训练次数达到第二设定训练次数；或者，初始位置检测网络的性能达到第二设定性能指标；或者，训练样本集中不存在未输入至目标对象检测网络的图像样本，等等。

可选的，在优化后的位置检测网络未满足第二训练结束条件时，继续从训练样本集中选择未输入至目标对象检测网络的图像样本，并将图像样本输入至训练出的目标对象检测网络的操作。通过不断的训练，得到所需的位置检测网络。

在一个实施例中，可以利用目标对象检测网络同时训练初始质量检测网络和初始位置检测网络，包括：

在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始质量检测网络与初始位置检测网络，以由初始质量检测网络基于输入的特征信息预测图像质量标签信息并输出，并由初始位置检测网络基于输入的特征信息预测位置准确性标签信息并输出；

基于所述初始质量检测网络输出的图像质量标签信息与所述图像样本对应的第二标签信息优化所述初始质量检测网络，并在优化后的初始质量检测网络满足第一训练结束条件时，将优化后的初始质量检测网络确定为所述质量检测网络；

由于初始质量检测网络和初始位置检测网络的网络参数之间没有影响或者说影响很小，所以可以同时训练初始质量检测网络和初始位置检测网络，可简化训练方式，网络参数的调整也简单。

虽然初始质量检测网络和初始位置检测网络是同时被训练的，但是，不代表质量检测网络和位置检测网络必须同时完成训练，两者也可以不同时完成训练。比如，在训练过程中的某个时候，优化后的初始质量检测网络已经满足第一训练结束条件、但是优化后的初始位置检测网络未满足第二训练结束条件，则可以将优化后的初始质量检测网络确定为所述质量检测网络，并继续训练初始位置检测网络，反之亦然。

在一个实施例中，所述质量检测网络包括至少一个卷积层和与卷积层相连接的全连接层；所述卷积层先于所述全连接层对输入至质量检测网络的目标特征信息进行处理。

在一个实施例中，所述位置检测网络包括至少一个卷积层和与卷积层相连接的全连接层；所述卷积层先于所述全连接层对输入至位置检测网络的目标特征信息进行处理。

为了更便于理解，下面结合图4提供介绍目标对象检测网络与质量检测网络、位置检测网络的更具体的一个例子。

参看图4，目标对象检测网络200可以包含特征提取子网络和检测结果输出子网络。特征提取子网络用于对目标图像进行特征提取，得到特征信息比如特征图(FeatureMap)，例如，特征提取子网络可采用残差特征提取神经网络(ResNet-50，residual network50layers)来实现，具体不限于此，图4中，特征提取子网络可以由至少一个卷积层201来实现。检测结果输出子网络用于基于特征提取子网络输出的特征图确定出检测结果，以检测结果包括目标对象的类别信息和位置信息为例，继续参看图4，检测结果输出子网络可以包括：

至少一个卷积层202，用于在卷积层201输出的特征图中确定出的多个候选区域；

二分类层203，用于对卷积层202确定出的多个候选区域进行分类，以确定候选区域属于前景类别还是背景类别，将属于前景类别的候选区域确定为目标对象所在的感兴趣区域，并将感兴趣区域的位置信息进行修正后输出；

池化层204，用于依据二分类层203输出的位置信息从卷积层201输出的特征图中截取出对应的感兴趣区域，并对感兴趣区域进行降采样(降采样可以使得感兴趣区域的尺寸统一成固定尺寸)，得到并输出特征子图；

至少一个卷积层205，用于基于池化层204输出的特征子图确定并输出特征向量；

目标分类层206，用于基于卷积层205输出的特性向量确定目标对象的类别信息(Class)；

全连接层207和回归层208，用于基于卷积层205输出的特征向量确定出目标对象的位置信息(Bounding box)。

当然，上述的目标对象检测网络只是举例，其他可实现目标检测的神经网络也同样适用。

继续参看图4，质量检测网络300可以包括：至少一个卷积层301，连接在目标对象检测网络200的指定处理层比如卷积层205之后，接收卷积层205输出的目标特征信息，并从目标特征信息提取出用于描述目标对象的图像质量的第一描述特征；以及全连接层302，用于基于卷积层301输出的第一描述特征确定目标对象在目标图像中的图像质量参数。

继续参看图4，位置检测网络400可以包括：至少一个卷积层401，连接在目标对象检测网络200的指定处理层比如卷积层205之后，接收卷积层205输出的目标特征信息，并从目标特征信息提取出用于描述被检测出的目标对象的位置信息的准确性的第二描述特征；以及全连接层402，用于基于卷积层401输出的第二描述特征确定目标对象的准确度指标。

可以理解，图4示出的目标对象检测网络与质量检测网络、位置检测网络只是举例，并不应以此为限。

本发明还提供一种目标检测装置，在一个实施例中，参看图5，该目标检测装置100包括：

目标图像获取模块101，用于获取待检测的目标图像，所述目标图像包含目标对象；

目标检测模块102，用于将所述目标图像输入至已训练的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的目标特征信息，所述目标特征信息是在所述目标对象检测网络检测目标对象的位置信息的过程中输出的；

质量检测模块103，用于将所述目标特征信息输入至质量检测网络，以得到图像质量参数，所述图像质量参数用于表征所述目标对象在所述目标图像中的图像质量。

在一个实施例中，所述目标对象检测网络和所述质量检测网络为同一神经网络的不同子网络；

或者，

在一个实施例中，该装置进一步包括：

在一个实施例中，目标对象检测网络通过以下模块训练：

在一个实施例中，所述训练样本集的图像样本还被标定有对应的第二标签信息；所述第二标签信息用于指示对象在图像样本中的图像质量；

所述质量检测网络通过以下模块训练：

在一个实施例中，所述训练样本集的图像样本还被标定有对应的第三标签信息；所述第三标签信息用于指示所述第一标签信息所指示位置的准确性；

所述位置检测网络通过以下模块训练：

在一个实施例中，

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的目标检测方法。

本发明目标检测装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，图6是本发明根据一示例性实施例示出的目标检测装置100所在电子设备的一种硬件结构图，除了图6所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置100所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中任意一项所述的目标检测方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待检测的目标图像，所述目标图像包含目标对象；

2.如权利要求1所述的目标检测方法，其特征在于，该方法进一步包括：

3.如权利要求1或2所述的目标检测方法，其特征在于，目标对象检测网络通过以下方式训练：

4.如权利要求3所述的目标检测方法，其特征在于，所述训练样本集的图像样本还被标定有对应的第二标签信息；所述第二标签信息用于指示对象在图像样本中的图像质量；

所述质量检测网络通过以下方式训练：

在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始质量检测网络，以由初始质量检测网络基于输入的特征信息预测图像质量标签信息并输出；

5.如权利要求2所述的目标检测方法，其特征在于，所述训练样本集的图像样本还被标定有对应的第三标签信息；所述第三标签信息用于指示所述第一标签信息所指示位置的准确性；

所述位置检测网络通过以下方式训练：

在完成所述目标对象检测网络的训练后，将所述训练样本集中的图像样本输入至训练出的目标对象检测网络，得到所述目标对象检测网络中的至少一个指定处理层输出的特征信息，所述特征信息是在所述目标检测网络检测对象的位置信息的过程中输出的，并输出至初始位置检测网络，以由初始位置检测网络基于输入的特征信息预测位置准确性标签信息并输出；

6.如权利要求1所述的目标检测方法，其特征在于，

7.一种目标检测装置，其特征在于，包括：

8.如权利要求7所述的目标检测装置，其特征在于，该装置进一步包括：

9.如权利要求7所述的目标检测装置，其特征在于，

目标对象检测网络通过以下模块训练：

目标对象检测网络训练模块，用于利用所述训练样本集中的图像样本及对应的第一标签信息对初始目标对象检测网络进行训练，以得到所述目标对象检测网络；

所述训练样本集的图像样本还被标定有对应的第二标签信息；所述第二标签信息用于指示对象在图像样本中的图像质量；

所述质量检测网络通过以下模块训练：

10.如权利要求8所述的目标检测装置，其特征在于，

目标对象检测网络通过以下模块训练：

所述训练样本集的图像样本还被标定有对应的第三标签信息；所述第三标签信息用于指示所述第一标签信息所指示位置的准确性；

所述位置检测网络通过以下模块训练：

11.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-6中任一项所述的目标检测方法。