CN110555414A

CN110555414A - 目标检测方法、装置、设备及存储介质

Info

Publication number: CN110555414A
Application number: CN201910839292.0A
Authority: CN
Inventors: 孙克强; 吴文岩; 刘庭皓; 王权; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-10
Anticipated expiration: 2039-09-05
Also published as: CN110555414B

Abstract

本公开涉及一种目标检测方法、装置、设备及存储介质，所述方法包括：预测第一图像中目标对象的结构信息；利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

Description

目标检测方法、装置、设备及存储介质

技术领域

图像处理技术领域，尤其涉及一种目标检测方法、装置、设备及存储介质。

背景技术

目标检测对于目标对象的应用是非常基础和重要的。例如，面部检测是面部验证、面部美颜色、面部装饰等等应用的基础。当目标由于运动而出现模糊时，如何实现目标检测是需要研究和解决的问题。

发明内容

本公开实施例提供一种目标检测方案。

第一方面，提供一种目标检测方法，所述方法包括：预测第一图像中目标对象的结构信息；利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

通过预测图像中目标对象的结构信息，并利用所这结构信息对图像中目标对象所在的图像区域进行去模糊处理，以在清晰的图像中进行目标检测，能够更准确地获得目标对象在图像中的识别信息，使得目标对象的检测结果更为精确。

结合本公开提供的任一实施方式，所述第一图像为图像序列中的一帧；所述预测第一图像中目标对象的结构信息，包括：根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息。

由于目标对象的结构信息在图像序列中的所述至少两帧第二图像和所述第一图像中具有连续性，因此，根据所述至少两帧第二图像可以预测得到第一图像中所述目标对象的结构信息。

结合本公开提供的任一实施方式，所述利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像，包括：根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像。

由于目标对象的结构信息在第一区域图像和第二区域图像中的连续性，以及所述目标对象所在的第二区域图像的高清晰度，因此，利用所述目标对象的结构信息与第二区域图像，可以实现对第一区域图像的去模糊处理，预测得到所述去模糊图像。

结合本公开提供的任一实施方式，所述目标对象的识别信息包括所述目标对象的关键点的位置信息；所述对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息，包括：在所述去模糊图像中检测目标对象的关键点，得到所述目标对象的关键点的初始位置信息；将所述初始位置信息转换至所述第一图像中，获得所述第一图像中所述关键点的位置信息。

结合本公开提供的任一实施方式，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；所述根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息，包括：分别识别两帧第二图像中由多个边缘关键点形成目标对象的边缘，所述两帧第二图像为所述至少两帧第二图像中的两帧；获得所述两帧第二图像中所述目标对象的边缘中各个边缘关键点之间的位置变化信息；根据所述位置变化信息和所述两帧第二图像中所述目标对象的边缘，预测所述第一图像中所述目标对象的边缘。

通过两帧第二图像中目标对象的边缘中各个边缘关键点的运动信息，可以准确且高效地预测出第一图像中目标对象的边缘。相较于预测其他结构信息，例如所有关键点，边缘关键点具有漂移程度小、减小运动噪音、预测效果好的优点，相较于部分分割和三维模型，具有包含信息量小、易于获得、降低预测难度的优点。

结合本公开提供的任一实施方式，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；

根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像，包括：将所述第一区域图像、至少两帧第二区域图像以及描述所述目标对象的边缘的边缘图像进行合并；对合并后的图像进行编码处理，得到编码结果；在对编码结果进行循环卷积处理后，得到循环卷积处理结果；对所述循环卷积处理结果进行解码，得到用于调整所述第一图像的像素的中间图像；根据所述第一图像和所述中间图像，得到所述去模糊图像。

利用目标对象的结构信息，以及至少两帧第二图像中所述目标对象所在的第二区域图像，对所述第一图像中所述目标对象所在的第一区域图像进行了重建，获得了去模糊后的第一区域图像，其清晰度达到了设定要求，并且满足了在目标对象的结构信息约束的同时包括了纹理连续性。

结合本公开提供的任一实施方式，所述方法应用于目标检测网络中，所述目标检测网络包括多个子网络；

所述多个子网络包括用于预测第一图像中目标对象的结构信息的预测子网络、用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理的去模糊子网络、以及用于对去模糊图像进行目标检测的检测子网络，所述方法包括：对所述预测子网络、所述去模糊子网络、所述检测子网络分别进行训练，在训练完成后，对由训练完成的各子网络构成的目标检测网络进行端到端训练。

通过先独立训练子网络，再将子网络结合起来进行端到端训练，使子网络之间相互促进，共同达到更好的性能。

第二方面，提供一种目标检测装置，所述装置包括：预测单元，用于预测第一图像中目标对象的结构信息；去模糊单元，用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；检测单元，用于对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

结合本公开提供的任一实施方式，预测单元，用于预测第一图像中目标对象的结构信息；去模糊单元，用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；检测单元，用于对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

结合本公开提供的任一实施方式，所述去模糊单元具体用于：根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像。

结合本公开提供的任一实施方式，所述目标对象的识别信息包括所述目标对象的关键点的位置信息；所述检测单元具体用于：在所述去模糊图像中检测目标对象的关键点，得到所述目标对象的关键点的初始位置信息；将所述初始位置信息转换至所述第一图像中，获得所述第一图像中所述关键点的位置信息。

结合本公开提供的任一实施方式，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；所述预测单元在用于根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息时，具体用于：分别识别两帧第二图像中由多个边缘关键点形成目标对象的边缘，所述两帧第二图像为所述至少两帧第二图像中的两帧；获得所述两帧第二图像中所述目标对象的边缘中各个边缘关键点之间的位置变化信息；根据所述位置变化信息和所述两帧第二图像中所述目标对象的边缘，预测所述第一图像中所述目标对象的边缘。

结合本公开提供的任一实施方式，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；所述去模糊单元在用于根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像时，具体用于：将所述第一区域图像、至少两帧第二区域图像以及描述所述目标对象的边缘的边缘图像进行合并；对合并后的图像进行编码处理，得到编码结果；在对编码结果进行循环卷积处理后，得到循环卷积处理结果；对所述循环卷积处理结果进行解码，得到用于调整所述第一图像的像素的中间图像；根据所述第一图像和所述中间图像，得到所述去模糊图像。

结合本公开提供的任一实施方式，所述装置应用于目标检测网络中，所述目标检测网络包括多个子网络：所述多个子网络包括用于预测第一图像中目标对象的结构信息的预测子网络、用于利利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理的去模糊子网络、以及用于对去模糊图像进行目标检测的检测子网络，所述装置还包括训练单元，用于：对所述预测子网络、所述去模糊子网络、所述检测子网络分别进行训练，在训练完成后，对由训练完成的各子网络构成的目标检测网络进行端到端训练。

第三方面，提供一种目标检测设备，设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的目标检测方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的目标检测方法。

本公开一个或多个实施方式的目标检测方法、装置、设备及存储介质，通过预测图像中目标对象的结构信息，并利用所这结构信息对图像中目标对象所在的图像区域进行去模糊处理，以在清晰的图像中进行目标检测，能够更准确地获得目标对象在图像中的识别信息，使得目标对象的检测结果更为精确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1示出根据本公开至少一个实施例的一种目标检测方法的流程图；

图2示出根据本公开至少一个实施例的一种预测目标对象边缘的方法的流程图；

图3示出根据本公开至少一个实施例的面部边缘的提取结果示意图；

图4示出根据本公开至少一个实施例的一种去模糊方法的流程图；

图5示出根据本公开至少一个实施例的一种预测子网络的结构示意图；

图6示出根据本公开至少一个实施例的一种去模糊子网络结构示意图；

图7示出根据本公开至少一个实施例的一种检测子网络的结构示意图；

图8示出根据本公开至少一个实施例的一种目标检测网络的结构示意图；

图9示出根据本公开至少一个实施例的面部检测结果与相关技术检测结果的比较图；

图10示出根据本公开至少一个实施例的一种目标检测装置的结构示意图；

图11示出根据本公开至少一个实施例的一种目标检测设备的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

图1示出根据本公开至少一个实施例的目标检测方法的流程图，如图1所示，所述方法包括步骤101～步骤103。

在步骤101中，预测第一图像中目标对象的结构信息。

示例性的，目标对象可以是人物(例如人物面部、人体肢体等部位)、动物(例如动物面部、动物肢体等部位)、车辆等，本申请对此并不限定。

由于摄像头震动而引起的图像中目标对象的运动，或者拍摄过程中目标对象自身的运动(该目标对象在运动过程中的形变可以忽略)，通常是能够数学建模的，并且是在短时间内连续的。在记录有目标对象的运动过程的多个图像中，可以通过图像识别的方式来识别目标对象所在区域的像素的变化，但是对于像素变化的识别难度较大，故本公开中，可以分析目标对象在运动过程中，目标对象的结构的变化，其中目标对象的结构是具有语义的、清晰且与面部纹理无关的，例如可以分析关键点(例如目标对象的边缘关键点)的变化，更有助于进行目标对象的检测。因此，在本公开实施例中，首先预测第一图像中目标对象的结构信息。

目标对象的结构信息例如可以包括但不限于目标对象的边缘、目标对象关键点、部件分割(part segements)、三维模型中的至少一种。本领域技术人员应当理解，以上目标对象的结构信息仅为示意，本公开实施例对此不进行限制。

在步骤102中，利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像。

对于包含目标对象的第一图像，在目标对象所在的第一区域图像的清晰度达不到设定要求的情况下，所检测到的目标对象的识别信息有可能是不准确的，甚至无法检测到目标关键点。因此，在本公开实施例中，利用具有连续性和稳定性的目标对象的结构信息来对第一区域图像进行去模糊处理，获得去模糊图像。可以利用图像增强、图像复原、图像重构等方法实现对所述第一图像去模糊，公开实施例对此不进行限制。

在一个示例中，可以对第一图像中的第一区域图像进行裁剪，使第一区域图像成为独立的图像，从而对该图像进行去模糊处理，得到与该图像相应的去模糊图像。

在一个示例中，可以直接对第一图像中的第一区域对象进行去模糊处理，所得到的去模糊图像，是指包含进行了经去模糊处理的第一区域图像的第一图像。

在步骤103中，对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

对所述去模糊图像进行目标检测，可以获得在所述去模糊图像中目标对象的识别信息，例如目标对象关键点位置信息、目标对象一个或多个部位的信息(如部位类型)等等。所述识别信息所包含的具体内容可以实际需要确定，本公开实施例对此不进行限制。

在所述去模糊图像是对上述裁剪出的第一区域图像进行去模糊处理而得到的情况下，可以通过坐标变换的方式将所述去模糊图像中检测得到的目标对象的识别信息转换至第一图像中。例如，可以通过获取从所述第一图像中裁剪第一区域图像时的变换矩阵，对于所述去模糊图像中目标对象的识别信息，利用所述变换矩阵进行反向计算，将所述识别信息转换至所述第一图像中，得到所述目标对象在所述第一图像中的识别信息。其中，所述变换矩阵例如可以包括待裁剪区域的起始点坐标，以及待裁剪区域的尺寸信息。通过将所述第一图像与所述变换矩阵相乘，即可以获得从所述第一图像中裁剪出来的第一区域图像。

在所述去模糊图像是包含进行了经去模糊处理的第一区域图像的第一图像的情况下，在所述去模糊图像中检测得到的目标对象的识别信息，即为在目标对象在所述第一图像中的识别信息。

在本公开实施例中，通过预测图像中目标对象的结构信息，并利用所这结构信息对图像中目标对象所在的图像区域进行去模糊处理，以在清晰度达到设定要求的图像中进行目标检测，能够更准确地获得目标对象在图像中的识别信息，使得目标对象的检测结果更为精确。

在本公开实施例中，所述第一图像可以是图像序列中的一帧。示例性的，所述图像序列例如为针对同一场景的一系列图像。在所述图像序列包含不同场景的情况下，在场景发生切换时，自动将新场景帧作为初始帧，形成新的图像序列。

所述图像序列可以是连续拍摄的多张图像，也可以是包含多帧图像的视频片段，本公开实施例对此不进行限制。

本领域技术人员应当理解，所述图像序列不限于顺序相邻的图像，也可以是针对同一场景，以设定间隔获取的图像。

对于图像序列中的一帧图像，可以通过以下方式预测第一图像(当前帧图像)中目标对象的结构信息：根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像(先前帧图像)，预测所述第一图像中所述目标对象的结构信息。

对于所述至少两帧第二图像中的每一帧，与所述第一图像相似，其可以是从所述第二图像中裁剪出的目标对象所在的第二区域图像，并利用该独立的第二区域图像来预测第一图像中所述目标对象的结构信息；也可以是在其中包含了目标对象所在的第二区域图像的第二图像，并利用其中所包含的关于第二区域图像的信息来预测所述第一图像中所述目标对象的结构信息。

在一些实施例中，可以利用与所述第一图像相邻或相隔较近、清晰度达到设定要求的至少两帧第二图像，为第一图像中目标对象的结构提供先验信息。

在一些实施例中，可以根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像。

下文以利用图像序列中第一图像之前的包含目标对象的两帧第二图像、所述目标对象的边缘进行目标检测为例，对本公实施例提出的目标检测方法进行更详细的描述。其中，所述目标对象包括面部、躯体等在运动过程中的形变可以忽略的对象。本领域技术人员应当理解，也可以利用多于两帧的第二图像作为先验信息，或者利用目标对象的其他结构信息来进行目标检测，本公开对此不进行限制。

在一些实施例中，所述目标对象的边缘由多个边缘关键点形成。所述边缘关键点为处于目标对象的边缘位置的关键点。所述目标对象的边缘可以通过对边缘关键点进行插值形成，例如可以通过对边缘关键点进行三次样条插值，或者线性插值、双线性插值等等方法形成边缘。

图2示出了根据本公开至少一个实施例的一种预测目标对象边缘的方法的流程图，如图2所示，该方法包括步骤201～步骤203。

在步骤201中，分别识别两帧第二图像中由多个边缘关键点形成目标对象的边缘，所述两帧第二图像为所述至少两帧第二图像中的两帧。

其中，所述两帧第二图像例如是与第一图像相邻的连续两帧，也可以是与第一图像形成相同间隔帧的两帧第二图像。

例如，假设所述第一图像是图像序列中的第N帧，那么所述两帧第二图像，可以是第N-1帧、第N-2帧；也可以是第N-2帧、第N-4帧，以此类推。所述两帧第二图像例如为清晰度达到设定要求的两帧。

在本公开实施例中，进行识别的两帧第二图像，可以是从第二图像中裁剪出来的目标对象所在的第二区域图像，也可以是在其中包含了目标对象所在的第二区域图像的第二图像本身。

在所述两帧第二图像为清晰度达到设定要求的情况下，对于每帧第二图像可以准确地识别边缘关键点形成的目标对象的边缘。图3示出本公开至少一个实施例提供的面部的边缘的提取结果示意图。如图3所示，第一行图片的面部对于边界框保持相对静止，但逐渐变得模糊，然而面部的边缘不会有这样的问题，如第二行的面部边缘示意图所示。

在步骤202中，获得所述两帧第二图像中所述目标对象的边缘中各个边缘关键点之间的位置变化信息。

其中，所述位置变化信息可以包括两个对应的边缘关键点，例如第N-1帧第二图像中的第i个边缘关键点与第N-2帧第二图像中的第i个边缘关键点，之间的位移，或者距离和位置关系，等等。

在步骤203中，根据所述位置变化信息和所述两帧第二图像中所述目标对象的边缘，预测所述第一图像中所述目标对象的边缘。

对于同一场景下的图像序列中连续或接近连续的图像，目标对象的各个边缘关键点的运动是有延续性的，通过延续前两帧第二图像的边缘关键点的运动，可以预测出第一图像中各个边缘关键点的位置，从而可以通过插值的方法得到第一图像中所述目标对象的边缘。

在本公开实施例中，通过两帧第二图像中目标对象的边缘中各个边缘关键点的运动信息，可以准确且高效地预测出第一图像中目标对象的边缘。相较于预测其他结构信息，例如所有关键点，边缘关键点具有漂移程度小、减小运动噪音、预测效果好的优点，相较于部分分割和三维模型，具有包含信息量小、易于获得、降低预测难度的优点。

在获得了第一图像中目标对象的结构信息后，可以利用该结构信息获得所述第一图像的去模糊图像。

图4示出本公开至少一个实施例提供的去模糊方法的流程图。如图4所示，所述方法包括步骤401～405。

在步骤401中，将所述第一区域图像、至少两帧第二区域图像以及描述所述目标对象的边缘的边缘图像进行合并。

示例性的，所述边缘图像是指，在所述目标对象所在的第一区域图像中，边缘部分的像素点的像素值为第一设定值，而非边缘部分，即背景区域的像素点的像素值为第二设定值的图像。例如，边缘部分的像素点的像素值为1，而背景区域的像素点的像素值为0，也即将所述第一区域图像转换为了目标对象边缘的掩模。

在一个示例中，可以先将所述第一区域图像与所述至少两帧第二区域图像进行合并，形成一个图像系列(也即纹理系列(textures series))，再将所述图像系列与前述获得的边缘图像进行合并。

在一个示例中，可以将所述第一区域图像、至少两帧第二区域图像，以及所述边缘图像进行通道的并接，从而实现图像的合并。其中，每帧区域图像包括RGB三个通道，所述边缘通像包括一个通道。以两帧第二区域图像为例，所述第一区域图像、两帧第二图像、边缘图像的合并包括10个通道的并接。

在步骤402中，对合并后的图像进行编码处理，得到编码结果。

对合并图像进行编码处理，可以得到所输入的各个图像的特征信息。

在一个示例中，可以首先对合并图像进行卷积处理，之后利用多个残差块(Residual blocks)，例如四个，提取输入的合并图像的特征信息。

在一个示例中，可以利用预先训练的自编码器对合并图像进行编码处理，也即对所述合并后的图像进行特征检测，从而提取出提出信息。其中，所述自编码器利用清晰的目标对象图像集作为样本集进行训练得到的。

在步骤403中，对编码结果进行循环卷积处理，得到循环卷积处理结果。

在一个示例中，可以使用循环神经网络(Recurrent Neural Network，RNN)对所述编码结果进行循环卷积结果，从而将前一次循环卷积过程中RNN输出的结果，带入到这一次的训练过程中，从而能够学习到之前处理过程中图像的时序信息，实现了时序信息的融合。

在一个示例中，可以利用动态时间混合网络(Dynamic Temporal Blendingnetwork)，对所述编码结果进行循环卷积处理，得到循环卷积处理结果。

在步骤404中，对所述循环卷积处理结果进行解码，得到用于调整所述第一区域图像的像素的中间图像。

其中，对所述卷积处理结果进行解码，可以预测得到第一区域图像(模糊图像)与第二区域图像(真实值)之间的差异量。所述差异量对应于所述中间图像中每个像素的像素值，通过所述差异量即可以确定用于调整所述第一区域图像的像素的中间图像。

在一个示例中，可以首先利用多个残差块，例如与编码过程对应的四个残差块，来结合不同帧之间的信息，之后通过反卷积和卷积处理得到第一图像与真实值之间的差异量。

在一个示例中，可以利用前述预先训练的自编码器对循环卷积处理结果进行解码，以预测得到第一区域图像与真实值之间的差异量。

在步骤405中，根据所述第一区域图像和所述中间图像，得到所述去模糊图像。

在本步骤中，通过利用中间图像，也即利用所述第一区域图像与真实值之间的差异量，对所述第一区域图像进行调整，调整后所得到的去模糊图像是与真实值接近的清晰度达到设定要求的图像。

在本公开实施例中，利用目标对象的结构信息，以及至少两帧第二图像中所述目标对象所在的第二区域图像，对所述第一图像中所述目标对象所在的第一区域图像进行了重建，获得了去模糊后的第一区域图像，其清晰度达到了设定要求，并且满足了在目标对象的结构信息约束的同时包括了纹理连续性。

在本公开实施例中，可以利用预先训练的目标检测网络实现目标检测。该目标检测网络可以包括多个子网络，例如用于预测第一图像中目标对象的结构信息的预测子网络、用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理的去模糊子网络、以及用于对去模糊图像进行目标检测的检测子网络。

以下将以进行面部检测为例对目标检测网络以及各个子网络进行详细说明。本领域技术人员应当理解，下述实施例方法不仅适用于面部检测，也适用于其他目标对象的检测。

在一些实施例中，可以利用图5所示的预测子网络实现对面部结构信息的预测。如图5所示，预测子网络可以包括沙漏(Hourglass)模块501和扭曲(Warping)模块502。

其中，所述沙漏模块的主要结构包括镜像编码部分和解码部分，镜像编码部分包括多个卷积层和池化层，解码部分包括卷积层和上采样层；所述扭曲模块实现插值函数的功能。

首先，将当前帧的前两帧对应的面部边缘图像E_t-1、E_t-2输入至沙漏网络501，获得E_t-1、E_t-2之间的光流F，也即面部边缘E_t-1、E_t-2中各个边缘关键点之间的位置变换信息。其中，t表示当前时刻；沙漏模块501可以采用现有的沙漏网络结构。

接下来，将面部边缘图像E_t-1、E_t-2与光流F输入扭曲模块502，以预测第一图像对应的面部边缘图像E_t。其中，扭曲模块502可以采用现有的扭曲网络结构。

在一个示例中，所述扭曲模块502的输出为：

WA(E,F)＝∑_{i,j,k∈[0.1]}W^ijkE(V^ijk) (1)

其中，E为输入的面部边缘图像，F为光流，W为三次样条插值权重，V为输入的两个面部边缘图像中每对对应像素的八个顶点，i、j的取值对应于取整的方式(向上取整或向下取整)，k的取值表示选取两个面部边缘图像中的其中一个，i、j、k的取值非0即1。

具体地，V的定义如下：

其中，表示向下取整，表示向上取整，L⁰和L¹分别是输入的两个面部边缘图像中相应位置的绝对坐标，x表示面部边缘图像中横轴坐标，y表示面部边缘图像中纵轴坐标。

具体地，W的定义如下：

其中，和对应于在预测的第一图像中，与两个面部边缘图像相对应的权重。

通过以上公式(1)-(3)，可以根据面部边缘图像与光流，预测得到第一图像对应的面部边缘图像。

在一些实施例中，可以利用图6所示的去模糊子网络实现对第一图像中面部图像去模糊，获得清晰度达到要求的面部图像。如图6所示，所述去模糊子网络可以包括连接(contat)模块601、编码模块602、动态混合(dynamic blending)模块603、解码模块604、相加模块605。

首先，将第一区域图像的纹理I_t、以及两帧第二区域图像的纹理I_t-1、I_t-2进行结合，形成纹理系列；并将当前帧对应的面部边缘图像E_t(例如通过上述预测子网络获得的面部边缘图像E_t)与所述纹理系列通过连接模块进行合并。

接下来，将上述合并结果输入至编码模块602，例如预先训练的自编码器，进行编码，并将编码结果输入至动态混合模块603，以将编码结果中的时序信息进行融合。

之后，通过解码模块604，例如预先训练的自编码器，进行解码。通过利用清晰度达到设定要求的图像对自编码器进行预先训练，使自编码器学习清晰图像的特征，可以通过解码获得中间图像，也即第一区域图像与真实值之间的差异量。

通过将该中间图像与第一区域图像的相应相素值进行相加，即可以得到清晰度达到设定要求的第一区域图像，也即去模糊图像S_t。

在一些实施例中，可以利用图7所示的检测子网络获得面部关键点的目标位置信息。如图7所述，该检测子网络包括关键点检测模块701和变换模块702。

首先，将去模糊图像S_t输入至关键点检测模块701，以检测在去模糊图像S_t中面部关键点的初始位置信息。

之后，将所述初始位置信息输入至变换模块702，以将其转换至进行面部检测的图像，也即前文所述的第一图像中，获得在所述第一图像中面部关键点的目标位置信息。

在本公开实施例中，可以利用图8所示的目标检测子网络实现面部关键点检测，获取目标对象的识别信息，例如目标对象的关键点的目标位置信息。如图8所示，该目标检测网络可以包括预测子网络500、去模糊子网络600、检测子网络700，其中各个网络的结构和实现的作用如上所述。

下面结合图8所示的目标检测网络说明实现获取面部目标对象的识别信息的过程。

首先，将第一图像(当前帧)的前两帧第二图像对应的目标对象的边缘图像E_t-1、E_t-2输入至预测子网络500，输出第一图像对应的目标对象的边缘图像E_t。预测子网络500内部的处理过程请参见关于图5的描述。

将第一区域图像的纹理I_t、以及两帧第二区域图像的纹理I_t-1、I_t-2进行结合，形成纹理系列；并将第一图像对应的目标对象的边缘图像的边缘图像E_t与所述纹理系统共同输入至去模糊子网络600，输出去模糊图像S_t。去模糊子网络600内部的处理过程请参见关于图6的描述。

将去模糊图像输入S_t至检测子网络700，获得第一图像中目标对象的边缘图像的关键点的目标位置信息。检测子网络700内部的处理过程请参见关于图7的描述。

对于当前所获得的第一图像中的目标对象的边缘图像的关键点，可以通过插值处理得到当前帧中包含的目标对象的边缘，从而获得对应的目标对象的边缘图像。并且，可以将当前帧对应的目标对象的边缘图像作为后帧的先验数据，预测后帧的目标对象的边缘，从而形成根据前帧预测当前帧、根据当前帧预测后帧的循环处理过程。

图9是本公开至少一个实施例的目标检测结果与相关技术检测结果的比较图。图9中第一列是待进行目标检测的图像，其中，待检测的目标对象为面部，其均为一定程度模糊的图像，清晰度均为达到设定要求。第二列为在第一图像上直接采用相关技术中的面部对齐方法进行面部识别，所得到的面部关键点检测结果，其中，浅色点为检测到的面部关键点，深色点为真实值对应的面部关键点。由图可见,检测到的面部关键点与真实值的偏差较大。第三列为采用本公开实施例的面部检测方法，对模糊第一图像首先进行去模糊，再在清晰的图像上进行面部检测，并将所检测到的面部关键点变换回第一图像上所得到的面部关键点。与第二列相同，浅色点为检测得到的面部关键点，深色点为真实值对应的面部关键点。由图可见，本公开实施例的目标检测方法，在面部图像中检测到的面部关键点与真实值的符合程度较好，面部关键点的位置信息的准确率得到了提高。

下面说明目标检测网络的训练过程。所述目标检测网络可以如图8所示，包括用于预测包含目标对象的第一图像的结构信息的预测子网络、用于利用所述结构信息对所述第一图像去模糊的去模糊子网络、以及用于根据去模糊图像得到所述第一图像中目标对象的关键点的目标位置信息的检测子网络。该目标检测网络的训练方法可以包括：对所述预测子网络、所述去模糊子网络、所述检测子网络分别进行训练，在训练完成后，对由训练完成的各子网络构成的目标检测网络进行端到端训练。

首先，对所述预测子网络、所述去模糊子网络、所述检测子网络分别进行训练。

在本公开实施例中，所述预测子网络、所述去模糊子网络和所述检测子网络可以预先进行分别地、独立的训练。

首先说明预测子网络的训练过程。

在进行训练之前，可以先准确样本集，该样本集可以包括：用于训练子网络的训练样本、以及用于测试子网络的测试样本。

例如，可以按照如下方式获得训练样本：

在作为样本图像的包含目标对象的图像中，确定目标对象所在的区域图像，并将所述区域图像裁剪出来从而获得样本图像。对所述样本图像进行目标对象的关键点标注，将标注后的样本图像作为训练样本。

可选的，还可以对样本图像进行增广。例如，对所述样本图像进行设定范围内的平移、旋转、缩放操作，并加入噪声，以扩充数据集，适应复杂场景的应用。在对样本图像进行操作的同时，也对样本图像的标注信息进行相应的变换。

可选的，可以利用已有的目标对象的关键点检测视频数据集，例如对于面部检测来说，可以利用关键点数据集对所述预测子网络进行训练。

样本集准备完毕后，进入子网络的训练过程：

首先，将标注后的样本图像输入至所述预测子网络，得到预测的结构信息，所述结构信息例如包括面部边缘的各个边缘关键点的位置信息。

接下来，根据预测得到的结构信息，与样本图像的真实结构信息(真实值)之间的差异，确定网络损失值。所述预测子网络的网络损失L_prd通过下式定义：

其中，N_pixel表示样本图像中的总像素数目，E_t表示预测得到的信息结构，E_GT表示样本图像结构信息的真实值。

之后，其于所述网络损失值，对所述预测子网络的网络参数进行调整。在网络损失达到了设定要求，或者迭代次数达到了设定次数之后，完成对所述预测子网络的训练。

去模糊子网络的训练过程与预测子网络的训练过程相似，也可以利用相同的样本集进行训练，区别在于，在所述去模糊子网络的训练过程中，将清晰图像的真实像素值作为训练该网络的先验信息，并且，所述去模糊子网络的网络损失L_rec通过下式定义：

其中，S_t表示预测得到的去模糊图像，S_GT表示清晰图像的真实像素值，所述清晰图像为样本集中清晰度达到设定要求的包含目标对象的图像。

检测子网络的训练过程与预测子网络、去模糊子网络的训练过程相似，区别在于，所述去模糊子网络的网络损失可以通过下式定义：

其中，N_point表示目标对象的关键点的数目，L_t表示预测的目标对象的关键点位置，L_GT表示目标对象的关键点位置的真实值。

在完成了对预测子网络、去模糊子网络和检测子网络的独立训练后，进入共同的精细调整过程。

在完成了上训练后，对由训练完成的各子网络构成的目标检测网络进行端到端训练。

在本步骤中，网络损失L_total可以通过下式定义：

L_total＝L_prd+L_rec+L_align (4)

在端到端训练过程中，三个子网络相互促进，共同达到更好的性能。

在一些实施例中，可以使所述预测子网络和所述去模糊子网络共同与所述检测子网络轮流进行一代(one epoch)训练。也即，在一代训练中，首先对所述预测子网络和所述去模糊子网络共同进行训练，之后再对所述检测子网络进行训练，如此交替进行每一代训练。

通过以上方式，使得检测子网络能够利用所述去模糊子网络输出的去模糊图像代替原始图像作为输入，从而可以实现更好的训练效果。

图10提供了一种目标检测装置，如图10所示，该装置可以包括：预测单元1001，用于预测第一图像中目标对象的结构信息；去模糊单元1002，用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；检测单元1003，用于对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

在一些实施例中，所述第一图像为图像序列中的一帧；预测单元1001具体用于：根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息。

在一些实施例中，去模糊单元1002具体用于：根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像。

在一些实施例中，所述目标对象的识别信息包括所述目标对象的关键点的位置信息；检测单元1003具体用于：在所述去模糊图像中检测目标对象的关键点，得到所述目标对象的关键点的初始位置信息；将所述初始位置信息转换至所述第一图像中，获得所述第一图像中所述关键点的位置信息。

在一些实施例中，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；预测单元1001在用于根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息时，具体用于：分别识别两帧第二图像中由多个边缘关键点形成目标对象的边缘，所述两帧第二图像为所述至少两帧第二图像中的两帧；获得所述两帧第二图像中所述目标对象的边缘中各个边缘关键点之间的位置变化信息；根据所述位置变化信息和所述两帧第二图像中所述目标对象的边缘，预测所述第一图像中所述目标对象的边缘。

在一些实施例中，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；去模糊单元1002在用于根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像时，具体用于：将所述第一区域图像、至少两帧第二区域图像以及描述所述目标对象的边缘的边缘图像进行合并；对合并后的图像进行编码处理，得到编码结果；在对编码结果进行循环卷积处理后，得到循环卷积处理结果；对所述循环卷积处理结果进行解码，得到用于调整所述第一图像的像素的中间图像；根据所述第一图像和所述中间图像，得到所述去模糊图像。

在一些实施例中，所述装置应用于目标检测网络中，所述目标检测网络包括多个子网络：所述多个子网络包括用于预测第一图像中目标对象的结构信息的预测子网络、用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理的去模糊子网络、以及用于对去模糊图像进行目标检测的检测子网络，所述装置还包括训练单元，用于：对所述预测子网络、所述去模糊子网络、所述检测子网络分别进行训练，在训练完成后，对由训练完成的各子网络构成的目标检测网络进行端到端训练。

图11为本公开至少一个实施例提供的目标检测设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本说明书任一实施例所述的目标检测方法。

本说明书至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本说明书任一实施例所述的目标检测方法，和/或，实现本说明书任一实施例所述的目标检测网络的训练方法。

在本公开实施例中，计算机可读存储介质可以是多种形式，比如，在不同的例子中，所述机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。特殊的，所述的计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。使用这些介质，这些程序可以被通过电学的方式获取到(例如，光学扫描)、可以被以合适的方式编译、解释和处理，然后可以被存储到计算机介质中。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

预测第一图像中目标对象的结构信息；

利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；

对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

2.根据权利要求1所述的方法，其特征在于，所述第一图像为图像序列中的一帧；

所述预测第一图像中目标对象的结构信息，包括：

根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息。

3.根据权利要求2所述的方法，其特征在于，所述利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像，包括：

根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述目标对象的识别信息包括所述目标对象的关键点的位置信息；

所述对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息，包括：

在所述去模糊图像中检测目标对象的关键点，得到所述目标对象的关键点的初始位置信息；

将所述初始位置信息转换至所述第一图像中，获得所述第一图像中所述关键点的位置信息。

5.根据权利要求2所述的方法，其特征在于，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；

所述根据所述图像序列中，所述第一图像之前的包含所述目标对象的至少两帧第二图像，预测所述第一图像中所述目标对象的结构信息，包括：

分别识别两帧第二图像中由多个边缘关键点形成目标对象的边缘，所述两帧第二图像为所述至少两帧第二图像中的两帧；

获得所述两帧第二图像中所述目标对象的边缘中各个边缘关键点之间的位置变化信息；

根据所述位置变化信息和所述两帧第二图像中所述目标对象的边缘，预测所述第一图像中所述目标对象的边缘。

6.根据权利要求3所述的方法，其特征在于，所述目标对象的结构信息至少包括由多个边缘关键点形成的目标对象的边缘；

根据所述第一图像中所述第一区域图像、所述至少两帧第二图像中所述目标对象所在的第二区域图像，以及预测的所述目标对象的结构信息，预测得到所述去模糊图像，包括：

将所述第一区域图像、至少两帧第二区域图像以及描述所述目标对象的边缘的边缘图像进行合并；

对合并后的图像进行编码处理，得到编码结果；

对编码结果进行循环卷积处理，得到循环卷积处理结果；

对所述循环卷积处理结果进行解码，得到用于调整所述第一图像的像素的中间图像；

根据所述第一图像和所述中间图像，得到所述去模糊图像。

7.根据权利要求1所述的方法，其特征在于，所述方法应用于目标检测网络中，所述目标检测网络包括多个子网络；

所述多个子网络包括用于预测第一图像中目标对象的结构信息的预测子网络、用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理的去模糊子网络、以及用于对去模糊图像进行目标检测的检测子网络，所述方法包括：

对所述预测子网络、所述去模糊子网络、所述检测子网络分别进行训练，在训练完成后，对由训练完成的各子网络构成的目标检测网络进行端到端训练。

8.一种目标检测装置，其特征在于，所述装置包括：

预测单元，用于预测第一图像中目标对象的结构信息；

去模糊单元，用于利用所述结构信息对所述第一图像中目标对象所在的第一区域图像进行去模糊处理，获得去模糊图像；

检测单元，用于对所述去模糊图像进行目标检测，得到所述第一图像中目标对象的识别信息。

9.一种目标检测设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至7项任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7项任一所述的方法。