CN108388859B

CN108388859B - 物体检测方法、网络训练方法、装置和计算机存储介质

Info

Publication number: CN108388859B
Application number: CN201810143218.0A
Authority: CN
Inventors: 岳晓宇; 旷章辉; 张兆阳; 陈振方; 张伟
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2022-04-15
Anticipated expiration: 2038-02-11
Also published as: CN108388859A

Abstract

本发明实施例公开了一种基于深度学习的物体检测方法、网络训练方法、装置和计算机存储介质。所述检测方法包括：基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的实际区域。

Description

物体检测方法、网络训练方法、装置和计算机存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习的物体检测方法、网络训练方法、装置和计算机存储介质。

背景技术

物体检测是计算机视觉领域的重要问题之一，在多种任务诸如自动驾驶、场景分析、人脸分析中有着重要的应用。随着目前深度学习技术的大规模落地，检测算法的运行平台有可能是性能比较低的手机或者嵌入式平台，过慢的检测速度或者过差的检测效果必然会降低用户体验。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种基于深度学习的物体检测方法、网络训练方法、装置和计算机存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种基于深度学习的物体检测方法，所述方法包括：

基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；

将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的检测区域。

上述方案中，所述方法还包括：

获得用于网络训练的第四图像数据，以及所述第四图像数据中包括的标注区域对应的标注信息；所述标注区域表征所述第四图像数据中物体所在区域；

采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

上述方案中，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，包括：

确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；

将所述部分背景区域添加至所述标注区域，生成所述第三图像数据的更新标注区域；

基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

上述方案中，所述基于第一图像数据和区域估计网络，获得第二图像数据，包括：

对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；

将所述特征图输入至少一个池化层，获得与所述特征图的尺度不同的至少一个第二特征图；

对具有不同尺度的所述第一特征图、所述至少一个第二特征图分别进行卷积处理，对卷积处理后的所述第一特征图、所述至少一个第二特征图进行融合，输出携带有标识待检测物体的估计区域的第二图像数据。

上述方案中，所述输出携带有标识待检测物体的估计区域的第二图像数据，包括：

对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，输出二值化表示的携带有标识待检测物体的估计区域的第二图像数据。

上述方案中，所述将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，包括：

将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；

基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

本发明实施例还提供了一种网络训练方法，所述方法包括：

获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域；

基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

本发明实施例还提供了一种基于深度学习的物体检测装置，所述检测装置包括：第一获取单元和检测单元；其中，

所述第一获取单元，用于基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；

所述检测单元，用于将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的检测区域。

上述方案中，所述装置还包括第二获取单元和第一训练单元；其中，

所述第二获取单元，用于获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中物体所在区域；

所述第一训练单元，用于采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

上述方案中，所述装置还包括第一更新单元，用于确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

所述第一训练单元，用于基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

上述方案中，所述第一获取单元，用于对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；将所述特征图输入至少一个池化层，获得与所述特征图的尺度不同的至少一个第二特征图；对具有不同尺度的所述第一特征图、所述至少一个第二特征图分别进行卷积处理，对卷积处理后的所述第一特征图、所述至少一个第二特征图进行融合，输出携带有标识待检测物体的估计区域的第二图像数据。

上述方案中，所述第一获取单元，用于对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，输出二值化表示的携带有标识待检测物体的估计区域的第二图像数据。

上述方案中，所述检测单元，用于将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

本发明实施例还提供了一种网络训练装置，所述装置包括：第三获取单元和第二训练单元；其中，

所述第三获取单元，用于获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域；

所述第二训练单元，用于采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

上述方案中，所述第二训练单元，用于基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

上述方案中，所述装置还包括第二更新单元，用于确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

所述第二训练单元，用于基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现本发明实施例所述基于深度学习的物体检测方法的步骤；或者，该指令被处理器执行时实现本发明实施例所述网络训练方法的步骤。

本发明实施例还提供了一种基于深度学习的物体检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明实施例所述基于深度学习的物体检测方法的步骤。

本发明实施例还提供了一种网络训练装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明实施例所述网络训练方法的步骤。

本发明实施例提供的基于深度学习的物体检测方法、网络训练方法、装置和计算机存储介质，所述物体检测方法包括：基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的检测区域。采用本发明实施例的技术方案，通过对待检测物体的估计区域进行确定，使得仅对该估计区域进行物体检测，节省了大量的处理运算量，不仅大大缩短了检测时间，也减轻了设备的资源消耗，另一方面也提升了检测准确率。

附图说明

图1为本发明实施例的基于深度学习的物体检测方法的流程示意图；

图2为本发明实施例的基于深度学习的物体检测方法中第二图像数据的获得流程示意图；

图3为本发明实施例的基于深度学习的物体检测方法的一种应用流程示意图；

图4为本发明实施例的网络训练方法的流程示意图；

图5为本发明实施例的基于深度学习的物体检测装置的一种组成结构示意图；

图6为本发明实施例的基于深度学习的物体检测装置的另一种组成结构示意图；

图7为本发明实施例的基于深度学习的物体检测装置的又一种组成结构示意图；

图8为本发明实施例的网络训练装置的一种组成结构示意图；

图9为本发明实施例的网络训练装置的另一种组成结构示意图；

图10为本发明实施例的电子设备的硬件组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

实施例一

本发明实施例提供了一种基于深度学习的物体检测方法。图1为本发明实施例的基于深度学习的物体检测方法的流程示意图；如图1所示，所述检测方法包括：

步骤101：基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域。

步骤102：将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的检测区域。

本发明实施例中，所述第一图像数据可以为包含有待检测物体的原始图像或特征图。

所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；所述待检测物体的估计区域为所述第一图像数据中存在所述待检测物体的可能性较高的区域。作为一种实施方式，待检测物体为预定义的属于特定类型的物体，或者为预定义的特定物体。其中，属于特定类型的物体例如可以是文字类型，即第一图像数据中包括的文字；又例如，属于特定类型的物体可以是人物类型，即第一图像数据中包括的人物。其中，特定物体例如可以是特定文字，即第一图像数据中包括的特定问题；又例如，特定物体例如可以是特定元素，如特定标识、特定颜色属性等。作为另一种实施方式，待检测物体为预定义的属于特定区域范围的物体，例如图像数据中的前景和/或背景区域范围的物体。所谓前景，指的是位于主体前面或靠近前沿的事物。所谓背景，指的是主体后用以衬托主体的事物，在图像中，用以陪衬主体，或组成戏剧环境的一部分，具有烘托主体和装饰环境等作用。

本发明实施例中，在进行物体检测过程之前，可通过深度学习训练获得的区域估计网络对第一图像数据进行分析识别处理，获得包含有第一图像数据中待检测物体的估计区域的第二图像数据。示例性的，第二图像数据的一种表现形式可以为掩膜(GuidanceMask)；其中，通过预先得到的区域估计网络获得第二图像数据，具体可将第一图像数据作为数据输入，输入至区域估计网络，输出携带有标识待检测物体的估计区域的第二图像数据。

本发明实施例中，所述基于第一图像数据和区域估计网络，获得第二图像数据，也即将第一图像数据作为数据输入，输入至区域估计网络，输出携带有标识待检测物体的估计区域的第二图像数据，包括：对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；

其中，所述输出携带有标识待检测物体的估计区域的第二图像数据之前，还包括，对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，使得所述第二图像数据为通过“1”和“0”表示的图像数据；其中，“1”可以表示为待检测物体的估计区域，“0”可以表示为背景区域；当然，也可相反的，“0”可以表示为待检测物体的估计区域，“1”可以表示为背景区域。

图2为本发明实施例的检测方法中第二图像数据的获得流程示意图；如图2所示，以待检测物体为文字为例，第一图像数据输入至卷积神经网络(CNN，ConvolutionalNeural Network)，获得所述第一图像数据对应的特征图像数据(即图2中所示的特征图(Feature map))；其中，所述特征图像数据包括所述第一图像数据中待检测物体(即本示例中的文字)的特征，所述特征包括以下特征数据的至少之一：纹理特征、轮廓(边缘)特征、属性特征；所述属性特征包括以下特征数据的至少之一：色彩属性特征、亮度属性特征等。可以理解，所述特征图包含的特征数据为所述第一图像数据中包括的任何特征。进一步地，将获得的特征图输入区域估计网络进行待检测物体所在区域的目标检测，具体的，输入的特征图数据通过两次池化层(Pool)，形成三路数据，分别为原始的特征图数据、经过一次池化层的特征图数据、经过两次池化层的特征图数据，对于每路数据分别经过规则化层(Norm)、卷积层(Conv)和上采样层，最终汇聚，对汇聚后的图像数据进行二值化处理，即将图像数据中每个像素点的数值与预设阈值进行比较，大于该预设阈值，则置为1，小于该预设阈值，则置为0，从而获得如图2中所示的第二图像数据。

本发明实施例中，所述方法还包括：获得用于训练区域估计网络的多个第五图像数据；基于所述第五图像数据中待检测物体的标识区域以及所述第五图像数据中所述待检测物体的特征数据训练区域估计网络。

实际应用中，可通过目标检测网络作为基础网络训练获得区域估计网络，以基于区域估计网络进行待检测物体的估计区域的分析识别。在训练区域估计网络之前，获得用于训练区域估计网络的多个第五图像数据，所述第五图像数据可以为包含有预定义的待检测物体(例如文字、人物等)、且标识所述待检测物体的所在区域的图像或特征图；其中，该预定义的待检测物体为属于一类的待检测物体，例如，文字类型的待检测物体为属于一类的待检测物体；基于待检测物体(例如文字、人物等)对第五图像数据中进行特征识别，获得待检测物体的特征数据。作为其中一种方式，可基于第五图像数据中待检测物体的标识区域进行特征识别，获得该标识区域中的待检测物体的特征数据，这样，对第五图像数据中的对应于标识区域的部分图像数据进行分析识别，相比于对完整的第五图像数据进行分析识别，也可大大缩短处理时间。进一步地，基于识别出的待检测物体的特征数据以及对应的待检测物体的标识区域按照目标检测网络进行训练，获得区域估计网络。本发明实施例中，目标检测网络可以是任何基于深度学习的目标检测网络，例如PVANET。

本发明实施例中，将所述第一图像数据和所述第二图像数据输入预先训练得到的物体检测网络，该物体检测网络可通过有向卷积网络实现。实际应用中，可将卷积神经网络的卷积层修改为有向卷积层，通过该有向卷积网络对所述第一图像数据中所述第二图像数据表示的待检测物体的估计区域进行检测，从而获得所述第一图像数据中所述待检测物体的检测区域。

作为一种实施方式，所述将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，包括：将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

具体的，有向卷积层识别二值化表示的第二图像数据，确定所述第二图像数据中的估计区域。以“0”表示为待检测物体的估计区域，“1”表示为背景区域为例，则可识别出第二图像数据中通过“0”表示的区域确定为估计区域。进一步地，所述第一图像数据和所述第二图像数据具有相同的尺度，即尺寸相同，则可将所述估计区域对应于所述第一图像数据中，确定出所述第一图像数据中与所述估计区域对应的区域，进一步对所述区域的图像数据进行卷积操作。

在一实施例中，所述方法还包括：获得用于网络训练的第四图像数据，以及所述第四图像数据中包括的标注区域对应的标注信息；所述标注区域表征所述第四图像数据中物体所在区域；采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

本实施例中，用于物体检测网络训练的第四图像数据中携带有标注区域；所述第四图像数据可以为包含有预定义类型的检测物体(例如文字类型、人物类型等)、且标注有该检测物体的标注区域的原始图像或特征图；该标注区域可通过人为设定方式标注在第四图像数据中；该标注区域表征检测物体的所在区域。例如，若检测网络用于对文字进行检测，则该标注区域为第四图像数据中文字所在区域。通过携带有标注区域的第四图像数据、以及标注区域对应的标注信息按照有向卷积神经网络进行训练，获得物体检测网络。

在一实施例中，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，包括：基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在一实施例中，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得检测网络，包括：确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

这里，在物体检测网络训练过程中，除了结合设定的标注区域进行物体检测网络训练之外，还可通过随机方式将标注区域以外的其他背景区域加入该标注区域进行物体检测网络训练；作为一种实施方式，可将靠近该标注区域的其他区域加入该标注区域中，形成新的标注区域进行物体检测网络的迭代训练，从而提升物体检测网络的性能，提高最终检测结果的准确性。

在另一实施例中，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得检测网络，包括：确定所述标注区域中的部分标注区域；所述部分标注区域采用随机方式从所述标注区域中确定；去除所述标注区域中的所述部分标注区域，生成所述第四图像数据的更新标注区域；基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在本实施方式中，在物体检测网络训练过程中，除了结合设定的标注区域进行物体检测网络训练之外，还可通过随机方式将标注区域中的部分标注区域去除形成更新标注区域进行物体检测网络训练；作为一种实施方式，可将靠近该标注区域边缘的部分标注区域去除形成新的标注区域进行物体检测网络的迭代训练。

图3为本发明实施例的检测方法的一种应用流程示意图；如图3所示，以待检测物体为文字为例，则将第一图像数据输入至区域估计网络，对第一图像数据中包括的文字所在的区域进行检测，估计文字所在区域，该区域可称为估计区域，也即获得包括文字的估计区域的第二图像数据，可以理解，第二图像数据中的估计区域对应于第一图像数据中的文字所在的区域；进一步将第一图像数据和第二图像数据输入至物体检测网络，以使物体检测网络根据所述第二图像数据表征的估计区域对所述第一图像数据进行检测，即检测网络仅针对第一图像数据中对应于该估计区域的部分区域进行检测，从而获得文字在第一图像数据中的检测区域，这样可大大缩短检测时间。

采用本发明实施例的技术方案，通过对待检测物体的估计区域进行确定，使得仅对该估计区域进行物体检测，节省了大量的处理运算量，不仅大大缩短了检测时间，也减轻了设备的资源消耗，另一方面也提升了检测准确率。

实施例二

本发明实施例还提供了一种网络训练方法。图4为本发明实施例的检测网络训练方法的流程示意图；如图4所示，所述检测方法包括：

步骤201：获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域。

步骤202：采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

实施例三

本发明实施例还提供了一种检测装置。图5为本发明实施例的基于深度学习的物体检测装置的一种组成结构示意图；如图5所示，所述装置包括：第一获取单元31和检测单元32；其中，

所述第一获取单元31，用于基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；

所述检测单元32，用于将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的物体区域。

本发明实施例中，所述第一获取单元31，用于对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；将所述特征图输入至少一个池化层，获得与所述特征图的尺度不同的至少一个第二特征图；对具有不同尺度的所述第一特征图、所述至少一个第二特征图分别进行卷积处理，对卷积处理后的所述第一特征图、所述至少一个第二特征图进行融合，输出携带有标识待检测物体的估计区域的第二图像数据。

其中，所述第一获取单元31，用于对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，输出二值化表示的携带有标识待检测物体的估计区域的第二图像数据。

本发明实施例中，所述检测单元32，用于将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

在一实施例中，图6为本发明实施例的检测装置的另一种组成结构示意图；如图6所示，所述装置还包括第二获取单元33和第一训练单元34；其中，

所述第二获取单元33，用于获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域；

所述第一训练单元34，用于采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

在一实施例中，图7为本发明实施例的检测装置的又一种组成结构示意图；如图7所示，所述装置还包括第一更新单元35，用于确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

所述第一训练单元34，用于基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

本发明实施例中，所述装置中的第一获取单元31、检测单元32、第二获取单元33、第一训练单元34和第一更新单元35，在实际应用中均可由所述终端中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable GateArray)实现。

需要说明的是：上述实施例提供的基于深度学习的物体检测装置在进行检测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的基于深度学习的物体检测装置与检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实施例四

本发明实施例还提供了一种网络训练装置。图8为本发明实施例的网络训练装置的一种组成结构示意图；如图8所示，所述装置包括：第三获取单元41和第二训练单元42；其中，

所述第三获取单元41，用于获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域；

所述第二训练单元42，用于采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

本发明实施例中，所述第二训练单元42，用于基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在一实施例中，图9为本发明实施例的检测网络训练装置的另一种组成结构示意图；如图9所示，所述装置还包括第二更新单元43，用于确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

所述第二训练单元42，用于基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

本发明实施例中，所述检测网络训练装置中的第三获取单元41、第二训练单元42和第二更新单元43，在实际应用中均可由所述终端中的CPU、DSP、MCU或FPGA实现。

需要说明的是：上述实施例提供的网络训练装置在进行检测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的网络训练装置与检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实施例五

本发明实施例还提供了一种电子设备，该电子设备具体可以包括本发明实施例的检测装置或检测网络训练装置。图10为本发明实施例的电子设备的硬件组成结构示意图；如图10所示，电子设备包括：至少一个处理器51和存储器52。电子设备中的各个组件通过总线系统53耦合在一起。可理解，总线系统53用于实现这些组件之间的连接通信。总线系统53除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图10中将各种总线都标为总线系统53。

可以理解，存储器52可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器52旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器51中，或者由处理器51实现。处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器51可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备(包括检测装置或检测网络训练装置)可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

作为一种实施方式，电子设备包括检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的检测区域。

在一实施例中，所述处理器执行所述程序时实现：获得用于网络训练的第四图像数据，以及所述第四图像数据中包括的标注区域对应的标注信息；所述标注区域表征所述第四图像数据中物体所在区域；采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

在一实施例中，所述处理器执行所述程序时实现：确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第三图像数据的更新标注区域；基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在一实施例中，所述处理器执行所述程序时实现：对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；将所述特征图输入至少一个池化层，获得与所述特征图的尺度不同的至少一个第二特征图；对具有不同尺度的所述第一特征图、所述至少一个第二特征图分别进行卷积处理，对卷积处理后的所述第一特征图、所述至少一个第二特征图进行融合，输出携带有标识待检测物体的估计区域的第二图像数据。

在一实施例中，所述处理器执行所述程序时实现：对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，输出二值化表示的携带有标识待检测物体的估计区域的第二图像数据。

在一实施例中，所述处理器执行所述程序时实现：将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

作为另一种实施方式，电子设备包括网络训练装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域；采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

在一实施例中，所述处理器执行所述程序时实现：基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在一实施例中，所述处理器执行所述程序时实现：确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

实施例六

在示例性实施例中，本发明实施例还提供了一种计算机存储介质，例如包括计算机程序的存储器52，上述计算机程序可由电子设备的处理器51执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

作为第一种实施方式，电子设备包括基于深度学习的物体检测装置，本发明实施例提供的计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现：基于第一图像数据和区域估计网络，获得第二图像数据，所述第二图像数据包括所述第一图像数据中待检测物体的估计区域；将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，获得所述第一图像数据中所述待检测物体的检测区域。

在一实施例中，该指令被处理器执行时实现：获得用于网络训练的第四图像数据，以及所述第四图像数据中包括的标注区域对应的标注信息；所述标注区域表征所述第四图像数据中物体所在区域；采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

在一实施例中，该指令被处理器执行时实现：确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；基于有向卷积层分别识别所述第四图像数据中的标注区域和更新标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，以及对所述更新标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在一实施例中，该指令被处理器执行时实现：对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；将所述特征图输入至少一个池化层，获得与所述特征图的尺度不同的至少一个第二特征图；对具有不同尺度的所述第一特征图、所述至少一个第二特征图分别进行卷积处理，对卷积处理后的所述第一特征图、所述至少一个第二特征图进行融合，输出携带有标识待检测物体的估计区域的第二图像数据。

在一实施例中，该指令被处理器执行时实现：对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，输出二值化表示的携带有标识待检测物体的估计区域的第二图像数据。

在一实施例中，该指令被处理器执行时实现：将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

作为第二种实施方式，电子设备包括网络训练装置，本发明实施例提供的计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现：获得用于网络训练的第四图像数据，以及所述第四图像数据中标注区域对应的标注信息；所述标注区域表征所述第四图像数据中检测物体所在区域；采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，所述卷积神经网络用于在训练过程中对所述第四图像数据的标注区域进行计算处理。

在一实施例中，该指令被处理器执行时实现：基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的物体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于第一图像数据和区域估计网络，获得第二图像数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述输出携带有标识待检测物体的估计区域的第二图像数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述第一图像数据和所述第二图像数据输入物体检测网络，以使所述物体检测网络基于所述估计区域对所述第一图像数据进行检测，包括：

7.一种网络训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，包括：

9.根据权利要求7所述的方法，其特征在于，所述采用包含有向卷积层的卷积神经网络对携带有标注区域的所述第四图像数据、所述标注区域对应的标注信息进行训练，获得物体检测网络，包括：

10.一种基于深度学习的物体检测装置，其特征在于，所述检测装置包括：第一获取单元和检测单元；其中，

11.根据权利要求10所述的装置，其特征在于，所述装置还包括第二获取单元和第一训练单元；其中，

12.根据权利要求11所述的装置，其特征在于，所述装置还包括第一更新单元，用于确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

13.根据权利要求10所述的装置，其特征在于，所述第一获取单元，用于对所述第一图像数据进行卷积处理，获得所述第一图像数据对应的第一特征图；将所述特征图输入至少一个池化层，获得与所述特征图的尺度不同的至少一个第二特征图；对具有不同尺度的所述第一特征图、所述至少一个第二特征图分别进行卷积处理，对卷积处理后的所述第一特征图、所述至少一个第二特征图进行融合，输出携带有标识待检测物体的估计区域的第二图像数据。

14.根据权利要求13所述的装置，其特征在于，所述第一获取单元，用于对融合后的所述第一特征图、所述至少一个第二特征图进行二值化处理，输出二值化表示的携带有标识待检测物体的估计区域的第二图像数据。

15.根据权利要求10所述的装置，其特征在于，所述检测单元，用于将所述第一图像数据和所述第二图像数据输入物体检测网络；所述物体检测网络包括有向卷积层；基于所述有向卷积层识别所述第二图像数据中的所述估计区域，确定所述第一图像数据中、与所述估计区域对应的目标区域，对所述第一图像数据中的所述目标区域进行卷积操作。

16.一种网络训练装置，其特征在于，所述装置包括：第三获取单元和第二训练单元；其中，

17.根据权利要求16所述的装置，其特征在于，所述第二训练单元，用于基于有向卷积层识别所述第四图像数据中的标注区域，对所述标注区域中的图像数据以及对应的标注信息进行训练，获得物体检测网络。

18.根据权利要求16所述的装置，其特征在于，所述装置还包括第二更新单元，用于确定除所述标注区域以外的背景区域的部分背景区域；所述部分背景区域采用随机方式从所述背景区域中确定；将所述部分背景区域添加至所述标注区域，生成所述第四图像数据的更新标注区域；

19.一种计算机存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至6任一项所述方法的步骤；或者，该指令被处理器执行时实现权利要求7至9任一项所述方法的步骤。

20.一种基于深度学习的物体检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述方法的步骤。

21.一种网络训练装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求7至9任一项所述方法的步骤。