CN110674932A

CN110674932A - 一种二阶段卷积神经网络目标检测网络训练方法及装置

Info

Publication number: CN110674932A
Application number: CN201910939899.6A
Authority: CN
Inventors: 陈志军
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-10

Abstract

本公开是关于一种二阶段卷积神经网络目标检测网络训练方法及装置，二阶段卷积神经网络目标检测网络训练方法包括：获取区域建议网络预测输出的特征图，特征图中包括有基于特征图中每个像素点生成的候选框；基于候选框中每个候选框的交除并值对候选框进行过滤；基于过滤后得到的全部候选框，对一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。在本公开中，由于一阶段卷积神经网络及二阶段卷积神经网络在训练过程中，选择过滤后的全部候选框作为训练候选框，可提高二阶段卷积神经网络目标检测的准确率及召回率。

Description

一种二阶段卷积神经网络目标检测网络训练方法及装置

技术领域

本公开涉及目标检测技术领域，尤其涉及一种二阶段卷积神经网络目标检测网络训练方法及装置。

背景技术

目前基于二阶段卷积神经网络目标检测方法的网络训练阶段包括一阶段卷积神经网络训练阶段和二阶段卷积神经网络训练阶段。

在一阶段卷积神经网络训练阶段中，需要对基于特征图生成的候选框进行过滤，并从过滤后的所有候选框中，按照设定比例选出少量的候选框进行训练。在二阶段卷积神经网络训练阶段中，需要对一阶段卷积神经网络训练阶段过滤得到的候选框再次过滤，将再次过滤后的候选框作为二阶段卷积神经网络训练阶段所用的候选框。

然而，应用上述二阶段卷积神经网络训练方法，经常会出现训练效果差的现象。并且基于上述训练方法得到的二阶段卷积神经网络进行目标检测的目标检测准确率及召回率也比较低。

发明内容

为克服相关技术中存在的问题，本公开提供一种二阶段卷积神经网络目标检测网络训练方法和一种二阶段卷积神经网络目标检测网络训练装置。

根据本公开的第一方面，提供了一种二阶段卷积神经网络目标检测网络训练方法，二阶段卷积神经网络目标检测的网络包括一阶段卷积神经网络和二阶段卷积神经网络，该方法包括：获取一阶段卷积神经网络预测输出的特征图，特征图中包括有基于特征图中每个像素点生成的候选框；基于候选框中每个候选框的交除并值对候选框进行过滤；基于过滤后得到的全部候选框，对一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。

在一些实施方式中，基于过滤后得到的全部候选框，对一阶段卷积神经网络进行训练，包括：

确定过滤后得到的全部候选框中每一候选框的标签值，其中，每一候选框中有目标，标签值为1，每一候选框中无目标，标签值为0；确定过滤后得到的全部候选框中每一候选框属于目标的目标概率值，作为第一目标概率值；基于预设的第一损失函数，以及标签值和第一目标概率值，确定过滤后得到的全部候选框中每一候选框的损失函数值，作为第一损失函数值；利用过滤后得到的全部候选框中每一候选框的第一损失函数值，确定过滤后得到的全部候选框的损失函数平均值，作为第一损失函数平均值；基于第一损失函数平均值修正所述一阶段卷积神经网络，直至第一损失函数平均值为预设范围内的损失函数平均值。

在一些实施方式中，第一损失函数为焦点损失函数。

在一些实施方式中，基于过滤后得到的全部候选框，对二阶段卷积神经网络进行训练，包括：获取一阶段卷积神经网络训练时所用的全部候选框，以及全部候选框中每一候选框的标签值，一阶段卷积神经网络训练时所用的全部候选框为过滤后得到的全部候选框；确定全部候选框中每一候选框属于目标的目标概率值，作为第二目标概率值；基于预设的第二损失函数，以及标签值至及第二目标概率值，确定全部候选框中每一候选框的损失函数值，作为第二损失函数值；利用全部候选框中每一候选框的第二损失函数值，确定全部候选框的损失函数平均值，作为第二损失函数平均值；基于第二损失函数平均值修正二阶段卷积神经网络，直至第二损失函数平均值为预设范围内的损失函数值。

在一些实施方式中，第二损失函数为焦点损失函数。

根据本公开的第二方面，提供了一种二阶段卷积神经网络目标检测方法，方法包括：获取待检测图像，并基于一阶段卷积神经网络生成区域建议，其中，一阶段卷积神经网络为基于第一方面所述的二阶段卷积神经网络目标检测的网络训练方法训练后的一阶段卷积神经网络；基于区域建议及二阶段卷积神经网络，得到图像中目标的类别及目标在图像中的位置，其中，二阶段卷积神经网络为基于第一方面所述的二阶段卷积神经网络目标检测的网络训练方法训练后的二阶段卷积神经网络。

根据本公开的第三方面，提供了一种二阶段卷积神经网络目标检测网络训练装置，二阶段卷积神经网络目标检测的网络包括一阶段卷积神经网络和二阶段卷积神经网络，装置包括：获取模块，配置用于获取一阶段卷积神经网络预测输出的特征图，特征图中包括有基于特征图中每个像素点生成的候选框；过滤模块，配置用于基于候选框中每个候选框的交除并值对候选框进行过滤；训练模块，配置用于基于过滤后得到的全部候选框，对一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。

在一些实施方式中，训练模块用于采用如下方式，基于过滤后得到的全部候选框，对二阶段卷积神经网络进行训练：确定过滤后得到的全部候选框中每一候选框的标签值，其中，每一候选框中有目标，标签值为1，每一候选框中无目标，标签值为0；确定所述过滤后得到的全部候选框中每一候选框属于目标的目标概率值，作为第一目标概率值；基于预设的第一损失函数，以及所述标签值和所述第一目标概率值，确定所述过滤后得到的全部候选框中每一候选框的损失函数值，作为第一损失函数值；利用过滤后得到的全部候选框中每一候选框的第一损失函数值，确定过滤后得到的全部候选框的损失函数平均值，作为第一损失函数平均值；基于第一损失函数平均值修正一阶段卷积神经网络，直至第一损失函数平均值为预设范围内的损失函数平均值。

在一些实施方式中，第一损失函数为焦点损失函数。

在一些实施方式中，训练模块用于采用如下方式，基于过滤后得到的全部候选框，对二阶段卷积神经网络进行训练：获取一阶段卷积神经网络训练时所用的全部候选框，以及全部候选框中每一候选框的标签值，一阶段卷积神经网络训练时所用的全部候选框为过滤后得到的全部候选框；确定全部候选框中每一候选框属于目标的目标概率值，作为第二目标概率值；基于预设的第二损失函数，以及标签值至及第二目标概率值，确定全部候选框中每一候选框的损失函数值，作为第二损失函数值；利用全部候选框中每一候选框的第二损失函数值，确定全部候选框的损失函数平均值，作为第二损失函数平均值；基于第二损失函数平均值修正二阶段卷积神经网络，直至第二损失函数平均值为预设范围内的损失函数值。

在一些实施方式中，第二损失函数为焦点损失函数。

根据本公开的第四方面，提供了一种二阶段卷积神经网络目标检测装置，该装置包括：生成区域建议模块，配置用于获取待检测图像，并基于一阶段卷积神经网络生成区域建议，其中，一阶段卷积神经网络为基于第一方面所述的二阶段卷积神经网络目标检测网络训练方法训练后的一阶段卷积神经网络；获得目标检测结果模块，配置用于基于区域建议及二阶段卷积神经网络，得到图像中目标的类别及目标在图像中的位置，其中，二阶段卷积神经网络为基于第一方面所述的二阶段卷积神经网络目标检测网络训练方法训练后的二阶段卷积神经网络。

根据本公开的第五方面，提供了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行前述方法中的任一方法。

根据本公开的第六方面，提供了一种电子设备，电子设备包括：存储器，配置用于存储指令；以及处理器，配置用于调用指令执行前述方法中的任一方法。

本公开的实施例提供的技术方案可以包括以下有益效果：在二阶段卷积神经网络目标检测网络训练过程中，选择过滤后的全部候选框作为训练候选框，避免有目标候选框与无目标候选框选择失衡而造成二阶段卷积神经网络训练效果不理想的情况出现。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是示出根据本公开的第一示例性实施例的二阶段卷积神经网络目标检测网络训练方法的流程图。

图2是示出根据本公开的第二示例性实施例的二阶段卷积神经网络目标检测网络训练方法的流程图。

图3是示出根据本公开的第三示例性实施例的二阶段卷积神经网络目标检测网络训练方法的流程图。

图4是示出根据本公开的第四示例性实施例的二阶段卷积神经网络目标检测方法的流程图。

图5是示出根据本公开的第四示例性实施例的二阶段卷积神经网络目标检测网络训练装置的框图。

图6是示出根据本公开的第四示例性实施例的二阶段卷积神经网络的目标检测装置的框图。

图7是示出根据本公开的第五示例性实施例的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本公开的示例性实施例的技术方案可以应用于所有二阶段目标检测算法中。所述二阶段目标检测算法包括，基于快速区域建议网络及卷积神经网络的目标检测算法、基于更加快速的区域建议网络及卷积神经网络的目标检测算法等等，但是本公开不限于此。

相关技术中，基于二阶段卷积神经网络的目标检测算法，如基于更加快速的区域建议网络及卷积神经网络的目标检测算法。在利用更加快速的区域建议网络及卷积神经网络的目标检测算法进行目标检测之前，需要对二阶段卷积神经网络进行训练，利用训练好的二阶段卷积神经网络进行目标检测。上述算法的二阶段卷积神经网络训练阶段包括：一阶段卷积神经网络和二阶段卷积神经网络训练阶段。在一阶段卷积神经网络训练阶段中，首先计算每个候选框的交除并(Intersection Over Union，IOU)值，并利用计算得到的IOU值对候选框进行过滤，得到IOU值满足大于0.7及小于0.3的候选框，并从过滤后得到的全部候选框中随机选择部分候选框作为一阶段卷积神经网络的训练候选框。在二阶段卷积神经网络训练阶段中，计算一阶段卷积神经网络的训练候选框中每个候选框有目标的目标概率值，根据目标概率值对一阶段卷积神经网络的训练候选框排序，选出前K个一阶段卷积神经网络的训练候选框，其中K小于256，再经过难样本挖掘函数(Object Hard ExampleMining，OHEM)筛选K个候选框中有目标的候选框，作为二阶段卷积神经网络训练阶段的候选框。上述一阶段卷积神经网络训练阶段随机选择训练候选框且随机选择训练候选框的数量少，二阶段卷积神经网络训练阶段在一阶段卷积神经网络训练阶段选择的训练候选框中只选择出有目标的候选框作为二阶段卷积神经网络训练阶段的训练候选框，使一阶段卷积神经网络和二阶段卷积神经网络训练阶段网络学习效果差。而利用上述训练后的二阶段卷积神经网络进行目标检测，目标检测的准确率及召回率低。

本公开提供的一种二阶段卷积神经网络目标检测网络训练方法，包括一阶段卷积神经网络和二阶段卷积神经网络的训练方法。一阶段卷积神经网络和二阶段卷积神经网络训练方法为：一阶段卷积神经网络预测输出的特征图，特征图中包括有基于特征图中每个像素点生成的候选框，一阶段卷积神经网络对生成的所有候选框通过IOU值过滤部分候选框后，通过过滤后得到的所有候选框训练一阶段卷积神经网络及二阶段卷积神经网络。由于训练过程中的候选框数量多、对有无目标候选框均进行训练，能够避免有、无目标候选框选择比例失衡的情况出现，使得卷积神经网络训练效果更好。基于本发明提供的一种二阶段卷积神经网络目标检测的网络训练方法训练后的卷积神经网络进行目标检测，可提高目标检测的准确率及召回率。

将在下面详细描述本公开提供的解决方案。

图1示出根据本公开的第一示例性实施例的一种二阶段卷积神经网络目标检测网络训练方法的流程图，二阶段卷积神经网络目标检测的网络包括一阶段卷积神经网络和二阶段卷积神经网络。参照图1，二阶段卷积神经网络目标检测网络训练方法包括步骤S110至步骤S130。

在步骤S110中，获取一阶段卷积神经网络预测输出的特征图，特征图中包括有基于特征图中每个像素点生成的候选框。

在示例中，二阶段卷积神经网络的卷积层对输入的图像提取特征，基于提取的特征生成初步特征图。一阶段卷积神经网络基于初步特征图，在初步特征图的每个像素点生成多个候选框，得到一阶段卷积神经网络预测输出的、具有候选框的特征图。

在示例中，一阶段卷积神经网络为区域建议网络，二阶段卷积神经网络为全卷积神经网络，区域建议网络及全卷积神经网络为两种常用的卷积神经网络。在二阶段卷积神经网络的目标检测中，二阶段中每一阶段作用不同，因此称为二阶段。其中，二阶段中的一阶段是指：在区域建议网络生成候选框并映射至全卷积神经网络的卷积层生成的特征图中，得到区域建议。二阶段中的二阶段是指：一阶段生成的区域建议经过全卷积神经网络的池化层、全连接层等全卷积神经网络层，得到候选框中目标类别及候选框中目标的位置坐标。

在步骤S120中，基于候选框中每个候选框的IOU值对候选框进行过滤。

在示例中，基于候选框中每个候选框的IOU值对候选框进行过滤时，首先，计算各个候选框的IOU值。其中，IOU值为：每个候选框与预先圈定的目标真实框交集区域的面积/每个候选框与预先圈定的目标真实框并集区域的面积。然后，过滤掉IOU值大于0.3且小于0.7的候选框。

在步骤S130中，基于过滤后得到的全部候选框，对一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。

在示例中，一阶段卷积神经网络及二阶段卷积神经网络的训练候选框均为基于IOU值一次过滤后得到的全部候选框。

在一阶段卷积神经网络及二阶段卷积神经网络训练过程中，均基于IOU值一次过滤后得到的全部候选框进行训练，而不进行二次过滤，由于候选框数量多，且避免由于人为设置有无目标的候选框选择比例，导致有无目标候选框选择比例失衡的情况出现，能够提高一阶段卷积神经网络及二阶段卷积神经网络的训练效果。

图2示出根据本公开的第二示例性实施例的一阶段卷积神经网络训练方法的流程图。参照图2，一阶段卷积神经网络训练方法包括步骤S210至步骤S270。在第二示例性实施例中，步骤S210及步骤S220与图1示出本公开的第一示例性实施例的步骤S110及步骤S120分别相同，此处不再赘述。

在步骤S230中，确定过滤后得到的全部候选框中每一候选框的标签值。

在示例中，有、无目标候选框的定义方式为：若候选框的IOU的值大于0.7，则该候选框被定义为有目标的候选框，若候选框的IOU值小于0.3，则该候选框被定义为无目标的候选框。而每一候选框的标签值基于有、无目标的候选框而得出，得出每一候选框的标签值的方式为：若每一候选框中有目标，标签值为1，若每一候选框中无目标，标签值为0。其中，每个候选框的标签值是不变的。

在步骤S240中，确定过滤后得到的全部候选框中每一候选框属于目标的目标概率值，作为第一目标概率值。

在示例中，基于一阶段卷积神经网络确定过滤后得到的全部候选框中每一候选框属于目标的目标概率值。

在步骤S250中，基于预设的第一损失函数，以及标签值和第一目标概率值，确定过滤后得到的全部候选框中每一候选框的损失函数值，作为第一损失函数值。

在示例中，第一损失函数为焦点损失focal loss函数，focal loss函数公式为：

其中，y为每个候选框的标签值，y’为每个候选框的目标概率值，γ为调整因子，调节简单样本权重降低的速率，目前γ值为2损失函数最优，因此本公开中将γ值设置为2。根据公式可看出，需要根据每个候选框的标签值选择对应的focal loss函数计算公式。若y＝1，即当前候选框为有目标的候选框，将y’输入至第一个公式，得到的值即为第一损失函数，若y＝0，即当前候选框为无目标的候选框，将y’输入至第二个公式，得到的值即为第一损失函数。

在步骤S260中，利用过滤后得到的全部候选框中每一候选框的第一损失函数值，确定过滤后得到的全部候选框的损失函数平均值，作为第一损失函数平均值。

在示例中，第一损失函数平均值为：过滤后得到的全部候选框中每一候选框的第一损失函数值的和除以候选框的个数。

在步骤S270中，基于第一损失函数平均值修正一阶段卷积神经网络，直至第一损失函数平均值为预设范围内的损失函数平均值。

在示例中，基于训练候选框的数量合理预先设定损失函数平均值，例如，可将损失函数值设置为0.05～0.3范围内。若第一损失函数平均值在0.05～0.3的范围内，则一阶段卷积神经网络训练完成，若第一损失函数平均值大于0.3，则继续调整一阶段卷积神经网络的参数，直至第一损失函数平均值在0.05～0.3的范围内，则一阶段卷积神经网络训练完成，记录此时一阶段卷积神经网络的参数值，并将此参数值设定为基于该一阶段卷积神经网络进行目标检测的一阶段卷积神经网络的参数值。

在本公开的第二示例性实施例中，一阶段卷积神经网络的训练过程中，在利用过滤后得到的全部候选框训练的同时，通过focal loss函数平衡不同IOU值的有目标候选框及无目标候选框，focal loss函数降低了大量IOU值低于0.3的候选框在训练中所占的权重，进一步优化一阶段卷积神经网络的训练效果。

图3示出根据本公开的第三示例性实施例的二阶段卷积神经网络训练方法的流程图。参照图3，二阶段卷积神经网络训练方法包括步骤S310至步骤S350。

在步骤S310中，获取一阶段卷积神经网络训练时所用的全部候选框，以及全部候选框中每一候选框的标签值。

在示例中，一阶段卷积神经网络训练时所用的全部候选框为过滤后得到的全部候选框。

在步骤S320中，确定全部候选框中每一候选框属于目标的目标概率值，作为第二目标概率值。

在示例中，基于二阶段卷积神经网络确定过滤后得到的全部候选框中每一候选框属于目标的目标概率值，该目标概率值为第二目标概率值。

在步骤S330中，基于预设的第二损失函数，以及标签值至及第二目标概率值，确定全部候选框中每一候选框的损失函数值，作为第二损失函数值。

在示例中，第二损失函数为focal loss函数。其中，focal loss函数的计算公式中各个参数的定义、公式基于不同条件的计算方式，与步骤S250中对于focal loss函数的计算公式中各个参数的定义、公式基于不同条件的计算方式所述的内容相同，此处不在赘述。

在步骤S340中，利用全部候选框中每一候选框的第二损失函数值，确定全部候选框的损失函数平均值，作为第二损失函数平均值。

在示例中，第二损失函数平均值为：过滤后得到的全部候选框中每一候选框的第二损失函数值的和除以候选框的个数。

在步骤S350中，基于第二损失函数平均值修正二阶段卷积神经网络，直至第二损失函数平均值为预设范围内的损失函数值。

在示例中，一阶段卷积神经网络与二阶段卷积神经网络预先设定的损失函数平均值可相同也可不同。二阶段卷积神经网络基于训练候选框的数量合理预先设定损失函数平均值，例如，可将损失函数值设置为0.05～0.2范围内。若第二损失函数平均值在0.05～0.2的范围内，则二阶段卷积神经网络训练完成，若第二损失函数平均值大于0.2，则继续调整二阶段卷积神经网络的参数，直至第二损失函数平均值在0.05～0.2的范围内，则二阶段卷积神经网络训练完成，记录此时二阶段卷积神经网络的参数值，并将此参数值设定为基于该二阶段卷积神经网络进行目标检测的二阶段卷积神经网络的参数值，完成网络的训练。

将一阶段卷积神经网络训练中用到的全部候选框作为二阶段卷积神经网络训练过程的候选框，而不是在一阶段训练后的候选框中选择前K个候选框进行二阶段卷积神经网络训练，可避免因有无目标的候选框选择不恰当，造成二阶段卷积神经网络训练效果差的情况出现。另外，通过focal loss函数计算二阶段卷积神经网络的损失值，优化二阶段卷积神经网络的训练效果，进而提高目标检测的准确率及召回率。

图4示出根据本公开的第四示例性实施例的一种二阶段卷积神经网络目标检测方法流程图。参照图4，一种二阶段卷积神经网络目标检测方法包括步骤S410至步骤S430，该目标检测方法基于经过上述的二阶段卷积神经网络目标检测的网络训练方法训练后的一阶段卷积神经网络及二阶段卷积神经网络进行目标检测，其中，一阶段卷积神经网络为区域建议网络，二阶段卷积神经网络为全卷积神经网络。

在步骤S410中，获取待检测图像，并基于一阶段卷积神经网络生成区域建议。

在示例中，一阶段卷积神经网络为基于上述的二阶段卷积神经网络目标检测的网络训练方法训练后的一阶段卷积神经网络，其中，一阶段卷积神经网络为区域建议网络。

在示例中，将带有目标真实框的图片输入到二阶段卷积神经网络的卷积层，提取特征并生成特征对应的特征图，在该特征图上利用区域建议网络生成候选框，在根据每个候选框的IOU值，过滤IOU值在0.3至0.7范围内的部分候选框，过滤后得到全部候选框作为目标候选框；接下来对每个目标候选框在训练好的一阶段卷积神经网络的卷积层处理及目标区域池化处理，之后利用一阶段卷积神经网络的分类器计算每个目标候选框的打分，及利用回归器回归每个目标候选框位置，并根据分数排序，选出前K个(如1000个)目标候选框，经过多次迭代后，选择前M个如(200个)目标候选框作为最终的目标候选框集合，映射至特征图中，生成区域建议。

在步骤S420中，基于区域建议及二阶段卷积神经网络，得到图像中目标的类别及目标在图像中的位置。

在示例中，将区域建议输入至二阶段卷积神经网络，区域建议经过二阶段卷积神经网络的池化处理及二阶段卷积神经网络的一层全连接层后，利用softmax分类器对区域建议中的目标候选框进行精确的分类及确定目标候选框的位置坐标，输出目标检测结果，其中，目标候选框的位置坐标包括目标候选框中心点的坐标及目标候选框的宽度和高度。

由于训练阶段，候选框的多少不会影响训练速度，所以在不影响训练速度的前提下，与现有的二阶段目标检测算法相比，基于本发明提供的一种二阶段卷积神经网络目标检测的网络训练方法训练后的卷积神经网络进行目标检测，提高目标检测的准确率及召回率。

图5示出根据本公开的第五示例性实施例的一种二阶段卷积神经网络目标检测网络训练装置1000的框图，二阶段卷积神经网络目标检测的网络包括一阶段卷积神经网络和二阶段卷积神经网络。

参照图5，二阶段卷积神经网络目标检测网络训练装置1000包括：获取模块110，配置用于获取一阶段卷积神经预测输出的特征图，特征图中包括有基于特征图中每个像素点生成的候选框；过滤模块120，配置用于基于候选框中每个候选框的交除并值对候选框进行过滤；训练模块130，配置用于基于过滤后得到的全部候选框，对一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。

在一些实施方式中，训练模块130采用如下方式基于过滤后得到的全部候选框，对一阶段卷积神经网络进行训练：确定过滤后得到的全部候选框中每一候选框的标签值，其中，每一候选框中有目标，标签值为1，每一候选框中无目标，标签值为0；确定过滤后得到的全部候选框中每一候选框属于目标的目标概率值，作为第一目标概率值；基于预设的第一损失函数，以及标签值和第一目标概率值，确定过滤后得到的全部候选框中每一候选框的损失函数值，作为第一损失函数值；利用过滤后得到的全部候选框中每一候选框的第一损失函数值，确定过滤后得到的全部候选框的损失函数平均值，作为第一损失函数平均值；基于第一损失函数平均值修正一阶段卷积神经网络，直至第一损失函数平均值为预设范围内的损失函数平均值。

在一些实施方式中，第一损失函数为焦点损失函数。

在一些实施方式中，训练模块130采用如下方式基于过滤后得到的全部候选框，对二阶段卷积神经网络进行训练：获取一阶段卷积神经网络训练时所用的全部候选框，以及全部候选框中每一候选框的标签值，一阶段卷积神经网络训练时所用的全部候选框为过滤后得到的全部候选框；确定全部候选框中每一候选框属于目标的目标概率值，作为第二目标概率值；基于预设的第二损失函数，以及标签值至及第二目标概率值，确定全部候选框中每一候选框的损失函数值，作为第二损失函数值；利用全部候选框中每一候选框的第二损失函数值，确定全部候选框的损失函数平均值，作为第二损失函数平均值；基于第二损失函数平均值修正二阶段卷积神经网络，直至第二损失函数平均值为预设范围内的损失函数值。

在一些实施方式中，第二损失函数为焦点损失函数。

图6示出根据本公开的第六示例性实施例的一种二阶段卷积神经网络目标检测装置2000的框图。

参照图6，二阶段卷积神经网络目标检测装置2000包括：生成区域建议模块210，配置用于获取待检测图像，并基于一阶段卷积神经网络生成区域建议，其中，一阶段卷积神经网络为基于二阶段卷积神经网络目标检测的网络训练方法训练后的一阶段卷积神经网络；获得目标检测结果模块220，配置用于基于区域建议及二阶段卷积神经网络，得到图像中目标的类别及目标在图像中的位置，其中，二阶段卷积神经网络为基于二阶段卷积神经网络目标检测的网络训练方法训练后的二阶段卷积神经网络。

此外，本公开还提供了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质可以存储有计算机可执行指令，计算机可执行指令在由处理器执行时，可以执行前述第一示例性实施例至第四示例性实施例以及前述实施方式中描述的方法中的任一方法。

此外，本公开还提供了一种电子设备，电子设备可以包括：存储器，配置用于存储指令；以及处理器，配置用于调用指令执行前述第一示例性实施例至第四示例性实施例以及前述实施方式中描述的方法中的任一方法。

图7是示出根据本公开的第七示例性实施例的装置500的框图。例如，装置500可以被提供为一终端。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到装置500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在二阶段卷积神经网络目标检测的网络训练过程中，选择过滤后的全部候选框作为训练候选框，避免有目标候选框与无目标候选框选择失衡而造成二阶段卷积神经网络训练效果不理想的情况出现。利用二阶段卷积神经网络目标检测的网络训练装置训练后的二阶段卷积神经网络进行目标检测，提高目标检测的准确率及召回率。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种二阶段卷积神经网络目标检测网络训练方法，其特征在于，所述二阶段卷积神经网络目标检测网络包括一阶段卷积神经网络和二阶段卷积神经网络，所述方法包括：

获取所述一阶段卷积神经网络预测输出的特征图，所述特征图中包括有基于所述特征图中每个像素点生成的候选框；

基于所述候选框中每个候选框的交除并值对所述候选框进行过滤；

基于过滤后得到的全部候选框，对所述一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。

2.根据权利要求1所述的方法，其特征在于，所述基于过滤后得到的全部候选框，对一阶段卷积神经网络进行训练，包括：

确定过滤后得到的全部候选框中每一候选框的标签值，其中，所述每一候选框中有目标，所述标签值为1，所述每一候选框中无目标，所述标签值为0；

确定所述过滤后得到的全部候选框中每一候选框属于目标的目标概率值，作为第一目标概率值；

基于预设的第一损失函数，以及所述标签值和所述第一目标概率值，确定所述过滤后得到的全部候选框中每一候选框的损失函数值，作为第一损失函数值；

利用所述过滤后得到的全部候选框中每一候选框的第一损失函数值，确定所述过滤后得到的全部候选框的损失函数平均值，作为第一损失函数平均值；

基于所述第一损失函数平均值修正所述一阶段卷积神经网络，直至所述第一损失函数平均值为预设范围内的损失函数平均值。

3.根据权利要求2所述的方法，其特征在于，所述第一损失函数为焦点损失函数。

4.根据权利要求1或2所述的方法，其特征在于，所述基于过滤后得到的全部候选框，对二阶段卷积神经网络进行训练，包括：

获取一阶段卷积神经网络训练时所用的全部候选框，以及所述全部候选框中每一候选框的标签值，一阶段卷积神经网络训练时所用的全部候选框为过滤后得到的全部候选框；

确定所述全部候选框中每一候选框属于目标的目标概率值，作为第二目标概率值；

基于预设的第二损失函数，以及所述标签值至及所述第二目标概率值，确定所述全部候选框中每一候选框的损失函数值，作为第二损失函数值；

利用所述全部候选框中每一候选框的第二损失函数值，确定所述全部候选框的损失函数平均值，作为第二损失函数平均值；

基于所述第二损失函数平均值修正所述二阶段卷积神经网络，直至所述第二损失函数平均值为预设范围内的损失函数值。

5.根据权利要求4所述的方法，其特征在于，所述第二损失函数为焦点损失函数。

6.一种二阶段卷积神经网络目标检测方法，其特征在于，所述方法包括：

获取待检测图像，并基于一阶段卷积神经网络生成区域建议，其中，所述一阶段卷积神经网络为基于权利要求1至5中任一项所述的二阶段卷积神经网络目标检测的网络训练方法训练后的一阶段卷积神经网络；

基于所述区域建议及二阶段卷积神经网络，得到所述图像中目标的类别及目标在所述图像中的位置，其中，所述二阶段卷积神经网络为基于权利要求1至5中任一项所述的二阶段卷积神经网络目标检测的网络训练方法训练后的二阶段卷积神经网络。

7.一种二阶段卷积神经网络目标检测网络训练装置，其特征在于，所述二阶段卷积神经网络目标检测网络包括一阶段卷积神经网络和二阶段卷积神经网络，所述装置包括：

获取模块，配置用于获取一阶段卷积神经网络预测输出的特征图，所述特征图中包括有基于所述特征图中每个像素点生成的候选框；

过滤模块，配置用于基于所述候选框中每个候选框的交除并值对所述候选框进行过滤；

训练模块，配置用于基于过滤后得到的全部候选框，对一阶段卷积神经网络和二阶段卷积神经网络分别进行训练。

8.根据权利要求7所述的装置，其特征在于，所述训练模块用于采用如下方式，基于过滤后得到的全部候选框，对一阶段卷积神经网络进行训练：

9.根据权利要求8所述的装置，其特征在于，所述第一损失函数为焦点损失函数。

10.根据权利要求7或8所述的装置，其特征在于，所述训练模块用于采用如下方式，基于过滤后得到的全部候选框，对二阶段卷积神经网络进行训练：

11.根据权利要求10所述的装置，其特征在于，所述第二损失函数为焦点损失函数。

12.一种二阶段卷积神经网络目标检测装置，其特征在于，所述装置包括：

生成区域建议模块，配置用于获取待检测图像，并基于一阶段卷积神经网络生成区域建议，其中，所述一阶段卷积神经网络为基于权利要求1至5中任一项所述的二阶段卷积神经网络目标检测的网络训练方法训练后的一阶段卷积神经网络；

获得目标检测结果模块，配置用于基于所述区域建议及二阶段卷积神经网络，得到所述图像中目标的类别及目标在所述图像中的位置，并输出，其中，所述二阶段卷积神经网络为基于权利要求1至5中任一项所述的二阶段卷积神经网络目标检测的网络训练方法训练后的二阶段卷积神经网络。

13.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-6中任一项所述的方法。

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，配置用于存储指令；以及

处理器，配置用于调用所述指令执行权利要求1-6中任一项所述的方法。