CN112001211B

CN112001211B - 对象检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112001211B
Application number: CN201910449107.7A
Authority: CN
Inventors: 王坤; 马佳彬; 何哲琪; 王贺璋; 曾星宇
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2024-04-19
Anticipated expiration: 2039-05-27
Also published as: JP2021530015A; JP7101267B2; KR102455745B1; SG11202012295UA; KR20210006429A; CN112001211A; WO2020238101A1; US20210117725A1

Abstract

本申请实施例公开了一种对象检测方法、装置、设备及计算机可读存储介质，其中方法包括：利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果；将检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本；从第一图像样本集中选择至少一个图像样本，并从第二图像样本集中选择至少一个图像样本；使用神经网络对选择的各个图像样本进行对象检测，输出预测结果；根据输出的预测结果以及所述选择的各个图像样本的真值，对神经网络的网络参数进行调整。在本申请实施例中，可以使得神经网络在已经训练过的场景中保持已有的检测性能的情况下，在新的场景下也能满足对新场景中对象的检测需求。

Description

对象检测方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及深度学习技术领域，尤其涉及一种对象检测方法、装置、设备及计算机可读存储介质。

背景技术

随着深度学习神经网络的发展，深度学习神经网络在各个领域得到了广泛的应用，例如，应用于目标检测的卷积神经网络，应用于语言翻译的循环神经网络等。

然而，深度神经网络这项技术在设计之初，假设所有的数据已经准备完成。神经网络训练过程中，其参数(Parameters)会根据目标任务进行更新，从而使神经网络成功拟合(Fitting)到目标数据上；当有新的任务以及新的数据到来时，神经网络以往习得的知识会在训练中重写，从而失去在以往任务和数据上的性能。

发明内容

本申请实施例提供一种对象检测方法，可以使得神经网络在已经训练过的场景中保持已有的检测性能的情况下，快速具有对新场景中对象的检测性能。具有持续学习的能力，即使得神经网络一方面保持在原有场景上的处理性能，另一方面也能很好的满足新的场景中的任务处理的需求。

第一方面，本申请实施例提供了一种对象检测方法，该方法包括：

利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果；

将所述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本；

从所述第一图像样本集中选择至少一个图像样本，并从所述第二图像样本集中选择至少一个图像样本；

使用所述神经网络对选择的各个图像样本进行对象检测，输出预测结果；

根据输出的预测结果以及所述选择的各个图像样本的真值，对所述神经网络的网络参数进行调整。

在一种可选的实施方式中，所述方法还包括：

利用网络参数更新后的神经网络对第二域的图像进行对象检测。

在一种可选的实施方式中，所述第二域为一个，所述第二图像样本集为一个，所述第一图像样本集中的图像样本的数量大于所述第二图像样本集中的图像样本的数量，从所述第一图像样本集中选择的图像样本的数量和从所述第二图像样本集中选择的图像样本的数量之间的比值在第一比例范围内。

在一种可选的实施方式中，所述第二域为k个，所述第二图像样本集为k个，所述第一图像样本集中的图像样本的数量大于各个第二图像样本集中的图像样本的数量，从所述第一图像样本集中选择的图像样本的数量和从各个第二图像样本集中选择的图像样本的数量之间的比值在第二比例范围内，其中，k为大于1的整数。

在一种可选的实施方式中，在得到网络参数更新后的神经网络之后，所述方法还包括：

将所述第二图像样本集合并到所述第一图像样本集中，得到新的第一图像样本集。

在一种可选的实施方式中，在得到所述新的第一图像样本集之后，所述方法还包括：

基于所述网络参数更新后的神经网络对所述新的第一图像样本集中的各个图像样本进行处理的处理结果，及所述新的第一图像样本集中的各个图像样本的真值，对所述新的第一图像样本集中的图像样本进行筛选。

在一种可选的实施方式中，基于所述网络参数更新后的神经网络对所述新的第一图像样本集中的各个图像样本进行处理的处理结果，及所述新的第一图像样本集中的各个图像样本的真值，对所述新的第一图像样本集中的图像样本进行筛选，包括：

将所述新的第一图像样本集中的图像样本输入到所述网络参数更新后的神经网络中，得到各个图像样本的处理结果；

基于各个图像样本的处理结果及其真值，确定所述网络参数更新后的神经网络在处理各个图像样本时的损失值；

将所述新的第一图像样本集中损失值小于第二阈值的图像样本丢弃。

在一种可选的实施方式中，确定检测结果的可信度，包括：

将检测结果与所述检测结果所对应的图像的真值进行对比，得到所述检测结果的可信度。

第二方面，本申请实施例提供了一种对象检测装置，该装置包括：

检测模块，用于利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果；

样本收集模块，用于将所述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本；

样本选择模块，用于从所述第一图像样本集中选择至少一个图像样本，并从所述第二图像样本集中选择至少一个图像样本；

所述检测模块，还用于使用所述神经网络对选择的各个图像样本进行对象检测，输出预测结果；

参数调整模块，用于根据输出的预测结果以及所述选择的各个图像样本的真值，对所述神经网络的网络参数进行调整。

在一种可选的实施方式中，所述检测模块，还用于利用网络参数更新后的神经网络对第二域的图像进行对象检测。

在一种可选的实施方式中，所述对象检测装置还包括：

样本合并模块，用于在得到网络参数更新后的神经网络之后，将所述第二图像样本集合并到所述第一图像样本集中，得到新的第一图像样本集。

在一种可选的实施方式中，所述对象检测装置还包括：

筛选模块，用于在得到所述新的第一图像样本集之后，基于所述网络参数更新后的神经网络对所述新的第一图像样本集中的各个图像样本进行处理的处理结果，及所述新的第一图像样本集中的各个图像样本的真值，对所述新的第一图像样本集中的图像样本进行筛选。

在一种可选的实施方式中，所述筛选模块包括：

处理子模块，用于将所述新的第一图像样本集中的图像样本输入到所述网络参数更新后的神经网络中，得到各个图像样本的处理结果；

确定子模块，用于基于各个图像样本的处理结果及其真值，确定所述网络参数更新后的神经网络在处理各个图像样本时的损失值；

删除子模块，用于将所述新的第一图像样本集中损失值小于第二阈值的图像样本丢弃。

在一种可选的实施方式中，所述对象检测装置还包括：

比对模块，用于将检测结果与所述检测结果所对应的图像的真值进行对比，得到所述检测结果的可信度。

第三方面，本申请实施例提供了一种对象检测设备，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述第一方面的方法。

在本申请实施例中，由于在对第二域的图像进行检测，得到检测结果后，将检测结果的可信度小于第一阈值的图像作为第二图像样本；然后使用神经网络对分别从第一图像样本和第二图像样本中选择图像进行检测得到预测结果；最后根据检测结果以及被选择的各个图像样本的真值，对神经网络进行参数调整；相当于在对神经网络进行训练时，既用第一图像样本集中的图像样本对神经网络进行训练，也用第二图像样本及中的图像样本对神经网络进行训练，从而使得神经网络既能保持在第一域的检测性能，又能满足第二域中的检测需求，即使得神经网络在已经训练过的场景中保持已有的检测性能的情况下，在新的场景下也能满足对新场景中对象的检测需求。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种对象检测方法的示意流程图；

图2是本申请实施例提供的另一种对象检测方法的示意流程图；

图3是本申请实施例提供的再一种对象检测方法的示意流程图；

图4是本申请实施例提供的对象检测方法中的神经网络的训练框架示意图；

图5为本申请实施例提供的一种双池数据组合对神经网络进行训练的示意图；

图6为本申请实施例提供的一种多池数据组合对神经网络进行训练的示意图；

图7是本申请实施例提供的一种对象检测装置的示意框图；

图8是本申请实施例提供的一种对象检测设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

一个好的神经网络，通常要具有一定的适应能力，以快速部署到各个地方。但是因为神经网络本身的能力有限，以及不同地域或场景图像样本数据的差异性，比如城市道路多建筑，乡村道路多植被等，使用单一图像样本数据源训练得来的神经网络在应用于其他地域或场景时，则可能会出现问题。例如，对于道路的识别，训练时采用的图像样本全是城市道路样本，则在应用时，可能会很好识别出城市道路，但对于乡村道路的识别，则可能会出现识别错误的情况。最稳妥的方法往往是针对不同的地域，训练不同的神经网络。但是该方法需要重新采集、标注数据，神经网络训练重新开始，非常的耗时耗力。

对此，本申请实施例提供一种对象检测方法，可以使得神经网络在已经训练过的场景中保持已有的检测性能的情况下，在新的场景下快速适应对新场景中对象的检测性能。

参见图1，图1是本申请实施例提供一种对象检测方法的示意流程图，如图所示该方法可包括：

101：利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果。

在本申请实施例中，上述第一域和第二域是指神经网络的两个不同的应用范围。第一域和第二域的不同之处可以在于：①、应用领域的不同，其中应用领域可以包括智能视频，安防监控，高级辅助驾驶系统(Advanced Driving Assistant System,ADAS)，自动驾驶(Automatic Driving,AD)等领域；例如，第一域为安防监控领域中对A对象的检测，而第二域为自动驾驶领域对A对象或与A对象类似的对象进行检测；②、环境空间/时间的不同；③、来源不同；例如，第一域可以是在模拟环境中对A对象的检测，而第二域是真实环境中对A对象或与A对象类似的对象进行检测。上述对象可以是人、动物、机动车、非机动车、交通标志、交通灯、障碍物等。

在本申请实施例中，上述神经网络可以是任何深度学习神经网络。例如，可以是用于目标检测的卷积神经网络，也可以是用于语音识别的循环神经网络，还可以是用于场景识别的递归神经网络的等等。

不论是什么神经网络，在将神经网络作用于实际生产应用之前，都需要对神经网络进行训练，以得到该神经网络所适用的场景下的最优权重参数，从而可以使用该神经网络能够在上述使用场景下进行生产应用。对于神经网络的训练，则需要采集用于训练的图像样本，并对图像样本进行标注，得到图像样本集。然后，使用图像样本集对创建好的神经网络进行训练，当神经网络训练好之后，进行测试，若测试结果满足条件，则可以将该神经网络应用于实际的生产应用中。

在本申请实施例中，针对第一域采用第一图像样本集训练完成的神经网络是指神经网络已经采用第一图像样本集训练完成，并且应用于第一域后对第一域的图像进行检测时能够满足对象检测的需求，然后，使用该神经网络对第二域的图像进行对象检测，以得到检测结果。例如，神经网络经过训练后，原来是用于对A地区的道路图像进行车辆检测的，现在直接将该神经网络用于对B地区的道路图像进行车辆检测。

作为一种可选的实施方式，使用第一图像样本集对神经网络进行训练具体可以包括：将上述第一图像样本集中的图像样本按照预设数量分成多批图像样本，然后依次使用上述多批图像样本对上述神经网络进行训练。使用单批图像样本对上述神经网络训练的具体过程如下：将一批图像样本输入到上述神经网络中进行前向传播，得到神经网络的每层的输出结果；然后利用图像样本的标注结果反向计算每层网络的误差项；最后利用梯度下降(Gradient Descent)法，使用损失函数来更新神经网络的权值参数。

在上述训练方法中，把图像样本数据分为若干个批次，按批次来更新参数，这样，一个批次中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为单批的样本数与整个图像样本集相比小了很多，计算量也不是很大。其中，使用损失函数来更新神经网络的权重参数，其计算公式如下：

其中，η是步长(Step Size)，或者叫学习率(Learning Rate)，w是参数，Q是损失函数，n是每一批的样本数量。

102：将上述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本。

其中，神经网络在对第二域的图像进行对象检测时的检测结果和该检测结果对应的图像的图像真值(Groudtruth)进行比较后得到的差异值，差异值越小，就说明检测结果越接近图像真值，检测结果就越可信，差异值越大，检测结果就越偏离图像真值，检测结果就越不可信。其中，图像真值可以是图像中的标注信息，也可以是图像本身(真实的图像)。

现实场景非常的复杂，有各种各样未知的情况。一般的数据采集，只能覆盖非常有限的子集。在使用上述第一图像样本集对上述神经网络训练之后，可能会因为上述第一图像样本集的覆盖不全面，导致上述神经网络在部分场景中对图像的检测结果能够满足需求，而对于上述第一图像样本集没有覆盖到的场景的检测结果不准确；或者因为第一图像样本集对于各个场景的图像样本分布不均匀，导致神经网络出现虚检或漏检的情况。例如，对不同地区的道路图像的检测。

对于上述问题，在本申请实施例中，在使用上述第一图像样本集对上述神经网络训练完成之后，在能够满足检测需求的场景中继续使用上述神经网络进行对象检测，而在不能够满足检测需求的场景中进行对象检测时，搜集存在问题的检测结果所对应的图像，然后将这些存在问题的检测结果对应的图像作为第二图像样本集中的图像样本。其中，上述存在问题的检测结果是指：检测结果的可信度小于第一阈值的情况，具体可以是将检测结果与上述检测结果所对应的图像的真值进行对比，得到上述检测结果的可信度。

其中，对于上述检测结果的可信度小于第一阈值的判断，具体可以是人工比对检测结果和对应的正确结果进行判断，也可以是半自动的方式，如采用结构更加复杂的神经网络进行图像处理，将两个处理的结果进行比对。

作为一种可选的实施方式，上述第二图像样本集中的图像样本除了上述检测结果的可信度小于第一阈值的图像之外，还可以是与这些图像具有相似特征的图像。因此也可以去获取与上述第二图像样本集中的图像具有相似特征的图像作为上述第二图像样本集中的图像样本。具体的，可以在第二域采集训练样本作为第二图像样本集中的图像样本以对上述神经网络进行训练。

103：从上述第一图像样本集中选择至少一个图像样本，并从上述第二图像样本集中选择至少一个图像样本。

在本申请实施例中，当得到上述第二域的第二图像样本集之后，则从上述第一图像样本集中选择至少一个图像样本，以及从上述第二图像样本集中选择至少一个图像样本，以便通过上述神经网络对选择的样本进行处理得到预测结果，从而进一步根据预测结果和被选择的图像样本的真值对上述神经网络的参数进行优化调整，即使用上述第一图像样本集和第二图像样本集一起对上述神经网络进行训练。

在一种可能的实施方式中，上述第二域为一个，上述第二图像样本集为一个，上述第一图像样本集中的图像样本的数量大于上述第二图像样本集中的图像样本的数量，从上述第一图像样本集中选择的图像样本的数量和从上述第二图像样本集中选择的图像样本的数量之间的比值在第一比例范围内。

上述从上述第一图像样本集中选择的图像样本的数量和从上述第二图像样本集中选择的图像样本的数量之间的比值在第一比例范围内，是由于第一图像样本集中的图像样本数量比第二图像样本集中的样本数量多，所以为了使得在训练过程中使神经网络的性能参数能够快速拟合到上述第二图像样本集上，在每次从两个样本集中选择样本时，使从两个图像样本集中选择的图像样本的数量的比值在第一比例范围内。例如，为了使神经网络既能够保持在原有的第一域上的检测性能，又能够快速学习得到第二域上的检测性能，上述第一比例可以在1:1附近。

在另一种可能的实施方式中，在上述第二域为一个的基础上，上述第二域也可以为多个，即存在多个第二域的情况。具体的，上述第二域为k个，上述第二图像样本集为k个，上述第一图像样本集中的图像样本的数量大于各个第二图像样本集中的图像样本的数量，从上述第一图像样本集中选择的图像样本的数量和从各个第二图像样本集中选择的图像样本的数量之间的比值在第二比例范围内，其中，k为大于1的整数。为了使神经网络既能够保持在原有的第一域上的检测性能，又能够快速学习得到各个第二域上的检测性能，可以从第一图像样本集和各个第二图像样本集中选择同样数量的样本图像，也就是说第二比例范围是1附近。

104：使用上述神经网络对选择的各个图像样本进行对象检测，输出预测结果；根据输出的预测结果以及上述选择的各个图像样本的真值，对上述神经网络的网络参数进行调整。

在步骤104中，根据输出的预测结果以及选择的各个图像样本的真值，对神经网络的参数进行调整，是一个迭代的过程，该迭代的过程在输出的预测结果以及选择的各个图像样本的真值的差异满足需求时结束。

其中，上述真值为图像样本的标注信息，例如，对于图片检测分类的图像样本，若图像样本中的对象是车辆，则该图像样本的真值为图像样本中的车辆。

在深度学习中，训练即拟合，即通拟合到给定的图像样本数据集上。不同的图像样本数据，往往展现出不同的分布；目标物体，更是存在极大的样本差异。使用新的图像样本数据源训练，会影响在原有图像样本数据源上的性能，并且差异越大，性能下降越严重。

神经网络训练的本质是根据神经网络对图像样本的预测结果、图像样本的真值(即图像样本的标注信息或者真实的图像)来对神经网络的参数进行不断的调整，以使预测结果和图像样本的真值的差异满足需求。而神经网络在训练过程中，对某个数据源的访问频率，代表了神经网络对该数据源的拟合概率：访问频率越高，神经网络越容易拟合到该数据源上，即神经网络在该数据源上的性能越好。当有新的数据源出现时，单纯地在新的数据源上训练，会使训练好的神经网络重新拟合到新的数据源上，从而丧失对以往数据的拟合能力。因此，同时保持新旧数据源的访问频率，是本申请实施例对神经网络训练的关键。

在本申请实施例中，上述第一图像样本集为上述旧的数据，上述第二图像样本集为上述新的数据。为了神经网络能够保持在原有的第一图像样本集上的性能，又能很好的拟合到上述第二图像样本集上，则需要同时从上述第一图像样本集和第二图像样本集中选择图像样本，然后对选择的样本进行检测，并利用检测结果和与其对应的真值(即标注结果或者真实的图像)对神经网络的参数进行调整。

在本申请实施例中，为了不让神经网络失去在第一域上的检测性能，在采集到上述第二图像样本集之后，则使用上述第一图像样本集和上述第二图像样本集一起对上述神经网络进行训练，以更新调整上述神经网络的参数，使得上述神经网络在保持对上述第一域中的图像中的对象的检测性能的同时，具备对上述第二域的图像中的对象的检测性能。具体训练过程和上述单独使用第一图像样本集对上述神经网络的训练过程类似，也是按批次从图像样本集中获取图像样本。不同的是，每批样本是从上述第一图像样本集中选择至少一个图像样本，并从上述第二图像样本集中选择至少一个图像样本作为一批训练样本。并使用上述公式(1)来更新神经网络的权重参数，直到上述神经网络的参数达到最优为止。

在使用上述第一图像样本集和第二图像样本集中的样本对神经网络进行在训练的过程中，若每次随机从上述第一图像样本集和第二图像样本集的样本里采样n个样本(每批图像样本的数量)，每个样本被采样的概率都是n/N(N为第一图像样本集和第二图像样本集中图像样本的总量)，这样可能会造成的问题就是对于有特定分布的图像样本数据，当这部分图像样本数据的量较小时，那么它们参与训练的机会就很小，它们的贡献就会被稀释，导致神经网络无法很好的拟合到这个分布上，对此就需要采集足够量的新图像样本数据来提升性能；若只用新图像样本数据时，则原有图像样本数据又会因为无法参与到训练，从而导致神经网络偏向到新的图像样本的分布，进而导致在原有图像样本数据上的性能下降。

作为一种可选的实施方式，为了解决上述因新图像样本数据量小而影响神经网络性能的提升问题，在本申请实施例中，使每一个参与前向传递的批次图像样本数据中，由第一图像样本集和第二图像样本集的图像样本按第一比列组合而成。例如，第一图像样本集和第二图像样本集的图像样本比例为1:1，可根据实际情况适当调节。比如当前设置每批样本数量为32，那么有16个样本会来自第一图像样本集，有16个样本会来自第二图像样本集。另外，因为第一图像样本集和第二图像样本集的样本数量不同，第一图像样本集和第二图像样本集中样本参于训练的次数也不一样。通过参与次数来调节不同数据源的比例，从而在多个图像样本数据源中找到最优点，比采集大量的新的图像样本数据方法更方便实现。

由于网络参数更新后的神经网络既保留了在第一域上的检测性能，同时又提高了在第二域上的检测性能，因此，可选地，在对第二域的图像进行对象检测时，可以采用网络参数更新后的神经网络。本申请实施例提供的另一种对象检测方法，如图2所示，包括：

201：利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果。

202：将上述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本。

203：从上述第一图像样本集中选择至少一个图像样本，并从上述第二图像样本集中选择至少一个图像样本。

204：使用上述神经网络对选择的各个图像样本进行对象检测，输出预测结果；根据输出的预测结果以及上述选择的各个图像样本的真值，对上述神经网络的网络参数进行调整。

205：利用网络参数更新后的神经网络对第二域的图像进行对象检测。

在本申请实施例中，由于上述网络参数是根据第一图像样本集和第二图像样本集共同更新的，因此神经网络既保留了在第一域中的检测性能，也提高了在第二域中的检测性能，因此，使用网络参数更新后的神经网络对第二域的图像进行对象检测时的检测结果更加准确。

可以看出，在本申请实施例中，由于在对第二域的图像进行检测，得到检测结果后，将检测结果的可信度小于第一阈值的图像作为第二图像样本；然后使用神经网络对分别从第一图像样本和第二图像样本中选择图像进行检测得到预测结果；最后使用既有新的图像样本的预测结果又有旧的图像样本的预测结果以及被选择的各个图像样本的真值，来对神经网络进行参数调整；即相当于对神经网络进行训练时，既加入了新的图像样本集，又保留了旧的图像样本集，从而使得训练后的神经网络既能保持在第一域上的性能，又能很好的拟合到新的图像样本集上，即使得神经网络在已经训练过的场景中保持已有的检测性能的情况下，在新的场景下快速适应对新场景中对象的检测性能。

参见图3，图3是本申请实施例提供的另一种对象检测方法的示意流程图，如图所示该方法可包括：

301：利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果。

302：将上述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本。

303：从上述第一图像样本集中选择至少一个图像样本，并从上述第二图像样本集中选择至少一个图像样本。

304：使用上述神经网络对选择的各个图像样本进行对象检测，输出预测结果；根据输出的预测结果以及上述选择的各个图像样本的真值，对上述神经网络的网络参数进行调整。

在网络参数调整后的神经网络输出的预测结果域选择的各个图像样本的真值的差异满足要求时，步骤304结束。

305：利用网络参数更新后的神经网络对第二域的图像进行对象检测。

在步骤304结束后，可以对第二域中进行对象检测的神经网络进行升级，也就说，利用网络参数更新后的神经网络对第二域的图像进行对象检测。

在步骤304之后，还可以包括：

306：将上述第二图像样本集合并到上述第一图像样本集中，得到新的第一图像样本集。

其中，S305和S306可以并行执行，二者并无时间上的先后顺序。

在本申请实施例中，在使用上述第一图像样本集和第二图像样本集对上述神经网络进行训练之后，将原来的第一图像样本集和第二图像样本集合并之后作为新的第一图像样本集，以便若上述神经网络在应用的过程中再次出现问题，则针对出现问题的场景采集新的第二图像样本集，将上述新的第二图像样本集当做上述第二图像样本集，将上述新的第一图像样本集当做上述第一图像样本集，返回执行上述301-304的步骤，再次针对新的场景(即新的第二域)对神经网络的网络参数进行更新调整。

可以理解的是，可以将上述第一图像样本集当作已经训练过的旧的图像样本集，每当上述神经网络需要对新的场景或领域进行学习时，则采集新的图像样本集(即上述第二图像样本集或新的第二图像样本集)，然后使用新的图像样本集和旧的图像样本集一起对上述神经网络进行训练，这样可以使得神经网络既可以对新的场景或领域进行学习又不会遗忘之前学习的东西。

在本申请实施例中，由于每次使用新的图像样本集和旧的图像样本集(即上述第一图像样本集)训练之后，会将新的图像样本集合并到旧的图像样本集一起作为下一次训练时的旧的图像样本集，因此旧的图像样本集会随着神经网络的应用场景越来越多而越来越大。然而，当上述神经网络能够很好的处理(检测、识别等)旧的图像样本集中的一个图像样本时，那么该图像样本在训练的过程中，则无法提供有用的信息，所以可以在训练之前将该图像样本删除，以减少不必要的训练，以及减少旧的图像样本集的样本数量，从而节约存储空间。

因此，本申请实施例提供的对象检测方法，在步骤306之后，还包括：

307、基于所述网络参数更新后的神经网络对所述新的第一图像样本集中的各个图像样本进行处理的处理结果，及所述新的第一图像样本集中的各个图像样本的真值，对所述新的第一图像样本集中的图像样本进行筛选。

在本申请实施例中，在将上述第二图像样本集合并到上述第一图像样本集中形成新的第一图像样本集之后，将新的第一图像样本集中的各个图像样本输入到网络参数更新后的神经网络中，得到各个样本图像的处理结果，基于网络参数更新后的神经网络对所述新的第一图像样本集中的各个图像样本进行处理的处理结果，及所述新的第一图像样本集中的各个图像样本的真值，使用网络参数更新后的神经网络的损失函数计算网络参数更新后的神经网络在处理各个图像样本时的损失值，最后将损失值小于阈值的图像样本删除，即删除新的第一图像样本集中对训练没有贡献的图像样本，以实现对新的第一图像样本集中的图像样本进行筛选的目的，从而减少不必要的训练，提升训练效率。可以理解的是，也可以是先对旧的第一图像样本集和第二图像样本集中的图像样本进行筛选，以丢弃掉旧的第一图像样本集和第二图像样本集中对训练没有贡献的图像样本后，然后再将筛选后第一图像样本集和第二图像样本集合并得到新的第一图像训练样本集。

作为一种可选的实施方式，当网络参数更新后的神经网络为用于目标检测的卷积神经网络时，网络参数更新后的神经网络处理图像样本的损失值可以由分类损失和回归损失构成，具体计算公式如下：

其中，L(x,c,l,g)表示损失；L_conf(x,c)表示分类损失；L_loc(x,l,g)表示回归损失；x表示输入的图像样本数据；c表示输入的图像样本数据的类别；l表示预测的检测框；g表示标注框；N表示输入的图像样本数据的数量；α表示权重。

作为一种可选的实施方式，当神经网络采用第一图像样本集训练完成，成功应用在第一域中后，使用者可能还想将该神经网络应用在多个第二域中，当神经网络应用在多个第二域中时，可能会收集到多个第二图像样本集，在使用第一图像样本集和多个第二图像样本集对神经网络进行训练的过程中，可以分批次的从第一图像样本集和多个第二图像样本集中提取图像样本对上述神经网络进行训练，其中，从第一图像样本集中选择的图像样本的数量和从各个第二图像样本集中选择的图像样本的数量之间的比值在第二比例范围内，由于哪个图像样本集中参与训练的图像样本的数量越多，则神经网络就对该图像样本集拟合的越好，因此，为了使得神经网络能在各个图像样本集上拟合的性能比较平均，第二比例范围可以选择在1附近。

例如，假设第一图像样本集中有200个图像样本，两个第二图像样本集中各有100个图像样本集。然后分批次从第一图像样本集、两个第二图像样本集中取60个图像样本对神经网络进行训练，每批次的图像样本中来源于第一图像样本集和两个第二图像样本集中的图像样本的比例为3:1:2，即每次从第一图像样本集中取30个样本，从一个第二图像样本集中取10个样本，从另一个第二图像样本集中取20个样本。

308：若上述神经网络在应用的过程中再次出现问题，则针对出现问题的场景采集新的第二图像样本集，将上述新的第二图像样本集当做上述第二图像样本集，将上述新的第一图像样本集当做上述第一图像样本集，返回执行上述301-304的步骤。

可以看出，在本申请实施例中，对于已经应用在第一域中的神经网络，在将神经网络应用在第二域中时，收集神经网络在对第二域的图像进行检测时检测结果的可信度小于第一阈值的图像作为第二图像样本，收集到的多个第二图像样本构成第二图像样本集，然后采用第一图像样本集(神经网络应用在第一域之前进行训练时采用的图像样本集)和第二图像样本集一起对神经网络进行训练，因此可以使得神经网络既能保持在第一域上的检测性能，又能提升神经网络在第二域上的检测性能，即使得神经网络在不遗忘已经学习到的知识的情况下，持续学习新的知识。

另外，在使用第一图像样本集和第二图像样本集对上述神经网络进行训练之后，还可能会出现新的场景或领域是上述神经网络不能处理的，因此可以继续采集新的第二图像样本集，并将之前的第一图像样本集和第二图像样本集合并作为新的第一图像样本集，然后使用新的第一图像样本集和新的第二图像样本集对上述神经网络继续训练。

再者，由于每次使用第一图像样本集和第二图像样本集对神经网络进行训练之后，会将第二图像样本集合并到第一图像样本集一起作为下一次训练时的第一图像样本集，因此第一图像样本集会随着训练的次数而越来越大。然而，当上述神经网络能够很好的处理(检测、识别等)第一图像样本集中的一个图像样本时，那么该图像样本在训练的过程中，无法提供有用的信息，所以可以在训练之前将训练过程中无法提供有用信息的图像样本删除，以减少不必要的训练，以及减少第一图像样本集的样本数量，从而节约存储空间。

参见图4，图4是本申请实施例提供的一种对象检测方法中的神经网络训练框架示意图，如图所示可包括：大池数据401、小池数据402、双池数据403、旧目标检测模型404(对应于上述的应用到第一域的神经网络)、新目标检测模型405(对应于网络参数更新后的神经网络)。

大池数据：大池数据是对要应用于第一域中的神经网络进行训练的图像样本数据，对应于上述的第一图像样本集。

小池数据：小池数据是神经网络应用于第二域中时采集的图像样本，对应于上述的第二图像样本集。

双池数据：将大池数据401和小池数据402合并起来，对应于将上述的第二图像样本集合并到第一图像样本集中。

旧目标检测模型：该旧目标检测模型为使用大池数据训练之后的目标检测模型，对应于上述的应用到第一域的神经网络；或者对应于上述在使用新的第一图像样本集和新的第二图像样本集对神经网络进行训练之前，使用第一图像样本集和第二图像样本集训练之后的神经网络。

新目标检测模型：该新目标检测模型为大小池数据一起训练后的目标检测模型，对应于上述的网络参数更新后的神经网络，即对应于上述使用第一图像样本集和第二图像样本集对神经网络进行训练之后的神经网络；或者对应于上述使用新的第一图像样本集和新的第二图像样本集对神经网络进行训练之后的神经网络。

具体的，首先使用大池数据对上述目标检测模型进行训练得到上述旧的神经网络，旧的神经网路可以应用在某一个场景下，如，应用在第一域中进行对象检测，然后针对上述旧的目标检测模型应用到第二域中时在应用或测试中出现的问题采集新的图像样本集，并将采集的新的图像样本集作为上述小池数据。接着将上述小池数据和大池数据组合得到上述双池数据，并使用上述双池数据对上述旧目标检测模型进行再训练以得到上述新目标检测模型。最后使用上述新目标检测模型并结合相应的损失函数对上述双池数据进行筛选清洗得到新的大池数据，以供下一次迭代使用。

参见图5，图5为本申请实施例提供的一种双池数据组合得到双池数据并对神经网络进行再训练的示意图。如图5所示，上述神经网络为卷积神经网络。首先，将大池数据和小池数据作为输入，然后按照1：1的比例从大池数据和小池数据中选择数据对上述卷积神经网络进行训练。

作为一种可选的实施方式，在上述双池方案的基础上，也可以进一步改进成多池数据，例如，如图6所示的多池数据结构的训练方法。其中，不同池的数据表示于不同于对应的图像样本集，其原理和双池一样，都是提升某一个数据源在训练中的参与度。多池可以同时考虑更多的数据源，在多个数据分布中找到最优解。具体过程和图5所示的方法类似，因此不再赘述。

通过本申请实施例的训练方法，可以使得神经网络具有持续学习的能力，即使得神经网络在不遗忘已经学习到的知识的情况下，持续学习新的知识。

例如，现在已经有一个训练好并实际投入使用的检测神经网络，该神经网络使用的数据采集自地区A，用于智能驾驶。现因为业务需要，将该检测神经网络投入到地区B。如果不在地区B的数据上训练，该神经网络的检测效果欠佳，比如地区B独有的车辆，容易造成检测器的漏检，而地区B的一些路锥，也会造成错判；如果只使用地区B的数据重新训练，又会因为遗忘而造成在地区A的检测性能下降。这个时候，可以通过双池训练的方法：采集地区B的视频，作为小池数据，再配合原有的地区A的大池数据，让现有的神经网络保持在原场景(地区A)下的性能，又可以很好的拟合到新的场景(地区B)。训练完毕，可将小池数据汇入到大池数据中，神经网络即完成一次迭代。

又例如，现在已经有一个训练好并实际投入使用的神经网络，该神经网络使用的是通用数据进行训练，以用于安防监控。将该神经网络部署到一个偏远的地区，或者一个场景情况比较特殊的地段，因为场景差异大，检测神经网络容易产生虚检或者漏检。这个时候，可以通过双池训练的方法：采集新场景的视频片段，作为小池数据，再配合原有的大池数据，从而快速地提升检测神经网络在新场景的性能，同时避免过拟合。训练完毕，可将小池数据汇入到大池数据中，神经网络即完成一次迭代。

本申请实施例还提供一种对象检测装置，该装置用于执行前述任一项上述。具体地，参见图7，图7是本申请实施例提供的一种对象检测装置的示意框图。本实施例的装置包括：检测模块710、样本收集模块720、样本选择模块730、参数调整模块740。

检测模块710，用于利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果；

样本收集模块720，用于将上述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本；

样本选择模块730，用于从上述第一图像样本集中选择至少一个图像样本，并从上述第二图像样本集中选择至少一个图像样本；

检测模块710，还用于使用上述神经网络对选择的各个图像样本进行对象检测，输出预测结果；

参数调整模块740，用于根据输出的预测结果以及选择的各个图像样本的真值，对上述神经网络的网络参数进行调整。

在一种可选的实施方式中，上述检测模块710，还用于利用网络参数更新后的神经网络对第二域的图像进行对象检测。

在一种可选的实施方式中，上述第二域为一个，上述第二图像样本集为一个，上述第一图像样本集中的图像样本的数量大于上述第二图像样本集中的图像样本的数量，从上述第一图像样本集中选择的图像样本的数量和从上述第二图像样本集中选择的图像样本的数量之间的比值在第一比例范围内。

在一种可选的实施方式中，上述第二域为k个，上述第二图像样本集为k个，上述第一图像样本集中的图像样本的数量大于各个第二图像样本集中的图像样本的数量，从上述第一图像样本集中选择的图像样本的数量和从各个第二图像样本集中选择的图像样本的数量之间的比值在第二比例范围内，其中，k为大于1的整数。

在一种可选的实施方式中，上述对象检测装置还包括：

样本合并模块750，用于在得到网络参数更新后的神经网络之后，将上述第二图像样本集合并到上述第一图像样本集中，得到新的第一图像样本集。

在一种可选的实施方式中，本申请实施例提供的对象检测装置还包括：

筛选模块760，用于在得到上述新的第一图像样本集之后，基于上述网络参数更新后的神经网络对上述新的第一图像样本集中的各个图像样本进行处理的处理结果，及上述新的第一图像样本集中的各个图像样本的真值，对上述新的第一图像样本集中的图像样本进行筛选。

在一种可选的实施方式中，筛选模块760包括：

处理子模块，用于将上述新的第一图像样本集中的图像样本输入到上述网络参数更新后的神经网络中，得到各个图像样本的处理结果；

确定子模块，用于基于各个图像样本的处理结果及其真值，确定上述网络参数更新后的神经网络在处理各个图像样本时的损失值；

删除子模块，用于将上述新的第一图像样本集中损失值小于第二阈值的图像样本丢弃。

比对模块770，用于将检测结果与上述检测结果所对应的图像的真值进行对比，得到上述检测结果的可信度。

可以看出，在本申请实施例中，对于已经应用在第一域中的神经网络，在将神经网络应用在第二域中时，收集神经网络在对第二域的图像进行检测时检测结果的可信度小于第一阈值的图像作为第二图像样本，收集到的多个第二图像样本构成第二图像样本集；然后使用神经网络对分别从第一图像样本和第二图像样本中选择图像进行检测得到预测结果；最后根据各个预测结果以及被选择的各个图像样本的真值，来对神经网络进行网络参数的调整；即相当于对神经网络进行再次训练时，既加入了新的图像样本集，又保留了旧的图像样本集，从而使得再次训练的神经网络既能保持在第一域上的检测性能，又能提升在第二域上的检测性能，即使得神经网络在已经训练过的场景中保持已有的检测性能的情况下，在新的场景下快速适应对新场景中对象的检测性能。

图8是本申请实施例提供的一种对象检测设备的结构示意图。该对象检测设备4000包括处理器41，还可以包括输入装置42、输出装置43和存储器44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read至only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read至only memory，CD至ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图8仅仅示出了对象检测设备的简化设计。在实际应用中，动作识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之内。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上上述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种对象检测方法，其特征在于，包括：

利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果，所述第一域和所述第二域是指所述神经网络的两个不同的应用范围；

将所述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本，所述可信度表征所述检测结果与所述检测结果所对应的图像的图像真值的差异；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述第二域为一个，所述第二图像样本集为一个，所述第一图像样本集中的图像样本的数量大于所述第二图像样本集中的图像样本的数量，从所述第一图像样本集中选择的图像样本的数量和从所述第二图像样本集中选择的图像样本的数量之间的比值在第一比例范围内。

4.根据权利要求1或2所述的方法，其特征在于，所述第二域为k个，所述第二图像样本集为k个，所述第一图像样本集中的图像样本的数量大于各个第二图像样本集中的图像样本的数量，从所述第一图像样本集中选择的图像样本的数量和从各个第二图像样本集中选择的图像样本的数量之间的比值在第二比例范围内，其中，k为大于1的整数。

5.根据权利要求1-4任一所述的方法，其特征在于，在得到网络参数更新后的神经网络之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在得到所述新的第一图像样本集之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，基于所述网络参数更新后的神经网络对所述新的第一图像样本集中的各个图像样本进行处理的处理结果，及所述新的第一图像样本集中的各个图像样本的真值，对所述新的第一图像样本集中的图像样本进行筛选，包括：

8.根据权利要求1-7任一所述的方法，其特征在于，确定检测结果的可信度，包括：

9.一种对象检测装置，其特征在于，所述装置包括：

检测模块，用于利用针对第一域采用第一图像样本集训练完成的神经网络，对第二域的图像进行对象检测，得到检测结果，所述第一域和所述第二域是指所述神经网络的两个不同的应用范围；

样本收集模块，用于将所述检测结果的可信度小于第一阈值的图像作为第二图像样本集中的图像样本，所述可信度表征所述检测结果与所述检测结果所对应的图像的图像真值的差异；

10.根据权利要求9所述的对象检测装置，其特征在于，所述检测模块，还用于利用网络参数更新后的神经网络对第二域的图像进行对象检测。

11.根据权利要求9或10所述的对象检测装置，其特征在于，所述第二域为一个，所述第二图像样本集为一个，所述第一图像样本集中的图像样本的数量大于所述第二图像样本集中的图像样本的数量，从所述第一图像样本集中选择的图像样本的数量和从所述第二图像样本集中选择的图像样本的数量之间的比值在第一比例范围内。

12.根据权利要求9或10所述的对象检测装置，其特征在于，所述第二域为k个，所述第二图像样本集为k个，所述第一图像样本集中的图像样本的数量大于各个第二图像样本集中的图像样本的数量，从所述第一图像样本集中选择的图像样本的数量和从各个第二图像样本集中选择的图像样本的数量之间的比值在第二比例范围内，其中，k为大于1的整数。

13.根据权利要求9-12任一所述的对象检测装置，其特征在于，所述对象检测装置还包括：

14.根据权利要求13所述的对象检测装置，其特征在于，所述对象检测装置还包括：

15.根据权利要求14所述的对象检测装置，其特征在于，所述筛选模块包括：

16.根据权利要求9-15任一所述的对象检测装置，其特征在于，所述对象检测装置还包括：

17.一种对象检测设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至8任一项所述的方法。