CN110516514B

CN110516514B - 一种目标检测模型的建模方法和装置

Info

Publication number: CN110516514B
Application number: CN201810492944.3A
Authority: CN
Inventors: 刘博�
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2022-09-30
Anticipated expiration: 2038-05-22
Also published as: CN110516514A

Abstract

本说明书实施例提供一种目标检测模型的建模方法和装置，其中方法包括：根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型，所述多个通用图片样本包括不同的背景信息；使用包含目标的多个背景图片样本，继续对所述基础检测模型进行迭代训练，得到目标检测模型，所述多个背景图片样本的背景信息是预定检测场景。

Description

一种目标检测模型的建模方法和装置

技术领域

本公开涉及监控技术领域，特别涉及一种目标检测模型的建模方法和装置。

背景技术

在视觉监控领域，经常需要在某种场景中检测出特定的目标。例如，可以在一个交叉口处设置监控摄像头，并由该摄像头采集的监控图像中检测出经过该交叉口的机动车、非机动车、行人等目标。目标检测的检测结果可以具有多种应用，比如，可以用于进行交叉口处的流量统计。

相关技术中，目标检测可以基于背景建模来实现。比如，仍以上述交叉口为例，可以使用该交叉口处的多幅图像的背景信息进行高斯背景建模，并将建好的背景模型与交叉口当前的监控图像进行比较，最终检测出图像中包含的前景目标。但是这种方法的检测效果不太好，有时会出现将前景的目标误识别为背景的情况，影响了目标检测的准确度。

发明内容

有鉴于此，本公开提供一种目标检测模型的建模方法和装置，以提高目标检测的准确度。

具体地，本说明书一个或多个实施例是通过如下技术方案实现的：

第一方面，提供一种目标检测模型的建模方法，所述方法包括：

根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型，所述多个通用图片样本包括不同的背景信息；

使用包含目标的多个背景图片样本，继续对所述基础检测模型进行迭代训练，得到目标检测模型，所述多个背景图片样本的背景信息是预定检测场景。

第二方面，提供一种目标检测模型的建模装置，所述装置包括：

基础模型训练模块，用于根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型，所述多个通用图片样本包括不同的背景信息；

背景样本调优模块，用于使用包含目标的多个背景图片样本，继续对所述基础检测模型进行迭代训练，得到目标检测模型，所述多个背景图片样本的背景信息是预定检测场景。

第三方面，提供一种目标检测模型的建模设备，所述设备包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行指令时实现以下步骤：

第四方面，提供一种计算机存储介质，所述存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如下的处理步骤：

本说明书一个或多个实施例的目标检测模型的建模方法和装置，通过使用以预定检测场景作为背景的背景图片样本对基础检测模型进行调优训练，由于模型是采用深度学习网络进行训练，结合背景图片样本中的预定检测场景的背景信息，可以使得最终得到的目标检测模型能够对预定检测场景的背景具有更强的识别能力，对预定检测场景的背景识别具有更好的鲁棒性，从而可以使得模型对预定检测场景的目标检测更加准确。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个例子提供的一种目标检测模型的建模方法；

图2为本公开一个例子提供的一种模型结构；

图3为本公开一个例子提供的一种背景图片样本的获取方法；

图4至图6为本公开一个例子提供的三张建模场景图片；

图7为本公开一个例子提供的一张通用图片样本；

图8为本公开一个例子提供的一种图片融合过程图片；

图9为本公开一个例子提供的一种图片融合方式示意图；

图10为本公开一个例子提供的一种融合后图片示意图；

图11为本公开一个例子提供的建模场景图片中的前景消除方法；

图12为本公开一个例子提供的一张待变换图片示意图；

图13为将图12的图片进行随机对比度减弱得到的图片；

图14为将图12的图片进行随机对比度增强得到的图片；

图15为本公开一个例子提供的建模场景下的模型性能测试曲线；

图16为本公开一个例子提供的通用场景下的模型性能测试曲线；

图17为本公开一个例子提供的目标检测模型的建模装置的结构示意图；

图18为本公开一个例子提供的目标检测模型的建模装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

在视觉监控领域的目标物体检测算法中，背景建模是一种常用的方法。背景建模可以理解为，通过建模得到的背景模型，提取出一幅图片中的背景信息，进而可以根据该背景信息分割出图片中的前景信息，实现对前景信息的检测，该前景信息例如可以是图片中的机动车、非机动车等要检测的目标物体。但是，实际实施中发现，当前的背景建模方法例如高斯背景建模，实际上对物体的检测准确度有待提高。

有鉴于此，本公开提供了一种目标检测模型的建模方法。

该目标检测模型可以用于识别图片中的目标，所述的“目标”例如可以是图片中的机动车、非机动车等物体。比如，可以将该目标检测模型应用于检测道路交叉口的机动车。

而上述通过本公开的建模方法建立得到的目标检测模型，也可以称之为一种背景建模方式。因为在建模过程中，参与了模型训练的部分图片样本，在做样本标定时将图片中的信息分为了前景信息和背景信息两大类，从而使得训练得到的模型具有了区分前景和背景的功能，即具有了提取背景信息的能力。

更为重要的是，在该目标检测模型的训练中，利用了深度学习神经网络(后续简称深度学习网络)，即可以通过深度学习网络来学习图片的前景和背景的区分。只要在模型训练过程中，该深度学习网络的输入图片样本足够丰富，就可以使得训练得到的模型在识别图片背景信息方面具有很好的鲁棒性，进而也可以提高模型对目标的检测准确度。

如下将详细介绍该基于深度学习网络的目标检测模型的建模方法。

首先说明下该方法的建模思想：

背景建模通常可以是针对某一特定的场景，比如，某个特定的道路交叉口，要检测该交叉口的机动车，该场景也可以称为预定检测场景。背景建模的模型可以具有识别以该预定检测场景作为背景信息的图片的能力，即可以识别出图片中包含的该预定检测场景的背景。但是，如果仅仅以大量的预定检测场景的图片样本输入深度学习网络训练模型，那么可能造成模型对于该特定的预定检测场景过拟合，不适应场景变化，在实际实施中可能造成成本较高。

因此，本公开的建模方法，尽可能建立一种能够在不同场景通用的目标检测模型，比如，在一个交叉口检测能用，在另一个道路路段检测也能用。并在此基础上，再针对某个预定检测场景，对上述建立的通用的目标检测模型进行调优，使得模型对该特定的场景具有背景建模的功能。相当于对模型进行强化训练，使得模型在通用的基础上增强对以预定检测场景作为背景信息的图片的背景检测功能，从而使得模型在对这个预定检测场景处得到的图片进行物体检测时，对图片背景的识别更加准确，从而物体检测也更加准确。

在一个例子中，可以先将上述的不同场景通用的目标检测模型进行应用，如果对目标物体的检测效果能够满足需求，则可以继续使用该模型；如果发现模型对于某个场景的目标检测效果不够理想，可以按照上面提到的方式，使用该效果不好的场景下的图片，对模型继续进行调优，使得模型增强对该特定的场景的背景识别能力，从而提高对前景的检测效果。

图1为本公开一个例子中的目标检测模型的建模方法的流程图，如图1所示，该方法可以包括：

在步骤100中，根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型。

本步骤中，可以选取多个通用图片样本，这些图片样本包括不同的背景信息，比如，有的样本的背景信息是一个交叉口，另一些样本的背景信息是另一个交叉口。并且，这些通用图片样本中的每个样本都可以包含“目标”，该目标即要检测的目标，比如，机动车、非机动车、行人等。

可以利用上述的多个通用图片样本进行深度学习模型训练，得到的模型可以适用于不同的场景，可以用于检测不同场景中的目标，本例子称为基础检测模型。如下示例性说明该模型的训练：

例如，可以使用YOLO框架，该框架的核心思想就是利用整张图作为深度学习网络的输入，并将目标检测看作成一个回归问题，直接在输出层得到目标框的位置和目标框所属的类别，目标框用于框住检测的目标，例如图片中的机动车。YOLO框架可以通过一个深度学习网络，实现端到端的检测，即直接由一端输入的整张图得到另一端输出的该图中的目标和目标所属类别。并且，YOLO框架的模型运行速度非常快，可以达到实时的图像处理速度。

本例子中，模型在训练时，输入可以包括两部分，一部分是上述的多个通用图片样本，即训练样本集；另一部分是目标标注文件，该标注文件可以根据通用图片样本中的待检测目标(例如，机动车、非机动车、行人)，绘制包含各待检测目标的最小矩形框，该矩形框可以称为目标框，并记录该目标框的左上角和右下角坐标信息来表示位置，以及标注出目标框内的目标的类别属性，例如，属于机动车。为了增加模型的特征学习能力，训练样本集可以覆盖尽可能多的不同的场景和不同的目标。

在模型的训练过程中，主要是调整模型的参数。例如，图2示例了一种模型结构，模型参数可以通过具有该模型结构的深度学习网络中各层的卷积单元获得。在调整过程中，可以计算当前参数下的模型输出和目标标注文件之间的Loss值，并反向调整优化参数，通过不断地迭代直至参数收敛到最优值(例如，迭代次数为20万次)，最后将具有最优值参数的模型作为基础检测模型。

例如，在网络训练过程中，将训练样本集图片和目标标注文件作为输入，计算当前网络参数下的网络输出和标注文件之间的Loss值(如下公式1所示)，反向调整优化参数，通过不断地迭代直至参数收敛到最优值(在本发明实施例中迭代次数为20万次)，将最优值参数的模型作为通用场景检测模型。

本公开的建模方法，不局限于上述的YOLO框架和图2所示的模型结构，同样可以适用于其他的深度学习网络框架和网络结构。

在步骤102中，使用包含目标的多个背景图片样本，继续对所述基础检测模型进行迭代训练，得到目标检测模型，所述多个背景图片样本的背景信息是预定检测场景。

在步骤100中得到基础检测模型后，本步骤可以继续使用多个背景图片样本，对基础检测模型进行调优训练。这里所述的“背景图片样本”，其背景信息是预定检测场景，例如，该预定检测场景是一个指定的交叉口，或者一个指定的路段位置。当期望目标检测模型在应用于检测该预定检测场景中的目标(例如，机动车)时，能够更加准确的区分该场景中的背景，避免产生前景和背景的误判，进而更加准确的检测出目标，本例子可以使用该预定检测场景作为背景的图片来对基础检测模型进行调优训练。

同样的，该背景图片样本不仅以预定检测场景作为背景，而且包含要检测的目标，比如，图片中包含有机动车或者非机动车。并且，在使用该背景图片样本进行基础检测模型的迭代调优时，也需要与该背景图片样本对应的目标标注文件。具体的迭代训练过程与基础检测模型的训练方法相同，不再详述。

本例子的目标检测模型的建模方法，通过使用以预定检测场景作为背景的背景图片样本对基础检测模型进行调优训练，由于模型是采用深度学习网络进行训练，结合背景图片样本中的预定检测场景的背景信息，可以使得最终得到的目标检测模型能够对预定检测场景的背景具有更强的识别能力，对预定检测场景的背景识别具有更好的鲁棒性，比如，即使背景的光照等环境条件发生变化，深度学习网络也能够很好的适应背景变化，同样能够准确区分背景，从而可以使得模型对预定检测场景的目标检测更加准确。

此外，如果要用多个背景图片样本对基础检测模型进行调优，首先就要获取这些背景图片样本。在一个例子中，可以直接获取预定检测场景下采集拍摄的图片，但是，这种方式需要消耗大量的时间和人力成本进行样本标定，标定出图片中的机动车、非机动车等目标的位置和类别。为了节省成本，快速的完成模型的调优训练，本公开的例子提供了另一种获取背景图片样本的方式，即使用少量的预定检测场景下采集拍摄的图片，结合通用图片样本，融合获取。

图3示例了本公开一个例子的背景图片样本的获取方法，可以包括：

在步骤300中，获取少量的预定检测场景下的建模场景图片、以及多张通用图片样本。

本步骤中，可以选取若干张预定检测场景下的建模场景图片，例如，可以选择三张建模场景图片，如图4至图6所示，这三张图片是晚上采集的图片。通用图片样本可以使用图1的例子中提到的不同场景下的图片。

在步骤302中，确定通用图片样本中的目标在建模场景图片中对应的融合区域，并进行区域覆盖。

请参见图7所示，图7是一张通用图片样本，该图片中包含一个检测目标，是一辆机动车。本例子中，可以将图7中的机动车拷贝到图5的建模场景图片中，即本例子的目的是将图7的前景目标机动车与图5中的背景信息进行融合，作为后续调优使用的背景图片样本。步骤300中加载了多张通用图片样本和建模场景图片，可以随机选择一张通用图片样本和一张建模场景图片融合，即可以随机配对融合，以得到多张融合后的背景图片样本。

在本步骤中，可以先确定融合区域，该融合区域可以用于表示通用图片样本中的目标在建模场景图片中对应的融合位置。通常来说，一个目标原本在通用图片样本处于哪个图片位置，在建模场景图片中也将设置在对应的位置，比如，如果目标在通用图片样本的正中间，那么可以将该目标同样拷贝到建模场景图片的正中间。确定的融合区域可以先用一个矩形框示意，参见图8所示，可以在建模场景图片中的对应融合区域的位置进行区域覆盖，建模场景图片中将显示出这个对应融合区域的矩形框81。

在步骤304中，确定融合区域中的边界过渡区，并且，根据通用图片样本和建模场景图片中的像素值，设置边界过渡区中每个像素点的像素值，作为背景图片样本中的像素值。

本步骤中，设置融合区域中的边界过渡区，如图9所示，打斜剖面线的区域91即为边界过渡区。例如，该边界过渡区尺寸可以参见图9，在沿融合区域的高度方向上，融合区域的高度是H，边界过渡区的宽度L1可以是H/6；在沿融合区域的宽度方向上，融合区域的宽度是W，边界过渡区的宽度L2可以是W/6。当然，以上数值只是一种举例，实际实施中可以变化。

为了使得融合区域在背景图片样本中的像素颜色显示不会过于突兀，使得融合区域的颜色能够较好的与其他区域的颜色融合，本步骤可以设置该边界过渡区中的各个像素点的像素值。例如，可以结合通用图片样本中的像素值和建模场景图片中的像素值，来确定背景图片样本中的像素值。

以边界过渡区中的某一个像素点P1为例，P1的像素值的确定可以按照如下的公式(2)和公式(3):

α＝(L-(i-start))/L (2)

P[i]＝p[i]*(1-α)+t[i]*α (3)

其中，P[i]是像素点的像素值，以像素点P1为例，可以是像素点P1的像素值。p[i]是通用图片样本中对应像素点P1的像素值，可以称为通用像素值；这里的“对应像素点P1”指的是像素点在图片中的图片位置与像素点P1相同，比如，图9中示意了像素点P1在融合区域矩形框中的图片位置，那就找到通用图片样本中与这个位置对应的像素点，并将该像素点的像素值作为通用像素值。同理，t[i]是建模场景图片中对应像素点P1的像素值，可以称为背景像素值。α是通用像素值与背景像素值加权求和时的背景像素值的权重，(1-α)是通用像素值的权重。i是像素坐标，不同的像素点对应不同的i值。

在α的计算公式(2)中，L是边界过渡区的宽度。其中，当计算的像素点的图片位置在融合区域的宽度方向上时，使用的L可以是L1；当计算的像素点的图片位置在融合区域的高度方向上时，使用的L可以是L2。比如，以像素点P1为例，P1位于融合区域的高度方向上，所以使用L2。start是边界过渡区的起始坐标。比如，像素点P1对应的α是(L2-(i-start))/L2。如图9所示，可以看到，当像素点越靠近边界过渡区的内边界92时，α的数值越小，即通用像素值的加权权重越大，背景像素值的权重越小于通用像素值的权重；当像素点越靠近边界过渡区的外边界93时，α的数值越大，即背景像素值的加权权重越大，背景像素值的权重越大于通用像素值的权重。

可以按照上述的方法，计算边界过渡区中每个像素点的像素值，得到的像素值即为背景图片样本中该像素点的像素值。

在步骤306中，将通用图片样本中的目标拷贝到融合区域，最终实现预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，得到背景图片样本。

在设置了边界过渡区的像素值后，可以将通用图片样本中的目标拷贝到融合区域，比如，可以将图7中的机动车拷贝到融合区域中，拷贝后的图片可以参见图10的示意。可以看到，图10中融合后得到的背景图片样本，机动车已经很好的融入了建模场景图片，融合的比较自然，没有出现颜色上的突兀变化。最终实现了预定检测场景下的建模场景图片的背景信息，与通用图片样本中的目标的较好融合。

本例子的背景图片样本的生成方法，通过将建模场景图片的背景信息和通用图片样本的前景目标融合，得到背景图片样本，由于通用图片样本的前景目标在基础检测模型训练时已经进行了样本标定，所以不需要再进行目标标定，节省了大量的样本标定时间；并且，在图片融合时，通过结合通用图片样本和建模场景图片中的像素值设置边界过渡区中的像素值，使得融合像素值的过渡非常自然，不会显得突兀，避免了融合边界线对目标提取的干扰。

在另一个例子中，建模场景图片和通用图片样本在融合时，为了尽可能的避免建模场景图片中的前景目标的重复造成模型对这类目标的过拟合，本例子可以将建模场景图片中的前景目标进行去除。比如，可以比较图5和图10，图5中的建模场景图片中原有的机动车51，在图10中已经消除，不再保留。

参见图11示例的建模场景图片中的前景消除方法，可以包括：

在步骤1100中，对建模场景图片进行前景标注。

本步骤中，可以对建模场景图片进行标注。但是，与通用图片样本的目标标注文件不同的是，本步骤的背景图片样本在标注时不需要标注目标的具体类别，可以将所有的前景目标都统一作为“前景”类别，而不用将类别细化区分为“机动车”、“非机动车”等，此外，还可以标注目标的位置。

对建模场景图片进行标注的标注信息，可以用于区分建模场景图片中的前景目标和背景信息，是为了后续步骤消除前景做准确。

在步骤1102中，根据所述建模场景图片的标注信息，将所述建模场景图片前景中的目标消除。

比如，在步骤1100中已经标注了“前景”类别的目标，那就可以根据该标注将建模场景图片中的目标进行去除。例如，可以将建模场景图片中的所有前景目标都去除，只保留背景信息。当后续处理中，建模场景图片与通用图片样本融合时，可以使用仅保留了背景信息的建模场景图片与通用图片样本的前景目标融合在一起，得到背景图片样本。

其中，图11所示的方法可以在图3中的建模场景图片与通用图片样本融合之前进行，比如，可以先按照图11的方法消除建模场景图片中的前景目标，再开始建模场景图片与通用图片样本的融合。或者，也可以先进行建模场景图片与通用图片样本的融合，再消除建模场景图片中的前景目标。不论先执行哪个，最终参与基础检测模型的调优训练的背景图片样本中，可以不再保留原建模场景图片中的前景目标。

在又一个例子中，虽然深度学习网络对于训练样本光照等变化鲁棒性较好，但由于使用的建模场景图片数量较少(例如，三张)，可以使用对比度随机拉伸方法，对上述融合得到的背景图片样本进行样本光照情景的扩充，以提升建模效果。在改变样本的对比度，对背景图片样本进行对比度随机拉伸后，可以生成新的背景图片样本。

以图12为例，如果将图12进行随机对比度减弱，可以得到图13；如果将图12进行随机对比度增强，可以得到图14。示例一种对比度随机拉伸的方式：可以将待拉伸的原图的RGB图像数据转换为HSV图像数据，保持色调H不变，对每个像素的S和V分类进行指数运算(指数因子在0.25到4之间随机取值)。运算后将HSV数据变换回RGB图像数据，即可得到拉伸后的图像。

以上通过多个例子描述了背景图片样本的获得方法，包括图片的融合、建模场景图片的前景消除、以及样本的光照情景扩充。在得到背景图片样本后，可以使用该样本继续对基础检测模型进行迭代训练。

具体的，在得到背景图片样本后，由于背景图片样本中包含的目标(例如，机动车、非机动车)是由通用图片样本中拷贝而来，这些目标已经完成了目标标定，将很容易得到背景图片样本对应的目标标定文件。将背景图片样本和目标标定文件输入模型进行迭代，继续优化模型参数，每迭代一次计为建模一次。具体的迭代次数，本例子不做限制，可以根据实际的训练情况确定，直至训练的模型效果较好，比如，能够对预定检测场景的背景信息提取更为准确，对预定检测场景的前景目标的检测更加准确。

此外，为了增强最终的目标检测模型的通用性，在使用包含目标的多个背景图片样本对基础检测模型进行迭代训练后，还可以继续使用通用图片样本进行迭代训练。例如，可以使用背景图片样本建模m次后，再使用通用图片样本迭代调优k次，共计迭代调优训练模型n次，其中n＝k+m。同样，n、m、k这些次数的数值，本例子不做限制，可以根据实际的训练情况确定，直至训练的模型效果较好，包括模型对预定检测场景的检测更加准确，并且不影响通用性。

为了验证模型的效果，本公开的例子中还进行了模型的测试验证：

选取了训练模型使用的通用图片样本10万张，可以是夜晚样本，并选取了建模场景图片三张。根据上面描述的建模方法，先利用通用图片样本10万张进行深度学习模型训练，得到基础检测模型；再根据建模场景图片三张和通用图片样本融合得到背景图片样本，使用背景图片样本对基础检测模型进行调优，再使用原通用图片样本继续进行模型调优，最终得到目标检测模型。

该目标检测模型的效果，使用了预定检测场景下的测试集3千张(即3000张预定检测场景下的图片)对模型进行测试，测试的模型性能FPPI(False Positive per Image，每幅图像中虚假正样本目标比例)曲线参见图15，该图15的横坐标是FPPI值，纵坐标是recall值(召回率)，该曲线可以用于体现模型的性能。例如，参见图15，对于机动车作为目标时，横坐标取一点值例如0.1，对应的纵坐标值越大的曲线，该曲线所代表的模型性能越好。图15中的曲线1501表示调优前的基础检测模型，其对应横坐标0.1的recall值仅为0.31；而在使用背景图片样本进行迭代调优1000次，并使用通用图片样本迭代调优9000次后，得到的目标检测模型对应的曲线1502，其对应横坐标0.1(FPPI值)的recall值已经上升为约0.37，模型的性能得到了显著提升。而将目标检测模型在通用场景中测试，得到的FPPI曲线可以参见图16，曲线1501和曲线1502几乎重合在一起，这说明两种曲线所代表的模型性能接近，模型在通用场景中并没有发生过拟合建模场景而导致性能变差的情况。

为了实现上述目标检测模型的建模方法，本公开例子还提供了一种目标检测模型的建模装置。如图17所示，该装置可以包括：基础模型训练模块1701和背景样本调优模块1702。

基础模型训练模块1701，用于根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型，所述多个通用图片样本包括不同的背景信息；

背景样本调优模块1702，用于使用包含目标的多个背景图片样本，继续对所述基础检测模型进行迭代训练，得到目标检测模型，所述多个背景图片样本的背景信息是预定检测场景。

在一个例子中，如图18所示，该装置中的背景样本调优模块1702可以包括：样本获取子模块1801和模型调优子模块1802。

样本获取子模块1801，用于将所述预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，得到所述背景图片样本；

模型调优子模块1802，用于使用所述背景图片样本继续对所述基础检测模型进行迭代训练。

在一个例子中，样本获取子模块1801，还用于：根据所述建模场景图片的标注信息，将所述建模场景图片前景中的目标消除，所述标注信息用于区分标注所述建模场景图片中的前景目标和背景信息。

在一个例子中，样本获取子模块1801，具体用于：

确定所述通用图片样本中的目标在建模场景图片中对应的融合区域，并确定所述融合区域中的边界过渡区；

在所述背景图片样本中，位于所述边界过渡区中每个像素点的像素值，按照如下方式设置：

将通用像素值与背景像素值进行加权求和，得到所述背景图片样本中的所述像素点的像素值；所述通用像素值是通用图片样本中对应所述像素点的像素值，所述背景像素值是所述建模场景图片中对应所述像素点的像素值；

并且，所述边界过渡区中的各个像素点，若所述像素点的图片位置越靠近所述融合区域的外边界，所述背景像素值的权重越大于通用像素值的权重；若所述像素点的图片位置越远离所述融合区域的外边界，所述背景像素值的权重越小于通用像素值的权重。

在一个例子中，样本获取子模块1801，还用于：在得到所述背景图片样本之后，对所述背景图片样本进行对比度随机拉伸，得到新的背景图片样本。

在一个例子中，背景样本调优模块1702，还用于：在使用所述背景图片样本继续对所述基础检测模型进行迭代训练之后，使用所述通用场景图片样本继续进行迭代训练。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

此外，上述方法实施例流程中的各个步骤，其执行顺序不限制于流程图中的顺序。此外，各个步骤的描述，可以实现为软件、硬件或者其结合的形式，例如，本领域技术人员可以将其实现为软件代码的形式，可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时，所述的可执行指令可以存储在存储器中，并被设备中的处理器执行。

例如，对应于上述方法，本说明书一个或多个实施例同时提供一种目标检测模型的建模设备。该设备可以包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机指令，所述处理器可以通过执行所述指令，用于实现如下步骤：

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

本公开还提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现，包括以下步骤：

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种目标检测模型的建模方法，其特征在于，所述方法包括：

根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型，多个通用图片样本包括不同的背景信息；

将预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，得到所述背景图片样本；

使用所述背景图片样本继续对所述基础检测模型进行迭代训练，得到针对预定检测场景进行检测的目标检测模型，多个背景图片样本的背景信息是同一特定场景，所述预定检测场景为所述特定场景。

2.根据权利要求1所述的方法，其特征在于，所述将所述预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，包括：

根据所述建模场景图片的标注信息，将所述建模场景图片前景中的目标消除，所述标注信息用于区分标注所述建模场景图片中的前景目标和背景信息。

3.根据权利要求1所述的方法，其特征在于，所述将所述预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，包括：

4.根据权利要求1所述的方法，其特征在于，所述得到所述背景图片样本之后，所述方法还包括：

对所述背景图片样本进行对比度随机拉伸，得到新的背景图片样本。

5.根据权利要求1所述的方法，其特征在于，所述使用所述背景图片样本继续对所述基础检测模型进行迭代训练之后，所述方法还包括：

使用通用场景图片样本继续进行迭代训练。

6.一种目标检测模型的建模装置，其特征在于，所述装置包括：

基础模型训练模块，用于根据多个包含目标的通用图片样本进行深度学习模型训练，得到用于进行目标检测的基础检测模型，多个通用图片样本包括不同的背景信息；

背景样本调优模块，用于将预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，得到所述背景图片样本，使用所述背景图片样本继续对所述基础检测模型进行迭代训练，得到针对预定检测场景进行检测的目标检测模型，多个背景图片样本的背景信息是同一特定场景，所述预定检测场景为所述特定场景。

7.根据权利要求6所述的装置，其特征在于，所述背景样本调优模块中的将所述预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，得到所述背景图片样本，包括：

8.根据权利要求6所述的装置，其特征在于，所述背景样本调优模块中的将所述预定检测场景下的建模场景图片的背景信息，与所述通用图片样本中的目标进行融合，包括：

9.根据权利要求6所述的装置，其特征在于，所述背景样本调优模块，还用于：在得到所述背景图片样本之后，对所述背景图片样本进行对比度随机拉伸，得到新的背景图片样本。

10.根据权利要求6所述的装置，其特征在于，

所述背景样本调优模块，还用于：在使用所述背景图片样本继续对所述基础检测模型进行迭代训练之后，使用通用场景图片样本继续进行迭代训练。

11.一种目标检测模型的建模设备，其特征在于，所述设备包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行指令时实现以下步骤：

12.一种计算机存储介质，其特征在于，所述存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如下的处理步骤：