CN116977783A

CN116977783A - 一种目标检测模型的训练方法、装置、设备及介质

Info

Publication number: CN116977783A
Application number: CN202310833702.7A
Authority: CN
Inventors: 茅心悦
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-31

Abstract

本申请实施例提供了一种目标检测模型的训练方法、装置、设备及介质，用以解决现有技术中对真实样本图像进行检测时检测精度提升受限的问题。在该方法中，获取样本图像及包含的目标对象的目标位置；将样本图像及对应的场景信息输入到目标检测模型，获取目标检测模型输出的样本图像中目标对象的预测位置；根据样本图像的预测位置及目标位置，确定子损失值；根据样本图像归属的场景信息对应的权重对子损失值进行调整，其中真实场景对应的权重大于默认场景对应的权重；确定损失值，并对目标检测模型进行调整。真实样本图像对应的权重大于参考样本图像对应的权重，更关注真实样本图像对目标检测模型的影响，提高了目标检测模型进行检测时的检测精度。

Description

一种目标检测模型的训练方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标检测模型的训练方法、装置、设备及介质。

背景技术

目前，在某些场景中通过检测模型对目标进行检测，如图1示出了传统的应用场景中目标检测过程，将采集到的图像作为输入图像输入到检测模型中，基于该检测模型，得到包括目标位置及类别的输出结果，能够避免人工检查，提高效率。例如，在厨房餐厅场景中，为了达到安全标准需要对厨师是否佩戴口罩、厨师帽进行判断，可以将口罩、厨师帽作为目标，通过上述检测模型实现口罩、厨师帽检测功能，从而可以尽早发觉厨房餐厅的操作错误，进行智能检测及预警提醒，提升管理效率，减少工作监管成本，有效避免人工检查，解决人工检查效率低、成本费高的问题。

为了能够使上述检测模型的输出更加准确，目前通过如图2所示的当前系统框架，根据参考样本图像对模型进行训练，得到参考模型，将真实样本图像输入参考模型，对该参考模型进行微调，训练得到最终模型。

但是该方法中参考样本图像的数量远大于真实样本图像，导致真实样本图像在对参考模型进行微调训练时的效果不理想，从而在实际应用时基于得到的最终模型对真实样本图像进行检测时检测精度提升受限。

发明内容

本申请实施例提供了一种目标检测模型的训练方法、装置、设备及介质，用以解决现有技术中对真实样本图像进行检测时检测精度提升受限的问题。

第一方面，本申请实施例提供了一种目标检测模型的训练方法，所述方法包括：

获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中样本图像包括参考样本图像及真实样本图像，且记录有样本图像归属的场景信息，场景信息包括默认场景和真实场景；

将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置；

针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对子损失值进行调整，其中真实场景对应的权重大于默认场景对应的权重；

根据调整后的每个子损失值，确定损失值，并基于损失值对目标检测模型进行调整。

第二方面，本申请实施例提供了一种目标检测方法，所述方法包括：

获取待检测图像；

将待检测图像及待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，获取目标检测模型输出的在真实场景信息下待检测图像中目标对象的目标检测位置。

第三方面，本申请实施例还提供了一种目标检测模型的训练装置，所述装置包括：

第一获取模块，用于获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中样本图像包括参考样本图像及真实样本图像，且记录有样本图像归属的场景信息，场景信息包括默认场景和真实场景；

输入模块，用于将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置；

确定模块，用于针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对子损失值进行调整，其中真实场景对应的权重大于默认场景对应的权重；

训练模块，用于根据调整后的每个子损失值，确定损失值，并基于损失值对目标检测模型进行调整。

第四方面，本申请实施例还提供了一种目标检测装置，所述装置包括：

第二获取模块，用于获取待检测图像；

检测模块，用于将待检测图像及待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，获取目标检测模型输出的在真实场景信息下待检测图像中目标对象的目标检测位置。

第五方面，本申请实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述目标检测模型的训练的步骤，或者实现如上述任一项所述目标检测方法的步骤。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述目标检测模型的训练方法的步骤，或者执行如上述任一项所述目标检测方法的步骤。

由于在本申请实施例中，获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中样本图像包括参考样本图像及真实样本图像，且记录有样本图像归属的场景信息，场景信息包括默认场景和真实场景；将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置；针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对子损失值进行调整，其中真实场景对应的权重大于默认场景对应的权重；根据调整后的每个子损失值，确定损失值，并基于损失值对目标检测模型进行调整。通过参考样本图像和真实样本图像共同对目标检测模型进行训练，使目标检测模型在训练时既考虑到参考样本图像的影响又考虑到真实样本图像的影响，并通过场景信息区分参考样本图像和真实样本图像，基于参考样本图像的默认场景对应的权重、真实样本图像的真实场景对应的权重，对损失值进行调整，并根据调整后的损失值对目标检测模型进行训练，并且由于真实样本图像对应的权重大于参考样本图像对应的权重，从而更关注真实样本图像对目标检测模型的影响，提高了训练完成的目标检测模型在对真实的待检测图像进行检测时的检测精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为传统应用场景中目标检测过程示意图；

图2为当前系统框架示意图；

图3为本申请实施例提供的一种目标检测模型的训练过程示意图；

图4为本申请实施例提供的一种目标检测模型结构示意图；

图5为本申请实施例提供的一种目标检测过程示意图；

图6为本申请实施例提供的一种目标检测模型的训练装置结构示意图；

图7为本申请实施例提供的一种目标检测装置结构示意图；

图8为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种目标检测模型的训练方法、装置、设备及介质，该方法中获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中样本图像包括参考样本图像及真实样本图像，且记录有样本图像归属的场景信息，场景信息包括默认场景和真实场景；将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置；针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对子损失值进行调整，其中真实场景对应的权重大于默认场景对应的权重；根据调整后的每个子损失值，确定损失值，并基于损失值对目标检测模型进行调整。通过参考样本图像和真实样本图像共同对目标检测模型进行训练，使目标检测模型在训练时既考虑到参考样本图像的影响又考虑到真实样本图像的影响，并通过场景信息区分参考样本图像和真实样本图像，基于参考样本图像的默认场景对应的权重、真实样本图像的真实场景对应的权重，对损失值进行调整，并根据调整后的损失值对目标检测模型进行训练，并且由于真实样本图像对应的权重大于参考样本图像对应的权重，从而更关注真实样本图像对目标检测模型的影响，提高了训练完成的目标检测模型在对真实的待检测图像进行检测时的检测精度。

实施例1：

图3为本申请实施例提供的一种目标检测模型的训练过程示意图，该过程包括：

S301：获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置。其中样本图像包括参考样本图像及真实样本图像，且记录有样本图像归属的场景信息，场景信息包括默认场景和真实场景。

本申请实施例提供的人员落水检测方法应用于电子设备，该电子设备可以是个人计算机(Personal Computer，PC)、服务器、图像采集设备如摄像头等。

电子设备获取样本集中包含的每个样本图像，其中，样本集中包含一个或多个样本图像，且每个样本图像中标记有目标对象；针对每个样本图像，根据该样本图像中标记的目标对象，获取样本图像中目标对象的目标位置。

其中，样本图像标记的目标对象包括如下两种情况：

情况一，当目标检测模型可以针对一种目标对象进行检测时，样本集中的每个样本图像中标记有目标对象的目标位置；则在本申请实施例中根据标记的样本图像，获取样本图像中目标对象的目标位置。

情况二，当目标检测模型可以针对多种目标对象进行检测时，样本集中的每个样本图像中标记有目标对象的目标位置和目标类别；则在本申请实施例中根据标记的样本图像，获取样本图像中目标对象的目标位置及目标类别。

其中，样本集中的样本图像包括参考样本图像及真实样本图像，且参考样本图像可以表示为I^pre，真实样本图像可以表示为I^real。示例的，参考样本图像可以为服务器中保存的高清图像，例如参考样本图像可以为包含有目标对象的壁纸等高清的图像。真实样本图像为图像采集设备针对真实场景下的目标对象采集到的图像。

由于参考样本图像为保存的高清图像，真实样本图像为采集到的图像，因此可以理解的是，在本申请实施例中电子设备获取样本集中包含的每个样本图像包括：如果电子设备非图像采集设备，则电子设备可以获取自身保存的参考样本图像，并从图像采集设备中获取真实样本图像，确定样本集中包含的样本图像。如果电子设备为图像采集设备，则图像采集设备可以从服务器等设备获取服务器中保存的参考样本图像，并获取自身采集到的真实样本图像，确定样本集中包含的样本图像。

另外，在获取样本集中的参考样本图像和真实样本图像时，考虑到真实样本图像的采集和标注相比于参考样本图像来说比较困难且耗时耗人，因此在本申请实施例中采用大量参考样本图像和小样本真实样本图像，从而减少采用较大数量的真实样本图像时造成的采集和标注的工作量大的问题。其中，小样本通常指样本容量小于或等于30的样本。

可以理解的是，样本集中的样本图像可以是获取到的未经处理的原始图像，或者样本图像可以是对原始图像处理后得到的图像。示例的，在本申请实施例中每个样本图像对应的原始图像的尺寸可以相同或不同，因此，为了保证样本图像能够输入到目标检测模型中，在该步骤中针对每个样本图像，电子设备可以通过包括但不限于如下的方式对原始图像进行处理得到样本图像：方式一，将原始图像裁剪至设定尺寸，得到样本图像；方式二，将原始图像压缩至设定尺寸，得到样本图像；方式三，将原始图像输入到卷积层中，通过该卷积层对原始图像进行特征提取和重新调整大小(resize)，得到设定尺寸的样本图像，可以理解的是，经过该卷积层处理后得到的样本图像的尺寸相同。其中，设定尺寸为目标检测模型的输入图像的尺寸，例如，设定尺寸的宽×高可以为224×224、或256×256等，此处不做具体限制。

在获取到样本集中的样本图像后，在电子设备中确定记录的样本图像归属的场景信息；其中该场景信息为根据样本图像所在场景、以及电子设备中针对样本图像保存的场景信息确定规则确定的。样本图像归属的场景信息包括参考样本图像对应的默认场景以及真实样本图像对应的真实场景。电子设备中针对样本图像保存的场景信息确定规则包括：针对样本集中的参考样本图像，获取电子设备中针对该参考样本图像保存的默认场景；针对样本集中的真实样本图像，根据真实样本图像所在场景，确定该真实样本图像对应的真实场景。其中，真实场景可以为多个，具体的，根据真实样本图像所在场景，确定所有真实样本图像所在场景的种类，其中每种场景对应一个真实场景；针对每个真实样本图像，根据该真实样本所在场景、以及场景的种类和真实场景的对应关系，确定该真实样本图像对应的真实场景。可以理解的是，以厨房餐厅为例进行说明，不同的真实场景可以包括但不限于：五星级酒店厨房、三星级酒店厨房、街边小店厨房等。

其中，示例的，场景信息可以通过位置标识信息进行表示。

又一示例的，场景信息可以通过位置编码进行表示。其中，在一种可能的实现中，位置编码可以为行向量，且该行向量的长度(该行向量中元素的数量)可以与样本图像矩阵宽相同，例如，当样本图像的宽×高为256×224时，位置编码中元素的数量为256。在又一种可能的实现中，位置编码可以为列向量，且该列向量的长度(该列向量中元素的数量)可以为样本图像矩阵高相同，例如，当样本图像的宽×高为256×224时，位置编码中元素的数量为224。

以通过位置编码表示场景信息为例进行说明，可以理解的是，由于位置编码表示场景信息，并且场景信息为根据样本图像所在场景确定的，因此根据样本图像所在场景以及电子设备中保存的位置编码确定规则，可以确定位置编码中各元素的数值，便于采用该位置编码表示场景信息。

其中，电子设备中保存的位置编码确定规则可以包括：当样本图像为参考样本图像时，将该参考样本图像对应的位置编码中的第1个元素的数值确定为第一预设数值，将位置编码中其他元素的数值确定为第二预设数值；当样本图像为真实样本图像时，且真实样本图像所在场景的种类的数量共为N种时，并将每种场景确定为场景1、场景2、……、场景N，且当其中一个真实样本图像所在场景的种类为第n(n≤N)类即场景n时，将该真实样本图像对应的位置编码中的第n+1个元素的数值确定为第一预设数值，将位置编码中其他元素的数值确定为第二预设数值，并且可以理解的是，一般真实样本头像所在场景的种类的数量远小于样本图像矩阵宽度。其中，N和n为正整数；第一预设数值和第二预设数值不相同，示例的，第一预设数值可以为非0数值(例如，第一预设数值可以为1)，第二预设数值可以为0。

以位置编码为行向量、且第一预设数值为1、第二预设数值为0为例进行说明，当样本图像为参考样本图像时，该参考样本图像对应的位置编码为[1，0，……，0]。当样本图像为真实样本图像，且当N＝1时，即当真实样本图像所在场景的种类的数量为一种时，则确定真实样本图像对应的位置编码为[0，1，0，……，0]；当N＝2时，即当真实样本图像所在场景的种类的数量为2种时，则当真实样本图像所在场景为场景1时，该真实样本图像对应的位置编码为[0，1，0，……，0]；当真实样本图像所在场景为场景2时，该真实样本图像对应的位置编码为[0，0，1，0，……，0]。可以理解的是，上述位置编码的长度与真实样本图像矩阵宽相同，此处不再进行赘述。

S302：将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置。

在获取到样本集中的样本图像以及样本图像归属的场景信息后，针对S301中样本图像标记的目标对象的情况一，也就是目标检测模型可以对目标对象的位置信息进行检测时，将样本集中的每个样本图像及对应的场景信息输入到目标检测模型中，基于该目标检测模型，确定并获取目标检测模型输出的每个样本图像中目标对象的预测位置。

针对S301中样本图像标记的目标对象的情况二，也就是目标检测模型可以对目标对象的位置信息和所属类别进行检测时，将样本集中的每个样本图像输入到目标检测模型中，基于该目标检测模型，确定并获取目标检测模型输出的每个样本图像中目标对象的预测位置和预测类别。

S303：针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对子损失值进行调整。其中真实场景对应的权重大于默认场景对应的权重。

当样本图像标记的目标对象为S301中的情况一时，也就是目标检测模型针对目标对象的位置信息进行检测时，针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定预测位置和目标位置之间的距离，并确定该样本图像的子损失值。

当样本图像标记的目标对象为S301中的情况二时，也就是目标检测模型针对目标对象的位置信息和所属类别进行检测时，针对每个样本图像，根据该样本图像对应的预测位置、目标位置、预测类别及目标类别，确定预测位置和目标位置之间的距离、预测类别和目标类别之间的距离，并确定该样本图像的子损失值。

在确定每个样本图像的子损失值后，根据每个样本图像归属的场景信息对应的权重，可以将每个样本图像的权重以及子损失值相乘，对每个样本图像的子损失值进行调整。

其中，无论真实样本图像所属的真实场景为一个或者多个，每个真实样本图像所属的真实场景对应的权重大于参考样本图像所属的默认场景对应的权重。参考样本图像的数据量最大、权重最小，可以在保留参考样本图像的特征的同时，不过多影响真实场景下的检测效果。

在本申请实施例中在对目标检测模型进行训练时，通过小样本的真实样本图像的大权重，将大部分注意力放在真实样本图像上，使目标检测模型的输出更加贴近真实场景，大量参考样本图像的小权重，将小部分注意力放在参考样本图像上，即保留了参考样本图像所学到的信息，又在保证了数据量的同时，由于使用了跨域的参考样本图像和真实样本图像的特征，增加了模型的鲁棒性。其中，跨域表示参考样本图像和真实样本图像为不同域的样本图像。

S304：根据调整后的每个子损失值，确定损失值，并基于损失值对目标检测模型进行调整。

根据每个样本图像调整后的子损失值，可以采用相加的方式，确定目标检测模型对应的损失值，并根据该损失值，通过调整目标检测模型中的参数，对目标检测模型进行训练。

其中，损失值满足如下公式：

Attention Loss＝α₁×Loss_pre+α₂×Loss_{real_1}+…+α_n×Loss_{real_(n-1)}

其中，Attention Loss表示损失值，α₁表示默认场景对应的权重，Loss_pre表示参考样本图像的子损失值，α₂、……、α_n表示真实场景对应的权重，且α_n表示第(n-1)种真实场景对应的权重，Loss_{real_1}、……、Loss_{real_(n-1)}表示真实样本图像的子损失值，且Loss_{real_(n-1)}表示真实场景为第(n-1)种真实场景的真实样本图像的子损失值；pre表示默认场景，real_1、……、real_(n-1)表示真实场景，且real_(n-1)表示第(n-1)种真实场景。其中，默认场景对应的权重α₁小于真实场景对应的权重α₂、……、α_n中的任意一个，并且在一种可能的实现中，α₁、α₂、……、α_n的和为1，其中n为大于1的正整数。

在本申请实施例中，通过参考样本图像和真实样本图像共同对目标检测模型进行训练，使目标检测模型在训练时既考虑到参考样本图像的影响又考虑到真实样本图像的影响，并通过场景信息区分参考样本图像和真实样本图像，基于参考样本图像的默认场景对应的权重、真实样本图像的真实场景对应的权重，对损失值进行调整，并根据调整后的损失值对目标检测模型进行训练，并且由于真实样本图像对应的权重大于参考样本图像对应的权重，从而更关注真实样本图像对目标检测模型的影响，提高了训练完成的目标检测模型在对真实的待检测图像进行检测时的检测精度。

实施例2：

为了进一步提高目标检测模型的检测精度，在上述实施例的基础上，在本申请实施例中，将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置，包括：

针对任一样本图像，目标检测模型根据该样本图像及对应的场景信息，确定样本图像的第一浅层特征，其中第一浅层特征包括在场景信息下样本图像的色彩特征；并确定样本图像的第一深层特征，其中第一深层特征包括样本图像的空间特征；根据第一浅层特征及第一深层特征，确定在场景信息下样本图像的色彩特征和空间特征之间对应的第一关系特征；根据第一关系特征及第一深层特征，确定在场景信息下样本图像中目标对象的预测位置。

考虑到目标检测模型对任一样本图像进行处理的过程相同，因此在本申请实施例中针对其中一个样本图像的处理过程进行说明。

由于参考样本图像和真实样本图像的色彩分布差距过大，会导致训练完成的目标检测模型的检测精度受限，并且在本申请实施例中考虑到不同场景下色彩分布差异明显，因此可以通过将场景信息和浅层特征(浅层特征中包括色彩特征)结合，不仅能够更好的表达样本图像的色彩特征，还可以通过场景信息对参考样本图像和真实样本图像进行区分，便于后续在对目标检测模型进行训练时根据不同的场景信息为参考样本图像和真实样本图像分配不同的权重，从而减小参考样本图像和真实样本图像由于色彩分布差距过大导致训练完成的目标检测模型的检测精度提升受限的问题。

因此，参考图4示出的本申请实施例提供的一种目标检测模型结构示意图，将样本图像和对应的场景信息输入到目标检测模型中的M₁层卷积层(第一卷积层)，确定样本图像的第一浅层特征。其中第一浅层特征包括样本图像的色彩特征，并且由于将样本图像和对应的场景信息作为目标检测模型中的第一卷积层的输入，因此第一卷积层输出的第一浅层特征中还携带有样本图像对应的场景信息，也就是说，第一浅层特征中包括在样本图像对应的场景信息下样本图像的色彩特征，该第一浅层特征可以表示为F_shallow。

示例的，当场景信息为位置编码、且位置编码为行向量时，根据样本图像，对样本图像进行特征提取，确定样本图像对应的样本图像矩阵特征，将位置编码添加到样本图像矩阵特征第一行的上方，确定带编码位置的样本图像矩阵特征，如图4所示将该带编码位置的样本图像矩阵特征输入到第一卷积层，基于该第一卷积层，确定样本图像对应的第一浅层特征。

如图4所示，将样本图像输入到目标检测模型中的M₂层(M₂＞M₁)卷积层(第二卷积层)，确定样本图像的第一深层特征。其中，第一深层特征包括样本图像的空间特征，该第一深层特征可以表示为F_deep。

示例的，当场景信息为位置编码、且位置编码为行向量时，如图4所示将样本图像矩阵特征输入到第二卷积层，基于该第二卷积层，确定样本图像对应的第一深层特征。

在得到样本图像的第一浅层特征和第一深层特征后，根据该第一浅层特征和第一深层特征，如图4所示，将第一浅层特征和第一深层特征相乘F_shallow*F_deep，确定样本图像的第一浅层特征和第一深层特征对应的第一关系特征，该第一关系特征可以表示为F_{shallow-deep-realtion}。其中，第一关系特征可以表示不同色彩分布特征对应的空间关系，即不同场景对应的空间关系。

在得到第一关系特征后，由于第一深层特征可以表征目标对象的位置信息，第一关系特征可以表示不同色彩分布特征对应的空间关系，因此可以根据第一深层特征和第一关系特征，通过注意力机制对第一深层特征和第一关系特征进行特征提取，确定第一注意力特征F_atten，该第一注意力特征能够表示不同色彩分布特征对应的空间关系中目标对象的位置。

在一种可能的实现中，针对S301中的情况一，即针对目标检测模型可以对目标对象的位置信息进行检测的情况，由于第一深层特征可以表征目标对象的位置信息，第一关系特征可以表示不同色彩分布特征对应的空间关系，因此根据第一深层特征和第一关系特征确定的第一注意力特征F_atten能够表示不同色彩分布特征对应的空间关系中目标对象的位置。则根据该第一注意力特征F_atten，确定在样本图像对应的场景信息下样本图像中目标对象的预测位置。

在又一种可能的实现中，针对S301中的情况二，即针对目标检测模型可以对目标对象的位置信息和所属类别进行检测的情况，第一浅层特征和第一深层特征均可以表征样本图像中目标对象的类别信息，因此根据第一浅层特征和第一深层特征确定的第一关系特征也可以表征目标对象的类别信息，从而根据第一关系特征和第一深层特征确定的第一注意力特征F_atten除了能够表示不同色彩分布特征对应的空间关系中目标对象的位置，还可以表征目标对象的类别信息。则根据该第一注意力特征F_atten，确定目标对象的目标类别以及在样本图像对应的场景信息下样本图像中目标对象的预测位置。

在本申请实施例中，通过将场景信息和浅层特征结合，不仅能够更好的表达样本图像的色彩特征，还可以通过场景信息对参考样本图像和真实样本图像进行区分，便于后续在对目标检测模型进行训练时根据不同的场景信息为参考样本图像和真实样本图像分配不同的权重，从而减小参考样本图像和真实样本图像由于色彩分布差距过大导致训练完成的目标检测模型的检测精度提升受限的问题，进一步提高目标检测模型的检测精度。

实施例3：

为了进一步提高目标检测模型的检测精度，在上述各实施例的基础上，在本申请实施例中，根据第一关系特征及第一深层特征，确定在场景信息下样本图像中目标对象的预测位置，包括：

根据第一深层特征，获取第一注意力权重；根据第一浅层特征、第一深层特征、第一注意力权重以及注意力机制算法，确定第一关系特征对应的值；

根据第一关系特征、第一关系特征对应的值及第一深层特征，确定在场景信息下的预测位置。

在本申请实施例中，为了使目标检测模型更关注色彩特征和空间特征，因此在目标检测模型中引入了注意力机制，使目标检测模型更加关注目标对象的色彩特征和空间特征，减少其他非必要信息对目标检测模型的影响。

在确定样本图像的第一深层特征后，参见图4，将第一深层特征再通过一层卷积层，得到第一注意力权重。

在得到第一注意力权重后，基于注意力机制将第一浅层特征作为注意力机制中的查询(Query)，将第一深层特征作为注意力机制中的键(Key)，将第一注意力权重作为注意力机制中的权重(value)；根据第一浅层特征、第一深层特征、第一注意力权重以及注意力机制算法，确定第一关系特征对应的值，该第一关系特征对应的值可以表示第一浅层特征和第一深层特征之间的关系的紧密性，第一关系特征对应的值越大，则表示第一浅层特征和第一深层特征越匹配、关系越紧密。

其中，注意力机制算法可以满足如下公式：其中Q表示注意力机制中的查询，K表示注意力机制中的键，V表示注意力机制中的权重，softmax表示分类函数，T表示矩阵的转置，d_k为常量。

其中，第一关系特征对应的值可以满足如下公式：

其中，Attention(Q,K,V)表示第一关系特征对应的值，F_shallow表示第一浅层特征，F_deep表示第一深层特征，Conv(F_deep)表示第一深层特征通过一层卷积层得到的第一注意力权重。

在得到第一关系特征对应的值后，根据第一关系特征、第一关系特征对应的值及第一深层特征，确定第一注意力特征；根据该第一注意力特征F_atten，确定在样本图像对应的场景信息下目标对象的预测位置。

在本申请实施例中，基于注意力机制使目标检测模型更加关注第一浅层特征和第一深层特征，减少其他非必要信息对目标检测模型的影响，进一步提高了目标检测模型的检测精度。

实施例4：

为了进一步提高目标检测模型的检测精度，在上述各实施例的基础上，在本申请实施例中，确定损失值之后，基于损失值对目标检测模型进行调整之前，方法还包括：

判断损失值是否小于预设损失值；

如果否，将默认场景对应的权重减小第一预设值，将每个真实场景对应的权重增大第二预设值，并根据调整后的权重，确定每个样本图像对应的子损失值，根据确定的每个子损失值对损失值进行更新。

在确定目标检测模型对应的损失值后，判断该损失值是否小于电子设备中保存的预设损失值，若是，则确定目标检测模型的检测效果较好，可以结束对该目标检测模型的训练。

如果损失值不小于预设损失值，根据样本图像对应的场景信息，减小参考样本图像所属的默认场景对应的权重，并将该默认场景对应的权重减小第一预设值，确定默认场景对应的调整后的权重；增大真实样本图像所属的真实场景对应的权重，并将该真实场景对应的权重增大第二预设值，确定真实场景对应的调整后的权重。

其中，在一种可能的实现中，第一预设值和第二预设值为保存在电子设备中的数值。

在又一种可能的实现中，电子设备中保存有第一预设值和第二预设值的确定规则，根据第一预设值和第二预设值的确定规则，可以确定第一预设值和第二预设值的数值。

示例的，电子设备中保存的第一预设值和第二预设值的确定规则可以为：当样本图像为参考样本图像时，参考样本图像所属的默认场景对应的第一预设值为具体数值；当样本图像为真实样本图像时，根据真实样本图像所属的真实场景对应的子损失值，根据每个子损失值的大小，确定该子损失值对应的权重的第二预设值；其中，子损失值越大，表示目标检测模型针对该真实场景的检测精度越低，也就是说该真实场景对检测精度的要求越高，则对检测精度要求越高的场景可以分配越大的权重，因此当真实场景下子损失值越大时，电子设备中针对该真实场景下子损失值对应的权重保存的第二预设值越大。

由于子损失值的大小可以表示不同场景对应的检测精度，真实场景对检测精度的要求越高，表示该场景的重要程度越高，则在一种可能的实现中，电子设备根据每个子损失值的大小，确定该子损失值对应的权重的第二预设值包括：电子设备根据每个子损失值的大小，即根据真实场景的重要程度，按照子损失值大小的比值，确定真实场景对应的权重的比值，从而确定每个真实场景对应的调整后的权重，并根据每个真实场景下调整后的权重以及原始的权重，确定每个真实场景对应的权重增加的第二预设值。例如结合真实的具体场景进行说明，在采用同一目标检测模型对五星级酒店厨房和街边小店厨房进行检测时，由于五星级酒店厨房的检测精度要求比较高，则可以对该五星级酒店厨房的场景分配较大的权重，使训练完成的目标检测模型在对五星级酒店厨房场景进行目标检测时检测精度更高。

在确定调整后的权重后，在一种可能的实现中，针对S301中的情况一，针对每个样本图像，根据该样本图像对应的调整后的权重、以及该样本图像的目标位置和预测位置之间的距离，确定该样本图像对应的子损失值。

在又一种可能的实现中，针对S301中的情况二，针对每个样本图像，根据该样本图像对应的调整后的权重、该样本图像的目标位置和预测位置之间的距离、以及该样本图像的目标类别和预测类别之间的距离，确定该样本图像对应的子损失值。

在得到每个样本图像对应的子损失值后，根据每个子损失值，可以将每个子损失值进行相加，确定更新后的损失值。基于更新后的损失值对目标检测模型进行训练，调整目标检测模型中的模型参数。

在本申请实施例中，根据真实场景的重要程度，确定真实场景对应的权重的比值，从而便于提高目标检测模型对重要程度较高的真实场景下的样本图像的检测精度，进一步提高了目标检测模型的检测精度。

在上述各实施例的基础上，以两个具体的示例对目标检测模型的训练过程进行说明：

示例一，样本集中的所有真实样本图像归属的真实场景为一种。获取样本集中大量的参考样本图像I^pre和小样本真实样本图像I^real；确定每个样本图像的位置编码，其中参考样本图像的位置编码为[1，0，……，0]，真实样本图像的位置编码为[0，1，……，0]，其中位置编码的长度与样本图像矩阵宽相同。

将带位置编码的样本图像矩阵特征输入到目标检测模型中的2层卷积层中，得到带位置编码的第一浅层特征，该第一浅层特征可以表达场景信息和色彩特征；将不带位置编码的样本图像矩阵特征输入到目标检测模型中的3层卷积层中，得到第一深层特征，该第一深层特征可以表达空间特征。

将第一浅层特征和第一深层特征做注意力机制，第一浅层特征作为注意力机制中的Query，第一深层特征作为注意力机制中的key，将第一浅层特征和第一深层特征相乘F_shallow*F_deep，得到第一关系特征F_{shallow-deep-realtion}，将第一深层特征作再通过一层卷积得到注意力机制中的value。根据注意力机制，将第一关系特征与第一深层特征进行特征提取，得到第一注意力特征该第一注意力特征表示不同色彩分布特征对应的空间关系中目标的位置；根据第一注意力特征确定样本图像中目标对象的预测位置，根据预测位置和目标位置，确定子损失值；根据每个子损失值以及对应的权重，确定损失值Attention loss并对目标检测模型进行训练，其中Attention Loss＝0.3×Loss_pre+0.7×Loss_{real_1}。

示例二，样本集中的所有真实样本图像归属的真实场景为两种。获取样本集中大量的参考样本图像I^pre和小样本真实样本图像I^real；确定每个样本图像的位置编码，其中参考样本图像的位置编码为[1，0，……，0]，真实场景1下的真实样本图像的位置编码为[0，1，……，0]，真实场景2下的真实样本图像的位置编码为[0，0，1，……，0]，其中位置编码的长度与样本图像矩阵宽相同。

将带位置编码的样本图像矩阵特征输入到目标检测模型中的1层卷积层中，得到带位置编码的第一浅层特征，该第一浅层特征可以表达场景信息和色彩特征；将不带位置编码的样本图像矩阵特征输入到目标检测模型中的4层卷积层中，得到第一深层特征，该第一深层特征可以表达空间特征。

将第一浅层特征和第一深层特征做注意力机制，第一浅层特征作为注意力机制中的Query，第一深层特征作为注意力机制中的key，将第一浅层特征和第一深层特征相乘得到第一关系特征F_{shallow-deep-realtion}，将第一深层特征作再通过一层卷积得到注意力机制中的value。根据注意力机制，将第一关系特征与第一深层特征进行特征提取，得到第一注意力特征该第一注意力特征表示不同色彩分布特征对应的空间关系中目标的位置；根据第一注意力特征确定样本图像中目标对象的预测位置，根据预测位置和目标位置，确定子损失值；根据每个子损失值以及对应的权重，确定损失值Attention loss并对目标检测模型进行训练，其中Attention Loss＝0.2×Loss_pre+0.3×Loss_{real_1}+0.5×Loss_{real_2}。

实施例5：

图5为本申请实施例提供的一种目标检测过程示意图，该过程包括：

S501：获取待检测图像。

本申请实施例提供的人员落水检测方法应用于电子设备，该电子设备可以是个人计算机(Personal Computer，PC)、服务器、图像采集设备如摄像头等。如果电子设备非图像采集设备，则电子设备可以从图像采集设备中获取待检测图像。如果电子设备为图像采集设备，则图像采集设备可以获取自身采集到的待检测图像。

其中，待检测图像可以是实时采集到的未经处理的原始图像，或者待检测图像可以是对原始图像处理后得到的图像。其中对原始图像进行处理的方式与S301中的方式一、方式二和方式三相同，此处不再进行赘述，且处理后得到的待检测图像为目标检测模型的输入图像的尺寸。

在获取到待检测图像后，确定该待检测图像归属的真实场景信息。其中，确定待检测图像归属的真实场景信息的过程与上述实施例中确定真实样本图像对应的真实场景的过程相同，此处不再进行赘述。

其中，示例的，真实场景信息可以通过位置标识信息进行表示。又一示例的，真实场景信息可以通过位置编码进行表示。其中，位置编码可以为行向量或列向量，当位置编码为行向量时，该位置编码的长度与待检测图像矩阵宽相同；当位置编码为列向量时，该位置编码的长度与待检测图像矩阵高相同。

以通过位置编码表示真实场景信息为例进行说明，根据待检测图像，确定待检测图像所在场景，并根据待检测图像所在场景，确定所有待检测图像所在场景的种类，例如待检测图像所在场景的种类的数量为N种时，将每种场景确定为景1、场景2、……、场景N；针对每个待检测图像，根据该待检测图像所在场景的种类，确定该待检测图像对应的位置编码。例如当待检测图像所在场景的种类为第n(n≤N)类即场景n时，将该待检测图像对应的位置编码中的第n+1个元素的数值确定为第一预设数值，将位置编码中其他元素的数值确定为第二预设数值。可以理解的是，待检测图像所在场景的种类的数量远小于待检测图像矩阵宽。

S502：将待检测图像及待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，获取目标检测模型输出的在真实场景信息下待检测图像中目标对象的目标检测位置。

目标检测模型为根据本申请实施例提供的目标检测模型的训练方法预先训练完成的模型，且目标检测模型可以为针对一种目标对象进行检测的模型或者针对多种目标对象进行检测的模型。

当目标检测模型为针对一种目标对象进行检测的模型时，将待检测图像及该待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，在该目标检测模型中确定待检测图像的与真实场景信息结合的色彩特征和空间特征，根据该与真实场景信息结合的色彩特征和空间特征，能够在该目标检测模型中，确定并获取该目标检测模型输出的在待检测图像归属的真实场景信息下，待检测图像中目标对象的目标检测位置。

当目标检测模型为针对多种目标对象进行检测的模型时，将待检测图像及该待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，在该目标检测模型中确定待检测图像的与真实场景信息结合的色彩特征和空间特征，根据该与真实场景信息结合的色彩特征和空间特征，能够在该目标检测模型中，确定并获取该目标检测模型输出的在待检测图像归属的真实场景信息下，待检测图像中目标对象的目标检测位置及目标检测种类。

在本申请实施例中，通过真实场景信息对待检测图像进行区分，便于在不同的真实场景信息下确定目标对象，提高了不同场景下目标对象的检测准确度。

实施例6：

为了进一步提高不同场景下目标对象的检测准确度，在上述各实施例的基础上，在本申请实施例中，目标检测模型输出在真实场景信息下待检测图像中目标对象的目标检测位置，包括：

目标检测模型根据待检测图像及对应的真实场景信息，确定待检测图像的第二浅层特征，其中第二浅层特征包括在真实场景信息下待检测图像的色彩特征；并确定待检测图像的第二深层特征，其中第二深层特征包括待检测图像的空间特征；

根据第二浅层特征和第二深层，确定在真实场景信息下待检测图像的色彩特征和空间特征之间对应的第二关系特征；

根据第二关系特征和第二深层特征，确定在真实场景信息下待检测图像中目标对象的目标检测位置信息；

根据目标检测位置信息，确定训练完成的目标检测模型输出的目标检测位置。

将待检测图像及对应的真实场景信息输入到目标检测模型中的M₁层卷积层(第一卷积层)，确定待检测图像的第二浅层特征。其中第二浅层特征包括待检测图像的色彩特征，并且由于将待检测图像和对应的真实场景信息作为目标检测模型中的第一卷积层的输入，因此第一卷积层输出的第二浅层特征中还携带有待检测图像对应的真实场景信息，也就是说，第二浅层特征中包括在待检测图像归属的真实场景信息下待检测图像的色彩特征。色彩特征可以表征待检测图像中目标对象大致位置信息以及大致类别信息。

示例的，当场景信息为位置编码、且位置编码为行向量时，根据待检测本图像，对待检测图像进行特征提取，确定待检测图像对应的待检测图像矩阵特征，将位置编码添加到待检测图像矩阵特征第一行的上方，确定带编码位置的待检测图像矩阵特征，将该带编码位置的待检测图像矩阵特征输入到第一卷积层，基于该第一卷积层，确定待检测图像对应的第二浅层特征。

如图4所示，将待检测图像输入到目标检测模型中的M₂层(M₂＞M₁)卷积层(第二卷积层)，确定待检测图像的第二深层特征。其中，第二深层特征包括待检测图像的空间特征。空间特征可以表征待检测图像中目标对象大致位置信息以及大致类别信息。

示例的，当场景信息为位置编码、且位置编码为行向量时，将待检测图像矩阵特征输入到第二卷积层，基于该第二卷积层，确定待检测图像对应的第二深层特征。

其中，上述确定第二浅层特征和确定第二深层特征的过程可以是并行的。

在得到待检测图像的第二浅层特征和第二深层特征后，根据该第二浅层特征和第二深层特征，将第二浅层特征和第二深层特征进行相乘，确定待检测图像的第二浅层特征和第二深层特征对应的第二关系特征，该第二关系特征可以表示不同色彩分布特征对应的空间关系，即不同真实场景对应的空间关系。

在得到第二关系特征后，由于第二深层特征可以表征目标对象的位置信息，第二关系特征可以表示不同色彩分布特征对应的空间关系，因此可以根据第二深层特征和第二关系特征，通过注意力机制对第二深层特征和第二关系特征进行特征提取，确定第二注意力特征，该第二注意力特征能够表示不同色彩分布特征对应的空间关系中目标对象的位置。

在一种可能的实现中，当目标检测模型为针对一种目标对象进行检测的模型时，由于第二深层特征可以表征目标对象的位置信息，第二关系特征可以表示不同色彩分布特征对应的空间关系，因此根据第二深层特征和第二关系特征确定的第二注意力特征能够表示不同色彩分布特征对应的空间关系中目标对象的位置。则根据该第二注意力特征，将该第二注意力特征输入到第三卷积层中，可以确定在待检测图像对应的场景信息下待检测图像中目标对象的目标检测位置。其中，第三卷积层可以为一层卷积层。

在又一种可能的实现中，当目标检测模型为针对多种目标对象进行检测的模型时，第二浅层特征和第二深层特征均可以表征待检测图像中目标对象的类别信息，因此根据第二浅层特征和第二深层特征确定的第二关系特征也可以表征目标对象的类别信息，从而根据第二关系特征和第二深层特征确定的注意力特征除了能够表示不同色彩分布特征对应的空间关系中目标对象的位置，还可以表征目标对象的类别信息。则根据该第二注意力特征，将该第二注意力特征输入到第三卷积层中，确定目标对象的目标类别以及在待检测图像对应的场景信息下待检测图像中目标对象的目标检测位置。

其中，上述第二注意力特征可以为标记了目标对象所在位置的特征；则将该第二注意力特征输入到卷积层后，得到的目标检测模型输出的目标检测位置可以为目标对象的坐标点。

在本申请实施例中，通过将场景信息和浅层特征结合，不仅能够更好的表达待检测图像的色彩特征，还可以通过场景信息对不同真实场景信息下的待检测图像进行区分，便于进一步提高不同场景下目标检测模型对目标对象的检测准确度。

实施例7：

为了进一步提高目标检测模型的检测准确度，在上述各实施例的基础上，在本申请实施例中，根据第二关系特征和第二深层特征，确定在真实场景信息下待检测图像中目标对象的目标检测位置，包括：

根据第二深层特征，获取第二注意力权重；根据第二浅层特征、第二深层特征、第二注意力权重以及注意力机制算法，确定第二关系特征对应的值；

根据第二关系特征、第二关系特征对应的值及第二深层特征，确定在真实场景信息下的目标检测位置。

在确定待检测图像的第二深层特征后，将第二深层特征通过一层卷积层，得到第二注意力权重。

在得到第二注意力权重后，基于目标检测模型中引入的注意力机制，将第二浅层特征作为注意力机制中的Query，将第二深层特征作为注意力机制中的Key，将第二注意力权重作为注意力机制中的value；根据第二浅层特征、第二深层特征、第二注意力权重以及注意力机制算法，确定第二关系特征对应的值，该第二关系特征对应的值可以表示第二浅层特征和第二深层特征之间的关系的紧密性，第二关系特征对应的值越大，则表示第二浅层特征和第二深层特征越匹配、关系越紧密，从而根据该第二关系特征确定的目标对象的位置信息更加准确。

其中，第二关系特征对应的值可以满足如下公式：

其中，Attention(Q,K,V)′表示第二关系特征对应的值，F_shallow′表示第二浅层特征，F_deep′表示第二深层特征，Conv(F_deep′)表示第二深层特征通过一层卷积层得到的第二注意力权重。

在得到第二关系特征对应的值后，根据第二关系特征、第二关系特征对应的值及第二深层特征，确定第二注意力机制；根据该第二注意力机制，确定在待检测图像归属的真实场景信息下目标对象的目标检测位置。

在本申请实施例中，基于注意力机制使目标检测模型更加关注第二浅层特征和第二深层特征，减少其他非必要信息对目标检测模型进行目标检测时产生的影响，提高了目标检测模型的检测准确度。

在上述各实施例的基础上，以两个具体的示例对目标检测过程进行说明：

示例一，输入到目标检测模型的待检测图像归属的真实场景信息为一种，则确定待检测图像的位置编码为[0，1，……，0]，其中位置编码的长度与待检测图像矩阵宽相同。

将带位置编码的待检测图像矩阵特征输入到目标检测模型中的2层卷积层中，得到带位置编码的第二浅层特征，该第二浅层特征可以表达场景信息和色彩特征；将不带位置编码的待检测图像矩阵特征输入到目标检测模型中的3层卷积层中，得到第二深层特征，该第二深层特征可以表达空间特征。

将第二浅层特征和第二深层特征做注意力机制，第二浅层特征作为注意力机制中的Query，第二深层特征作为注意力机制中的key，将第二浅层特征和第二深层特征相乘得到第二关系特征F_{shallow-deep-realtion}′，将第二深层特征作再通过一层卷积得到注意力机制中的value。根据注意力机制，将第二关系特征与第二深层特征进行特征提取，得到第二注意力特征该第二注意力特征表示不同色彩分布特征对应的空间关系中目标的位置；根据第二注意力特征，通过卷积得到目标对象的检测坐标点对应的目标检测位置。

示例二，输入到目标检测模型的待检测图像归属的真实场景信息为两种，则确定真实场景信息1下的待检测图像的位置编码为[0，1，……，0]，真实场景信息2下的待检测图像的位置编码为[0，0，1，……，0]，其中位置编码的长度与待检测图像矩阵宽相同。

将带位置编码的待检测图像矩阵特征输入到目标检测模型中的1层卷积层中，得到带位置编码的第二浅层特征，该第二浅层特征可以表达场景信息和色彩特征；将不带位置编码的待检测图像矩阵特征输入到目标检测模型中的4层卷积层中，得到第二深层特征，该第二深层特征可以表达空间特征。

实施例8：

基于相同的技术构思，在上述各实施例的基础上，本申请提供了一种目标检测模型的训练装置，图6为本申请实施例提供的一种目标检测模型的训练装置结构示意图，如图6所示，该装置包括：

第一获取模块601，用于获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中样本图像包括参考样本图像及真实样本图像，且记录有样本图像归属的场景信息，场景信息包括默认场景和真实场景；

输入模块602，用于将每个样本图像及对应的场景信息输入到目标检测模型中，获取目标检测模型输出的每个样本图像中目标对象的预测位置；

确定模块603，用于针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对子损失值进行调整，其中真实场景对应的权重大于默认场景对应的权重；

训练模块604，用于根据调整后的每个子损失值，确定损失值，并基于损失值对目标检测模型进行调整。

在一种可能的实施方式中，输入模块602，具体用于针对任一样本图像，目标检测模型根据该样本图像及对应的场景信息，确定样本图像的第一浅层特征，其中第一浅层特征包括在场景信息下样本图像的色彩特征；并确定样本图像的第一深层特征，其中第一深层特征包括样本图像的空间特征；根据第一浅层特征及第一深层特征，确定在场景信息下样本图像的色彩特征和空间特征之间对应的第一关系特征；根据第一关系特征及第一深层特征，确定在场景信息下样本图像中目标对象的预测位置。

在一种可能的实施方式中，输入模块602，具体用于根据第一深层特征，获取第一注意力权重；根据第一浅层特征、第一深层特征、第一注意力权重以及注意力机制算法，确定第一关系特征对应的值；根据第一关系特征、第一关系特征对应的值及第一深层特征，确定在场景信息下的预测位置。

在一种可能的实施方式中，训练模块604，还用于确定损失值之后，基于损失值对目标检测模型进行调整之前，判断损失值是否小于预设损失值；如果否，将默认场景对应的权重减小第一预设值，将每个真实场景对应的权重增大第二预设值，并根据调整后的权重，确定每个样本图像对应的子损失值，根据确定的每个子损失值对损失值进行更新。

实施例9：

基于相同的技术构思，在上述各实施例的基础上，本申请提供了一种目标检测装置，图7为本申请实施例提供的一种目标检测装置结构示意图，如图7所示，该装置包括：

第二获取模块701，用于获取待检测图像；

检测模块702，用于将待检测图像及待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，获取目标检测模型输出的在真实场景信息下待检测图像中目标对象的目标检测位置。

在一种可能的实施方式中，检测模块702，具体用于目标检测模型根据待检测图像及对应的真实场景信息，确定待检测图像的第二浅层特征，其中第二浅层特征包括在真实场景信息下待检测图像的色彩特征；并确定待检测图像的第二深层特征，其中第二深层特征包括待检测图像的空间特征；根据第二浅层特征和第二深层，确定在真实场景信息下待检测图像的色彩特征和空间特征之间对应的第二关系特征；根据第二关系特征和第二深层特征，确定在真实场景信息下待检测图像中目标对象的目标检测位置信息；根据目标检测位置信息，确定训练完成的目标检测模型输出的目标检测位置。

在一种可能的实施方式中，检测模块702，具体用于根据第二深层特征，获取第二注意力权重；根据第二浅层特征、第二深层特征、第二注意力权重以及注意力机制算法，确定第二关系特征对应的值；根据第二关系特征、第二关系特征对应的值及第二深层特征，确定在真实场景信息下的目标检测位置。

实施例10：

基于相同的技术构思，本申请还提供了一种电子设备，图8为本申请实施例提供的一种电子设备结构示意图，如图8所示，包括：处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信；

在一个实施例中，存储器803中存储有计算机程序，当程序被处理器801执行时，使得处理器801执行上述任一目标检测模型的训练的实施例。

在又一个实施例中，存储器803中存储有计算机程序，当程序被处理器801执行时，使得处理器801执行上述任一目标检测的实施例。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口802用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由电子设备执行的计算机程序，当程序在电子设备上运行时，使得电子设备执行时实现上述任一目标检测模型的训练的实施例，或者执行时实现上述任一目标检测的实施例。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

显然，本领域的技术人员可以对本申请进行各种改动及变型而不脱离本申请的精神及范围。这样，倘若本申请的这些修改及变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动及变型在内。

Claims

1.一种目标检测模型的训练方法，其特征在于，所述方法包括：

获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中所述样本图像包括参考样本图像及真实样本图像，且记录有所述样本图像归属的场景信息，所述场景信息包括默认场景和真实场景；

将所述每个样本图像及对应的场景信息输入到目标检测模型中，获取所述目标检测模型输出的所述每个样本图像中目标对象的预测位置；

针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对所述子损失值进行调整，其中所述真实场景对应的权重大于所述默认场景对应的权重；

根据调整后的每个子损失值，确定损失值，并基于所述损失值对所述目标检测模型进行调整。

2.根据权利要求1所述的方法，其特征在于，所述将所述每个样本图像及对应的场景信息输入到目标检测模型中，获取所述目标检测模型输出的所述每个样本图像中目标对象的预测位置，包括：

针对任一样本图像，所述目标检测模型根据该样本图像及对应的场景信息，确定所述样本图像的第一浅层特征，其中所述第一浅层特征包括在所述场景信息下所述样本图像的色彩特征；并确定所述样本图像的第一深层特征，其中所述第一深层特征包括所述样本图像的空间特征；根据所述第一浅层特征及所述第一深层特征，确定在所述场景信息下所述样本图像的所述色彩特征和所述空间特征之间对应的第一关系特征；根据所述第一关系特征及所述第一深层特征，确定在所述场景信息下所述样本图像中目标对象的所述预测位置。

3.根据权利要求2所述的方法，其特征在于，所述根据第一关系特征及第一深层特征，确定在所述场景信息下所述样本图像中目标对象的所述预测位置，包括：

根据所述第一深层特征，获取第一注意力权重；根据所述第一浅层特征、所述第一深层特征、所述第一注意力权重以及注意力机制算法，确定所述第一关系特征对应的值；

根据所述第一关系特征、所述第一关系特征对应的值及所述第一深层特征，确定在所述场景信息下的所述预测位置。

4.根据权利要求1所述的方法，其特征在于，所述确定损失值之后，所述基于所述损失值对所述目标检测模型进行调整之前，所述方法还包括：

判断所述损失值是否小于预设损失值；

如果否，将所述默认场景对应的权重减小第一预设值，将每个真实场景对应的权重增大第二预设值，并根据调整后的权重，确定每个样本图像对应的子损失值，根据确定的每个子损失值对所述损失值进行更新。

5.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像及所述待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，获取所述目标检测模型输出的在所述真实场景信息下所述待检测图像中目标对象的目标检测位置。

6.根据权利要求5所述的方法，其特征在于，所述目标检测模型输出在所述真实场景信息下所述待检测图像中目标对象的目标检测位置，包括：

所述目标检测模型根据所述待检测图像及对应的真实场景信息，确定所述待检测图像的第二浅层特征，其中所述第二浅层特征包括在所述真实场景信息下所述待检测图像的色彩特征；并确定所述待检测图像的第二深层特征，其中所述第二深层特征包括所述待检测图像的空间特征；

根据所述第二浅层特征和所述第二深层，确定在所述真实场景信息下所述待检测图像的色彩特征和空间特征之间对应的第二关系特征；

根据所述第二关系特征和所述第二深层特征，确定在所述真实场景信息下所述待检测图像中目标对象的所述目标检测位置信息；

根据所述目标检测位置信息，确定所述训练完成的目标检测模型输出的所述目标检测位置。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二关系特征和所述第二深层特征，确定在所述真实场景信息下所述待检测图像中目标对象的所述目标检测位置，包括：

根据所述第二深层特征，获取第二注意力权重；根据所述第二浅层特征、所述第二深层特征、所述第二注意力权重以及注意力机制算法，确定所述第二关系特征对应的值；

根据所述第二关系特征、所述第二关系特征对应的值及所述第二深层特征，确定在所述真实场景信息下的所述目标检测位置。

8.一种目标检测模型的训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取样本集中包含的每个样本图像及每个样本图像中包含的目标对象的目标位置，其中所述样本图像包括参考样本图像及真实样本图像，且记录有所述样本图像归属的场景信息，所述场景信息包括默认场景和真实场景；

输入模块，用于将所述每个样本图像及对应的场景信息输入到目标检测模型中，获取所述目标检测模型输出的所述每个样本图像中目标对象的预测位置；

确定模块，用于针对每个样本图像，根据该样本图像对应的预测位置及目标位置，确定子损失值，并根据该样本图像归属的场景信息对应的权重对所述子损失值进行调整，其中所述真实场景对应的权重大于所述默认场景对应的权重；

训练模块，用于根据调整后的每个子损失值，确定损失值，并基于所述损失值对所述目标检测模型进行调整。

9.一种目标检测装置，其特征在于，所述装置包括：

第二获取模块，用于获取待检测图像；

检测模块，用于将所述待检测图像及所述待检测图像归属的真实场景信息输入到训练完成的目标检测模型中，获取所述目标检测模型输出的在所述真实场景信息下所述待检测图像中目标对象的目标检测位置。

10.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-4任一项所述的一种目标检测模型的训练的步骤，或者实现如权利要求5-7任一项所述的一种目标检测方法的步骤。