CN113642431A

CN113642431A - 目标检测模型的训练方法及装置、电子设备和存储介质

Info

Publication number: CN113642431A
Application number: CN202110868166.5A
Authority: CN
Inventors: 陈子亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-12
Anticipated expiration: 2041-07-29
Also published as: CN113642431B

Abstract

本公开公开了目标检测模型的训练方法及装置、电子设备和存储介质，涉及人工智能技术领域，涉及计算机视觉和深度学习技术领域，可应用于图像处理、图像识别等场景。通过获取训练图像信息将样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，针对特征图序列中任意两个特征图组成的特征图对，对特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，根据各个区域关系图对、样本目标信息、预测目标信息，对目标检测模型进行训练时，采用任意两个特征图对中的区域关系，且区域关系为从尺度较大的特征图中提取得到，能够让目标检测模型中的各个网络层学习到更多更丰富特征，进而提高目标检测模型的检测准确度。

Description

目标检测模型的训练方法及装置、电子设备和存储介质

技术领域

本申请实施例涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于图像处理、图像识别等场景，具体涉及一种目标检测模型的训练方法及装置、电子设备和存储介质。

背景技术

目标检测模型作为视觉任务的前置模型，直接决定了视觉任务的后续效果。相关技术中，目标检测模型的训练方法，主要是基于目标检测模型对样本图像的预测标签以及真实标签构建损失函数，监督目标检测模型的训练。

上述方案中的训练方法，目标检测模型中的各个网络层学习到的知识较少，降低了训练得到的目标检测模型的检测准确度。

发明内容

本申请实施例提供了一种目标检测模型的训练方法及装置、电子设备和存储介质。

根据本申请实施例的一方面，提供了一种目标检测模型的训练方法，包括：

获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息；

将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序；

针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度；

根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型。

根据本申请实施例的另一方面，提供了一种目标检测模型的训练装置，包括：

获取模块，用于获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息；

输入模块，用于将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序；

处理模块，用于针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度；

训练模块，用于根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型。

根据本申请实施例的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面所述的方法。

根据本申请实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面所述的方法。

根据本申请实施例的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前述一方面所述的方法。

本申请实施例提供的目标检测模型的训练方法及装置、电子设备和存储介质，首先获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息，其次将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序，针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度，最后根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型，本申请实施例在对目标检测模型进行训练时，采用了任意两个特征图对中的区域关系进行训练，并且该区域关系为从尺度较大的特征图中提取得到，能够让目标检测模型中的各个网络层学习到更多更丰富特征，进而提高训练得到的目标检测模型的检测准确度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本实施例的限定。其中：

图1为本申请实施例所提供的一种目标检测模型的训练方法的流程示意图；

图2为本申请实施例所提供的一种目标训练的整体框架；

图3为本申请实施例提供的一种获取区域关系图对的流程示意图；

图4为本申请实施例所提供的另一种目标检测模型的训练方法的流程示意图；

图5为本申请实施例提供的注意力特征图和区域关系的计算过程示意图；

图6为本申请实施例提供的一种目标检测模型的训练装置的结构示意图；

图7为本申请实施例提供的另一种目标检测模型的训练装置的结构示意图；

图8为本申请实施例提供的示例电子设备800的示意性框图。

具体实施方式

以下结合附图对本申请实施例的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请实施例的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的目标检测模型的训练方法、装置、电子设备和存储介质。

相关技术中，为了让学习的速度和精度均衡的网络，通常采用在主干网络中用深层的注意力图来指导浅层的特征进行学习。该种方式下虽然能够实现端到端的学习训练，但是只考虑到了让浅层的特征去学习深层特征，忽略了不同目标之间的关联，因此得到的学习结果存在较大误差。

本申请实施例中，为了能够让目标检测模型中的各个网络层学习到更多更丰富特征，进而提高训练得到的目标检测模型的检测准确度。应用了使用从特征图对中提取的区域关系对目标检测模型进行训练，从而能够让目标检测模型网络能够学习到更好的特征表达，最终使得速度与精度达到最大均衡化。

图1为本申请实施例所提供的一种目标检测模型的训练方法的流程示意图。

如图1所示，该方法包含以下步骤，包括：

步骤101，获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息。

实际应用中，目标检测模型包括主干网络、链接网络、头网络、计算分类和回归损失过程。其中，主干网络用于进行提取特征，链接网络基于主干网络的特征作为输入，用于对不同尺度的主干网络提取到的特征进行融合，头网络基于链接网络作为输入，用于分类框的类别和回归框的大小，计算分类在头网络中，用于对框的类别进行分类，得到的是每一个类别的概率，概率值越大，说明属于该类别的概率越大。

步骤102，将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序。

本步骤的目的在于通过目标检测模型的主干网络中各特征提取层提取输出样本图像中的特征图，在根据每层特征提取层输出的特征图按照尺度大小排序，得到特征图序列，该特征图包含深层特征图与浅层特征图。

在输出特征图序列输出之前已经对特征图按照尺度大小进行了排序，如按尺度从小到大依次排序，或按尺度从大到小依次排序，具体本发明实施例对此不进行限定。

步骤103，针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度。

作为本发明的一种实施例，在使用任意两个特征图组成特征图对时，可以使用排名中的相邻特征图组成特征图对，或者，使用排名中的奇数偶数组成特征图对，如奇数排名的任意两个特征图组成特征图对，再者，还可以任选特征图序列中两个特征图组成的特征图对。但是需要说明的是，无论选择哪种组成形式，应当遵循的原则是：组成的特征图对中一个特征图的尺度相对较大，另一个特征图的尺度相对较小，目的在于能够根据第一尺度提取到特征更丰富的区域关系，进而为目标检测模型的精度训练提供依据。

为了清楚说明本申请实施例，本申请实施例提供了图2所示的目标检测模型的整体框架，正方体模块代表不同尺度的特征图feature map，采用从大到小的排序方式组成特征图序列。本申请实施例所述的尺度为从样本图像中采集特征图时的采样倍数，采样倍数越大，其采集到的特征图内容越丰富，采样倍数越小，其采集到的特征图内容越简单；举例而言，本申请实施例所述的采样倍数包括但不限于8倍、16倍、32倍采样特征图，具体不进行限定。

为了更好的理解区域关系，举例而言，考虑到不同目标之间可能存在一定的关联性，比如同时检测人脸和人体的过程中，人脸目标和人体目标具有对应关联关系，人脸和人体构成区域关系图，而并非向相关技术中仅能检测单独的人脸或者人体，再如同时检测足球场上的足球和运动员的过程中，足球和运动员之间具有对应的关联关系，构成区域关系图，或者，碗和筷子之间具有对应的关联关系，碗和筷子构成区域关系图，等多种应用场景中。以上举例仅为了能够对区域关系进行更好的理解而给出的示例，并非是限定本申请实施例的检测对象仅能针对上述示例给出的内容。

步骤104，根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型。

具体实施过程中，目标检测模型的训练过程一般为多次迭代训练的过程，在不断调整各层网络层级参数的前提下，使得训练结果更加收敛，以完成目标检测模型的训练。

预测目标信息作为目标检测模型完成训练的依据，当训练结果完全与预测目标信息时，目标检测模型的完成度作为最优选。实际应用中，可能会因为各层网络的参数或参数传输中出现误差，导致训练的结果与预测目标信息存在误差，只有该误差在误差阈值范围内，也算作目标检测模型已完成训练，所述误差阈值需根据不同的应用场景进行确定，本发明实施例对此不进行限定。

在实际应用中，目标检测模型可以包含但不局限于下述内容，例如：卷积神经网络、残差神经网络或者其他现有的神经网络或者自主设计的神经网络等，具体的本申请实施例不进行限定。

本申请实施例中，首先获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息，其次将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序，针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度，最后根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型，本申请实施例在对目标检测模型进行训练时，采用了任意两个特征图对中的区域关系进行训练，并且该区域关系为从尺度较大的特征图中提取得到，能够让目标检测模型中的各个网络层学习到更多更丰富特征，进而提高训练得到的目标检测模型的检测准确度。

区域关系图是训练目标检测模型训练精度的关键点，区域关系图提取的越精准，目标训练模型训练的精准度越高。如图3所示，图3为本申请实施例提供的一种获取区域关系图对的流程示意图。

步骤301，针对所述特征图序列中任意两个特征图组成的特征图对，获取所述特征图对中的第一特征图和第二特征图，其中，所述第一特征图的尺度大于所述第二特征图的尺度。

所述第一特征图与第二特征图为根据特征图对中的两个特征图分别获取的，第一特征图的尺度大于第二特征图的尺度，第一特征图也称浅层特征图，第二特征图也可称为深层特征图。

作为本申请实施例的一种实现方式，在确认第一特征图的尺度和所述第二特征图的尺度时，可通过获取第一特征图中的四个顶角的坐标值确认尺度，同样的，在获取第二特征图的尺度时，也采用获取其四个顶角的坐标值计算尺度。具体对尺度的获取方法不进行限定。

步骤302，确定所述第一特征图的尺度为所述第一尺度。

步骤303，对所述第二特征图按照所述第一尺度进行上采样，得到所述第一尺度的目标特征图。

作为本申请实施例的可实现方式，请继续参与图2，在采集第二特征图中按照第一尺度采集目标特征图时，应当先确定深层特征图的上采样(up sample)倍数，再基于确定的上采样倍数采集与浅层特征图相同尺度(第一尺度)的目标特征图，具体实施过程中，所述的采样倍数包含但不限于8倍、16倍、32倍采样特征图，具体需根据具体的应用场景进行确定

步骤304，对所述目标特征图进行区域关系图提取处理，得到所述目标特征图对应的区域关系图。

对所述目标特征图进行分块处理，得到多个特征子图，针对每个待处理的特征子图，将所述待处理的特征子图分别与所述目标特征图中的各个其他特征子图按照注意力机制进行处理，确定所述待处理的特征子图对应的区域关系子图，根据各个所述区域关系子图，生成所述目标特征图对应的区域关系图。

作为一种可能的实现方式，通过点乘操作获取区域关系，即当前特征图中的一个点和多个特征子图的关系，由于每个特征图对大小固定，特征图的每个位置之间都会进行点乘来计算特征图之间的相互关系，得到的是两个区域的相关性；相关性强，得到的点乘数值就越大，相关性弱，得到的点乘数值就越小。举例而言，区域关系子图中重要的区域会正常表示，没目标的区域的数值会趋近于0；就比如眼睛判断人的性别，我们会关注点为头发区域(长发短发)，而其他区域忽略(其他区域的数值趋近0)，但是我们看到的仍然是整个人(feature)。

点乘操作可以采用但不局限于通过self－attention或者softmax求概率的方式确定区域关系。实际应用中由于点乘操作的结果为多个，该种应用场景下点乘操作的处理结果和特征图加权求和就可以得到特征图融合其他区域的信息进而得到区域关系图。

步骤305，对所述第一特征图进行区域关系图提取处理，得到所述第一特征图对应的区域关系图。

有关对第一特征图进行区域关系图的提取方法，其提取原理与步骤204中提取目标特征图对应的区域关系图的方法相同，可参阅上一步骤的具体实现，本步骤对此不在进行一一赘述。

步骤306，根据所述目标特征图对应的区域关系图以及所述第一特征图对应的区域关系图，生成所述区域关系图对。

基于图3所示方法确定区域关系图对，浅层特征(第二特征图)可对深层特征(第一特征图)进行拟合操作，确保浅层特征训练的精准度，经过此过程训练得到的目标检测模型具有更高的检测精度。

以上说明了对区域关系图对的具体生成过程，得到区域关系图对后，根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型如图4所示，所述方法包括：

步骤401，对所述特征图对中的两个特征图分别按照注意力机制进行处理，得到所述第一尺度的两个注意力特征图。

关于获取注意力特征图的实现方式可参与相关技术中的任意实现方式，本申请实施例在此不再进行一一赘述。

步骤402，根据所述第一尺度的两个注意力特征图，生成注意力特征图对。

步骤403，根据各个所述区域关系图对、各个所述注意力特征图对、所述样本目标信息以及所述预测目标信息构建损失函数。

首先针对每个特征图对，根据所述特征图对对应的区域关系图，构建第一子损失函数，其次，根据所述特征图对对应的注意力特征图对，构建第二子损失函数，第三，根据所述样本目标信息以及所述预测目标信息，构建第三子损失函数，最后，根据各个所述特征图对对应的第一子损失函数和第二子损失函数，以及所述第三子损失函数，构建所述损失函数。在具体实施过程中，所述损失函数可理解为分别两个区域关系图、两个注意力特征图对应位置的数值差，以及样本目标信息以及所述预测目标信息的数值差。

基于上述实施例，本申请实施例提供了一种实现方式，如图5所示的基于所述注意力特征图和区域关系图的计算过程示意图，首先分别通过注意力attention机制和点乘操作(self dot multiply)得到注意力特征图1以及注意力特征图2(attention map1以及attention map2)和区域关系图1以及区域关系图2(region relation1以及regionrelation2)，然后根据attention map1以及attention map2计算对应特征图对的第二子损失函数，再根据region relation1以及region relation2计算对应特征图的第一子损失函数，最后根据样本目标信息以及所述预测目标信息，构建第三子损失函数，根据各个所述特征图对对应的第一子损失函数和第二子损失函数，以及所述第三子损失函数，构建所述损失函数最为最终约束，监督浅层特征拟合深层特征，从而能够让目标检测模型学习到更好的特征表达。需要说明的是图3所示仅为示例性的说明，而非是对具体实现算法或方式进行限定。

步骤404，根据所述损失函数的值，对所述目标检测模型进行训练，得到训练好的目标检测模型。

在损失函数的值对目标检测模型进行训练时，可以在确定目标检测模型的具体网络层级以及损失函数的值之后，调整该些网络层级中的参数，以使得训练结果更加收敛。

需要说明的是，上述第一、第二仅为了便于说明不同的尺度，或者不同的特征图，而并非包含优先级顺序，或者重要程度等含义。

以上实施例详细说明本方案不仅应用了深层的特征图来蒸馏浅层的特征图，还考虑到了不同区域之间具有关联性的信息，即同时应用了深层的区域关系特征图来蒸馏浅层的区域关系特征图。

目标检测模型完成训练后，可以直接将待检测样本输入目标检测模型对目标进行检测，可应用于图像处理、图像识别等场景举例而言，当待检测样本为一段视频，检测目标为一车辆时，可将一段视频输入目标检测模型对目标车辆进行检测，并输出该车辆及车辆的行使轨迹；或者，待检测样本为一段文字图像，检测目标为一段指定文字图像时，可将该文字图像输入目标检测模型对指定文字进行检测识别，并输出指定文字的页码、语义等基本信息。

图6为本申请实施例提供的一种目标检测模型的训练装置的结构示意图，如图6所示，包括：获取模块61、输入模块62、处理模块63和训练模块64。

获取模块61，用于获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息；

输入模块62，用于将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序；

处理模块63，用于针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度；

训练模块64，用于根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型。

进一步地，在本实施例一种可能的实现方式中，图7为本申请实施例提供的另一种目标检测模型的训练装置的结构示意图，如图7所示，包括：获取模块71、输入模块72、处理模块73和训练模块74。有关获取模块71、输入模块72、处理模块73和训练模块74，请参阅图6中相应的获取模块61、输入模块62、处理模块63和训练模块64，在此不再进行赘述。

其中，所述输入模块72，包括：

处理单元721，用于将所述样本图像输入所述目标检测模型，以获取所述目标检测模型输出的预测目标信息，以及所述目标检测模型的主干网络中各个特征提取层输出的特征图；

排序单元722，用于对各个所述特征图按照尺度大小进行排序，得到所述特征图序列。

进一步地，在本实施例一种可能的实现方式中，如图7所示，所述处理模块73包括：

获取单元731，用于针对所述特征图序列中任意两个特征图组成的特征图对，获取所述特征图对中的第一特征图和第二特征图，其中，所述第一特征图的尺度大于所述第二特征图的尺度；

确定单元732，用于确定所述第一特征图的尺度为所述第一尺度；

采样单元733，用于对所述第二特征图按照所述第一尺度进行上采样，得到所述第一尺度的目标特征图；

第一提取单元734，用于对所述目标特征图进行区域关系图提取处理，得到所述目标特征图对应的区域关系图；

第二提取单元735，用于对所述第一特征图进行区域关系图提取处理，得到所述第一特征图对应的区域关系图；

生成单元736，用于根据所述目标特征图对应的区域关系图以及所述第一特征图对应的区域关系图，生成所述区域关系图对。

进一步地，在本实施例一种可能的实现方式中，所述第一提取单元734，包括：

分块子单元，用于对所述目标特征图进行分块处理，得到多个特征子图；

处理子单元，用于针对每个待处理的特征子图，将所述待处理的特征子图分别与所述目标特征图中的各个其他特征子图按照自注意力机制进行处理，确定所述待处理的特征子图对应的区域关系子图；

生成子单元，用于根据各个所述区域关系子图，生成所述目标特征图对应的区域关系图。

进一步地，在本实施例一种可能的实现方式中，如图7所示，所述训练模块74包括：

处理单元741，用于对所述特征图对中的两个特征图分别按照注意力机制进行处理，得到所述第一尺度的两个注意力特征图；

生成单元742，用于根据所述第一尺度的两个注意力特征图，生成注意力特征图对；

构建单元743，用于根据各个所述区域关系图对、各个所述注意力特征图对、所述样本目标信息以及所述预测目标信息构建损失函数；

训练单元744，用于根据所述损失函数的值，对所述目标检测模型进行训练，得到训练好的目标检测模型。

进一步地，在本实施例一种可能的实现方式中，所述构建单元743包括：

第一构建子单元，用于针对每个特征图对，根据所述特征图对对应的区域关系图，构建第一子损失函数；

第二构建子单元，用于根据所述特征图对对应的注意力特征图对，构建第二子损失函数；

第三构建子单元，用于根据所述样本目标信息以及所述预测目标信息，构建第三子损失函数；

第四构建子单元，用于根据各个所述特征图对对应的第一子损失函数和第二子损失函数，以及所述第三子损失函数，构建所述损失函数。

本申请实施例提供的目标检测模型的训练装置，首先获取训练图像信息，其中，所述训练图像信息包括：样本图像，以及所述样本图像的样本目标信息，其次将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，其中，所述特征图序列中的各个特征图按照尺度大小进行排序，针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，其中，所述第一尺度为所述两个特征图的尺度中的较大尺度，最后根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型，本申请实施例在对目标检测模型进行训练时，采用了任意两个特征图对中的区域关系，并且该区域关系为从尺度较大的特征图中提取得到，能够让目标检测模型中的各个网络层学习到更多更丰富特征，进而提高训练得到的目标检测模型的检测准确度。

需要说明的是，前述对方法实施例的解释说明，也适用于本申请实施例的装置，原理相同，本申请实施例中不再限定。

根据本申请实施例的实施例，本申请实施例还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本申请实施例的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在ROM(Read－OnlyMemory，只读存储器)802中的计算机程序或者从存储单元808加载到RAM(Random AccessMemory，随机访问/存取存储器)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM803通过总线804彼此相连。I/O(Input/Output，输入/输出)接口805也连接至总线808。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元808，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于CPU(Centra lProcessing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificia lIntelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如目标检测模型的训练方法。例如，在一些实施例中，目标检测模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行前述目标检测模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application－Specific Integrated Circuit，专用集成电路)、ASSP(ApplicationSpecific Standard Product，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(Complex Programmable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read－Only－Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD－ROM(Compact Disc Read－Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode－Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端－服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(＂VirtualPrivate Server＂，或简称＂VPS＂)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述样本图像输入目标检测模型，以获取特征图序列以及预测目标信息，包括：

将所述样本图像输入所述目标检测模型，以获取所述目标检测模型输出的预测目标信息，以及所述目标检测模型的主干网络中各个特征提取层输出的特征图；

对各个所述特征图按照尺度大小进行排序，得到所述特征图序列。

3.根据权利要求1所述的方法，其中，所述针对所述特征图序列中任意两个特征图组成的特征图对，对所述特征图对中的两个特征图按照第一尺度进行区域关系图提取处理，得到区域关系图对，包括：

针对所述特征图序列中任意两个特征图组成的特征图对，获取所述特征图对中的第一特征图和第二特征图，其中，所述第一特征图的尺度大于所述第二特征图的尺度；

确定所述第一特征图的尺度为所述第一尺度；

对所述第二特征图按照所述第一尺度进行上采样，得到所述第一尺度的目标特征图；

对所述目标特征图进行区域关系图提取处理，得到所述目标特征图对应的区域关系图；

对所述第一特征图进行区域关系图提取处理，得到所述第一特征图对应的区域关系图；

根据所述目标特征图对应的区域关系图以及所述第一特征图对应的区域关系图，生成所述区域关系图对。

4.根据权利要求3所述的方法，其中，所述对所述目标特征图进行区域关系图提取处理，得到所述目标特征图对应的区域关系图，包括：

对所述目标特征图进行分块处理，得到多个特征子图；

针对每个待处理的特征子图，将所述待处理的特征子图分别与所述目标特征图中的各个其他特征子图按照自注意力机制进行处理，确定所述待处理的特征子图对应的区域关系子图；

根据各个所述区域关系子图，生成所述目标特征图对应的区域关系图。

5.根据权利要求1所述的方法，其中，所述根据各个所述区域关系图对、所述样本目标信息、所述预测目标信息，对所述目标检测模型进行训练，得到训练好的目标检测模型，包括：

对所述特征图对中的两个特征图分别按照注意力机制进行处理，得到所述第一尺度的两个注意力特征图；

根据所述第一尺度的两个注意力特征图，生成注意力特征图对；

根据各个所述区域关系图对、各个所述注意力特征图对、所述样本目标信息以及所述预测目标信息构建损失函数；

根据所述损失函数的值，对所述目标检测模型进行训练，得到训练好的目标检测模型。

6.根据权利要求5所述的方法，其中，所述根据各个所述区域关系图对、各个所述注意力特征图对、所述样本目标信息以及所述预测目标信息构建损失函数，包括：

针对每个特征图对，根据所述特征图对对应的区域关系图，构建第一子损失函数；

根据所述特征图对对应的注意力特征图对，构建第二子损失函数；

根据所述样本目标信息以及所述预测目标信息，构建第三子损失函数；

根据各个所述特征图对对应的第一子损失函数和第二子损失函数，以及所述第三子损失函数，构建所述损失函数。

7.一种目标检测模型的训练装置，包括：

8.根据权利要求7所述的装置，其中，所述输入模块，包括：

处理单元，用于将所述样本图像输入所述目标检测模型，以获取所述目标检测模型输出的预测目标信息，以及所述目标检测模型的主干网络中各个特征提取层输出的特征图；

排序单元，用于对各个所述特征图按照尺度大小进行排序，得到所述特征图序列。

9.根据权利要求7所述的装置，其中，所述处理模块包括：

获取单元，用于针对所述特征图序列中任意两个特征图组成的特征图对，获取所述特征图对中的第一特征图和第二特征图，其中，所述第一特征图的尺度大于所述第二特征图的尺度；

确定单元，用于确定所述第一特征图的尺度为所述第一尺度；

采样单元，用于对所述第二特征图按照所述第一尺度进行上采样，得到所述第一尺度的目标特征图；

第一提取单元，用于对所述目标特征图进行区域关系图提取处理，得到所述目标特征图对应的区域关系图；

第二提取单元，用于对所述第一特征图进行区域关系图提取处理，得到所述第一特征图对应的区域关系图；

生成单元，用于根据所述目标特征图对应的区域关系图以及所述第一特征图对应的区域关系图，生成所述区域关系图对。

10.根据权利要求9所述的装置，其中，所述第一提取单元，包括：

11.根据权利要求7所述的装置，其中，所述训练模块包括：

处理单元，用于对所述特征图对中的两个特征图分别按照注意力机制进行处理，得到所述第一尺度的两个注意力特征图；

生成单元，用于根据所述第一尺度的两个注意力特征图，生成注意力特征图对；

构建单元，用于根据各个所述区域关系图对、各个所述注意力特征图对、所述样本目标信息以及所述预测目标信息构建损失函数；

训练单元，用于根据所述损失函数的值，对所述目标检测模型进行训练，得到训练好的目标检测模型。

12.根据权利要求11所述的装置，其中，所述构建单元包括：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1－6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1－6中任一项所述的方法。