CN114998575B

CN114998575B - 训练和使用目标检测模型的方法及装置

Info

Publication number: CN114998575B
Application number: CN202210753302.0A
Authority: CN
Inventors: 邹城; 王萌; 程远
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2024-07-30
Anticipated expiration: 2042-06-29
Also published as: CN114998575A

Abstract

本公开披露了一种训练和使用目标检测模型的方法和装置。所述训练方法包括：将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据；根据所述第一结果的损失和所述第二结果的损失，更新所述目标检测模型。

Description

训练和使用目标检测模型的方法及装置

技术领域

本公开涉及机器学习技术领域，尤其涉及一种训练和使用目标检测模型的方法及装置。

背景技术

随着神经网络的快速发展，目标物的识别在各个领域被迫切需要。在部分领域中，目标物的识别通常是基于目标物的多个检测部位而进行的，例如，在面向动物的领域和服务中(如动物保险、动物认证识别、珍惜物种跟踪等)，可以基于动物的脸部、鼻部或者身体中的多个检测部位对动物进行识别。

由此可知，精确的检测出目标物的多个检测部位非常重要。然而，在使用相关技术中的方法对多个目标物中的每个目标物的多个检测部位进行检测时，其计算复杂度高且检测精度较低。

发明内容

有鉴于此，本公开提供一种训练和使用目标检测模型的方法和装置，以在降低计算复杂度的同时提升检测精度。

第一方面，提供一种目标检测模型的训练方法，所述方法包括：将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据；根据所述第一结果的损失和所述第二结果的损失，更新所述目标检测模型。

第二方面，提供一种基于目标检测模型的目标检测方法，所述方法包括：将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据。

第三方面，提供一种目标检测模型的训练装置，所述装置包括：第一获取模块，用于将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；第二获取模块，用于将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据；更新模块，用于根据所述第一结果的损失和所述第二结果的损失，更新所述目标检测模型。

第四方面，提供一种基于目标检测模型的目标检测装置，所述装置包括：第一获取模块，用于将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；第二获取模块，用于将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据。

第五方面，提供一种检测装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器被配置为执行所述可执行代码，以实现第一方面或第二方面所述的方法。

第六方面，提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被执行时，能够实现如第一方面或第二方面所述的方法。

第七方面，提供一种计算机程序产品，包括可执行代码，当所述可执行代码被执行时，能够实现如第一方面或第二方面所述的方法。

本公开实施例提供一种方案，其所使用的目标检测模型在对包含多个目标物的图像中的每个目标物进行检测，且该目标物包含多个检测部位时，可以在检测出一个目标物的第一检测部位的同时检测出与该检测部位属于同一个目标物的第二检测部位。这样可避免在目标检测模型的输出之后增加后处理，与相关技术比较可以极大地降低计算复杂度且显著的提升检测精度。

附图说明

图1为相关技术中的目标检测模型的架构示意图。

图2为基于相关技术中的检测方法进行检测的效果示例图。

图3是相关技术中的检测从属关系的架构示意图。

图4是本公开实施例提供的目标检测模型的架构示意图。

图5是本公开实施例提供的目标检测模型的训练方法的流程示意图。

图6是本公开实施例提供的基于目标检测模型的检测方法的流程示意图。

图7是根据本公开实施例中的检测方法进行检测的效果示意图。

图8是本公开实施例提供的目标检测模型的训练装置的结构示意图。

图9是本公开实施例提供的基于目标检测模型的检测装置的结构示意图。

图10是本公开实施例提供的一种检测装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本公开一部分实施例，而不是全部的实施例。

计算机视觉技术是一门试图从图像或者多维数据中获取信息以实现机器学习的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别、视频处理、视频语义理解、视频内容/行为识别、虚拟现实、增强现实、同步定位与地图构建等技术。

神经网络是实现机器学习的一种方式。神经网络可包括输入层、中间层和输出层。当神经网络需要执行一个任务或多个任务(例如，检测或者分类)时，输入层会接收需要学习的数据，中间层可从数据中提取与当前任务有关的特征，输出层可根据中间层提取的特征输出任务的结果。神经网络的具体结构和网络层数可根据实际需求自行调整。

随着计算机视觉技术和神经网络的快速发展，目标物的识别在各个领域被迫切需要。例如，在人体跟踪或者人数统计领域，需要进行人体识别；在交通领域需要进行车辆识别；在面向动物的领域和服务中(例如，动物保险、动物认证识别、珍惜物种跟踪等)，需要进行动物的识别。特别地，在为动物投保的场景中，需要从用户上传的图像中检测出动物，并对该动物进行后续的身份核验或识别，以确定该动物是否为目标动物而实现为目标动物购买保险或者为目标动物赔付保险。

通常而言，在对目标物为动物进行身份验证或者身份识别时，是根据从图像中检测出的目标物的特征是否与预留目标物的特征匹配而进行。如果匹配，则说明图像中的目标物为预留信息的目标物，如果不匹配则说明图像中的动物并非预留信息的目标物。

为了有效的检测出目标物以及便于后续的特征匹配，通常需要检测出目标物的多个检测部位，并基于该多个检测部位的特征进行后续的特征匹配。目标物的检测部位可以是能够对目标物的身份进行精准认定的部位，在目标物为动物时，其检测部位是动物身上所具有的部位。例如，动物鼻子上特有的纹路与人类的指纹一样具有唯一性，因此鼻部可作为检测部位。或者，不同类型的动物的脸部的差异很大，因此脸部也可以作为检测部位。又或者，不同动物的瞳孔具有特有的颜色或者纹路，因此，瞳孔也可以作为检测部位。又或者，不同的动物的体型或者身体的颜色的差异很大，因此身体也可作为检测部位，应理解，身体可以是指包括头、肚子、四肢等的整个体型的架构。本公开实施例中的多个检测部位可以是上述检测部位中的任意两个或者多个。多个检测部位可分别被标记为第一检测部位、第二检测部位等。可以理解，所检测的同一个动物的检测部位越多，越有利于后续的身份验证的精度，但是其计算量也相对较大。因此，在一些实现方式中，多个检测部位可以包括鼻部、脸部以及身体，从而可以在保证后续身份验证的精度的同时使得整体检测过程的计算量较小。

如前所述，身份验证或者身份识别需要基于检测出的一个目标物的多个检测部位而进行。如果图中只有一个目标物，那么检测出的多个检测部位自然属于这一个动物。而当图像中具有多个动物时，需要先确定各个目标物所对应的多个检测部位，再基于每个目标物的多个检测部位进行身份验证。然而相关技术中，在从包含多个目标物的图像中检测每个目标物的多个检测部位时，具有很多弊端。下文将对相关技术及其弊端进行详细的介绍。

相关技术中的目标检测模型通常包括与多个检测部位对应的多个子任务网络。为了便于理解，下文中将基于目标物为动物，且多个检测部位包括第一检测部位、第二检测部位和第三检测部位为例进行说明。如图1所示，目标检测模型包括三个子任务网络：第一子任务网络用于检测第一检测部位(例如脸部)、第二子任务网络用于检测第二检测部位(例如鼻部)，第三子任务网络用于检测第三检测部位(例如身体)。该三个子任务网络可并行地对图像进行处理，使得每个子任务网络分别从图像中检测出一类检测部位。一般而言，检测出的检测部位通常以检测框(或称边界框)所框定的图像而表示，因此，对应的每个子任务网络的输出结果则可为每个检测框的类别数据(或称分类数据，可被标记为cls)和位置数据(或称回归数据，可被标记为box)。

为了便于理解，下面结合图2对上述目标检测模型的输出进行详细的说明。参见图2，图中的检测框包括3种，其分别是根据图1所述的三个子任务网络所检测出的。其中，用双点划线所表示的检测框为鼻部检测框，用虚线所表示的检测框为脸部检测框，用实线所表示的检测框为身体检测框。由于同样类型的检测框均具有4个，这说明该图像中具有4只动物。另外，相关技术中的目标检测模型是通过标定好的图像训练而得到的。其在训练的过程中，一般只需要分别标定各个检测部位的类别数据和位置数据，并将标定好的图像输入目标检测模型，以通过该模型中的三个子任务网络中的每个子任务网络的输出与标定数据的损失来更新目标检测模型。其总的损失函数可以被表示为：总Loss＝第一子任务的目标检测loss(分类loss+回归loss)+第二子任务的目标检测loss(分类loss+回归loss)+第三子任务的目标检测loss(分类loss+回归loss)。

由于相关技术中的目标检测模型的三个子任务网络的输出结果只包含独立的各个检测框的类别信息和位置信息，当现有的目标检测模型检测出多个孤立的检测框时，其还无法将该多个孤立的检测框与其所属的动物进行对应，因此无法进行后续的身份验证或识别。

为了解决此问题，如图3所示，相关技术中通常是在目标检测模型的输出之后增加额外的后处理。该后处理可计算目标检测模型所输出的各个检测框之间的交并比(Intersection Over Union，IOU)，并基于该交并比是否满足预定的条件而确定各个检测框是否属于同一只动物。交并比可用于衡量两个框之间的重叠程度，如图2所示，一般属于同一只动物的不同检测部位的检测框具有相应的重叠，例如，脸框肯定包含鼻框，身体框肯定包含脸框或鼻框。需要说明的是每两个检测部位属于同一个目标物，则该两个检测部位具有从属关系(或称对应关系)。由于检测框可代表检测部位，那么从多个检测框中判断哪些检测框属于同一只动物即判断各个检测部位之间的从属关系。也就是说，如果任意两个检测框属于同一只动物，则该两个检测框所框定的两个检测部位(第一检测部位和第二检测部位)具有从属关系，如果任意两个检测框不属于同一只动物，则该两个检测框所框定的两个检测部位不具有从属关系。

具体的，在相关技术中，通过交并比对各个检测部位之间的从属关系的判断方法为：当目标检测模型检测出图像中的所有孤立的检测框后，后处理会针对每个第一检测框(例如身体检测框)，去遍历所有的第二检测框(例如脸部检测框或鼻部检测框)，以通过每个第一检测框与每个第二检测框之间的交并比是否满足预定的条件，而确定第一检测框与第二检测框之间可能存在从属关系。

然而，上述方法在实际应用中面临以下问题：1、假如一张图上有N只动物，且每只动物的多个检测部位包括第一检测部位、第二检测部位和第三检测部位，那么相关技术中的目标检测模型可以检测出N个第一检测框、N个第二检测框、N个第三检测框。如果使用相关技术中的方法确定从属关系，那么使用其复杂度是O(N^3)。即随着N的增大，其计算复杂度会显著增加。2、当图像中的动物距离较近时，在图像中确定出属于同一个动物的多个检测部位的精度较低。例如，图2中的中间的两只动物距离较近，通过图2可以看出，如果不看原图，而只看各个检测框之间的交并比，中间的两个脸部检测框(虚线)和身体检测框(实线)的从属关系，明显是存在争议的，这时采用交并比是否满足预定条件来判断有极大地可能会存在误判。

综上所述，通过相关技术中的方法从包含多个目标物的图像中检测属于各个目标物的多个检测部位时，其具有以下问题：当图像中的目标物的个数多且位置较近时，其计算复杂度高且检测精度较低。

有鉴于此，本公开实施例提出利用一种新的目标检测模型来进行目标检测的方法。该模型在对包含多个目标物的图像中的每个目标物进行检测，且该目标物包含多个检测部位时，可以在检测出一个目标物的第一检测部位的同时检测出与第一检测部位属于同一个目标物的第二检测部位。这样可避免在目标检测模型的输出之后增加后处理，与相关技术比较可以极大地降低计算复杂度且显著的提升检测精度。

下面结合附图4，对本公开实施例提供的目标检测模型进行详细的说明。可以理解的是，本公开实施例中的目标检测模型可以是基于一些主流的目标检测框架而设计的，例如，可以是基于anchor-based的RetinaNet目标检测框架，或者还可以是基于anchor-free的FCOS目标检测框架，亦或者也可以是基于bottom-up的CenterNet目标检测框架。

从图4可知，本公开实施例的目标检测模型40可包括特征提取网络41和从属关系检测网络42。

特征提取网络41也可以称为主干网络或者基干网络(Backbone)，用于对输入的图像进行特征提取并输出图像的特征图。本公开实施例对特征提取网络41的结构不做具体的限定。例如，特征提取网络41可以是深度卷积神经网络CNN，该深度卷积神经网络CNN可以包括多个卷积层。在一些实施例中，特征提取网络41还可以采用ResNet网络或者Inception网络，以获取较好的深度特征。在另一些实施例中，特征提取网络41还可以采用MobileNet网络，以获得更快的提取速度。或者，特征提取网络41还可以是特征金字塔网络，以使所提取的特征图中包含更多的信息。

本公开实施例中输入目标检测模型的图像可包含多个目标物，且每个目标物包括多个检测部位。该目标物可以是各种类型的动物。每个动物的多个检测部位可以为上文所述的任意两个或者多个检测部位，也即多个检测部位至少包括第一检测部位和第二检测部位。动物包括但不限于野生动物或者篆养物。野生动物可以是自然界各种养生的动物，如：狮子、老虎和犀牛等。篆养即喂养、驯养或养育。篆养物包括用户所喂养或养育的动物，包括动物宠物(宠物狗、宠物猫、宠物猪等)、茶宠宠物(金蟾、貔貅等)、以及另类宠物(土拨鼠、兔子、仓鼠、刺猬、乌龟等)等，出上述篆养物外，篆养物还包括养殖业中养殖的家禽类动物，如鸡、鸭等，或者畜牧业中养殖的动物，如牛、羊、马等。

从属关系检测网络42可用于对上述特征图进行检测，以检测出特征图中的各个检测部位以及各个检测部位是否属于同一个目标物(即各个检测部位之间的从属关系)。从图4可以看出，从属关系检测网络42相当于对图1所示的相关技术进行了改进。具体地，图4中的从属关系检测网络42相当于在图1中的三个子任务网络中的第一子任务网络中增加了附属的检测任务，其第一子任务网络用于检测第一检测部位。如果图1中的第一子任务网络原本的检测任务称为第一任务，第一任务的具体内容是检测第一检测部位，那么该附属的检测任务则可以理解为是将图1中的第二子任务网络和/或第三子任务网络所进行的检测任务(即检测第二检测部位和/或检测第三检测部位)作为第一任务的关联任务添加在图1中的第一子任务网络中，使得第一子任务网络成为改进的任务网络(即从属关系检测网络42)。

由于多个检测部位的检测同时在同一个改进任务网络中进行，因此从属关系检测网络可以在学习到与第一检测部位的特征同时学习与第一检测部位具有从属关系的其他检测部位(第二检测部位或第三检测部位)的深层特征，从而可以通过从属关系网络检测出第一检测部位的同时检测出与第一检测部位属于同一个目标物的其他检测部位。另外，由于在从属关系检测网络42中已经可以检测第二检测部位和/或第三检测部位，则不再需要如图1所示的相关技术中的其余两个子任务网络。

具体参见图4，特征图输入从属关系检测网42后，从属关系检测网络42通过其内部神经网络的计算而输出第一结果和第二结果。第一结果即上述第一任务的输出结果，第一结果包括表征所述第一检测部位的检测数据。

第二结果即上述与第一任务关联的附属任务的输出结果。第二结果包括表征与第一检测部位属于同一个目标物的第二检测部位的检测数据。

综上，由于本公开实施例中的目标检测模型可以直接通过从属关系检测网络在检测出第一检测部位的同时检测出与第一检测部位具有从属关系的第二检测部位，这样可避免在目标检测模型的输出之后增加后处理，与相关技术比较可以极大地降低计算复杂度且显著的提升检测精度。

本公开实施例对上述从属关系检测网络42中的神经网络结构不做具体的限定。作为一种实现方式，从属关系检测网络42可包括分类检测层、第一回归检测层和第二回归检测层，分类检测层、第一回归检测层和第二回归检测层可以是不同的全连接层。

由于从属关系检测网络为相关技术中的第一子任务网络的改进，其分类检测层和第一回归检测层通常只能针对第一检测部位进行目标检测，将特征图输入分类检测层和第一回归检测层后，可通过分类检测层和第一回归检测层获取第一结果。具体地，分类检测层可以输出第一检测部位的类别数据，第一回归检测层可以输出第一检测部位的位置数据，此处的位置数据即第一检测部位的边界框的位置数据。在图4中，以第一检测部位为脸部为例，第一检测部位的类别数据可表示为head cls:shape＝(n，1)，第一检测部位的位置数据可表示为head box:shape＝(n，4)。另外，将特征图输入从属关系检测网络的第二回归检测层后，可通过第二回归检测层获取第二结果。具体地，第二回归检测层可以输出与第一检测部位属于同一目标物的第二检测部位的位置数据。此处的位置数据即第二检测部位或第三检测部位的边界框的位置数据以第二检测部位为鼻部或者身体为例，该数据可以被表示为headtonose box:shape＝(n，4)或者headtobody box:shape＝(n，4)。

在另一些实现方式中，在从属关系检测网络中还可以包括候选框检测网络，该候选框网络的输出可以输入至上述分类检测层和回归检测层。候选区域框检测网络可以在特征图上平均选取M个锚点，在同一个锚点，选取不同长宽比和不同面积的N个区域，从而获取到M*N个锚点框。进一步地，候选区域框检测网络可以对上述锚点框进行初步检测以获取到最有可能包含目标物的若干区域，并将该若干区域可以作为候选区域输出，同时输出该若干个区域的位置坐标。通过这样的方式可使分类检测层和回归检测层仅针对候选区域进行检测，以使得目标检测的效果更好。

由于本公开实施例中的每一个目标物可以包括多个检测部位，对于多个检测部位还包括第三检测部位或者更多其他检测部位的情况，上述第二结果还包括表征与第一检测部位属于同一个目标物的第三检测部位或者其他检测部位的检测数据。与第一检测部位属于同一个目标物的第三检测部位或者其他检测部位的检测数据的输出过程与上述第二检测部位的检测数据的输出过程相似，此处不再赘述。

如前所述，在目标物为动物，且多个检测部位包括鼻部、脸部和身体时，本公开实施例中的第一检测部位可以是鼻部、脸部或者身体中的任何一个。优选地，第一检测部位可以是脸部，由于脸部位于鼻部和身体的中间，通过在学习脸部的特征时学习与之具有从属关系的鼻部或身体的相关位置特征，有利于从属关系检测网络42的第二回归检测层的输出，从而可有效提高检测精度。

基于上述目标检测模型，本公开实施例还提供了一种目标检测模型的训练方法。下面结合附图5，对此训练方法进行详细描述。需要说明的是，此方法中的部分内容已在前文进行描述，相同内容请参考前文，此处不再赘述。

在步骤S510，将图像输入目标检测模型的特征提取网络，以获取图像的特征图，图像包含多个目标物，多个目标物均包括多个检测部位，多个检测部位包括第一检测部位和第二检测部位。

在训练方法中，输入至目标检测模型的图像为具有标注数据的训练图像。本公开实施例对训练图像的来源不做具体的限定，例如，可以是手动标注的多幅包含目标物的图像，或者还可以是从资源库中下载的带有标注数据的包含目标物的图像。可以理解的是，为了满足本公开实施例的目标检测模型的目标，不管是手动标注的训练图像还是下载的带有标注的训练图像，训练图像中的标注数据都会被重新构造，以使重新构造后的标准数据包括第一检测部位与第二检测部位的从属关系。作为一种实现方式，训练图像的第一检测部位上标注数据包括第一检测部位的类别数据、边界框的位置数据以及与第一检测部位属于同一个目标物的第二检测部位的边界框的位置数据。为了便于理解，以第一检测部位为脸部(head)为例，在构造标注数据(ground truth)时，针对每个脸部边界框的位置数据(headbox)，都要有与之对应的鼻部边界框的位置数据(nose box)和/或身体边界框的位置数据(body box)的标注。通过将与第一检测部位对应的第二检测部位的位置数据关联至第一检测部位的标注数据中，可使目标检测模型的从属关系检测网络可以在检测第一检测部位的同时检测与第一检测部位属于同一个目标物的第二检测部位。

在步骤S520，将特征图输入目标检测模型的从属关系检测网络，以获取第一结果和第二结果，第一结果包括表征第一检测部位的检测数据，第二结果包括表征与第一检测部位属于同一个目标物的第二检测部位的检测数据。

在步骤S530，根据第一结果的损失和第二结果的损失，更新目标检测模型。

如前所述，第一结果包括第一检测部位的类别数据和第一检测部位的边界框的位置数据，第二结果包括第二检测部位的边界框的位置数据，因此，第一结果的损失是从属关系检测网络输出的第一检测部位的类别数据及第一检测部位的边界框的位置数据与训练图像中所标注的第一检测部位的类别数据及第一检测部位的边界框的位置数据之间的损失值，其可以被表示为目标检测loss(分类loss+回归loss)。第二结果的损失是从属关系检测网络输出的第二检测部位的边界框的位置数据与训练图像中所标注的第二检测部位的边界框的位置数据，其可以被表示为从属box loss(回归loss)。

在一些实现方式中，为了均衡和调整目标检测模型中目标检测和从属关系检测的相对重要程度，还可以根据所述第一结果的损失和赋予权值后的所述第二结果的损失的和，更新所述目标检测模型。具体地，其总的损失可以被表示为总Loss＝目标检测loss(分类loss+回归loss)+a*从属box loss(回归loss)。其中a为权值，可以根据需要或者训练结果而调整。

通过本公开实施例的训练方法所训练的目标检测模型可以在对包含多个目标物的图像中的每个目标物进行检测，且该目标物包含多个检测部位时，在检测出一个目标物的第一检测部位的同时检测出与该检测部位属于同一个目标物的第二检测部位。这样可避免在目标检测模型的输出之后增加后处理，与相关技术比较可以极大地降低计算复杂度且显著的提升检测精度。

可选地，多个检测部位还包括第三检测部位，第二结果还包括表征与第一检测部位属于同一个目标物的第三检测部位的检测数据。上述第二结果的损失也可以被表示为：从属1box loss+从属2box loss(回归loss1+回归loss2)。在一些实现方式中，可以为两个不同的从属box loss设置不同的权重，已调整不同检测部位之间的额从属关系的重要性。

本公开实施例还提出一种基于目标检测模型的目标检测的方法，该方法可以应用于需要对动物进行身份验证或者识别的场景中，例如是为动物购买保险的情况下。

下面结合图6对该检测方法进行详细的说明。

在步骤S610，将图像输入目标检测模型的特征提取网络，以获取图像的特征图，图像包含多个目标物，多个目标物均包括多个检测部位，多个检测部位包括第一检测部位和第二检测部位。

在步骤S620，将特征图输入目标检测模型的从属关系检测网络，以获取第一结果和第二结果，第一结果包括表征第一检测部位的检测数据，第二结果包括表征与第一检测部位属于同一个目标物的第二检测部位的检测数据。

本公开实施例对图像不做具体的限定，例如可以是用户上传的图像，或者是保险系统通过摄像头所拍摄的图像。图像中的目标物为动物，且图像中的至少一个动物身上的多个检测部位包括脸部、鼻部、身体中的任何两个。第一检测部位可以是上述三个检测部位中的任何一个，优选地，第一检测部位可以是脸部，第二检测部位则为鼻部或者身体。

在另一些实施例中，图像中的多个检测部位包括上述三个，因此，多个检测部位还包括第三检测部位。在第二检测部位为鼻部时，第三检测部位为身体；而在第二检测部位为身体时，第三检测部位为鼻部。上述目标检测模型在对动物进行检测时，还可以相应的检测出第三检测部位，因此，第二结果还包括表征与所述第一检测部位属于同一个目标物的第三检测部位的检测数据。

本公开实施例对从属关系检测网络的结构及其输出的结果的数据形式不做具体的限定。

作为一种实现方式可包括分类检测层、第一回归检测层和第二回归检测层，将特征图输入目标检测模型的从属关系检测网络的分类检测层和第一回归检测层，以获取第一结果；将特征图输入目标检测模型的从属关系检测网络的第二回归检测层，以获取第二结果。相应地，第一检测部位的检测数据包括第一检测部位的类别数据和第一检测部位的边界框的位置数据，第二检测部位的检测数据包括第二检测部位的边界框的位置数据。

图7为使用本公开实施例的方法对图2所对应的原图像进行检测后的结果示意图。参见图7，图中各个边界框所框定的图像即为通过目标检测模型检测出来的目标，使用相同线性的边界框所标定的图像为目标检测模型所检测中的一个动物的所有检测部位，可以看出，在使用本公开实施例中的检测方法对包含多个动物的图像中的每个动物进行检测，且该动物包含多个检测部位时，在检测出一个动物的第一检测部位的同时能够检测出与第一检测部位属于同一个动物的第二检测部位(即第一检测部位和第二检测部位在同一个目标检测任务中输出)。也就是说目标检测模型直接可以确定各个检测部位之间的从属关系，避免了在目标检测模型的输出之后增加后处理，与相关技术比较可以极大地降低计算复杂度且显著的提升检测精度。

上文结合图1至图7，详细描述了本公开的方法实施例，下面结合图8至图10，详细描述本公开的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图8是本公开一实施例提供的目标检测模型的训练装置的示意性结构图。该装置800可以包括第一获取模块810、第二获取模块820以及更新模块830。下面对这些模块进行详细介绍。

第一获取模块810用于将图像输入目标检测模型的特征提取网络，以获取图像的特征图，图像包含多个目标物，多个目标物均包括多个检测部位，多个检测部位包括第一检测部位和第二检测部位。

第二获取模块820用于将特征图输入目标检测模型的从属关系检测网络，以获取第一结果和第二结果，第一结果包括表征第一检测部位的检测数据，第二结果包括表征与第一检测部位属于同一个目标物的第二检测部位的检测数据。

更新模块830用于根据第一结果的损失和第二结果的损失，更新目标检测模型。

可选地，多个检测部位还包括第三检测部位，第二结果还包括表征与第一检测部位属于同一个目标物的第三检测部位的检测数据。

可选地，从属关系检测网络包括分类检测层、第一回归检测层和第二回归检测层，第二获取模块820还用于：将特征图输入目标检测模型的从属关系检测网络的分类检测层和第一回归检测层，以获取第一结果；将特征图输入目标检测模型的从属关系检测网络的第二回归检测层，以获取第二结果。

可选地，更新模块830还用于根据第一结果的损失和赋予权值后的第二结果的损失的和，更新目标检测模型。

可选地，目标物为动物，多个检测部位包括脸部、鼻部、身体。

可选地，第一检测部位为脸部。

图9是本公开一实施例提供的一种基于目标检测模型的目标检测装置的示意性结构图。该装置包括：第一获取模块910和第二获取模块920。

第一获取模块910用于将图像输入目标检测模型的特征提取网络，以获取图像的特征图，图像包含多个目标物，多个目标物均包括多个检测部位，多个检测部位包括第一检测部位和第二检测部位。

第二获取模块920用于将特征图输入目标检测模型的从属关系检测网络，以获取第一结果和第二结果，第一结果包括表征第一检测部位的检测数据，第二结果包括表征与第一检测部位属于同一个目标物的第二检测部位的检测数据。

可选地，从属关系检测网络包括分类检测层、第一回归检测层和第二回归检测层，第二获取模块920还用于：将特征图输入目标检测模型的从属关系检测网络的分类检测层和第一回归检测层，以获取第一结果；将特征图输入目标检测模型的从属关系检测网络的第二回归检测层，以获取第二结果。

可选地，第一检测部位的检测数据包括第一检测部位的类别数据和第一检测部位的边界框的位置数据，第二检测部位的检测数据包括第二检测部位的边界框的位置数据。

可选地，第一检测部位为脸部。

图10是本公开又一实施例提供的装置的结构示意图。该装置1000例如可以是具有计算功能的计算设备。比如，装置1000可以是移动终端或者服务器。装置1000可以包括存储器1010和处理器1020。存储器1010可用于存储可执行代码。处理器1020可用于执行所述存储器1010中存储的可执行代码，以实现前文描述的各个方法中的步骤。在一些实施例中，该装置1000还可以包括网络接口1030，处理器1020与外部设备的数据交换可以通过该网络接口1030实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以意识到，结合本公开实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标检测模型的训练方法，所述方法包括：

将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；

将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据；

根据所述第一结果的损失和所述第二结果的损失，更新所述目标检测模型；

其中，所述从属关系检测网络包括分类检测层、第一回归检测层和第二回归检测层，所述将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果包括：

将所述特征图输入所述目标检测模型的从属关系检测网络的分类检测层和第一回归检测层，以获取所述第一结果；

将所述特征图输入所述目标检测模型的从属关系检测网络的第二回归检测层，以获取所述第二结果。

2.根据权利要求1所述的训练方法，所述多个检测部位还包括第三检测部位，所述第二结果还包括表征与所述第一检测部位属于同一个目标物的第三检测部位的检测数据。

3.根据权利要求1所述的训练方法，所述根据所述第一结果的损失和所述第二结果的损失，更新所述目标检测模型包括：

根据所述第一结果的损失和赋予权值后的所述第二结果的损失的和，更新所述目标检测模型。

4.根据权利要求1所述的训练方法，所述目标物为动物，所述多个检测部位包括脸部、鼻部、身体。

5.根据权利要求4所述的训练方法，所述第一检测部位为所述脸部。

6.一种基于目标检测模型的目标检测方法，所述方法包括：

7.根据权利要求6所述的检测方法，所述多个检测部位还包括第三检测部位，所述第二结果还包括表征与所述第一检测部位属于同一个目标物的第三检测部位的检测数据。

8.根据权利要求6所述的检测方法，所述第一检测部位的检测数据包括所述第一检测部位的类别数据和所述第一检测部位的边界框的位置数据，所述第二检测部位的检测数据包括所述第二检测部位的边界框的位置数据。

9.根据权利要求6所述的检测方法，所述目标物为动物，所述多个检测部位包括脸部、鼻部和身体。

10.根据权利要求9所述的检测方法，所述第一检测部位为所述脸部。

11.一种目标检测模型的训练装置，所述装置包括：

第一获取模块，用于将图像输入所述目标检测模型的特征提取网络，以获取所述图像的特征图，所述图像包含多个目标物，所述多个目标物均包括多个检测部位，所述多个检测部位包括第一检测部位和第二检测部位；

第二获取模块，用于将所述特征图输入所述目标检测模型的从属关系检测网络，以获取第一结果和第二结果，所述第一结果包括表征所述第一检测部位的检测数据，所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据；

将所述特征图输入所述目标检测模型的从属关系检测网络的第二回归检测层，以获取所述第二结果；

更新模块，用于根据所述第一结果的损失和所述第二结果的损失，更新所述目标检测模型。

12.根据权利要求11所述的训练装置，所述多个检测部位还包括第三检测部位，所述第二结果还包括表征与所述第一检测部位属于同一个目标物的第三检测部位的检测数据。

13.一种基于目标检测模型的目标检测装置，所述装置包括：

14.根据权利要求13所述的检测装置，所述多个检测部位还包括第三检测部位，所述第二结果还包括表征与所述第一检测部位属于同一个目标物的第三检测部位的检测数据。

15.一种检测装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器被配置为执行所述可执行代码，以实现权利要求1-10中任一项所述的方法。