CN113544700A

CN113544700A - 神经网络的训练方法和装置、关联对象的检测方法和装置

Info

Publication number: CN113544700A
Application number: CN202180001316.0A
Authority: CN
Inventors: 张学森; 刘春亚; 王柏润; 陈景焕
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-31
Filing date: 2021-04-28
Publication date: 2021-10-22
Anticipated expiration: 2041-04-28
Also published as: JP2023511241A; US20220207377A1; PH12021551259A1; KR20220098314A; AU2021203544A1; CN113544700B

Abstract

本公开提供一种神经网络的训练方法和装置、关联对象的检测方法和装置，其中神经网络的训练方法包括：检测图像中的第一类对象和第二类对象；基于检测出的第一类对象和第二类对象生成至少一个候选对象组，其中，所述候选对象组包括至少一个所述第一类对象和至少两个所述第二类对象；基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度；根据所述第一类对象分别与同一候选对象组内的各第二类对象的匹配度，确定所述候选对象组的群组关联损失，其中，所述群组关联损失正相关于所述第一类对象与非关联的第二类对象之间的匹配度；根据所述群组关联损失，调整所述神经网络的网络参数。

Description

神经网络的训练方法和装置、关联对象的检测方法和装置

交叉引用

本申请要求2020年12月31日提交的新加坡专利申请第10202013245S号的优先权，其全部内容通过引用并入本文以用于各种目的。

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种神经网络的训练方法和装置、关联对象的检测方法和装置。

背景技术

智能化的场景检测中，对象的检测和识别是一个重要的研究方向。多维度的对象分析可以获得丰富的对象信息，进而帮助研究对象的状态和变化趋势。在对象检测和识别的一个具体场景中，可以针对图像中的对象之间的关联关系进行分析，自动提取对象之间的潜在关系，获得除了对象本身的属性之外的更多关联信息。

对于多对象的场景，尤其是图像中的多个对象之间存在遮挡或交叠的场景，对象之间的关联关系的分析难度较大，仅根据对象间位置关系等方面的先验知识来确定关联的对象难以获得准确的检测结果，例如可能存在漏检或错检的情况。例如，在对多人游戏进行智能检测的场景中，需要将视频中不同的人手、人脸等身体部位与对应的人体进行关联，以识别不同人的动作，而多个人体之间可能存在遮挡或交叠，增大了人体部位和人体之间的关联关系检测的难度。

发明内容

本公开提供了一种神经网络的训练方法和装置、关联对象的检测方法和装置。

根据本公开实施例的第一方面，提供一种神经网络的训练方法，所述方法包括：检测图像中的第一类对象和第二类对象；基于检测出的第一类对象和第二类对象生成至少一个候选对象组，其中，所述候选对象组包括至少一个所述第一类对象和至少两个所述第二类对象；基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度；根据所述第一类对象分别与同一候选对象组内的各第二类对象的匹配度，确定所述候选对象组的群组关联损失，其中，所述群组关联损失正相关于所述第一类对象与非关联的第二类对象之间的匹配度；根据所述群组关联损失，调整所述神经网络的网络参数。

在一些可选实施例中，所述群组关联损失还负相关于候选对象组内的所述第一类对象与关联的第二类对象之间的匹配度。

在一些可选实施例中，所述方法还包括：在所述群组关联损失小于预设损失值的情况下，确定所述神经网络完成训练。

在一些可选实施例中，所述检测图像中的第一类对象和第二类对象，包括：提取出所述图像的特征图；根据所述特征图，确定所述图像中的第一类对象和第二类对象；所述基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度，包括：根据所述特征图，确定所述第一类对象的第一特征；根据所述特征图，确定所述候选对象组中的各第二类对象的第二特征，得到与所述第一特征对应的第二特征集合；将所述第二特征集合中的各第二特征分别与所述第一特征进行拼接，得到拼接特征集合；基于所述神经网络，确定所述拼接特征集合中的拼接特征对应的第二类对象与第一类对象之间的匹配度。

在一些可选实施例中，所述候选对象组中的各所述第二类对象与所述第一类对象满足预设的相对位置关系；或者，所述候选对象组中的各所述第二类对象的检测框与所述第一类对象的检测框存在重叠区域。

在一些可选实施例中，所述第一类对象包括第一人体部位对象，所述第二类对象包括人体对象；或者，所述第一类对象包括人体对象，所述第二类对象包括第一人体部位对象。

在一些可选实施例中，所述第一人体部位对象包括人脸对象或人手对象。

在一些可选实施例中，所述方法还包括：检测所述图像中的第三类对象；所述基于检测出的第一类对象和第二类对象生成至少一个候选对象组，包括：基于检测出的第一类对象、第二类对象和第三类对象生成至少一个候选对象组，每个候选对象组还包括至少两个所述第三类对象；所述方法还包括：基于神经网络确定所述第一类对象分别与同一候选对象组中的各第三类对象之间的匹配度；以及所述群组关联损失还正相关于所述第一类对象与非关联的第三类对象之间的匹配度。

在一些可选实施例中，所述第三类对象包括第二人体部位对象。

根据本公开实施例的第二方面，提供一种关联对象的检测方法，包括：检测图像中的第一类对象和第二类对象；基于检测出的第一类对象和第二类对象生成至少一个对象组，所述对象组包括一个第一类对象和至少两个第二类对象；确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；基于所述第一类对象分别与同一对象组中的各第二类对象的匹配度确定与所述第一类对象关联的第二类对象。

在一些可选实施例中，所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：针对检测出的第一类对象执行组合操作；所述组合操作包括：将所述第一类对象与检测出的任意至少两个第二类对象组合为一个对象组；或者，将所述第一类对象与检测出的各第二类对象组合为一个对象组。

在一些可选实施例中，所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：根据检测出的第一类对象和第二类对象的位置信息，确定与所述第一类对象的满足预设的相对位置关系的至少两个第二类对象为所述第一类对象的候选关联对象；将所述第一类对象与所述第一类对象的各候选关联对象组合为一个对象组。

在一些可选实施例中，所述方法还包括：检测图像中的第三类对象；所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：基于检测出的第一类对象、第二类对象和第三类对象生成至少一个对象组，所述对象组还包括至少两个第三类对象；所述方法还包括：确定所述第一类对象分别与同一对象组的各第三类对象的匹配度；基于第一类对象分别与同一对象组中的各第三类对象的匹配度确定与所述第一类对象关联的第三类对象。

在一些可选实施例中，所述确定所述第一类对象分别与同一对象组的各第二类对象的匹配度，包括：基于预先训练的神经网络，确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；其中，所述神经网络是根据第一方面提供的任一项所述方法训练得到。

根据本公开实施例的第三方面，提供一种神经网络的训练装置，所述装置包括：对象检测模块，用于检测图像中的第一类对象和第二类对象；候选对象组生成模块，用于基于检测出的第一类对象和第二类对象生成至少一个候选对象组，其中，所述候选对象组包括至少一个所述第一类对象和至少两个所述第二类对象；匹配度确定模块，用于基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度；群组关联损失确定模块，用于根据所述第一类对象分别与同一候选对象组内的各第二类对象的匹配度，确定所述候选对象组的群组关联损失，其中，所述群组关联损失正相关于所述第一类对象与非关联的第二类对象之间的匹配度；网络参数调整模块，用于根据所述群组关联损失，调整所述神经网络的网络参数。

根据本公开实施例的第四方面，提供一种关联对象的检测装置，包括：检测模块，用于检测图像中的第一类对象和第二类对象；对象组生成模块，用于基于检测出的第一类对象和第二类对象生成至少一个对象组，所述对象组包括一个第一类对象和至少两个第二类对象；确定模块，用于确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；关联对象确定模块，用于基于所述第一类对象分别与同一对象组中的各第二类对象的匹配度确定与所述第一类对象关联的第二类对象。

根据本公开实施例的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面中任一所述的神经网络的训练方法，或者实现第二方面中任一所述的关联对象的检测方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面中任一所述的神经网络的训练方法，或者实现第二方面中任一所述的关联对象的检测方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现第一方面中任一所述的神经网络的训练方法，或者实现第二方面中任一所述的关联对象的检测方法。

本公开实施例中，在检测出图像中第一类对象和第二类对象的基础上，基于至少一个第一类对象和至少两个第二类对象生成候选对象组，并基于神经网络确定第一类对象分别与第二类对象的匹配度，并根据确定的多个匹配度得到对应候选对象组的群组关联损失，根据群组关联损失调整神经网络的网络参数，以完成对神经网络的训练。该训练方式中，损失函数(群组关联损失)是根据候选对象组中第一类对象与第二类对象组成的多个匹配对的匹配度得到，再根据候选对象组对应的损失函数得到的群组关联损失调整神经网络的网络参数。该训练方式可以利用多个匹配对实现神经网络的全局优化。通过最小化损失函数，实现对错误匹配对匹配度的抑制，推远错误匹配对中各对象之间的距离；实现对正确匹配对匹配度的鼓励，拉近正确匹配对中各对象之间的距离。从而使得该方式训练得到的神经网络，可以更加准确的检测并确定图像中第一类对象与第二类对象之间正确的匹配对，更准确的确定第一类对象与第二类对象之间的关联关系。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种神经网络的训练方法流程图；

图2是根据一示例性实施例示出的一种被检测图像示意图；

图3是根据一示例性实施例示出的一种神经网络框架示意图；

图4是根据一示例性实施例示出的一种匹配度确定方法流程图；

图5是根据一示例性实施例示出的一种关联对象的检测方法；

图6是根据一示例性实施例示出的一种神经网络的训练装置；

图7是根据一示例性实施例示出的另一种神经网络的训练装置；

图8是根据一示例性实施例示出的一种关联对象的检测装置；

图9是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的具体方式并不代表与本公开相一致的所有方案。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

人体部位与人体关联是智能视频分析中的重要一环。例如，在对多人棋牌游戏过程进行智能监控的场景中，系统需要将视频中不同的人手与对应的人体进行关联，以确定不同的人体做出的动作，实现对多人棋牌游戏过程中不同人体的智能监控。

本公开提供一种神经网络的训练方法，该训练方式可以更优的调整神经网络的网络参数，以使训练得到的神经网络可以更准确的检测出人体部位与人体之间的匹配度，从而确定图像中人体部位与人体的关联关系。其中，在对神经网络的训练过程中，可以基于图像中检测出的第一类对象和第二类对象生成候选对象组，并基于神经网络确定第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度，利用确定的多个匹配度得到对应候选对象组的群组关联损失，以根据群组关联损失调整神经网络的网络参数。

为了使本公开提供的神经网络的训练方法更加清楚，下面结合附图和具体实施例对本公开提供的方案执行过程进行详细描述。

参见图1，图1是本公开提供的实施例示出的一种神经网络的训练方法流程图。如图1所示，该流程包括：

步骤101，检测图像中的第一类对象和第二类对象。

被检测的图像可以是包含多类对象的图像。其中对象的类别是预先定义的，例如包括人和物品两类，又例如，按照人的性别年龄等属性特征划分的类别，又例如，按照物品的颜色、功能等特性划分的类别。

在一些实施方式中，图像中的对象包括人体部位对象和人体对象。也就是说，上述第一类对象和第二类对象可以是人体部位对象或人体对象。其中，人体部位对象是人体中的局部部位，例如，人手、人脸、人脚等。示例性的，在利用智能监控设备对多人棋牌游戏的过程进行监控的情况下，可以将该智能监控设备采集的图像作为本步骤检测的图像。

如图2所示，为智能监控设备采集的多人游戏场景下的图像，在本公开实施例中可作为被检测的图像。采集的该图像中存在多个参与游戏的人体对象：人体B1、人体B2和人体B3，以及对应的人手对象(人体部位对象)：对应人体B1的人手H1和人手H2；对应人体B2的人手H3；对应人体B3的人手H4和H5。在图2中，人体对象由人体检测框指示，人手对象由人手检测框指示。

在本公开实施例中，图像中的第一类对象区别于第二类对象，且第一类对象与第二类对象之间存在一定的关联关系。其中，在第一类对象包括人体部位对象的情况下，第二类对象可以包括与第一类对象包括的人体部位对象类型不同的人体部位对象，或者第二类对象可以包括人体对象。或者，在第二类对象包括人体部位对象的情况下，第一类对象可以包括与第二类对象包括的人体部位对象类型不同的人体部位对象，或者第一类对象包括人体对象。其中，人体部位对象的类型对应其指代的身体部位，例如人脸对象、人手对象、手肘对象分别对应人脸、人手、手肘，其类型互不相同。

在一些可选实施例中，所述第一类对象包括第一人体部位对象，所述第二类对象包括人体对象；或者，所述第一类对象包括人体对象，所述第二类对象包括第一人体部位对象。其中，所述第一人体部位对象包括人脸对象或人手对象。

示例性的，以人手对象作为第一类对象、人体对象作为第二类对象，本步骤可以检测出图像中的人手对象和人体对象。如图2所示，本步骤可以从图2中检测出第一类对象：人手H1、人手H2、人手H3、人手H4和人手H5；检测出第二类对象：人体B1、人体B2和人体B3。

可以理解的是，本步骤检测的图像可通过多种不同方式获得，以实现对神经网络的训练，本公开实施例并不限制。示例性的，可通过智能监控设备采集不同场景下的图像。例如，可以利用智能监控设备采集多人棋牌游戏时的图像。示例性的，可通过不同的图像数据库，筛选出存在人体部位对象和人体对象的图像。

需要说明的是，本步骤检测图像中的第一类对象和第二类对象的方式可以包括多种形式，本实施例并不限制。示例性的，可以首先检测得到图像中的第一类对象，再检测得到图像中的第二类对象，最终检测得到图像中的第一类对象和第二类对象。或者，可以通过一次检测同时检测得到图像中的第一类对象和第二类对象。

在一些可能的实现方式中，可以预先训练得到可同时检测图像中第一类对象和第二类对象的检测网络，利用训练得到的该检测网络可一次从图像中检测得到第一类对象和第二类对象。例如，可预先训练得到人脸人体联合检测神经网络，本实施例中可以利用该训练得到的人脸人体联合检测神经网络从图像中同时检测得到人脸对象和人体对象。

步骤102，基于检测出的第一类对象和第二类对象生成至少一个候选对象组，其中，所述候选对象组包括至少一个所述第一类对象和至少两个所述第二类对象。

在检测出图像中的第一类对象和第二类对象的情况下，本步骤可以基于检测出的一个第一类对象和至少两个第二类对象生成一个候选对象组；或者，本步骤可以基于至少两个第一类对象和至少两个第二类对象生成一个候选对象组。由于图像中检测出的第一类对象可能包括多个，所以基于第一类对象生成的候选对象组也可能包括多个。

仍以图2中检测出第一类对象：人手H1、人手H2、人手H3、人手H4和人手H5；第二类对象：人体B1、人体B2和人体B，为例。本步骤可以基于图2中检测出的第一类对象和第二类对象生成对应的候选对象组。示例性的，可以将人手H1、人体B1、人体B2和人体B3进行组合，得到一个候选对象组；或者，可以将人手H1、人手H2、人体B1、人体B2和人体B3进行组合，得到另一个候选对象组。可以理解的是，基于不同的组合方式还可以生成更多不同的候选对象组，在此不予穷举。

上述实施例中，可以预设相对位置关系。针对检测出的任一个第一类对象，将与该第一类对象满足预设的相对位置关系的第二类对象添加至该第一类对象所在的候选对象组中。这样可以确保同一个候选对象组中的第一类对象与第二类对象满足预设的相对位置关系。其中，预设的相对位置关系可以包括以下任意至少一项：第一类对象与第二类对象之间的位置距离小于预设阈值、检测框存在重叠区域。则同一个候选对象组中的第一类对象与第二类对象之间的距离小于预设阈值，和/或同一个候选对象组中的第一类对象的检测框与第二类对象的检测框存在重叠区域。

该可选实施例中，可以通过预先设置满足该相对位置关系，使得同一个候选对象组中的第一类对象与第二类对象是存在一定关联可能的对象，从而再从候选对象组中进一步确定与第一类对象正确关联的第二类对象。该方式可以从图像中检测出的第一类对象和第二类对象中将可能存在关联关系的对象初步生成在同一个候选对象组中，从而可以进一步从候选对象组中具体确定与第一类对象正确关联的第二类对象，提高了对第一类对象和第二类对象之间的匹配度计算结果的准确性。

以图2为例，可以预设相对位置关系为：检测框存在重叠；则在同一个候选对象组中，第一类对象人手H5的检测框分别与第二类对象人体B2和人体B3的检测框，存在重叠区域。

步骤103，基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度。

本步骤可以预先设置用于检测第一类对象与第二类对象之间匹配度的神经网络。例如，可以预先利用训练样本对已知可用于对象间关联性检测的神经网络进行训练，得到本步骤可用的神经网络。本步骤可以基于预先设置的神经网络，检测确定第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度。其中，匹配度用于表征所检测的第一类对象与第二类对象之间的关联程度。其中，匹配度的具体表示形式可以包括多种，本公开实施例并不限制。示例性的，可用数值的方式、百分比的方式、等级的方式，等。

以图2为例，候选对象组G1中包括：第一类对象：人手H5；第二类对象：人体B2和人体B3。本步骤可以基于预先设置的神经网络，确定候选对象组G1中：人手H5与人体B2之间的匹配度M1；人手H5与人体B3之间的匹配度M2。

步骤104，根据所述第一类对象分别与同一候选对象组内的各第二类对象的匹配度，确定所述候选对象组的群组关联损失，其中，所述群组关联损失正相关于所述第一类对象与非关联的第二类对象之间的匹配度。

在本实施例中，第一类对象与第二类对象之间的关联关系可以是预先标注的。第一类对象和第二类对象关联，表征二者存在特定的相似关系、相同归属关系等。可以获取针对被检测的图像中的第一类对象和第二类对象之间的关联关系进行人工标注，获取标注信息。由此可以区分同一候选群组中与第一类对象关联的第二类对象和与第一类对象非关联的第二类对象。

结合上述图2，从候选对象组G1中得到对应的两个匹配度：匹配度M1和匹配度M2。本步骤可以根据得到的两个匹配度，确定该候选对象组G1对应的群组关联损失Group loss1。并且，第一类对象人手H5与第二类对象人体B2是非关联的，相应地，群组关联损失Grouploss 1正相关于匹配度M1。

由于群组关联损失正相关于第一类对象与非关联的第二类对象之间的匹配度，所以可以通过群组关联损失的最小化，实现对第一类对象与非关联的第二类对象之间的匹配度的抑制，推远第一类对象与非关联的第二类对象之间的距离，使得神经网络训练后能够具有较好的分辨与第一类对象和非关联的第二类对象的能力。

在一些可选实施例中，所述群组关联损失还负相关于候选对象组内的所述第一类对象与关联的第二类对象之间的匹配度。例如，由于第一类对象人手H5与第二类对象人体B3是相关联的，所以群组关联损失1负相关于匹配度M2。

由于群组关联损失，负相关于第一类对象与关联的第二类对象之间的匹配度，所以可以通过群组关联损失的最小化，实现对第一类对象与关联的第二类对象之间的匹配度的鼓励，拉近第一类对象与关联的第二类对象之间的距离，使得神经网络训练后能够具有较好的分辨与第一类对象和关联的第二类对象的能力，进而实现神经网络的全局优化，提升其针对第一类对象和第二类对象之间的匹配度计算结果的准确性。

以下以一个具体实例说明，如何设置损失函数(得到群组关联损失)，以使群组关联损失正相关于第一类对象与非关联的第二类对象之间的匹配度，负相关于第一类对象与关联的第二类对象之间的匹配度。

结合图2所示图像，对预先设置的损失函数，进行示例性说明。其中，候选对象组G2中包括第一类对象：人手H3，第二类对象：人体B1、人体B2和人体B3，其中，人手H3与人体B2对应关联(即人手H3和人体B2属于同一人)。例如，将人手H3与人体B2的匹配度记为S_P；人手H3与人体B1的匹配度记为S_n1；人手H3与人体B3的匹配度记为S_n2；群组关联损失记为L_Group。示例性的，可预先设置损失函数如下：

L_Group＝-log(exp(s_p)/(exp s_p+exp s_n1+exp s_n2))

根据上述损失函数计算出候选对象组的群组关联损失。该损失函数负相关于组内关联的第一类对象与第二类对象的匹配度，且正相关于组内非关联的第一类对象和第二类对象的匹配度，此外，还能使得神经网络快速收敛。

步骤105，根据所述群组关联损失，调整所述神经网络的网络参数。

在一些可选实施例中，可以利用大量样本图像作为本实施例检测的图像，对神经网络进行训练，直至达到预设的训练要求。在一种可能的实现方式中，在所述群组关联损失小于预设损失值的情况下，确定所述神经网络完成训练。这种实现方式，通过最小化损失函数，实现对第一类对象与非关联的第二类对象之间的匹配度的抑制，推远第一类对象与非关联的第二类对象之间的距离；实现对第一类对象与关联的第二类对象之间的匹配度的鼓励，拉近第一类对象与关联的第二类对象之间的距离。在另一种可能的实现方式中，在神经网络的训练次数达到预设次数阈值的情况下，确定神经网络完成训练。

本公开实施例中，在检测出图像中第一类对象和第二类对象的基础上，基于至少一个第一类对象和至少两个第二类对象生成候选对象组，并基于神经网络确定第一类对象分别与第二类对象的匹配度，并根据确定的多个匹配度得到对应候选对象组的群组关联损失，根据群组关联损失调整神经网络的网络参数，以完成对神经网络的训练。

该训练方式中，损失函数(群组关联损失)是根据候选对象组中第一类对象与第二类对象组成的多个匹配对的匹配度得到，再根据候选对象组对应的损失函数得到的群组关联损失调整神经网络的网络参数。相比于只根据第一类对象与第二类对象组成的一个匹配对的匹配度得到损失函数的值，该训练方式可以利用多个匹配对实现神经网络的全局优化。通过最小化损失函数，实现对错误匹配对匹配度的抑制，推远错误匹配对中各对象之间的距离；实现对正确匹配对匹配度的鼓励，拉近正确匹配对中各对象之间的距离。从而使得该方式训练得到的神经网络，可以更加准确的检测并确定图像中第一类对象与第二类对象之间正确的匹配对，更准确的确定第一类对象与第二类对象之间的关联关系。

对于多对象场景，尤其是图像中的多个对象之间存在遮挡或交叠的场景，图像中对象之间的关联关系的分析难度较大。相关技术中，仅根据对象间的位置关系等方面的先验知识确定关联关系，可能存在漏检或错检的情况，难以获得准确的检测结果。而本实施例提供的训练方式得到的神经网络，可以候选对象组的形式将图像中多个可能存在关联关系的第一类对象和第二类对象作为同一分组中的检测对象，在候选对象组的基础上实现对图像中第一类对象和第二类对象组成的多个匹配对的关联关系检测的全局优化，提升对第一类对象和第二类对象之间的匹配度计算结果的准确性。

图3示出了本公开至少一个实施例提供的一种关联检测网络的网络架构示意图，基于该关联检测网络可以实现对神经网络的训练，或者实现对图像中第一类对象与第二类对象之间关联关系的检测。如图3所示，该关联检测网络中可以包括：

特征提取网络31，用于对图像进行特征提取，得到特征图。在一个示例中，该特征提取网络31可以包括骨干网(backbone)和FPN(Feature Pyramid Networks，特征金字塔网络)。图像依次经过骨干网和FPN的处理后，就可以提取得到特征图。

例如，骨干网可以使用VGGNet、ResNet等，FPN可以在骨干网得到的特征图基础上将其转换为金字塔多层结构的特征图。上述的骨干网即关联检测网络的图像特征提取部分backbone；FPN即相当于网络架构中的Neck部分，做特征增强处理，可以对Backbone提取到的浅层特征进行增强。

对象检测网络32，用于根据从图像中提取出的特征图，确定所述图像中的第一类对象和第二类对象。

如图3所示，该对象检测网络32可以包括RPN(Region Proposal Network，区域生成网络)和RCNN(Region-CNN，区域卷积神经网络)，其中，RPN可以基于FPN输出的特征图预测得到锚框(anchor)，RCNN可以基于锚框以及FPN输出的特征图预测得到检测框(bbox)，该检测框中包括了第一类对象或第二类对象。RCNN输出的检测框可以是多个。

匹配检测网络33(Pair Head)，即为本公开实施例中要训练的神经网络，用于基于RCNN输出的检测框中的第一类对象或第二类对象以及FPN输出的特征图，确定第一类对象对应的第一特征，确定第二类对象对应的第二特征。

上述的对象检测网络32和匹配检测网络33相当于都位于关联检测网络的Head部分，这部分即检测器，用于输出检测结果。本公开实施例中的检测结果包括了第一类对象、第二类对象和对应的关联关系。

需要说明的是，上述由特征提取网络31、对象检测网络32和匹配检测网络33构成的关联检测网络，本公开实施例不限制具体的网络结构，图3所示的结构作为一种示例性说明。例如，可以不使用图3中的FPN，而是将backbone提取的特征图直接通过RPN/RCNN等进行第一类对象或第二类对象的确定。再例如，图3示例的是一种采用两阶段(two stage)进行检测的框架，实际实施中也可以采用一阶段(one stage)进行检测。

基于图3所示的关联检测网络的网络结构，如下实施例中将示例性对利用该关联检测网络实现对神经网络(匹配检测网络33)的训练过程进行详细描述。

在本公开实施例中，可以将图像输入关联检测网络中，由特征提取网络31对图像进行特征提取，得到特征图；由对象检测网络32根据特征图，检测确定图像中的第一类对象对应的检测框和第二类对象对应的检测框，从而确定图像中的第一类对象和第二类对象。由匹配检测网络33，即由神经网络基于检测出的第一类对象和第二类对象生成至少一个候选对象组，确定第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度。

其中，匹配检测网络33确定匹配度的具体实现，即步骤103基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度，如图4所示，可以包括以下步骤：

步骤401，根据所述特征图，确定所述第一类对象的第一特征。

匹配检测网络33可以根据特征提取网络31提取出的特征图，结合对象检测网络32输出的第一类对象对应的检测框，确定第一类对象的第一特征。

步骤402，根据所述特征图，确定所述候选对象组中的各第二类对象的第二特征，得到与所述第一特征对应的第二特征集合。

匹配检测网络33可以根据特征提取网络31输出的特征图，结合对象检测网络32输出的第二类对象对应的检测框，确定第二类对象对应的第二特征。基于相同原理，可以得到候选对象组中每一个第二类对象的第二特征，组成对应该候选对象组的第二特征集合。

步骤403，将所述第二特征集合中的各第二特征分别与所述第一特征进行拼接，得到拼接特征集合。

对于第二特征集合中的每一个第二特征，匹配检测网络33可以将该第二特征与第一特征进行特征拼接，得到“第一特征-第二特征”的拼接特征。其中，将第一特征与第二特征进行特征拼接的具体拼接方式，本公开实施例并不限制。在一种可能的实现方式中，在用特征向量表示第一特征和第二特征的情况下，可以直接将对应第一特征的特征向量与对应第二特征的特征向量进行拼接，将拼接后的特征向量作为第一类对象与第二类对象的拼接特征。

步骤404，基于所述神经网络，确定所述拼接特征集合中的拼接特征对应的第二类对象与第一类对象之间的匹配度。

匹配检测网络33可以根据第一类对象与第二类对象的拼接特征，确定对应的第一类对象与第二类对象之间的匹配度。在一种可能的实现方式中，可以将拼接后的特征向量，输入预先设置的匹配度计算函数，计算得到对应的第一类对象和第二类对象之间的匹配度。在另一种可能的实现方式中，可以预先利用训练样本训练得到符合要求的匹配度计算神经网络；并在需要计算匹配度的情况下，将拼接后的特征向量，输入该匹配度计算神经网络，由该匹配度计算神经网络输出第一类对象与第二类对象之间的匹配度。

本公开实施例中，通过提取图像的特征图，并根据提取的特征图确定图像中的第一类对象和第二类对象。在确定第一类对象与第二类对象之间的匹配度时，可以将根据特征图确定的第一特征和第二特征进行拼接得到拼接特征，再基于神经网络确定拼接特征对应的第一类对象与第二类对象之间的匹配度。从而，实现以候选对象组的方式检测并确定图像中第一类对象与第二类对象之间的关联关系，能够提升检测效率。

在确定第一类对象与同一候选对象组中各第二类对象之间的匹配度之后，本公开实施例可以进一步根据确定的多个匹配度，通过预先设置的损失函数，计算得到群组关联损失。然后，根据群组关联损失调整关联检测网络中匹配检测网络33的网络参数，实现对神经网络的训练。在一种可能的实现方式中，可以根据群组关联损失调整关联检测网络中特征提取网络31、对象检测网络32和匹配检测网络33中的一项或多项的网络参数，实现对部分或整个关联检测网络的训练。

在一些可选实施例中，可以基于以上对关联检测网络的训练过程的具体方式，利用足够数量的图像作为训练样本，对关联检测网络进行训练，得到符合要求的关联检测网络。完成对关联检测网络的训练之后，在需要对某个待测图像中第一类对象与第二类对象的关联关系进行检测的情况下，可以将待测图像输入预先训练得到的关联检测网络，由所述关联检测网络输出所述待测图像中第一类对象与第二类对象之间的匹配度，得到第一类对象与第二类对象的关联结果。其中，关联检测网络是根据本公开中任一实施例中的训练方法训练得到的网络。

可以理解的是，关联检测网络输出的关联结果可以多种不同的形式进行呈现。示例性的，以图2作为待测图像，可以输出关联结果：人手H1、H2-人体B1；人手H3-人体B2；人手H4、H5-人体B3。示例性的，以图2作为待测图像，可以输出关联结果：人手H3-人体B1匹配度为0.01；人手H3-人体B2匹配度为0.99；人手H3-人体B3匹配度为0.02……以上关联结果的呈现形式仅是示例性性说明，并不构成任何关联结果的限制。

在一些可选实施例中，在检测出图像中的第一类对象和第二类对象之后，还可以从图像中检测出第三类对象。其中，第三类对象是区别于第一类对象或第二类对象的人体部位对象。例如，在第一类对象是人手对象、第二类对象是人体对象的情况下，第三类对象可以是人脸对象。在本实施例中，可以从图像中检测出人手对象、人体对象和人脸对象。

在一种可能的实现方式中，所述第三类对象包括第二人体部位对象。其中，第二人体部位对象是区别于第一人体部位对象的人体部位。例如，所述第二人体部位对象包括人手对象或人脸对象。示例性的，在第一人体部位对象是人手对象的情况下，第二人体部位对象可以是人脸对象或者人脚对象。

在从图像中检测出第一类对象、第二类对象和第三类对象的情况下，本实施例可以基于检测出的第一类对象、第二类对象和第三类对象生成至少一个候选对象组，其中每个候选对象组中包括至少两个第三类对象。

例如，可以根据一个第一类对象、至少两个第二类对象和至少两个第三类对象，生成一个候选对象组。或者，可以根据至少两个第一类对象、至少两个第二类对象和至少两个第三类对象，生成一个候选对象组。

在基于神经网络确定第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度后，本实施例还包括：基于神经网络确定第一类对象分别与同一候选对象组中的各第三类对象之间的匹配度。

在确定候选对象组对应的群组关联损失时，可以基于第一类对象分别与同一候选对象组内的各第二类对象的匹配度，再结合第一类对象分别与同一候选对象组内的各第三类对象的匹配度，确定群组关联损失。其中，群组关联损失正相关于第一类对象与非关联的第三类对象之间的匹配度。因此，可以通过最小化损失函数的方式，实现对第一类对象与非关联的第三类对象之间的匹配度的抑制，推远第一类对象与非关联的第三类对象之间的距离。

在一种可能的实现方式中，群组关联损失还负相关于第一类对象与关联的第三类对象之间的匹配度。可以通过最小化损失函数的方式，实现对第一类对象与关联的第三类对象之间的匹配度的鼓励，拉近第一类对象与关联的第三类对象之间的距离。

本公开实施例中，利用图像中检测出的第一类对象、第二类对象和第三类对象生成候选对象组，并基于第一类对象分别与第二类对象和第三类对象之间的匹配度，确定候选对象组对应的群组关联损失，以调整神经网络的网络参数。该方式训练得到的神经网络，可以同时检测出第一类对象分别与第二类对象和第三类对象之间的匹配度，从而可以同时确定第一类对象、第二类对象和第三类对象之间的关联关系。

以图2为例，基于本实施例训练得到的神经网络，可以同时从图2中检测并确定人手对象、人体对象和人脸对象之间的关联关系。例如，可以同时确定：第一类对象人手H1、H2，第二类对象人体B1，第三类对象人脸F1，三者之间存在正确的关联关系；第一类对象人手H3，第二类对象人体B2，第三类对象人脸F2，三者之间存在正确的关联关系；第一类对象人手H4、H5，第二类对象人体B3，第三类对象人脸F3，三者之间存在正确的关联关系。

基于以上公开的实施例中训练神经网络的方法构思，参照图5所示，本公开还提供了一种关联对象的检测方法。如图5所示，该方法包括以下步骤：

步骤501，检测图像中的第一类对象和第二类对象。

本步骤可以从需进行关联对象检测的图像中检测出第一类对象和第二类对象。

在一些可选实施例中，所述第一类对象包括第一人体部位对象，所述第二类对象包括人体对象；或者，所述第一类对象包括人体对象，所述第二类对象包括第一人体部位对象。在一种可能的实现方式中，所述第一人体部位对象包括人脸对象或人手对象。

步骤502，基于检测出的第一类对象和第二类对象生成至少一个对象组，所述对象组包括一个第一类对象和至少两个第二类对象。

在检测出图像中的第一类对象和第二类对象的情况下，本步骤可以基于一个第一类对象和至少两个第二类对象生成一个对象组。由于图像中检测出的第一类对象可能包括多个，所以基于第一类对象生成的对象组也可能包括多个。

其中，基于第一类对象和第二类对象生成对象组的生成方式，可以包括多种实现，本实施例不限制。在一些可选实施例中，所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：针对检测出的第一类对象执行组合操作；所述组合操作包括：将所述第一类对象与检测出的任意至少两个第二类对象组合为一个对象组；或者，将所述第一类对象与检测出的各第二类对象组合为一个对象组。

上述可选实施例中，在检测出图像中的第一类对象和第二类对象后，可以执行组合操作得到对应的对象组。例如，可以将第一类对象和检测出的任意的至少两个第二类对象进行组合，得到对应的一个对象组。或者，可以将第一类对象和检测出的各个第二类对象进行组合，得到对应的一个对象组。

以图2为例说明，图2中检测出第一类对象：人手H1、人手H2、人手H3、人手H4和人手H5，第二类对象：人体B1、人体B2和人体B3。上述实施例中，针对第一类对象人手H5执行组合操作。例如，从第二类对象中任意选择两个：人体B2和人体B3，与第一类对象人手H5进行组合，得到对象组Group1(人手H5、人体B2和人体B3)。或者，可以将第一类对象人手H5，与检测得到的各第二类对象(人体B1、人体B2和人体B3)进行组合，得到对象组Group2(人手H5、人体B1、人体B2和人体B3)。

上述实施例中，可以预先设置相对位置关系，并根据第一类对象与第二类对象的位置信息，确定与第一类对象满足相对位置关系的至少两个第二类对象，作为第一类对象的候选关联对象。以图2为例，可以预先设置相对位置关系为：第一类对象与第二类对象的检测框之间存在重叠区域。由于人手H5的检测框分别与人体B2的检测框、人体B3的检测框之间存在重叠区域，所以本实施例中可以将人体B2和人体B3作为人手H5的候选关联对象。进一步的，可以将人手H5、人体B2和人体B3组合为一个候选对象组。

步骤503，确定所述第一类对象分别与同一对象组的各第二类对象的匹配度。

在基于第一类对象和第二类对象生成对象组后，本步骤可以确定同一对象组中第一类对象分别与各第二类对象之间的匹配度。

在一些可选实施例中，所述确定所述第一类对象分别与同一对象组的各第二类对象的匹配度，包括：基于预先训练的神经网络，确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；其中，所述神经网络是根据本公开任一实施例中提供的神经网络的训练方法训练得到。示例性的，可以将需要进行关联对象检测的图像，输入如图3所示的关联检测网路，由神经网络(匹配检测网络33)输出同一对象组中第一类对象分别与各个第二类对象之间的匹配度。

步骤504，基于所述第一类对象分别与同一对象组中的各第二类对象的匹配度确定与所述第一类对象关联的第二类对象。

以图2为例，同一个对象组中包括：人手H5、人体B2和人体B3，本实施例中可以得到人手H5分别与人体B2和人体B3之间的匹配度：匹配度m1和匹配度m2。本步骤可以基于确定的两个匹配度，确定人手H5与人体B3对应关联。在一种可能的实现方式中，可以将同一对象组中匹配度的值最大的第一类对象和第二类对象确定为对应关联关系。结合图2，在匹配度m2大于匹配度m1的情况下，可以确定人手H5与人体B3对应关联。

本公开实施例中，在检测出图像中第一类对象和第二类对象的基础上，基于一个第一类对象和至少两个第二类对象生成对象组，并确定第一类对象分别与同一对象组中各第二类对象的匹配度，并根据对象组中确定的多个匹配度确定与第一类对象关联的第二类对象。

该关联对象的检测方法，通过对象组的形式可以从多个第二类对象中确定与第一对象关联的第二类对象，相比于直接检测第一类对象与第二类对象组成的一个匹配对的关联关系，以对象组的形式实现了多个匹配对的全局优化，可以更准确的确定与第一类对象关联的第二类对象。

对于多个对象的场景，尤其是图像中的多个对象之间存在遮挡或交叠的场景，本实施例提供的关联对象的检测方法，以对象组的形式将图像中多个可能存在关联关系的第一类对象和第二类对象作为同一分组中的检测对象，在对象组的基础上实现对图像中第一类对象和第二类对象组成的多个匹配对的关联关系检测的全局优化，提升了对第一类对象和第二类对象之间的匹配度计算结果的准确性。

在一些可选实施例中，在检测出图形中的第一类对象和第二类对象后，还可以检测出图像中的第三类对象。其中，所述第三类对象包括第二人体部位对象。例如，所述第二人体部位对象包括人脸对象或人手对象。

基于图像中检测出的一个第一类对象、至少两个第二类对象和至少两个第三类对象，生成一个对象组。然后，在同一个对象组中，确定第一类对象分别与各第二类对象的匹配度、确定第一类对象分别与各第三类对象的匹配度。基于第一类对象分别与同一对象组中各第二类对象的匹配度，确定与第一类对象对应关联的第二类对象；基于第一类对象分别与同一对象组中各第三类对象的匹配度，确定与第一类对象对应关联的第三类对象。

上述可选实施例中，在进行关联对象的检测时，可以同时确定图像中与第一类对象关联的第二类对象、与第一类对象关联的第三类对象，即该关联检测方式可以同时确定图像中第一类对象、第二类对象和第三类对象之间的关联关系，而不必分开单独检测图像中第一类对象与第二类对象之间的关联关系，或单独检测第一类对象与第三类对象之间的关联关系。对于多对象场景，尤其是图像中的多个对象之间存在遮挡或交叠的场景，本实施例以对象组的形式将图像中可能存在关联关系的第一类对象、第二类对象和第三类对象作为同一分组中的检测对象，在对象组的基础同时确定图像中第一类对象、第二类对象和第三类对象之间的关联关系。

图6所示，本公开提供了一种神经网络的训练装置，该装置可以执行本公开任一实施例的神经网络的训练方法。该装置可以包括对象检测模块601、候选对象组生成模块602、匹配度确定模块603、群组关联损失确定模块604和网络参数调整模块605。其中：

对象检测模块601，用于检测图像中的第一类对象和第二类对象；

候选对象组生成模块602，用于基于检测出的第一类对象和第二类对象生成至少一个候选对象组，其中，所述候选对象组包括至少一个所述第一类对象和至少两个所述第二类对象；

匹配度确定模块603，用于基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度；

群组关联损失确定模块604，用于根据所述第一类对象分别与同一候选对象组内的各第二类对象的匹配度，确定所述候选对象组的群组关联损失，其中，所述群组关联损失正相关于所述第一类对象与非关联的第二类对象之间的匹配度；

网络参数调整模块605，用于根据所述群组关联损失，调整所述神经网络的网络参数。

在一些可选实施例中，如图7所述，所述装置还包括：训练完成确定模块701，用于在所述群组关联损失小于预设损失值的情况下，确定所述神经网络完成训练。

在一些可选实施例中，所述对象检测模块601，在用于检测图像中的第一类对象和第二类对象时，包括：提取出所述图像的特征图；根据所述特征图，确定所述图像中的第一类对象和第二类对象；所述匹配度确定模块603，在用于基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度时，包括：根据所述特征图，确定所述第一类对象的第一特征；根据所述特征图，确定所述候选对象组中的各第二类对象的第二特征，得到与所述第一特征对应的第二特征集合；将所述第二特征集合中的各第二特征分别与所述第一特征进行拼接，得到拼接特征集合；基于所述神经网络，确定所述拼接特征集合中的拼接特征对应的第二类对象与第一类对象之间的匹配度。

在一些可选实施例中，所述对象检测模块601，还用于检测所述图像中的第三类对象；所述候选对象组生成模块602，在用于基于检测出的第一类对象和第二类对象生成至少一个候选对象组时，包括：基于检测出的第一类对象、第二类对象和第三类对象生成至少一个候选对象组，每个候选对象组还包括至少两个所述第三类对象；所述匹配度确定模块603，还用于基于神经网络确定所述第一类对象分别与同一候选对象组中的各第三类对象之间的匹配度；所述群组关联损失正相关于所述第一类对象与非关联的第三类对象之间的匹配度。

图8所示，本公开提供了一种关联对象的检测装置，该装置可以执行本公开任一实施例的关联对象的检测方法。该装置可以包括检测模块801、对象组生成模块802、确定模块803和关联对象确定模块804。其中：

检测模块801，用于检测图像中的第一类对象和第二类对象；

对象组生成模块802，用于基于检测出的第一类对象和第二类对象生成至少一个对象组，所述对象组包括一个第一类对象和至少两个第二类对象；

确定模块803，用于确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；

关联对象确定模块804，用于基于所述第一类对象分别与同一对象组中的各第二类对象的匹配度确定与所述第一类对象关联的第二类对象。

在一些可选实施例中，所述对象组生成模块802，在用于基于检测出的第一类对象和第二类对象生成至少一个对象组时，包括：针对检测出的第一类对象执行组合操作；所述组合操作包括：将所述第一类对象与检测出的任意至少两个第二类对象组合为一个对象组；或者，将所述第一类对象与检测出的各第二类对象组合为一个对象组。

在一些可选实施例中，所述对象组生成模块802，在用于基于检测出的第一类对象和第二类对象生成至少一个对象组时，包括：根据检测出的第一类对象和第二类对象的位置信息，确定与所述第一类对象的满足预设的相对位置关系的至少两个第二类对象为所述第一类对象的候选关联对象；将所述第一类对象与所述第一类对象的各候选关联对象组合为一个对象组。

在一些可选实施例中，所述检测模块801，还用于检测图像中的第三类对象；所述对象组生成模块802，在用于基于检测出的第一类对象和第二类对象生成至少一个对象组时，包括：基于检测出的第一类对象、第二类对象和第三类对象生成至少一个对象组，所述对象组还包括至少两个第三类对象；所述确定模块803，还用于确定所述第一类对象分别与同一对象组的各第三类对象的匹配度；所述关联对象确定模块804，还用于基于第一类对象分别与同一对象组中的各第三类对象的匹配度确定与所述第一类对象关联的第三类对象。

在一些可选实施例中，所述确定模块803，在用于确定所述第一类对象分别与同一对象组的各第二类对象的匹配度时，包括：基于预先训练的神经网络，确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；其中，所述神经网络是根据本公开任一实施例提供的神经网络的训练方法得到。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开至少一个实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时能够实现本公开任一实施例的神经网络的训练方法，或者实现本公开任一实施例的关联对象的检测方法。

图9示出了本公开实施例所提供的一种更为具体的计算机设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时能够实现本公开任一实施例的神经网络的训练方法，或者实现本公开任一实施例的关联对象的检测方法。

其中，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等，本公开并不对此进行限制。

在一些可选实施例中，本公开实施例提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现本公开任一实施例的神经网络的训练方法，或者实现本公开任一实施例的关联对象的检测方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种神经网络的训练方法，其特征在于，所述方法包括：

检测图像中的第一类对象和第二类对象；

基于检测出的第一类对象和第二类对象生成至少一个候选对象组，其中，所述候选对象组包括至少一个所述第一类对象和至少两个所述第二类对象；

基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度；

根据所述第一类对象分别与同一候选对象组内的各第二类对象的匹配度，确定所述候选对象组的群组关联损失，其中，所述群组关联损失正相关于所述第一类对象与非关联的第二类对象之间的匹配度；

根据所述群组关联损失，调整所述神经网络的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述群组关联损失还负相关于候选对象组内的所述第一类对象与关联的第二类对象之间的匹配度。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在所述群组关联损失小于预设损失值的情况下，确定所述神经网络完成训练。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述检测图像中的第一类对象和第二类对象，包括：

提取出所述图像的特征图；

根据所述特征图，确定所述图像中的第一类对象和第二类对象；

所述基于神经网络确定所述第一类对象分别与同一候选对象组中的各第二类对象之间的匹配度，包括：

根据所述特征图，确定所述第一类对象的第一特征；

根据所述特征图，确定所述候选对象组中的各第二类对象的第二特征，得到与所述第一特征对应的第二特征集合；

将所述第二特征集合中的各第二特征分别与所述第一特征进行拼接，得到拼接特征集合；

基于所述神经网络，确定所述拼接特征集合中的拼接特征对应的第二类对象与第一类对象之间的匹配度。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述候选对象组中的各所述第二类对象与所述第一类对象满足预设的相对位置关系；或者，

所述候选对象组中的各所述第二类对象的检测框与所述第一类对象的检测框存在重叠区域。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第一类对象包括第一人体部位对象，所述第二类对象包括人体对象；或者，所述第一类对象包括人体对象，所述第二类对象包括第一人体部位对象。

7.根据权利要求6所述的方法，其特征在于，所述第一人体部位对象包括人脸对象或人手对象。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

检测所述图像中的第三类对象；

所述基于检测出的第一类对象和第二类对象生成至少一个候选对象组，包括：

基于检测出的第一类对象、第二类对象和第三类对象生成至少一个候选对象组，每个候选对象组还包括至少两个所述第三类对象；

所述方法还包括：基于神经网络确定所述第一类对象分别与同一候选对象组中的各第三类对象之间的匹配度；

以及所述群组关联损失还正相关于所述第一类对象与非关联的第三类对象之间的匹配度。

9.根据权利要求8所述的方法，其特征在于，所述第三类对象包括第二人体部位对象。

10.一种关联对象的检测方法，其特征在于，包括：

检测图像中的第一类对象和第二类对象；

基于检测出的第一类对象和第二类对象生成至少一个对象组，所述对象组包括一个第一类对象和至少两个第二类对象；

确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；

基于所述第一类对象分别与同一对象组中的各第二类对象的匹配度确定与所述第一类对象关联的第二类对象。

11.根据权利要求10所述的方法，其特征在于，所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：

针对检测出的第一类对象执行组合操作；

所述组合操作包括：

将所述第一类对象与检测出的任意至少两个第二类对象组合为一个对象组；或者，将所述第一类对象与检测出的各第二类对象组合为一个对象组。

12.根据权利要求10或11所述的方法，其特征在于，所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：

根据检测出的第一类对象和第二类对象的位置信息，确定与所述第一类对象的满足预设的相对位置关系的至少两个第二类对象为所述第一类对象的候选关联对象；

将所述第一类对象与所述第一类对象的各候选关联对象组合为一个对象组。

13.根据权利要求10或11所述的方法，其特征在于，所述第一类对象包括第一人体部位对象，所述第二类对象包括人体对象；或者，所述第一类对象包括人体对象，所述第二类对象包括第一人体部位对象。

14.根据权利要求13所述的方法，其特征在于，所述第一人体部位对象包括人脸对象或人手对象。

15.根据权利要求10所述的方法，其特征在于，所述方法还包括：检测图像中的第三类对象；

所述基于检测出的第一类对象和第二类对象生成至少一个对象组，包括：

基于检测出的第一类对象、第二类对象和第三类对象生成至少一个对象组，所述对象组还包括至少两个第三类对象；

所述方法还包括：

确定所述第一类对象分别与同一对象组的各第三类对象的匹配度；

基于第一类对象分别与同一对象组中的各第三类对象的匹配度确定与所述第一类对象关联的第三类对象。

16.根据权利要求15所述的方法，其特征在于，所述第三类对象包括第二人体部位对象。

17.根据权利要求10至16中任一项所述的方法，其特征在于，所述确定所述第一类对象分别与同一对象组的各第二类对象的匹配度，包括：

基于预先训练的神经网络，确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；其中，所述神经网络是根据权利要求1至9中任一项所述方法训练得到。

18.一种关联对象的检测装置，其特征在于，包括：

检测模块，用于检测图像中的第一类对象和第二类对象；

对象组生成模块，用于基于检测出的第一类对象和第二类对象生成至少一个对象组，所述对象组包括一个第一类对象和至少两个第二类对象；

确定模块，用于确定所述第一类对象分别与同一对象组的各第二类对象的匹配度；

关联对象确定模块，用于基于所述第一类对象分别与同一对象组中的各第二类对象的匹配度确定与所述第一类对象关联的第二类对象。

19.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-17任一所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-17任一所述的方法。

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-17任一所述的方法。

22.一种计算机程序，包括计算机可读代码，其中，所述计算机可读代码在电子设备中运行时使所述电子设备中的处理器实现权利要求1至17任一所述的方法。