CN110503152B

CN110503152B - 用于目标检测的双路神经网络训练方法及图像处理方法

Info

Publication number: CN110503152B
Application number: CN201910791658.1A
Authority: CN
Inventors: 郑安林
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-08-26
Anticipated expiration: 2039-08-26
Also published as: CN110503152A

Abstract

本申请提供了一种用于目标检测的双路神经网络训练方法及图像处理方法，该方法包括：获取样本图像的样本数据，将样本数据中第一包围框的全连接层特征输入至第一特征提取网络，基于第一包围框的全连接层特征对双路神经网络进行训练，得到初步训练后的双路神经网络；将样本图像的第二包围框的全连接层特征作为初步训练后的双路神经网络的第一特征提取网络的输入，将第二包围框所对应的所有第一特征向量作为初步训练后的双路神经网络的第二特征提取网络的输入，对初步训练后的双路神经网络再次进行训练，得到训练好的双路神经网络。通过本申请的方案，通过双路神经网络可以有效地确定出保证样本图像中的每个目标对象都有唯一的包围框。

Description

用于目标检测的双路神经网络训练方法及图像处理方法

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种用于目标检测的双路神经网络训练方法及图像处理方法。

背景技术

现有技术中，对于包含稠密物体的图像的检测，在检测得到图像中的包围框集合后，通常有以下两种方法对该包围框集合进行后处理，第一种方法为：通过非极大值抑制的方式对该包围框集合进行过滤处理，以得到该包围框集合中仅包含该图像中一个目标物体的有效包围框；第二种方法为：利用神经网络对该包围框集合进行过滤处理，得到最终的有效包围框。

但第一种方法存在的问题是：图像中的重叠率很大的两个目标物体通过非极大值抑制后可能仅有一个目标物体有对应的包围框，另外一个目标物体可能没有对应的包围框，导致最终得到有效包围框不够准确；第二种方法存在的问题是：对该包围框集合进行过滤处理的神经网络无法处理包围框中的多峰问题，即如果图像中的一个物体具有多个相同的包围框，则最终得到的有效包围框中一个物体可能对应多个有效包围框，从而导致最终得到有效包围框不够准确。

由此，现有技术中对包围框集合进行过滤处理的方法，使得最终得到有效包围框不够准确。

发明内容

为了解决现有技术中所存在的至少一个问题，本申请实施例的目的在于提供一种用于目标检测的双路神经网络训练方法、图像处理方法及对应的装置。

第一方面，本申请实施例提供了一种用于目标检测的双路神经网络训练方法，双路神经网络包括第一特征提取网络、第二特征提取网络、以及分别与第一特征提取网络和第二特征提取网络的输出连接的分类网络，该方法包括：

获取样本图像的样本数据，样本数据包括样本图像的包围框集合中各包围框的图像特征信息，包围框集合中包括第一包围框集合和第二包围框集合，图像特征信息包括全连接层特征，第一包围框集合中的第一包围框的重叠率大于第二包围框集合中的第二包围框的重叠率；

在第一包围框集合的第三包围框集合中，确定各第二包围框的邻居包围框，第三包围框集合中的各第三包围框为包含一个目标对象的包围框；

对于每个第二包围框，基于第二包围框的图像特征信息和第二包围框的邻居包围框的图像特征信息，确定各第二包围框相对于其每一个邻居包围框的第一特征向量；

将第一包围框的全连接层特征输入至第一特征提取网络，基于第一包围框的全连接层特征对双路神经网络进行训练，直至满足预设的第一训练结束条件，得到初步训练后的双路神经网络；

将第二包围框的全连接层特征作为初步训练后的双路神经网络的第一特征提取网络的输入，将第二包围框所对应的所有第一特征向量作为初步训练后的双路神经网络的第二特征提取网络的输入，对初步训练后的双路神经网络再次进行训练，直至满足预设的第二训练结束条件，得到训练好的双路神经网络。

第二方面，本申请实施例提供了一种图像处理方法，该方法包括：

获取待检测图像的待处理数据，待处理数据包括待检测图像的预测包围框集合中各包围框的图像特征信息，图像特征信息包括全连接层特征，预测包围框集合中包括第一待处理包围框集合和第二待处理包围框集合，第一待处理包围框集合中的第一待处理包围框的重叠率大于第二待处理包围框集合中的第二待处理包围框的重叠率；

将第一待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，基于双路神经网络的输出得到第一待处理包围框集合中的第一有效包围框集合，第一有效包围框集合中的第一有效包围框为第一待处理包围框集合中包含一个目标对象的包围框，双路神经网络为通过第一方面或第一方面的任一可选实施例中所示的方法训练得到的；

在第一有效包围框集合中，确定各第二待处理包围框的邻居包围框；

对于每个第二待处理包围框，基于第二待处理包围框的图像特征信息和第二待处理包围框的邻居包围框的图像特征信息，确定各第二待处理包围框相对于其每一个邻居包围框的第二特征向量；

将第二待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，将第二待处理包围框所对应的所有第二特征向量输入至双路神经网络的第二特征提取网络，基于双路神经网路的输出得到第二待处理包围框集合中的第二有效包围框集合，第二有效包围框集合中的第二有效包围框为第二待处理包围框集合中包含一个目标对象的包围框。

第三方面，本申请实施例提供了一种用于目标检测的双路神经网络训练装置，双路神经网络包括第一特征提取网络、第二特征提取网络、以及分别与第一特征提取网络和第二特征提取网络的输出连接的分类网络，该装置包括：

样本数据获取模块，用于获取样本图像的样本数据，样本数据包括样本图像的包围框集合中各包围框的图像特征信息，包围框集合中包括第一包围框集合和第二包围框集合，图像特征信息包括全连接层特征，第一包围框集合中的第一包围框的重叠率大于第二包围框集合中的第二包围框的重叠率；

第一邻居包围框确定模块，用于在第一包围框集合的第三包围框集合中，确定各第二包围框的邻居包围框，第三包围框集合中的各第三包围框为包含一个目标对象的包围框；

第一特征向量确定模块，用于对于每个第二包围框，基于第二包围框的图像特征信息和第二包围框的邻居包围框的图像特征信息，确定各第二包围框相对于其每一个邻居包围框的第一特征向量；

第一训练模块，用于将第一包围框的全连接层特征输入至第一特征提取网络，基于第一包围框的全连接层特征对双路神经网络进行训练，直至满足预设的第一训练结束条件，得到初步训练后的双路神经网络；

第二训练模块，用于将第二包围框的全连接层特征作为初步训练后的双路神经网络的第一特征提取网络的输入，将第二包围框所对应的所有第一特征向量作为初步训练后的双路神经网络的第二特征提取网络的输入，对初步训练后的双路神经网络再次进行训练，直至满足预设的第二训练结束条件，得到训练好的双路神经网络。

第四方面，本申请实施例提供了一种图像处理装置，该装置包括：

待处理数据获取模块，用于获取待检测图像的待处理数据，待处理数据包括待检测图像的预测包围框集合中各包围框的图像特征信息，图像特征信息包括全连接层特征，预测包围框集合中包括第一待处理包围框集合和第二待处理包围框集合，第一待处理包围框集合中的第一待处理包围框的重叠率大于第二待处理包围框集合中的第二待处理包围框的重叠率；

第一有效包围框确定模块，用于将第一待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，基于双路神经网络的输出得到第一待处理包围框集合中的第一有效包围框集合，第一有效包围框集合中的第一有效包围框为第一待处理包围框集合中包含一个目标对象的包围框，双路神经网络为通过权利要求1至6中任一项的方法训练得到的；

第二邻居包围框确定模块，用于在第一有效包围框集合中，确定各第二待处理包围框的邻居包围框；

第二特征向量确定模块，用于对于每个第二待处理包围框，基于第二待处理包围框的图像特征信息和第二待处理包围框的邻居包围框的图像特征信息，确定各第二待处理包围框相对于其每一个邻居包围框的第二特征向量；

第二有效包围框确定模块，用于将第二待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，将第二待处理包围框所对应的所有第二特征向量输入至双路神经网络的第二特征提取网络，基于双路神经网路的输出得到第二待处理包围框集合中的第二有效包围框集合，第二有效包围框集合中的第二有效包围框为第二待处理包围框集合中包含一个目标对象的包围框。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器；存储器中存储有可读指令，可读指令由处理器加载并执行时，实现如上述第一方面或第一方面的任一可选实施例中所示的方法，以及第二方面或第二方面的任一可选实施例中所示的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，该存储介质中存储有可读指令，可读指令由处理器加载并执行时，实现如上述第一方面或第一方面的任一可选实施例中所示的方法，以及第二方面或第二方面的任一可选实施例中所示的方法。

本申请提供的技术方案带来的有益效果是：本申请实施例提供的用于目标检测的双路神经网络训练方法及图像处理方法，可以样本数据的两种类型的包围框的图像特征信息，对双路神经网络进行两次迭代训练，在训练时，首先基于重叠率较大的第一包围框对第一特征提取网络进行预训练，再基于包含一个目标对象的第三包围框和重叠率较小的第二包围框对第二特征提取网络进行训练，基于第二包围框对第一特征提取网络进行训练，得到训练好的双路神经网络，基于该双路神经网络可以有效地确定出第二包围框集合中包含一个目标对象的包围框，即通过本申请训练得到的双路神经网络，在对包围框集合进行处理时，可以保证样本图像中的每个目标对象都有唯一的包围框。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种用于目标检测的双路神经网络训练方法的流程示意图；

图2为本申请实施例提供的一种双路神经网络的网络结构示意图；

图3为本申请实施例提供的一种图像处理方法的流程示意图；

图4a为本申请一示例中一种待检测图像中的预测包围框的示意图；

图4b为基于图4a所示的预测包围框中第一待处理包围框得到的第一有效包围框的示意图；

图4c为基于图4a所示的预测包围框中第二待处理包围框和图4b中所示的第一有效包围框得到的第二有效包围框的示意图；

图5为本申请实施例提供的一种基于两种方法对待检测图像的包围框进行处理后得到的有效包围框的示意图；

图6为本申请实施例提供的一种用于目标检测的双路神经网络训练装置的结构示意图；

图7为本申请实施例提供的一种图像处理装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1示出了本申请实施例所提供的一种双路神经网络的训练的流程示意图，如图1所示，双路神经网络包括第一特征提取网络、第二特征提取网络、以及分别与第一特征提取网络和第二特征提取网络的输出连接的分类网络，该方法可以包括以下步骤：

步骤S110，获取样本图像的样本数据，样本数据包括样本图像的包围框集合中各包围框的图像特征信息，包围框集合中包括第一包围框集合和第二包围框集合，图像特征信息包括全连接层特征，第一包围框集合中的第一包围框的重叠率大于第二包围框集合中的第二包围框的重叠率。

其中，样本图像可以是通过图像采集设备采集的图像，也可以是从其他设备接收的图像。该样本图像可以包括多张图像，每张样本图像中均包括目标对象，需要说明的是，本申请实施例中的目标对象可以包括但不限于人，例如还可以是动物或其他目标。在本申请实施例中，样本图像可以为稠密物体图像，比如，存在遮挡的多个人的图像，存在遮挡的多个动物的图像或存在遮挡的多个其它实物的图像；当然，样本图像也可以为稀疏物体检测图像，比如，不存在遮挡的多个人的图像，单个人的图像，不存在遮挡的多个动物的图像，单个动物的图像等等，本申请实施例对样本图像不进行具体限定。

其中，包围框集合是样本图像对应的包围框，每张样本图像都可以包括至少一个包围框，若样本图像为多张图像，则包围框集合为该多张图像中每张图像对应的包围框的集合，包围框的图像特征信息用于表征该包围框的图像特征。

其中，两个包围框之间的重叠率指的是两个包围框之间的交并比IOU(Intersection-over-Union)。

步骤S120，在第一包围框集合的第三包围框集合中，确定各第二包围框的邻居包围框，第三包围框集合中的各第三包围框为包含一个目标对象的包围框；

其中，第二包围框的邻居包围框为第三包围框集合中的包围框，。

步骤S130,对于每个第二包围框，基于第二包围框的图像特征信息和第二包围框的邻居包围框的图像特征信息，确定各第二包围框相对于其每一个邻居包围框的第一特征向量。

其中，每个第二包围框对应一个邻居包围框。

步骤S140，将第一包围框的全连接层特征输入至第一特征提取网络，基于第一包围框的全连接层特征对双路神经网络进行训练，直至满足预设的第一训练结束条件，得到初步训练后的双路神经网络。

其中，在基于第一包围框的全连接层特征对双路神经网络进行训练时，第二特征提取网络的输入可以为0，第一训练结束条件即双路神经网络训练结束的条件，可以根据应用需求配置。例如，该条件可以是指双路神经网络的损失函数处于收敛状态，还可以是双路神经网络的识别准确率大于设定值，或者是双路神经网络的召回率大于设定值等。

在实际应用中，通过对双路神经网络进行训练得到初步训练后的双路神经网络后，还可以配置测试数据即验证样本数据，通过测试数据对初步训练后的双路神经网络进行测试，直至测试结果满足训练结束条件。

步骤S150，将第二包围框的全连接层特征作为初步训练后的双路神经网络的第一特征提取网络的输入，将第二包围框所对应的所有第一特征向量作为初步训练后的双路神经网络的第二特征提取网络的输入，对初步训练后的双路神经网络再次进行训练，直至满足预设的第二训练结束条件，得到训练好的双路神经网络。

其中，在对双路神经网络进行训练得到初步训练后的双路神经网络后，还可以对该初步训练后的双路神经网络进行再一次的训练，具体的，可以分别将第二包围框的全连接层特征作为第一特征提取网络的输入，将第二包围框所对应的所有第一特征向量作为第二特征提取网络的输入，对初步训练后的双路神经网络的两个支路网络进行训练。

其中，第二训练结束条件即初步训练后的双路神经网络训练结束的条件，同样可以根据应用需求配置。例如，该条件可以是指初步训练后的双路神经网络的损失函数处于收敛状态，还可以是初步训练后的双路神经网络的识别准确率大于设定值，或者是初步训练后的双路神经网络的召回率大于设定值等。第二训练结束条件可以与第一训练结束条件相同，也可以不同。

本申请实施例所提供的双路神经网络训练方法，可以样本数据的两种类型的包围框的图像特征信息，对双路神经网络进行两次迭代训练，在训练时，首先基于重叠率较大的第一包围框对第一特征提取网络进行预训练，再基于包含一个目标对象的第三包围框和重叠率较小的第二包围框对第二特征提取网络进行训练，基于第二包围框对第一特征提取网络进行训练，得到训练好的双路神经网络，基于该双路神经网络可以有效地确定出第二包围框集合中包含一个目标对象的包围框，即通过本申请训练得到的双路神经网络，在对包围框集合进行处理时，可以保证样本图像中的每个目标对象都有唯一的包围框。

在本申请方案中，以一张样本图像A对应的包围框集合为例进行下述方案的说明。在本申请的可选实施例中，包围框集合可以通过以下方式获取：

通过物体检测框架对样本图像进行检测处理，得到样本图像中的初始预测包围框集合以及初始预测包围框集合中各初始预测包围框的类别得分，其中，初始预测包围框集合中的初始预测包围框全部包含或者部分包含目标对象；

基于各个初始预测包围框的类别得分，对初始预测包围框集合进行过滤处理，得到过滤后的初始预测包围框集合，其中，初始预测包围框的类别得分用于表征初始预测包围框中包含目标对象的概率；

基于第一设定值的非极大值抑制方法对过滤后的初始预测包围框集合进行过滤处理，得到包围框集合。

其中，物体检测框架用于检测图像中的包围框，物体检测框架可以是现有技术中用于检测图像中的包围框的算法，基于该物体检测框架会得到样本图像的初始预测包围框集合，该初始预测包围框集合中包括包含全部目标对象的包围框，以及包含部分目标对象的包围框。

其中，类别得分较低的包围框中包含完整目标对象的概率相对较低，则可以基于各初始预测包围框的类别得分，将类别得分低于设定值的包围框从初始预测包围框集合中过滤掉，得到过滤后的初始预测包围框集合。然后考虑到过滤后的初始预测包围框集合中包括的包围框的数量过多，影响数据处理效率，可以基于第一设定值的非极大值抑制方法对过滤后的初始预测包围框集合进行再一次的过滤，过滤后的包围框集合作为样本数据中的包围框集合。其中，第一设定值可以基于实际需求配置。

另外，还可以通过该物体检测框架获取测试图像的测试样本数据，该测试样本数据用于对训练好的双路神经网络进行测试，以使得该双路神经网络达到预设的精度。

本申请的可选实施例中，包围框集合中各包围框的图像特征信息也可以通过物体检测框架得到的。

本申请的可选实施例中，基于第一设定值的非极大值抑制方法对过滤后的初始预测包围框集合进行过滤处理，得到包围框集合，可以包括：

对于过滤后的初始预测包围框集合中的各初始预测包围框，选择其中类别得分最高的初始预测包围框作为第一参考包围框，确定该第一参考包围框与过滤后的初始预测包围框集合中除该第一参考包围框之外的其他初始预测包围框之间的重叠率，将重叠率大于第一设定值的初始预测包围框从过滤后的初始预测包围框集合中过滤掉，得到第一过滤包围框，该第一参考包围框为保留下来的包围框；

接下来，通过相同的方式，第一过滤包围框集合中，选择其中类别得分最高的包围框作为第二参考包围框，确定该第二参考包围框与第一过滤包围框集合中除该第二参考包围框之外的其他包围框之间的重叠率，将重叠率大于第一设定值的包围框从第一过滤包围框集合中过滤，得到第二过滤包围框集合，该第二参考包围框为保留下来的包围框；直到确定得到过滤后的初始预测包围框集合中被保留下来的包围框，将保留下来的包围框作为包围框集合。

其中，第一设定值可以基于实际需求配置，比如，0.85。

本申请的可选实施例中，第一包围框集合和第二包围框集合为基于第一重叠率阈值的非极大值抑制方法对包围框集合进行分类处理得到的。

其中，在确定得到包围框集合后，还可以对该包围框集合中的包围框进行分类，本申请方案中可基于第一重叠率阈值的非极大值抑制方法对包围框集合进行分类处理得到第一包围框集合和第二包围框集合。

基于第一重叠率阈值的非极大值抑制方法对包围框集合进行分类处理得到第一包围框集合和第二包围框集合，具体实现方式可以为：

对于包围框集合中的各包围框，选择其中类别得分最高的包围框作为第三参考包围框，确定该第三参考包围框与包围框集合中除该第三参考包围框之外的其他包围框之间的重叠率，将重叠率大于第一重叠率阈值的包围框从包围框集合中过滤掉，得到第三过滤包围框，该第三参考包围框为保留下来的包围框；

接下来，通过相同的方式，在第三过滤包围框中，选择其中类别得分最高的包围框作为第四参考包围框，确定该第四参考包围框与第三过滤包围框集合中除该第四参考包围框之外的其他包围框之间的重叠率，将重叠率大于第一设定值的包围框从第三过滤包围框中过滤掉，该第二参考包围框为保留下来的包围框；直到确定得到过滤后的初始预测包围框集合中被保留下来的包围框，将保留下来的包围框作为第一包围框集合，将过滤掉的包围框作为第二包围框集合。

其中，第一重叠率阈值IOU_γ可以基于实际需求配置，比如，0.5。

本申请的可选实施例中，在确定了第一包围框集合和第二包围框集合之后，可分别确定第一包围框集合中的正样本和负样本，及第二包围框集合中的正样本和负样本；其中，正样本表示包含一个目标对象的包围框，负样本则表示不包含一个目标对象的包围框。

本申请的可选实施例中，确定第一包围框集合中的正样本和负样本，可以包括：

基于最优二分图匹配和样本数据中样本图像的基准包围框集合，确定第一包围框集合中的正样本和负样本，基准包围框集合中的各基准包围框为包含一个目标对象的包围框，该基准包围框可以为基于样本图像中的目标对象进行人工标注得到的包围框。

本申请的可选实施例中，基于最优二分图匹配和样本图像的基准包围框集合，确定第一包围框集合中的正样本和负样本，可以包括：

将第一包围框集合中的各第一包围框与其对应的每一个基准包围框作为二分图的顶点，将第一包围框集合中的各第一包围框与其对应的每一个基准包围框之间的重叠率作为二分图的边，其中，将重叠率大于第二设定值的两个顶点定义为连通，否则，定义为不连通；

将第一包围框集合中重叠率大于第二设定值的包围框作为正样本，将第一包围框集合中重叠率不大于第二设定值的包围框作为负样本。

其中，第二设定值可以基于实际需求配置，比如，0.5。

在确定第一包围框集合中的正样本和负样本的同时，还可以确定出第一包围框集合中的第三包围框集合，第三包围框集合可以通过以下方式确定：将第一包围框集合的正样本中与基准包围框完全匹配的包围框作为第三包围框集合。

本申请的可选实施例中，在第一包围框集合的第三包围框集合中，确定出第二包围框集合中的各第二包围框的邻居包围框，可以包括：

在第三包围框集合中，确定出第二包围框集合中的各第二包围框的邻居包围框。

本申请的可选实施例中，在第三包围框集合中，确定出第二包围框集合中的各第二包围框的邻居包围框，可以包括：

对于第二包围框集合中的各第二包围框，确定第二包围框与各第三包围框之间的重叠率，将第三包围框集合中，重叠率大于第二重叠率阈值的包围框作为第二包围框的邻居包围框S_N。

其中，第二重叠率阈值IOU_a可以基于实际需求配置，比如，0.1。一个第二包围框可以对应一个邻居包围框，也可以对应多个邻居包围框。

在确定过第三包围框集合后，可进一步确定第二包围框集合中的正样本和负样本，具体实现方式为：

基于各第二包围框的邻居包围框和基准包围框集合，通过最优二分图匹配的方式确定第二包围框集合中的正样本和负样本。

本申请的可选实施例中，基于各第二包围框的邻居包围框和基准包围框集合，通过最优二分图匹配的方式确定第二包围框集合中的正样本和负样本，可以包括：

将各第二包围框的邻居包围框与其对应的每一个基准包围框作为二分图的顶点，将各第二包围框的邻居包围框与其对应的每一个基准包围框之间的重叠率作为二分图的边，其中，将重叠率大于第三设定值的两个顶点定义为连通，否则，定义为不连通；

确定基准包围框集合中与各第二包围框的邻居包围框无法进行匹配的基准包围框集合GT_M；其中，在基准包围框集合中，将各第二包围框的邻居包围框与其对应的每一个基准包围框之间的重叠率大于第三设定值的基准包围框作为匹配结果GT_B，将基准包围框集合除匹配结果GT_B之外的其他基准包围框称之为无法进行匹配的基准包围框集合GT_M；

确定各第二包围框与GT_M中对应的基准包围框之间的重叠率，将第二包围框集合中重叠率大于第三设定值的第二包围框作为第二包围框集合的正样本，将第二包围框集合中重叠率不大于第三设定值的第二包围框作为第二包围框集合的负样本。

其中，第三设定值IOU_β可以基于实际需求配置，比如，0.5。

在分别确定出第一包围框集合的正样本和负样本，第二包围框集合的正样本和负样本之后，还需基于第二包围框的图像特征信息和第二包围框的邻居包围框的图像特征信息，确定各第二包围框相对于其每一个邻居包围框的第一特征向量。

本申请的可选实施例中，第一特征向量中可以包括各第二包围框的第一全连接层特征F_i和各第二包围框的邻居包围框的第二全连接层特征F_j。

其中，第二包围框的第一全连接层特征和邻居包围框的第二全连接层特征均可通过前文描述的物体检测框架得到。

本申请的可选实施例中图像特征信息还包括几何特征，对于一个第二包围框，第二包围框相对于其一个邻居包围框的第一特征向量包括以下至少一项：

第二包围框的第一全连接层特征和邻居包围框的第二全连接层特征；

基于第二包围框的几何特征与邻居包围框的几何特征，确定的第二包围框与邻居包围框之间的相对位置特征向量；

基于第二包围框的几何特征和邻居包围框的几何特征，确定的第二包围框与邻居包围框之间的编码特征向量；

基于第二包围框和邻居包围框之间的重叠率，确定的第二包围框和邻居包围框之间的重叠率特征向量。

其中，为了提高包围框的表达能力，第一特征向量可以包括第一全连接层特征和第二全连接层特征、相对位置特征向量、编码特征向量和重叠率特征向量中的至少一项，其中，几何特征可以包括包围框的位置坐标，该位置坐标可以为表示包围框位置的坐标，比如，左上顶点坐标，右上顶点坐标，左下顶点坐标，右下顶点坐标和中心点坐标。

本申请的可选实施例中，第二包围框和其相对应的一个邻居包围框之间的相对位置特征向量的一种可选的实现方式为：

基于第二包围框b_i的位置坐标和其对应的一个邻居包围框b_j的位置坐标，以及下述公式(1)，计算得到第二包围框b_i与邻居包围框b_j之间的相对位置特征向量F_g，其中，公式(1)为：

其中，F_g为第二包围框b_i与邻居包围框b_j之间的相对位置特征向量，

为第二包围框的b_i的左上顶点坐标，

为第二包围框的b_i的右下顶点坐标，

为邻居包围框b_j的左上顶点坐标，

为邻居包围框b_j的右下顶点坐标，W表示这张样本图像的宽，H表示该张样本图像的长，

表示第二包围框的b_i的左上顶点坐标与邻居包围框b_j的左上顶点坐标之间的相对位置坐标，

表示第二包围框的b_i的右下顶点坐标与邻居包围框b_j的右下顶点坐标之间的相对位置坐标。

本申请的可选实施例中，第二包围框和其相对应的一个邻居包围框之间的编码特征向量的一种可选的实现方案为：

基于第二包围框b_i的中心点坐标和其相对应的一个邻居包围框b_j的中心点坐标，以及下述公式(2)和公式(3)，计算得到第二包围框b_i与邻居包围框b_j之间的编码特征向量F_c，其中，公式(2)和公式(3)分别为：

其中，在公式(2)中，(cx_i，cy_i)表示第二包围框的b_i的中心点坐标，w_i表示第二包围框的b_i的宽，hi表示第二包围框的b_i的长，(cx_j，cy_j)表示邻居包围框b_j的中心点坐标，w_j表示邻居包围框b_j的宽，h_j表示邻居包围框b_j的长，在公式(3)中，F_c表示第二包围框的b_i与邻居包围框b_j之间的编码特征向量，C_∈表示最终编码的长度，i∈[0，C_∈/2]。

本申请的可选实施例中，第一特征向量包括第一全连接层特征F_i、第二全连接层特征F_j、相对位置特征向量F_g、编码特征向量F_c和重叠率特征向量F_iou；第一特征向量Fr为通过以下方式确定的：

将第一全连接层特征F_i、第二全连接层特征F_j、相对位置特征向量F_g、编码特征向量F_c、重叠率特征向量F_iou中的至少一个特征向量转换为设定维度的特征向量；

将转换为设定维度的特征向量进行拼接，得到第一特征向量Fr。

其中，为了使包围框的特征中低维度特征的表达不被其他的高维度特征所淹没，可以将上述五个特征向量，即第一全连接层特征、第二全连接层特征、相对位置特征向量、编码特征向量、重叠率特征向量中的至少一项转换为设定维度的特征向量，该设定维度可以基于实际需求配置，比如，上述五个特征向量中维度最高的特征向量所对应的维度，或者，为指定的维度。可以理解的是，可以将上述五个特征向量中的一个或多个特征向量转换为设定维度的特征向量。

比如，在上述五个特征中，相对位置特征向量为4维，重叠率特征向量为1维，设定维度为32维，则可以将相对位置特征向量和重叠率特征向量转换为32维的特征向量。

接着可将转换为设定维度的特征向量与未进行维度转换的特征向量进行拼接，得到第一特征向量Fr，Fr＝[F_i，F_j，F_g，F_c，F_iou]；其中，第一特征向量指的是一个第二包围框与其相对应的一个邻居包围框之间的特征向量，一个第二包围框可对应多个邻居包围框，则可以将第二包围框对应的所有第一特征向量作为初步训练后的双路神经网络的第二特征提取网络的输入。作为一个示例，如果第二包围框对应的所有邻居包围框的个数为N，则可将N个第一特征向量对应的特征矩阵作为初步训练后的双路神经网络的第二特征提取网络的输入。

需要说明的是，在得到一张样本图像的样本数据后，可基于同样的方式得到多张样本图像的样本数据，然后基于多张样本图像的样本数据对双路神经网络进行训练，以使得训练好的双路神经网络可以更加准确的确定出包含一个目标对象的包围框。

作为一种可选方式，下面对双路神经网络进行训练：

在本申请实施例中，对双路神经网络进行训练包括两个阶段，分别为训练双路神经网络得到初步训练后的双路神经网络的第一训练阶段，以及训练初步训练后的双路神经网络得到训练好的双路神经网络的第二训练阶段。

在第一训练阶段，将第一包围框集合中第一包围框的全连接层特征作为第一特征提取网络的输入，第二特征提取网络的输入置为0，第一特征提取网络对输入的第一包围框的全连接层特征进行编码后，可将编码后的特征向量输入至全连接层，然后再输入至分类网络，最后通过分类网络输出第一包围框集合中的第一包围框的分类结果，得到初步训练后的双路神经网络。

其中，分类结果表示第一包围框为正样本还是负样本，若为正样本，则表示该第一包围框为包含一个目标对象的包围框，若为负样本，则表示该第一包围框为不包含一个目标对象的包围框。

其中，分类结果可以基于实际需求配置，比如，分类结果为第一包围框为正样本或负样本的概率，若分类结果为：第一包围框为正样本的概率，概率值大于设定概率值的第一包围框为正样本，否则为负样本。分类结果还可以为第一包围框为正样本或负样本的标识，比如，标识为1，表示该标识对应的第一包围框为正样本，标识为0，表示该标识对应的第一包围框为负样本。

其中，分类网络可以为损失函数，比如，softmax函数，则通过该分类网络输出的分类结果可以确定第一包围框集合中各第一包围框为正样本或负样本的结果。可选的，损失函数还可以为对数似然函数，参见以下公式(4)：

L＝-∑_iy_i log p_i (4)

其中，i表示包围框集合中包围框的索引，y_i表示包围框对应的标签，标签的值是1或0。p_i表示由双路神经网络输出的包围框为正负样本的概率，a_i和a_k分别表示Softmax层输出的激活响应值。其中，p_i可通过公式(5)得到：

在双路神经网络中还包括注意力机制模块和特征加权模块，注意力机制模块的输入分别与第一特征提取网络的输出和第二特征提取网络的输出连接，注意力机制模块的输出为特征加权模块的输入，第二特征提取网络通过特征加权模块与分类网络连接；

注意力机制模块，用于根据第一特征提取网络所提取的第一图像特征和第二特征提取网络所提取的第二图像特征，确定第二图像特征的权重；

特征加权模块，用于根据权重对第二图像特征进行加权处理；

分类网络，用于基于第一图像特征和加权处理后的第二图像特征，确定第二包围框的类别。

其中，考虑到第二特征提取网络对第一特征提取网络的影响，可在双路神经网络中的加入注意力机制模块，通过该注意力机制模块，可以减少两个特征提取网络之间的影响。具体的，注意力机制模块的输入可以为与第一特征提取网络的输出和第二特征提取网络的输出，比如，第一特征提取网络提取的第一图像特征和第二特征提取网络提取的第二图像特征按元素加和得到的特征，注意力机制模块基于该加和得到的特征确定得到第二图像特征的权重，特征加权模块用于根据权重对第二图像特征进行加权处理，比如，将权重与第二图像特征相乘，分类网络用于基于第一图像特征和加权处理后的第二图像特征，确定第二包围框的类别，其中，第二包围框的类别表示第二包围框的分类结果，即该第二包围框是正样本还是负样本。

在第一训练阶段，由于第二特征提取网络的输入为0，则第一特征提取网络的输出和第二特征提取网络的输出在经过注意力机制模块处理后，第二特征提取网络的输出不影响第一包围框的全连接层特征。

在本申请实施例中，还可以在双路神经网络的全连接层之后级联多个残差模块，即全连接层的输出通过多个残差模块与注意力机制模块连接，在本申请实施例中，残差模块的个数为9个。

在第二训练阶段，即得到初步训练后的双路神经网络之后，将N个第一特征向量对应的特征矩阵作为初步训练后的双路神经网络的第二特征提取网络L2的输入，将第二包围框的全连接层特征作为初步训练后的双路神经网络的第一特征提取网络L1的输入，对初步训练后的双路神经网络进行再一次的训练，得到训练好的神经网络。

具体的，参见图2所示的第二训练阶段，双路神经网络的网络结构示意图，第一特征提取网络L1的输入为第二包围框的全连接层特征F_i，在第一特征提取网络对第二包围框的全连接层特征F_i进行编码后，输入至全连接层f_c，然后该全连接层f_c的输出输入至9个级联的残差模块bottleneck进行特征非线性变换，输出特征向量F_B。

第二特征提取网路L2的输入为N个第一特征向量对应的特征矩阵，Fr＝[F_i，F_j，F_g，F_c，F_iou]，图2中所示的f_iou对应F_iou，f_coding对应F_c，f_b对应F_j，f_d对应F_i，f_g对应F_g。b_i表示的是第二包围框，b_j表示的是第二包围框对应的一个邻居包围框，b_i，b_j表示的第二包围框与其相对应的邻居包围框。

在第二特征提取网络L2中，先对该特征矩阵进行编码后，输入至全连接层f_c，然后该全连接层f_c的输出输入至9个级联的残差模块bottleneck进行特征非线性变换，通过公式(6)对该残差模块输出的特征向量进行整合编码，得到b_i的编码特征向量

其中，公式(6)为：

其中，

表示输入到双路神经网络中的关于第二包围框b_i对于第j个邻居包围框b_j的第一特征向量；θ表示第二特征提取网络L2中的1层全连接层及其后面的9个级联的残差模块中的参数。

经过公式(6)处理后得到的编码特征向量

记为特征向量为F_N，考虑到邻居包围框b_j和第二包围框的重叠率不一样，因此各个邻居包围框对第二包围框的影响能力不一样，我们将第二特征提取网络L2输出的特征向量F_N和第一特征提取网络输出的特征向量F_B通过Sum模块进行按元素加和，加和处理后输入至Attention模块(图2中所示的AttentionModule)中，得到针对第二包围框的权重w(缩放因子)。将该权重w和F_N输入至特征加权模块(图2中所示的Matrix Multiply)，权重w和F_N相乘后可以得到新的特征向量F_A，即该特征加权模块的输出为F_A，将F_A与F_B按元素加和后输入至后面的3层全连接层f_c，最后经过Softmax层输出第二包围框b_i的类别。

在确定了一个第二包围框的类别后，还可以基于同样的方式，对第二包围框集合中其他的第二包围框进行同样的训练，其具体的训练过程不再赘述。

本申请的可选实施例中，可以利用前向传播和反向传播，以及随机梯度下降的方法来优化网络中的参数。作为一个示例，在第一训练阶段，可以基于初步训练后的双路神经网络的输出与其相对应的基准包围框的标注结果进行比较，得到误差，基于该误差反向传播，以对初步训练后的双路神经网络的参数进行优化。同样的，在第二训练阶段，也可以基于训练好的双路神经网络的输出与其相对应的基准包围框的标注结果进行比较，得到误差，基于该误差反向传播，以对训练好的神经网络中的参数进行优化。

本申请的可选实施例中，通过对双路神经网络进行训练得到训练好的双路神经网络后，还可以配置测试数据即验证样本数据，通过测试数据对训练好的双路神经网络进行测试，直至测试结果满足训练结束条件。其中，获取测试数据的方式与获取训练双路神经网络的样本数据的方式相同，在此不再赘述。

测试阶段也可以对应分为两个阶段，分别包括第一测试阶段和第二测试阶段，在第一测试阶段，基于测试数据中一张测试图像的第一包围框集合，将第一包围框的全连接层特征输入至训练好的双路神经网络，得到第一包围框集合中的第一有效包围框集合，该第一有效包围框集合中的第一有效包围框指的是第一包围框集合中包含一个目标对象的包围框。

在第二测试阶段，基于测试数据中该张测试图像的第二包围框集合中的第二包围框，及第一有效包围框集合中的第一有效包围框，确定各第二包围框对应的邻居包围框，其确定邻居包围框的方式与前文中描述的方式相同，在此不再赘述。得到邻居包围框后，对于一个第二包围框，可基于第二包围框的图像特征信息与其相对应的一个邻居包围框的图像特征信息，确定第二包围框与其相对应的一个邻居包围框之间的第一特征向量，其中，确定第一特征向量的方式与前文描述的方式相同，在此不再赘述赘述，该第一特征向量可以为Fr＝[F_i，F_j，F_g，F_c，F_iou]，将N个第一特征向量对应的特征矩阵输入至训练好的双路神经网络，得到第二包围框的分类结果，基于各第二包围框的分类结果，确定第二包围框集合中的第二有效包围框集合，该第二有效包围框集合中的第二有效包围框指的是第二包围框集合中包含一个目标对象的包围框。

针对第二有效包围框集合中的第二有效包围框，可通过设定阈值的非极大值抑制方法对第二有效包围框集合中的包围框进行过滤，得到第三有效包围框集合，该张测试图像对应的最终有效包围框集合为第一有效包围框集合与第三有效包围框集合的并集。

在得到最终有效包围框集合后，基于该张测试图像的基准包围框，基准包围框指的是通过人工标注的，测试图像中仅包含一个目标对象的包围框，将最终有效包围框集合中各有效包围框与其相对应的基准包围框进行比较，得到误差，基于该误差可对训练好的双路神经网络的参数进行优化。

可以理解的是，可以基于测试数据中多张测试图像对应的包围框集合对该训练好的双路神经网络进行验证，以提高该训练好的双路神经网络的精度。

通过本申请的方法训练得到的双路神经网络，非极大值抑制方法，神经网络方法对同样的测试数据进行测试，本申请实施例中采用mJC作为各种处理方法的评价指标，mJC的取值越高，表示确定出的有效包围框的准确性越高。其中，mJC的定义如公式(7)所示。

其中，|GT|和|S_f|分别表示测试图像中的基准包围框集合和通过上述几种处理方式得到的有效包围框集合中包围框的数量；M表示有效包围框集合中的包围框和基准包围框集合中的包围框GT进行最优二分图匹配得到的匹配结果，|M|表示该集合的元素数量，即包围框数量。

通过本申请的方法训练得到的双路神经网络，非极大值抑制方法，神经网络方法对同一个图像的包围框进行处理得到表1中的对比结果。

表1 三种不同包围框处理方法结果对比

	非极大值抑制	神经网络	本申请方法
				mJC	0.730	0.628	0.764

基于表1可知，通过非极大值抑制方法得到的mJC评价指标值为0.730，通过神经网络方法得到的mJC评价指标值为0.628，通过本申请方法得到的mJC评价指标值为0.764，由此可知，本申请对于确定一张图像的包围框中的有效包围框的准确性相对于其他两种方法都高。

基于本申请的方法训练双路神经网络，可以基于第一包围框的全连接层特征和第一特征向量对双路神经网络进行两次训练，得到的训练好的双路神经网络可以有效确定出包围框集合中包含一个目标对象的包围框，即通过本申请训练的到的双路神经网络，在对包围框集合进行处理时，可以保证样本图像中的每个目标物体都有唯一的包围框。

基于与图1中所示的方法相同的原理，本申请实施例还提供了一种图像处理方法，如图3所示，该方法可以包括：

步骤S210，获取待检测图像的待处理数据，待处理数据包括待检测图像的预测包围框集合中各包围框的图像特征信息，图像特征信息包括全连接层特征，预测包围框集合中包括第一待处理包围框集合和第二待处理包围框集合，第一待处理包围框集合中的第一待处理包围框的重叠率大于第二待处理包围框集合中的第二待处理包围框的重叠率。

其中，待检测图像指的是想确定出该图像中包含的目标对象对应的唯一包围框，预测包围框集合也可以基于物体检测框架检测待检测图像获取到的包围框进行过滤处理得到，与训练双路神经网络时样本数据中的包围框集合的获取方式相同，且通过该物体检测框架可以得到预测包围框集合中各包围框的图像特征信息，在此不再赘述。第一待处理包围框集合与前文描述的第一包围框集合的获取方式相同，第二待处理包围框集合与前文描述的第二包围框集合的获取方式相同，在此不再赘述。

步骤S220，将第一待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，基于双路神经网络的输出得到第一待处理包围框集合中的第一有效包围框集合，第一有效包围框集合中的第一有效包围框为第一待处理包围框集合中包含一个目标对象的包围框，双路神经网络为通过前文所描述的方法训练得到的。

其中，确定第一待处理包围框集合中的第一有效包围框集合的方式，与前文描述的第一测试阶段中，通过训练好的双路神经网络得到第一包围框集合中的第一有效包围框集合的方式相同，在此不再赘述。

步骤S230，在第一有效包围框集合中，确定各第二待处理包围框的邻居包围框。

其中，在第一有效包围框集合中，确定各第二待处理包围框的邻居包围框的方法，与前文描述的在第三包围框集合中，确定各第二包围框的邻居包围框的方法相同，在此不再赘述。

步骤S240，对于每个第二待处理包围框，基于第二待处理包围框的图像特征信息和第二待处理包围框的邻居包围框的图像特征信息，确定各第二待处理包围框相对于其每一个邻居包围框的第二特征向量。

其中，确定第二特征向量的方法与前文描述的确定第一特征向量的方法相同，在此不再赘述。

步骤S250，将第二待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，将第二待处理包围框所对应的所有第二特征向量输入至双路神经网络的第二特征提取网络，基于双路神经网路的输出得到第二待处理包围框集合中的第二有效包围框集合，第二有效包围框集合中的第二有效包围框为第二待处理包围框集合中包含一个目标对象的包围框。

其中，确定第二待处理包围框集合中的第二有效包围框集合的方式，与前文描述的第二测试阶段中，通过训练好的双路神经网络得到第二包围框集合中的第二有效包围框集合的方式相同，在此不再赘述。

本申请实施例所提供的图像处理方法，可以基于第一待处理包围框的全连接层特征，通过训练好的双路神经网络确定出第一待处理包围框集合中的第一有效包围框集合，并且，基于第二待处理包围框集合和第一有效包围框集合，通过训练好的双路神经网络得到第二待处理包围框集合中的第二有效包围框集合，从而可以保证待检测图像中每个目标对象对应一个有效包围框。

本申请的可选实施例中，该方法还可以包括：

基于第三重叠率阈值的非极大值抑制方法对第二有效包围框集合进行过滤处理，得到过滤后的第二有效包围框集合；

将第一有效包围框集合和过滤后的第二有效包围框集合作为预测包围框集合的第三有效包围框集合，第三有效包围框集合为预测包围框集合中包含一个目标对象的包围框。

其中，确定预测包围框集合中的第三有效包围框集合的方式，与前文描述的测试阶段中，确定测试图像对应的最终有效包围框集合的方式相同，在此不再赘述。

本申请的可选实施例中，如图4a至图4c所示的对待检测图像的包围框进行处理后的效果图，待检测图像中包含的目标对象为4个人，图4a中所示的为预测包围框的示意图，由图4a中所示的预测包围框可以得知，预测包围框中包括大量重复的包围框；图4b中所示的为第一待处理包围框的全连接层特征输入训练好的双路神经网络后得到的第一有效包围框，由图4b可知，第一有效包围框中有两个目标对象并未有对应的第一有效包围框；图4c所示的是第二特征向量输入训练好的双路神经网络后，得到的第二有效包围框，由图4c可知，第二有效包围框中每个目标对象对应一个第二有效包围框。由此可以得出，通过本申请的方案确定出的有效包围框具有较高的准确性。

本申请的可选实施例中，图5中所示的基于两种方法对待检测图像的包围框进行处理后得到的有效包围框的示意图，每一列图像对应的是同一个待检测图像，每一行图像为经过同样的处理方法处理后得到的包围框的示意图，在图5中，第一行图像中所示的是各待检测图像的预测包围框，由第一行图像中所示的预测包围框可知，预测包围框中包含大量重复的包围框；第二行图像是通过非极大值抑制方法，对预测包围框进行处理后得到的有效包围框的示意图，基于第二行图像中所示的有效包围框可知，图中有部分目标对象没有对应的有效包围框；第三行图像是通过本申请的方法，对预测包围框进行处理后得到的有效包围框的示意图，基于第三行图像中所示的有效包围框可知，图中的每个目标对象均有对应的有效包围框。由此，由图5中所示的两种方法处理后的有效包围框的结果可知，通过非极大值抑制方法得到的有效包围框中，待检测图像中部分目标对象并未有对应的有效包围框，而基于本申请方法得到的有效包围框中，待检测图像中每个目标对象均有一个有效包围框，由此可以得出，基于本申请的方案对待检测图像的包围框进行出后得到的有效包围框的准确率更高。

基于与图1中所示的方法相同的原理，本申请实施例还提供了一种用于目标检测的双路神经网络训练装置，双路神经网络包括第一特征提取网络、第二特征提取网络、以及分别与第一特征提取网络和第二特征提取网络的输出连接的分类网络，如图6所示，该用于目标检测的双路神经网络训练装置30可以包括样本数据获取模块310，第一邻居包围框确定模块320，第一特征向量确定模块330，第一训练模块340和第二训练模块350，其中，

样本数据获取模块310，用于获取样本图像的样本数据，样本数据包括样本图像的包围框集合中各包围框的图像特征信息，包围框集合中包括第一包围框集合和第二包围框集合，图像特征信息包括全连接层特征，第一包围框集合中的第一包围框的重叠率大于第二包围框集合中的第二包围框的重叠率；

第一邻居包围框确定模块320，用于在第一包围框集合的第三包围框集合中，确定各第二包围框的邻居包围框，第三包围框集合中的各第三包围框为包含一个目标对象的包围框；

第一特征向量确定模块330，用于对于每个第二包围框，基于第二包围框的图像特征信息和第二包围框的邻居包围框的图像特征信息，确定各第二包围框相对于其每一个邻居包围框的第一特征向量；

第一训练模块340，用于将第一包围框的全连接层特征输入至第一特征提取网络，基于第一包围框的全连接层特征对双路神经网络进行训练，直至满足预设的第一训练结束条件，得到初步训练后的双路神经网络；

第二训练模块350，用于将第二包围框的全连接层特征作为初步训练后的双路神经网络的第一特征提取网络的输入，将第二包围框所对应的所有第一特征向量作为初步训练后的双路神经网络的第二特征提取网络的输入，对初步训练后的双路神经网络再次进行训练，直至满足预设的第二训练结束条件，得到训练好的双路神经网络。

本申请实施例所提供的用于目标检测的双路神经网络训练装置，可以样本数据的两种类型的包围框的图像特征信息，对双路神经网络进行两次迭代训练，在训练时，首先基于重叠率较大的第一包围框对第一特征提取网络进行预训练，再基于包含一个目标对象的第三包围框和重叠率较小的第二包围框对第二特征提取网络进行训练，基于第二包围框对第一特征提取网络进行训练，得到训练好的双路神经网络，基于该双路神经网络可以有效地确定出第二包围框集合中包含一个目标对象的包围框，即通过本申请训练得到的双路神经网络，在对包围框集合进行处理时，可以保证样本图像中的每个目标对象都有唯一的包围框。

可选的，样本数据中还包括样本图像的基准包围框集合，基准包围框集合中的基准包围框为包含一个目标对象的包围框；

第一邻居包围框确定模块320在第一包围框集合的第三包围框集合中，确定出第二包围框集合中的各第二包围框的邻居包围框时，具体用于：

将基准包围框中各基准包围框与第一包围框集合中的各第一包围框进行最优二分图匹配，得到第三包围框集合；

可选的，第一邻居包围框确定模块320在第三包围框集合中，确定出第二包围框集合中的各第二包围框的邻居包围框时，具体用于：

对于第二包围框集合中的各第二包围框，确定第二包围框与各第三包围框之间的重叠率，将第三包围框集合中，重叠率大于第二重叠率阈值的包围框作为第二包围框的邻居包围框。

可选的，图像特征信息还包括几何特征，对于一个第二包围框，第二包围框相对于其一个邻居包围框的第一特征向量包括以下至少一项：

可选的，第一特征向量包括第一全连接层特征、第二全连接层特征、相对位置特征向量、编码特征向量和重叠率特征向量；

第一特征向量为通过以下方式确定的：

将第一全连接层特征、第二全连接层特征、相对位置特征向量、编码特征向量、重叠率特征向量中的至少一个特征向量转换为设定维度的特征向量；

将转换为设定维度的特征向量进行拼接，得到第一特征向量。

可选的，双路神经网络还包括注意力机制模块和特征加权模块，注意力机制模块的输入分别与第一特征提取网络的输出和第二特征提取网络的输出连接，注意力机制模块的输出为特征加权模块的输入，第二特征提取网络通过特征加权模块与分类网络连接；

基于与图3中所示的方法相同的原理，本申请实施例还提供了一种图像处理装置，如图7所示，该图像处理装置40可以包括待处理数据获取模块410，第一有效包围框确定模块420，第二邻居包围框确定模块430，第二特征向量确定模块440和第二有效包围框确定模块450，其中，

待处理数据获取模块410，用于获取待检测图像的待处理数据，待处理数据包括待检测图像的预测包围框集合中各包围框的图像特征信息，图像特征信息包括全连接层特征，预测包围框集合中包括第一待处理包围框集合和第二待处理包围框集合，第一待处理包围框集合中的第一待处理包围框的重叠率大于第二待处理包围框集合中的第二待处理包围框的重叠率；

第一有效包围框确定模块420，用于将第一待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，基于双路神经网络的输出得到第一待处理包围框集合中的第一有效包围框集合，第一有效包围框集合中的第一有效包围框为第一待处理包围框集合中包含一个目标对象的包围框，双路神经网络为通过前文描述的方法训练得到的；

第二邻居包围框确定模块430，用于在第一有效包围框集合中，确定各第二待处理包围框的邻居包围框；

第二特征向量确定模块440，用于对于每个第二待处理包围框，基于第二待处理包围框的图像特征信息和第二待处理包围框的邻居包围框的图像特征信息，确定各第二待处理包围框相对于其每一个邻居包围框的第二特征向量；

第二有效包围框确定模块450，用于将第二待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，将第二待处理包围框所对应的所有第二特征向量输入至双路神经网络的第二特征提取网络，基于双路神经网路的输出得到第二待处理包围框集合中的第二有效包围框集合，第二有效包围框集合中的第二有效包围框为第二待处理包围框集合中包含一个目标对象的包围框。

本申请实施例所提供的图像处理装置，可以基于第一待处理包围框的全连接层特征，通过训练好的双路神经网络确定出第一待处理包围框集合中的第一有效包围框集合，并且，基于第二特征向量，通过训练好的双路神经网络得到第二待处理包围框集合中的第二有效包围框集合，从而基于第一有效包围框集合和第二有效包围框集合，可以得到待检测图像的预测包围框集合中的有效包围框，保证待检测图像中每个目标对象对应一个有效包围框。

可选的，该装置还可以包括：

第三有效包围框集合确定模块，用于基于第三重叠率阈值的非极大值抑制方法对第二有效包围框集合进行过滤处理，得到过滤后的第二有效包围框集合；将第一有效包围框集合和过滤后的第二有效包围框集合作为预测包围框集合的第三有效包围框集合，第三有效包围框集合为预测包围框集合中包含一个目标对象的包围框。

由于本申请实施例所提供的装置为可以执行本申请实施例中的方法的装置，故而基于本申请实施例中所提供的方法，本领域所属技术人员能够了解本申请实施例的装置的具体实施方式以及其各种变化形式，所以在此对于该装置如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的装置，都属于本申请所欲保护的范围。

基于与本申请实施例所提供的方法和装置相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括处理器和存储器。其中，存储器中存储有可读指令，可读指令由处理器加载并执行时，可以实现本申请任一实施例中所示的方法。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有可读指令，可读指令由处理器加载并执行时，实现本申请任一实施例中所示的方法。

图8示出了本申请实施例所适用的一种电子设备的结构示意图，如图8所示，图8所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种用于目标检测的双路神经网络训练方法，其特征在于，所述双路神经网络包括第一特征提取网络、第二特征提取网络、以及分别与所述第一特征提取网络和所述第二特征提取网络的输出连接的分类网络，所述方法包括：

获取样本图像的样本数据，所述样本数据包括样本图像的包围框集合中各包围框的图像特征信息，所述包围框集合中包括第一包围框集合和第二包围框集合，所述第一包围框集合和所述第二包围框集合由基于第一重叠率阈值的非极大值抑制方法对所述包围框集合进行分类处理得到，所述图像特征信息包括全连接层特征，所述第一包围框集合中的各第一包围框之间的重叠率大于所述第二包围框集合中的各第二包围框之间的重叠率；

在所述第一包围框集合的第三包围框集合中，确定各所述第二包围框的邻居包围框，所述第三包围框集合中的各第三包围框为包含一个目标对象的包围框，所述第三包围框集合为所述第一包围框集合的正样本中与基准包围框完全匹配的包围框，所述第一包围框集合中重叠率大于第二设定值的包围框为所述第一包围框集合的正样本，所述样本数据中还包括所述样本图像的基准包围框集合，所述基准包围框集合中的基准包围框为包含一个目标对象的包围框；

对于每个所述第二包围框，基于所述第二包围框的图像特征信息和所述第二包围框的邻居包围框的图像特征信息，确定各所述第二包围框相对于其每一个邻居包围框的第一特征向量；

将所述第一包围框的全连接层特征输入至所述第一特征提取网络，基于所述第一包围框的全连接层特征对所述双路神经网络进行训练，直至满足预设的第一训练结束条件，得到初步训练后的双路神经网络；

将所述第二包围框的全连接层特征作为所述初步训练后的双路神经网络的所述第一特征提取网络的输入，将所述第二包围框所对应的所有第一特征向量作为所述初步训练后的双路神经网络的所述第二特征提取网络的输入，对所述初步训练后的双路神经网络再次进行训练，直至满足预设的第二训练结束条件，得到训练好的双路神经网络。

2.根据权利要求1所述的方法，其特征在于，

所述在所述第一包围框集合的第三包围框集合中，确定出所述第二包围框集合中的各第二包围框的邻居包围框，包括：

将所述基准包围框中各所述基准包围框与所述第一包围框集合中的各第一包围框进行最优二分图匹配，得到所述第三包围框集合；

在所述第三包围框集合中，确定出所述第二包围框集合中的各第二包围框的邻居包围框。

3.根据权利要求2所述的方法，其特征在于，所述在所述第三包围框集合中，确定出所述第二包围框集合中的各第二包围框的邻居包围框，包括：

对于所述第二包围框集合中的各第二包围框，确定所述第二包围框与各所述第三包围框之间的重叠率，将所述第三包围框集合中，重叠率大于第二重叠率阈值的包围框作为所述第二包围框的邻居包围框。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述图像特征信息还包括几何特征，对于一个所述第二包围框，所述第二包围框相对于其一个邻居包围框的第一特征向量包括以下至少一项：

所述第二包围框的第一全连接层特征和所述邻居包围框的第二全连接层特征；

基于所述第二包围框的几何特征与所述邻居包围框的几何特征，确定的所述第二包围框与所述邻居包围框之间的相对位置特征向量；

基于所述第二包围框的几何特征和所述邻居包围框的几何特征，确定的所述第二包围框与所述邻居包围框之间的编码特征向量；

基于所述第二包围框和所述邻居包围框之间的重叠率，确定的所述第二包围框和所述邻居包围框之间的重叠率特征向量。

5.根据权利要求4所述的方法，其特征在于，所述第一特征向量包括所述第一全连接层特征、所述第二全连接层特征、所述相对位置特征向量、所述编码特征向量和所述重叠率特征向量；

所述第一特征向量为通过以下方式确定的：

将所述第一全连接层特征、所述第二全连接层特征、所述相对位置特征向量、所述编码特征向量、所述重叠率特征向量中的至少一个特征向量转换为设定维度的特征向量；

将转换为设定维度的特征向量进行拼接，得到所述第一特征向量。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述双路神经网络还包括注意力机制模块和特征加权模块，所述注意力机制模块的输入分别与所述第一特征提取网络的输出和所述第二特征提取网络的输出连接，所述注意力机制模块的输出为所述特征加权模块的输入，所述第二特征提取网络通过所述特征加权模块与所述分类网络连接；

所述注意力机制模块，用于根据所述第一特征提取网络所提取的第一图像特征和所述第二特征提取网络所提取的第二图像特征，确定所述第二图像特征的权重；

所述特征加权模块，用于根据所述权重对所述第二图像特征进行加权处理；

所述分类网络，用于基于所述第一图像特征和加权处理后的第二图像特征，确定所述第二包围框的类别。

7.一种图像处理方法，其特征在于，包括：

获取待检测图像的待处理数据，所述待处理数据包括所述待检测图像的预测包围框集合中各包围框的图像特征信息，所述图像特征信息包括全连接层特征，所述预测包围框集合中包括第一待处理包围框集合和第二待处理包围框集合，所述第一待处理包围框集合和所述第二待处理包围框集合由基于第一重叠率阈值的非极大值抑制方法对所述预测包围框集合进行分类处理得到，所述第一待处理包围框集合中的各第一待处理包围框之间的重叠率大于所述第二待处理包围框集合中的各第二待处理包围框之间的重叠率；

将所述第一待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，基于所述双路神经网络的输出得到所述第一待处理包围框集合中的第一有效包围框集合，所述第一有效包围框集合中的第一有效包围框为所述第一待处理包围框集合中包含一个目标对象的包围框，所述双路神经网络为通过权利要求1至6中任一项所述的方法训练得到的；

在所述第一有效包围框集合中，确定各所述第二待处理包围框的邻居包围框；

对于每个所述第二待处理包围框，基于所述第二待处理包围框的图像特征信息和所述第二待处理包围框的邻居包围框的图像特征信息，确定各所述第二待处理包围框相对于其每一个邻居包围框的第二特征向量；

将所述第二待处理包围框的全连接层特征输入至所述双路神经网络的所述第一特征提取网络，将所述第二待处理包围框所对应的所有第二特征向量输入至所述双路神经网络的第二特征提取网络，基于所述双路神经网络的输出得到所述第二待处理包围框集合中的第二有效包围框集合，所述第二有效包围框集合中的第二有效包围框为所述第二待处理包围框集合中包含一个目标对象的包围框。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于第三重叠率阈值的非极大值抑制方法对所述第二有效包围框集合进行过滤处理，得到过滤后的所述第二有效包围框集合；

将所述第一有效包围框集合和所述过滤后的所述第二有效包围框集合作为所述预测包围框集合的第三有效包围框集合，所述第三有效包围框集合为所述预测包围框集合中包含一个目标对象的包围框。

9.一种用于目标检测的双路神经网络训练装置，其特征在于，所述双路神经网络包括第一特征提取网络、第二特征提取网络、以及分别与所述第一特征提取网络和所述第二特征提取网络的输出连接的分类网络，所述装置包括：

样本数据获取模块，用于获取样本图像的样本数据，所述样本数据包括样本图像的包围框集合中各包围框的图像特征信息，所述包围框集合中包括第一包围框集合和第二包围框集合，所述第一包围框集合和所述第二包围框集合由基于第一重叠率阈值的非极大值抑制方法对所述包围框集合进行分类处理得到，所述图像特征信息包括全连接层特征，所述第一包围框集合中的各第一包围框的之间重叠率大于所述第二包围框集合中的各第二包围框的之间重叠率；

第一邻居包围框确定模块，用于在所述第一包围框集合的第三包围框集合中，确定各所述第二包围框的邻居包围框，所述第三包围框集合中的各第三包围框为包含一个目标对象的包围框，所述第三包围框集合为所述第一包围框集合的正样本中与基准包围框完全匹配的包围框，所述第一包围框集合中重叠率大于第二设定值的包围框为所述第一包围框集合的正样本，所述样本数据中还包括所述样本图像的基准包围框集合，所述基准包围框集合中的基准包围框为包含一个目标对象的包围框；

第一特征向量确定模块，用于对于每个所述第二包围框，基于所述第二包围框的图像特征信息和所述第二包围框的邻居包围框的图像特征信息，确定各所述第二包围框相对于其每一个邻居包围框的第一特征向量；

第一训练模块，用于将所述第一包围框的全连接层特征输入至所述第一特征提取网络，基于所述第一包围框的全连接层特征对所述双路神经网络进行训练，直至满足预设的第一训练结束条件，得到初步训练后的双路神经网络；

第二训练模块，用于将所述第二包围框的全连接层特征作为所述初步训练后的双路神经网络的所述第一特征提取网络的输入，将所述第二包围框所对应的所有第一特征向量作为所述初步训练后的双路神经网络的所述第二特征提取网络的输入，对所述初步训练后的双路神经网络再次进行训练，直至满足预设的第二训练结束条件，得到训练好的双路神经网络。

10.一种图像处理装置，其特征在于，包括：

待处理数据获取模块，用于获取待检测图像的待处理数据，所述待处理数据包括所述待检测图像的预测包围框集合中各包围框的图像特征信息，所述图像特征信息包括全连接层特征，所述预测包围框集合中包括第一待处理包围框集合和第二待处理包围框集合，所述第一待处理包围框集合和所述第二待处理包围框集合由基于第一重叠率阈值的非极大值抑制方法对所述预测包围框集合进行分类处理得到，所述第一待处理包围框集合中的各第一待处理包围框的之间重叠率大于所述第二待处理包围框集合中的各第二待处理包围框的之间重叠率；

第一有效包围框确定模块，用于将所述第一待处理包围框的全连接层特征输入至双路神经网络的第一特征提取网络，基于所述双路神经网络的输出得到所述第一待处理包围框集合中的第一有效包围框集合，所述第一有效包围框集合中的第一有效包围框为所述第一待处理包围框集合中包含一个目标对象的包围框，所述双路神经网络为通过权利要求1至6中任一项所述的方法训练得到的；

第二邻居包围框确定模块，用于在所述第一有效包围框集合中，确定各所述第二待处理包围框的邻居包围框；

第二特征向量确定模块，用于对于每个所述第二待处理包围框，基于所述第二待处理包围框的图像特征信息和所述第二待处理包围框的邻居包围框的图像特征信息，确定各所述第二待处理包围框相对于其每一个邻居包围框的第二特征向量；

第二有效包围框确定模块，用于将所述第二待处理包围框的全连接层特征输入至所述双路神经网络的所述第一特征提取网络，将所述第二待处理包围框所对应的所有第二特征向量输入至所述双路神经网络的第二特征提取网络，基于所述双路神经网络的输出得到所述第二待处理包围框集合中的第二有效包围框集合，所述第二有效包围框集合中的第二有效包围框为所述第二待处理包围框集合中包含一个目标对象的包围框。

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；

所述存储器中存储有可读指令，所述可读指令由所述处理器加载并执行时，实现如权利要求1至8中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有可读指令，所述可读指令由处理器加载并执行时，实现如权利要求1至8中任一项所述的方法。