CN112036555B

CN112036555B - 目标检测框架的优化方法及装置、存储介质、电子设备

Info

Publication number: CN112036555B
Application number: CN202011220215.6A
Authority: CN
Inventors: 姚寒星; 王锦申
Original assignee: Beijing LLvision Technology Co ltd
Current assignee: Beijing LLvision Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-05
Anticipated expiration: 2040-11-05
Also published as: CN112036555A

Abstract

本公开属于计算机技术领域，涉及一种目标检测框架的优化方法及装置、存储介质、电子设备。该方法包括：获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对原始嵌入向量进行扩充得到多个嵌入向量；对多个嵌入向量进行计算得到目标代价矩阵；基于目标代价矩阵，利用局部最优解算法匹配多个嵌入向量和多个标注向量得到多组匹配向量；对多组匹配向量进行计算得到目标损失函数，并利用目标损失函数训练目标检测框架，以使用优化后的目标检测框架进行目标检测或全景分割。本公开扩充了匹配向量的个数，解决了目标检测框架训练样本少的问题，加快了学习率的训练过程，加速了嵌入向量和标注向量的匹配速度，解决了训练速度慢的问题。

Description

目标检测框架的优化方法及装置、存储介质、电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种目标检测框架的优化方法与目标检测框架的优化装置、计算机可读存储介质及电子设备。

背景技术

目标检测框架可以将Transformer结构引入到目标检测领域。在目标检测框架中采用匈牙利算法将object queries和ground truths进行匹配，使得匹配产生的损失最小。由于将匹配上ground truths的object queries作为训练正样本，因此，一个objectqueries可产生一个正样本，而将object queries集合中未与ground truths匹配的部分作为训练负样本。

但是，由于目标检测框架存在训练速度慢的问题，目标检测框架在数据集上的训练性能无法达到Faster R-CNN（Region- convolutional neural network），不利于在工程实践中大规模普及。

鉴于此，本领域亟需开发一种新的目标检测框架的优化方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种目标检测框架的优化方法、目标检测框架的优化装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的训练速度慢的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种目标检测框架的优化方法，所述目标检测框架用于目标检测或全景分割，所述方法包括：获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对所述原始嵌入向量进行扩充得到多个嵌入向量；

对所述多个嵌入向量进行计算得到目标代价矩阵；

基于所述目标代价矩阵，利用局部最优解算法匹配所述多个嵌入向量和所述多个标注向量得到多组匹配向量；

对所述多组匹配向量进行计算得到目标损失函数，并利用所述目标损失函数优化所述目标检测框架，以使用优化后的所述目标检测框架进行目标检测或全景分割。

在本发明的一种示例性实施例中，所述基于所述目标代价矩阵，利用局部最优解算法匹配所述多个嵌入向量和所述多个标注向量得到多组匹配向量，包括：

在所述目标代价矩阵中确定行索引和列索引，并根据所述行索引在所述多个嵌入向量中确定第一待匹配向量；

根据所述列索引在所述多个标注向量中确定第二待匹配向量，并匹配所述第一待匹配向量和所述第二待匹配向量得到一组匹配向量；

剔除所述行索引和所述列索引，以在所述目标代价矩阵中确定其他行索引和其他列索引得到包括所述一组匹配向量的多组匹配向量。

在本发明的一种示例性实施例中，所述在所述目标代价矩阵中确定行索引和列索引，包括：

根据所述目标代价矩阵生成最小值数组和行坐标数组；

确定所述最小值数组中的目标最小值，并确定与所述目标最小值对应的列索引；

根据所述列索引在所述行坐标数组中确定行索引。

在本发明的一种示例性实施例中，所述根据所述目标代价矩阵生成最小值数组和行坐标数组，包括：

确定所述目标代价矩阵中每一列的原始最小值，并根据所述原始最小值生成最小值数组；

确定与所述原始最小值对应的行坐标，并根据所述行坐标生成行坐标数组。

在本发明的一种示例性实施例中，所述对所述多个嵌入向量进行计算得到目标代价矩阵，包括：

获取与多个嵌入向量对应的多个权重，并根据所述多个权重生成权重向量；

对所述权重向量进行归一化处理得到目标权重向量，并对所述目标权重向量和所述多个嵌入向量进行加权平均计算得到目标代价矩阵。

在本发明的一种示例性实施例中，所述多个权重，包括：一个权重为1和其他权重均小于1的多个权重。

在本发明的一种示例性实施例中，所述对所述多组匹配向量进行计算得到目标损失函数，包括：

对所述目标权重向量和所述多组匹配向量进行加权平均计算得到目标损失函数。

在本发明的一种示例性实施例中，所述对所述原始嵌入向量进行扩充得到多个嵌入向量，包括：

对所述原始嵌入向量进行扩充得到多个扩充向量；

对所述多个扩充向量进行分组得到多个嵌入向量。

根据本发明实施例的第二个方面，提供一种目标检测框架的优化装置，所述装置包括：向量获取模块，被配置为获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对所述原始嵌入向量进行扩充得到多个嵌入向量；

代价矩阵模块，被配置为对所述多个嵌入向量进行计算得到目标代价矩阵；

向量匹配模块，被配置为基于所述目标代价矩阵，利用局部最优解算法匹配所述多个嵌入向量和所述多个标注向量得到多组匹配向量；

模型训练模块，被配置为对所述多组匹配向量进行计算得到目标损失函数，并利用所述目标损失函数优化所述目标检测框架，以使用优化后的所述目标检测框架进行目标检测或全景分割。

在本发明的一种示例性实施例中，基于以上技术方案，所述向量匹配模块，包括：索引确定子模块，被配置为在所述目标代价矩阵中确定行索引和列索引，并根据所述行索引在所述多个嵌入向量中确定第一待匹配向量；匹配向量子模块，被配置为根据所述列索引在所述多个标注向量中确定第二待匹配向量，并匹配所述第一待匹配向量和所述第二待匹配向量得到一组匹配向量；索引剔除子模块，被配置为剔除所述行索引和所述列索引，以在所述目标代价矩阵中确定其他行索引和其他列索引得到包括所述一组匹配向量的多组匹配向量。

在本发明的一种示例性实施例中，基于以上技术方案，所述索引确定子模块，包括：数组生成单元，被配置为根据所述目标代价矩阵生成最小值数组和行坐标数组；列索引单元，被配置为确定所述最小值数组中的目标最小值，并确定与所述目标最小值对应的列索引；行索引单元，被配置为根据所述列索引在所述行坐标数组中确定行索引。

在本发明的一种示例性实施例中，基于以上技术方案，所述数组生成单元，包括：原始最小值子单元，被配置为确定所述目标代价矩阵中每一列的原始最小值，并根据所述原始最小值生成最小值数组；行坐标数组单元，被配置为确定与所述原始最小值对应的行坐标，并根据所述行坐标生成行坐标数组。

在本发明的一种示例性实施例中，基于以上技术方案，所述代价矩阵模块，包括：权重获取子模块，被配置为获取与多个嵌入向量对应的多个权重，并根据所述多个权重生成权重向量；归一化处理子模块，被配置为对所述权重向量进行归一化处理得到目标权重向量，并对所述目标权重向量和所述多个嵌入向量进行加权平均计算得到目标代价矩阵。

在本发明的一种示例性实施例中，基于以上技术方案，所述多个权重，包括：一个权重为1和其他权重均小于1的多个权重。

在本发明的一种示例性实施例中，基于以上技术方案，所述模型训练模块，包括：损失计算子模块，被配置为对所述目标权重向量和所述多组匹配向量进行加权平均计算得到目标损失函数。

在本发明的一种示例性实施例中，基于以上技术方案，所述向量获取模块，包括：扩充处理子模块，被配置为对所述原始嵌入向量进行扩充得到多个扩充向量；分组处理子模块，被配置为对所述多个扩充向量进行分组得到多个嵌入向量。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的目标检测框架的优化方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的目标检测框架的优化方法。

由上述技术方案可知，本公开示例性实施例中的目标检测框架的优化方法、目标检测框架的优化装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，一方面，对原始嵌入向量进行扩充，进一步扩充了匹配向量的个数，解决了目标检测框架训练样本少的问题，加快了学习率的训练过程；另一方面，采用局部最优解算法对嵌入向量和标注向量进行匹配，加速了嵌入向量和标注向量的匹配速度，从另一角度解决了训练速度慢的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种目标检测框架的优化方法的流程示意图；

图2示意性示出本公开示例性实施例中目标检测框架的结构示意图；

图3示意性示出本公开示例性实施例中扩充出多个嵌入向量的方法的流程示意图；

图4示意性示出本公开示例性实施例中计算得到目标代价矩阵的方法的流程示意图；

图5示意性示出本公开示例性实施例中计算代价矩阵的结构示意图；

图6示意性示出本公开示例性实施例中展开

的结构示意图；

图7示意性示出本公开示例性实施例中得到多组匹配向量的方法的流程示意图；

图8示意性示出本公开示例性实施例中确定行索引和列索引的方法的流程示意图；

图9示意性示出本公开示例性实施例中生成最小值数组和行坐标数组的方法的流程示意图；

图10示意性示出本公开示例性实施例中在应用场景下目标检测框架的优化方法的流程示意图；

图11示意性示出本公开示例性实施例中在应用场景下局部最优解算法的流程示意图；

图12示意性示出本公开示例性实施例中在应用场景下匹配嵌入向量和标注向量的界面示意图；

图13示意性示出本公开示例性实施例中一种目标检测框架的优化装置的结构示意图；

图14示意性示出本公开示例性实施例中一种用于实现目标检测框架的优化方法的电子设备；

图15示意性示出本公开示例性实施例中一种用于实现目标检测框架的优化方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

在目标检测框架的原论文中，在骨干网（backbone）和数据增强相同的情况下，目标检测框架需要在Microsoft Common Objects in Context（简称COCO）数据集上训练500个epoch才能达到Faster R-CNN训练109个epoch的性能。在配有Tesla V100 GPU的机器上，目标检测框架训练500个epoch大约要耗时5天，不利于在工程中大规模普及。

目标检测框架训练慢的主要原因是训练正样本太少。ground truths集合中的一个标注对象仅能产生一个正样本。与之对比，Faster R-CNN、单发多框检测（Single ShotMultibox Detection，简称SSD）等算法将与ground truths中最匹配的锚点（anchors）以及与ground truths中标注对象交并比（Intersection over Union，简称IoU）超过0.7的都算作正样本。由于anchors是密集且多尺度的，因此产生的正样本数往往远超ground truths中标注对象的数量。

除此之外，目标检测框架训练慢的另一个原因是利用匈牙利算法计算objectqueries集合和ground truths的匹配速度较慢。

针对相关技术中存在的问题，本公开提出了一种目标检测框架的优化方法，该目标检测框架用于目标检测或全景分割。图1示出了目标检测框架的优化方法的流程图，如图1所示，目标检测框架的优化方法至少包括以下步骤：

步骤S110. 获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对原始嵌入向量进行扩充得到多个嵌入向量。

步骤S120. 对多个嵌入向量进行计算得到目标代价矩阵。

步骤S130. 基于目标代价矩阵，利用局部最优解算法匹配多个嵌入向量和多个标注向量得到多组匹配向量。

步骤S140. 对多组匹配向量进行计算得到目标损失函数，并利用目标损失函数优化目标检测框架，以使用优化后的目标检测框架进行目标检测或全景分割。

在本公开的示例性实施例中，一方面，对原始嵌入向量进行扩充，进一步扩充了匹配向量的个数，解决了目标检测框架训练样本少的问题，加快了学习率的训练过程；另一方面，采用局部最优解算法对嵌入向量和标注向量进行匹配，加速了嵌入向量和标注向量的匹配速度，从另一角度解决了训练速度慢的问题。

下面对目标检测框架的优化方法的各个步骤进行详细说明。

在步骤S110中，获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对原始嵌入向量进行扩充得到多个嵌入向量。

在本公开的示例性实施例中，目标检测框架可以是Detection Transformer（简称DETR）框架，也可以是其他框架，本示例性实施例对此不做特殊限定。

目标检测框架是Facebook人工智能研究院提出的一种目标检测框架，其论文End-to-End Object Detection with Transformers已被欧洲计算机视觉国际会议（EuropeanConference on Computer Vision，简称ECCV）接受。目标检测框架将自然语言处理（Natural Language Processing，简称NLP）领域流行的Transformer结构引入到目标检测领域，在COCO数据集上取得了与Faster R-CNN框架不相上下的结果。目标检测框架是一种真正意义上的端与端的无锚点（anchor-free）的框架，具有一定的开创性意义。

图2示出了目标检测框架的结构示意图，如图2所示，目标检测框架包括骨干网、编码器-解码器（transformer）和前馈神经网络。

首先，backbone提取输入图像的特征图。

然后，将backbone输出的特征图转化为一维特征图，并将该一维特征图传递到transformer编码器。该编码器的输出是N个固定长度的向量。其中，N是假设的输入图像的对象数。

Transformer解码器借助和编码器-解码器注意力机制将这些向量解码为边界框坐标。

最后，前馈神经网络根据边界框坐标预测边界框的标准化中心坐标、高度和宽度，而线性层使用SoftMax函数预测类别标签。

DETR的创新之处是引入了object queries集合。object queries是一组可学习的嵌入向量，pytorch代码中是用nn.Embedding来实现的，每个嵌入向量的长度都一样。例如可以是512维。最终，object queries中的每个向量值都是学习出来的。

具体的，可以将object queries集合的基数设定为M，亦即学习到多个原始嵌入向量，该原始嵌入向量的个数可以是M。M是预设的参数，一旦设定，在整个训练过程中都是固定的。除此之外，也可以是根据其他方式确定的其他数量，本示例性实施例对此不做特殊限定。

进一步的，标注向量可以是ground truths，个数可以设定为N。N是训练图片中标注好的目标框数量，不同图片的标识框一般是不同的。

值得说明的是，M在设定时应保证大于所有图片的标识框数N的最大值。并且，object queries和ground truths是针对单张图片讨论的。

在获取到原始嵌入向量和标注向量之后，可以对原始嵌入向量进行扩充。

在可选的实施例中，图3示出了扩充出多个嵌入向量的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，对原始嵌入向量进行扩充得到多个扩充向量。

在获取到原始嵌入向量之后，可以对原始嵌入向量扩充G倍得到多个扩充向量。其中，G的具体数值可以根据实际情况进行设定，本示例性实施例对此不做特殊限定。

在步骤S320中，对多个扩充向量进行分组得到多个嵌入向量。

进一步的，将多个扩充向量进行分组。具体的，可以将多个扩充向量等分成G个组得到多个嵌入向量。因此，每一组的嵌入向量的个数也为M。

在本示例性实施例中，通过对原始嵌入向量进行扩充得到嵌入向量，可以进一步扩充嵌入向量和标注向量的匹配数，从而增加目标检测框架训练时的样本数。

在步骤S120中，对多个嵌入向量进行计算得到目标代价矩阵。

在本公开的示例性实施例中，在得到多个嵌入向量之后，可以进一步对多个嵌入向量进行计算得到目标代价矩阵。

在可选的实施例中，图4示出了计算得到目标代价矩阵的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，获取与多个嵌入向量对应的多个权重，并根据多个权重生成权重向量。

在可选的实施例中，多个权重，包括一个权重为1和其他权重均小于1的多个权重。

具体的，可以为每一组的多个嵌入向量分配权重。举例而言，可以为第一组的嵌入向量分配为1的权重，其余组的嵌入向量的权重为

，且

。

除此之外，也可以为其他组分配为1的权重，对应的除该组之外的组别的权重小于1，本示例性实施例对此不做特殊限定。

值得说明的是，设置

是为了让训练时的一组参数权重最大，保证一组参数的性能显著超过其他组。这样的话，在测试阶段使用时可以抛弃掉其他组的参数，保证框架使用时的前向推理时间不会增加。

在获取到多个权重之后，可以形成一个权重向量，该权重向量为

。

在步骤S420中，对权重向量进行归一化处理得到目标权重向量，并对目标权重向量和多个嵌入向量进行加权平均计算得到目标代价矩阵。

在生成权重向量之后，可以对权重向量进行归一化处理。

具体的，对

进行归一化处理可以得到目标权重向量为

。其中

。

进一步的，目标代价矩阵可以是对每一组object queries计算代价矩阵

之后，将个组代价矩阵按照目标权重向量进行加权平均计算得到的。亦即，目标代价矩阵为

。此时，

的行数为M，列数为N。

图5示出了计算代价矩阵的结构示意图，如图5所示，

是M行N列的矩阵，矩阵中元素

表示（第t组）第i个object query经解码器后对应的预测

匹配第j个ground truth产生的损失。

设第j个ground truth为

,

是标注类别，

是标识框的中心坐标和宽高向量，形如

。令

表示

的分类分支预测，

表示

类的预测概率，

表示

的标识框分支预测，其中心坐标和宽高向量形如

，则

。这里

，由Generalized Intersection over Union（简称giou loss）和L1-loss两部分组成，

和

分别表示两种loss的权重系数。

图6示出了展开

的结构示意图，如图6所示，object query经过解码器之后，连接一个全连接层（Fully Connected Layers，简称FC）和softmax层输出分类分支预测。并且，还连接一个前馈神经网络（Feedforward Neural Network，简称FFN）输出标识框分支预测。

在本示例性实施例中，对多个嵌入向量进行计算可以得到目标代价矩阵，计算方式简单准确，为后续的匹配过程提供了数据基础。

在步骤S130中，基于目标代价矩阵，利用局部最优解算法匹配多个嵌入向量和多个标注向量得到多组匹配向量。

在本公开的示例性实施例中，在计算得到目标代价矩阵之后，可以利用局部最优解算法对嵌入向量和标注向量进行匹配。

在可选的实施例中，图7示出了得到多组匹配向量的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，在目标代价矩阵中确定行索引和列索引，并根据行索引在多个嵌入向量中确定第一待匹配向量。

在可选的实施例中，图8示出了确定行索引和列索引的方法的流程示意图，如图8所示，该方法至少包括以下步骤：

在步骤S810中，根据目标代价矩阵生成最小值数组和行坐标数组。

在可选的实施例中，图9示出了生成最小值数组和行坐标数组的方法的流程示意图，如图9所示，该方法至少包括以下步骤：在步骤S910中，确定目标代价矩阵中每一列的原始最小值，并根据原始最小值生成最小值数组。

由于目标代价矩阵为M行N列的矩阵，因此可以确定每一列的最小值，亦即原始最小值。

进一步的，再将N列的原始最小值存储为数组

，亦即最小值数组。

在步骤S920中，确定与原始最小值对应的行坐标，并根据行坐标生成行坐标数组。

在确定N列的原始最小值之后，可以将这N列的行坐标确定为与原始最小值对应的行坐标。

进一步的，将N列原始最小值对应的行坐标存储为

，亦即行坐标数组。

在本示例性实施例中，通过目标代价矩阵中的原始最小值可以确定最小值数组和行坐标数组，确定方式简单准确，为后续匹配嵌入向量和标注向量提供了数据基础。

在步骤S820中，确定最小值数组中的目标最小值，并确定与目标最小值对应的列索引。

因为在最小值数组中存储有N列原始最小值，因此可以将N列原始最小值进行比较确定出其中的最小值，亦即目标最小值。

进一步的，可以确定目标最小值的列索引

。

在步骤S830中，根据列索引在行坐标数组中确定行索引。

在确定列索引之后，可以在行坐标数组中查询列索引对应的行索引，亦即

。

在本示例性实施例中，通过最小值数组可以确定行索引和列索引，确定方式简单准确，可以保证嵌入向量和标注向量的准确匹配。

在确定行索引和列索引之后，可以根据行索引和列索引分别确定两个待匹配向量。

具体的，根据行索引在多个嵌入向量中确定对应的嵌入向量为第一待匹配向量。

在步骤S720中，根据列索引在多个标注向量中确定第二待匹配向量，并匹配第一待匹配向量和第二待匹配向量得到一组匹配向量。

在确定第一待匹配向量之后，可以按照列索引在多个标注向量中确定第二待匹配向量。

进一步的，将第一待匹配向量和第二待匹配向量进行匹配得到一组匹配向量，亦即（

）。

在步骤S730中，剔除行索引和列索引，以在目标代价矩阵中确定其他行索引和列索引得到包括一组匹配向量的多组匹配向量。

对嵌入向量和标注向量的匹配过程可以重复N次，以得到N组匹配向量。因此，在进行第二次的匹配时，可以将已使用的行索引和列索引剔除。

具体的，可以将

和

赋值为

，以实现对行索引和列索引的剔除。进一步的，可以删除需要涉及耗时的input/output（简称I/O）操作。

除此之外，也可以利用其他方式剔除行索引和列索引，本示例性实施例对此不做特殊限定。

在剔除已使用的行索引和列索引之后，可以进一步在目标代价矩阵中确定其他行索引和其他列索引，以再次执行步骤S710-730实现重复多次匹配过程得到多组匹配向量的效果。

值得说明的是，利用局部最优解算法匹配嵌入向量和标注向量的过程的复杂度为

，与原本目标检测框架中使用的匈牙利算法相同。但是，由于与对应局部最优解算法对应平台的优化，局部最优解算法的匹配方式相对于匈牙利算法的计算速度更快。

在本示例性实施例中，通过匹配算法匹配嵌入向量和标注向量可以得到多组匹配向量，匹配方式准确，且匹配速度更快。

值得说明的是，由于object queries扩充了G倍，因此object queries和groundtruths的匹配比也从1:1变成了G:1。

在步骤S140中，对多组匹配向量进行计算得到目标损失函数，并利用目标损失函数优化目标检测框架，以使用优化后的目标检测框架进行目标检测或全景分割。

在本公开的示例性实施例中，在确定多组匹配向量之后，可以对应计算出目标损失函数。

在可选的实施例中，对目标权重向量和多组匹配向量进行加权平均计算得到目标损失函数。

目标损失函数可以是对G组object queries中的每一组匹配向量计算出损失函数

，

为组号。进一步的，对G组损失函数按照目标权重向量进行加权平均计算得到目标损失函数

。

值得说明的是，匹配可以得到G对匹配向量，M个object queries中匹配上的分配相应的ground truths，剩余未匹配上的都分配一个

目标。设第i个object query分配给了编号为

的ground truth

,）（

可能为

），

是标注类别，

是标识框的中心坐标和宽高向量，形如

。

令

表示

的分类分支预测，

表示

类的预测概率，

表示

的标识框分支预测，其中心坐标和宽高向量形如

，因此

。其中，

的定义与图5中相同，在此不再赘述。

在得到目标损失函数之后，可以进一步采用目标检测框架中AdamW优化算法进行训练，以对该目标检测框架进行优化。

进一步的，利用优化后的目标检测框架进行目标检测，以提升目标检测的准确度和效率。除此之外，优化后的目标检测框架还可以用于全景分割等，本示例性实施例对此不做特殊限定。

下面结合一应用场景对本公开实施例中目标检测框架的优化方法做出详细说明。

图10示出了在应用场景下目标检测框架的优化方法的流程示意图，如图10所示，在步骤S1010中，扩充object queries数量为原来的G倍，分成G组。

具体的，在获取到原始嵌入向量之后，可以对原始嵌入向量扩充G倍得到多个扩充向量。其中，G的具体数值可以根据实际情况进行设定，本示例性实施例对此不做特殊限定。

在步骤S1020中，第一组分配权重1.0，其余组分配权重w（W<1.0），形成目标权重向量

。

除此之外，也可以为其他组分配为1的向量权重，对应的除该组之外的组别的向量权重小于1，本示例性实施例对此不做特殊限定。

在步骤S1030中，计算各组的代价矩阵并加权平均，获得

。

在根据公式（1）计算得到各组对应的多个代价矩阵之后，可以按照嵌入向量对应的向量权重对多个代价矩阵进行加权平均计算得到目标代价矩阵，亦即

。此时，

为M行N列的矩阵。

在步骤S1040中，依据

，采用局部最优解算法，获得M个object queries与N个 ground truths的匹配。

具体的，图11示出了在应用场景下局部最优解算法的流程示意图，如图11所示，在步骤S1110中，计算代价矩阵

每一列的最小值，存储每列最小值

和对应的行坐标

。

在步骤S1120中，计算

最小值对应的索引

，计算

。

在步骤S1130中，输出匹配对（

）。

具体的，根据行索引在多个嵌入向量中确定对应的嵌入向量为第一待匹配向量。然后，按照列索引在多个标注向量中确定第二待匹配向量。

）。

在步骤S1140中，判断是否已输出所有N对匹配。

亦即对是否已经得到N组匹配向量进行判定。

在步骤S1150中，当已匹配到N组匹配向量时，将N对匹配应用于每一个objectqueries分组中。

亦即将G组的object queries和ground truths均按照匹配向量的匹配方式进行匹配。

图12示出了在应用场景下匹配嵌入向量和标注向量的界面示意图，如图12所示，每一组M个object queries都跟N个ground truths具有相同的匹配。

相比于原本的目标检测框架，分组匹配使object queries扩充个G倍，且总共的匹配向量的组别数也扩充了G倍。

除此之外，当未匹配到N组匹配向量时，可以将已使用的行索引和列索引剔除，继续执行步骤S1010-S1040，以达到匹配出N组匹配向量的效果。

进一步的，在步骤S1050中，将上一步获得的匹配在G个分组重复利用，计算出每个分组的损失函数

，并加权平均获得最终的损失函数

。

具体的，重复利用的方式与步骤S1050相同，在此不再赘述。

在按照公式（2）计算出多个损失函数之后，可以按照嵌入向量对应的向量权中对多个损失函数进行加权平均计算得到目标损失函数，亦即

。

在步骤S1060中，利用最终损失函数

，采用目标检测框架相同的优化算法训练模型。

在得到目标损失函数之后，可以进一步采用目标检测框架相同的方法训练目标检测框架，以对该目标检测框架进行优化。

将本公开的优化方法应用在COCO 2017数据集上训练。具体的，将基础学习率

设为

，backbone学习率

设为

，仅采用随机crop增强，将图像最长边的尺寸设为360像素，向量权重

，原本的目标检测框架和本公开的优化方案在COCO 2017验证数据集上的结果如表1所示：

表1

可以看出，本公开训练50个epoch的平均准确率（Average Precision，简称AP）比原本的目标检测框架训练50个epoch的AP高出2.9个百分点，比原本的DETR训练150个epoch的AP高2.4个百分点。因此，本公开的优化方法可以对DETR的训练过程起到加速的作用。

进一步的，在CPU为Intel Xeon CPU E5-2683 v3,4块GTX 1080 Ti显卡的机器上，将采用匈牙利算法和局部最优解算法的训练时长进行对比，对比结果如表2所示：

表2

可以看出，本公开采用局部最优解算法相比于原本使用匈牙利算法的目标检测框架，训练每个epoch的速度大约快20%-30%。

在该应用场景下的目标检测框架的优化方法中，一方面，对原始嵌入向量进行扩充，进一步扩充了匹配向量的个数，解决了目标检测框架训练样本少的问题，加快了学习率的训练过程；另一方面，采用局部最优解算法对嵌入向量和标注向量进行匹配，加速了嵌入向量和标注向量的匹配速度，从另一角度解决了训练速度慢的问题。

此外，在本公开的示例性实施例中，还提供一种目标检测框架的优化装置。图13示出了目标检测框架的优化装置的结构示意图，如图13所示，目标检测框架的优化装置1300可以包括：向量获取模块1310、代价矩阵模块1320、向量匹配模型1330和框架优化模块1340。其中：

向量获取模块1310，被配置为获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对原始嵌入向量进行扩充得到多个嵌入向量；代价矩阵模块1320，被配置为对多个嵌入向量进行计算得到目标代价矩阵；向量匹配模型1330，被配置为基于目标代价矩阵，利用局部最优解算法匹配多个嵌入向量和多个标注向量得到多组匹配向量；框架优化模块1340，被配置为对多组匹配向量进行计算得到目标损失函数，并利用目标损失函数优化目标检测框架，以使用优化后的目标检测框架进行目标检测或全景分割。

在本发明的一种示例性实施例中，向量匹配模块，包括：索引确定子模块，被配置为在目标代价矩阵中确定行索引和列索引，并根据行索引在多个嵌入向量中确定第一待匹配向量；匹配向量子模块，被配置为根据列索引在多个标注向量中确定第二待匹配向量，并匹配第一待匹配向量和第二待匹配向量得到一组匹配向量；索引剔除子模块，被配置为剔除行索引和列索引，以在目标代价矩阵中确定其他行索引和其他列索引得到包括一组匹配向量的多组匹配向量。

在本发明的一种示例性实施例中，索引确定子模块，包括：数组生成单元，被配置为根据目标代价矩阵生成最小值数组和行坐标数组；列索引单元，被配置为确定最小值数组中的目标最小值，并确定与目标最小值对应的列索引；行索引单元，被配置为根据列索引在行坐标数组中确定行索引。

在本发明的一种示例性实施例中，数组生成单元，包括：原始最小值子单元，被配置为确定目标代价矩阵中每一列的原始最小值，并根据原始最小值生成最小值数组；行坐标数组单元，被配置为确定与原始最小值对应的行坐标，并根据行坐标生成行坐标数组。

在本发明的一种示例性实施例中，代价矩阵模块，包括：权重获取子模块，被配置为获取与多个嵌入向量对应的多个权重，并根据多个权重生成权重向量；归一化处理子模块，被配置为对权重向量进行归一化处理得到目标权重向量，并对目标权重向量和多个嵌入向量进行加权平均计算得到目标代价矩阵。

在本发明的一种示例性实施例中，多个权重，包括：一个权重为1和其他权重均小于1的多个权重。

在本发明的一种示例性实施例中，模型训练模块，包括：损失计算子模块，被配置为对目标权重向量和多组匹配向量进行加权平均计算得到目标损失函数。

在本发明的一种示例性实施例中，向量获取模块，包括：扩充处理子模块，被配置为对原始嵌入向量进行扩充得到多个扩充向量；分组处理子模块，被配置为对多个扩充向量进行分组得到多个嵌入向量。

上述目标检测框架的优化装置1300的具体细节已经在对应的目标检测框架的优化方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了目标检测框架的优化装置1300的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图14来描述根据本发明的这种实施例的电子设备1400。图14显示的电子设备1400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同系统组件（包括存储单元1420和处理单元1410）的总线1430、显示单元1440。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1410执行，使得所述处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）1421和/或高速缓存存储单元1422，还可以进一步包括只读存储单元（ROM）1423。

存储单元1420还可以包括具有一组（至少一个）程序模块1425的程序/实用工具1424，这样的程序模块1425包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1400也可以与一个或多个外部设备1600（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备1400交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口1450进行。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器1440通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图15所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1500，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种目标检测框架的优化方法，所述目标检测框架用于目标检测或全景分割，其特征在于，所述方法包括：

获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对所述原始嵌入向量进行扩充得到多个嵌入向量；

对所述权重向量进行归一化处理得到目标权重向量，并对所述目标权重向量和所述多个嵌入向量进行加权平均计算得到目标代价矩阵；

对所述目标权重向量和所述多组匹配向量进行加权平均计算得到目标损失函数，并利用所述目标损失函数优化所述目标检测框架，以使用优化后的所述目标检测框架进行目标检测或全景分割。

2.根据权利要求1所述的目标检测框架的优化方法，其特征在于，所述基于所述目标代价矩阵，利用局部最优解算法匹配所述多个嵌入向量和所述多个标注向量得到多组匹配向量，包括：

根据所述目标代价矩阵生成最小值数组和行坐标数组；

根据所述列索引在所述行坐标数组中确定行索引，并根据所述行索引在所述多个嵌入向量中确定第一待匹配向量；

3.根据权利要求2所述的目标检测框架的优化方法，其特征在于，所述根据所述目标代价矩阵生成最小值数组和行坐标数组，包括：

4.根据权利要求1所述的目标检测框架的优化方法，其特征在于，所述多个权重，包括：一个权重为1和其他权重均小于1的多个权重。

5.根据权利要求1所述的目标检测框架的优化方法，其特征在于，所述对所述原始嵌入向量进行扩充得到多个嵌入向量，包括：

对所述原始嵌入向量进行扩充得到多个扩充向量；

对所述多个扩充向量进行分组得到多个嵌入向量。

6.一种目标检测框架的优化装置，其特征在于，包括：

向量获取模块，被配置为获取与目标检测框架对应的多个原始嵌入向量和多个标注向量，并对所述原始嵌入向量进行扩充得到多个嵌入向量；

代价矩阵模块，被配置为获取与多个嵌入向量对应的多个权重，并根据所述多个权重生成权重向量；

模型训练模块，被配置为对所述目标权重向量和所述多组匹配向量进行加权平均计算得到目标损失函数，并利用所述目标损失函数优化所述目标检测框架，以使用优化后的所述目标检测框架进行目标检测或全景分割。

7.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-5中任意一项所述的目标检测框架的优化方法。