CN114005009A

CN114005009A - 一种基于RS loss的目标检测模型的训练方法及装置

Info

Publication number: CN114005009A
Application number: CN202111162166.XA
Authority: CN
Inventors: 金良; 李仁刚; 赵雅倩; 郭振华; 范宝余; 徐哲; 胡克坤
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-02-01
Anticipated expiration: 2041-09-30
Also published as: CN114005009B

Abstract

本发明公开了一种基于RS loss的目标检测模型的训练方法及装置，该方法包括获取多个目标检测训练数据集，对多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据，根据预处理数据，训练基于RS loss的Faster‑RCNN模型，得到目标检测模型，在目标检测模型基础上增加属性分支，并依据VG数据进行微调。通过在Faster‑RCNN基础上，将原有通过指定多任务超参数方式替换为基于RS loss，简化原有检测模型的复杂性，并避免因次优超参数而降低模型性能，提升了模型视觉表征能力。

Description

一种基于RS loss的目标检测模型的训练方法及装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种基于RS loss的目标检测模型的训练方法及装置。

背景技术

人类认识世界是多维的，如用眼睛去观察，是双耳去聆听，用触觉与嗅觉去感知等,大脑基于这些信息分析并理解世界。人工智能核心目标是赋予计算机以智能，让机器像人一样去认识世界。通常的视觉语言系统由两个模块构成：图像编码模块和视觉语言融合模块。其中，图像编码模块，称为视觉特征提取器，即通过相关的卷积神经网络模型，生成针对输入图像的特征图谱。视觉语言融合模块，即将图像的特征图谱以及文本经token处理之后映射到统一语义空间中，使其具有相同语义信息在语义空间中更近，而不同语义更远。

当前视觉语言任务中视觉特征的提取绝大部分仍基于VQA(Visual QuestionAnswering，视觉问答)数据集，即选择骨干网络为ResNet(Residual Network，深度残差网络)-101C4的Faster-RCNN(快速的基于区域的卷积网络)模型，在VG(Visual Genome)数据集中训练。虽VG数据有丰富的对象标记以及属性标签，但针对视觉语言任务来讲，仍无法满足数据丰富性。因此，VinVL(Visual representations inVision-Language Models，视觉语言模型中的视觉表示)模型在原有VG数据集基础上，利用三个公开数据集：COCO(CommonObjects in Context，上下文中的公共对象)、OpenImages(公开图像)、Objects365(目标检测)，采用类别平衡与数据集平衡策略，扩展并丰富VG数据集；另外，将原有Faster-RCNN骨干网络ResNet-101C4替换为ResNeXt-152C4，重新训练目标检测模型以及微调目标模型，使得训练之后模型具有更丰富的视觉表征。

目标检测模型属于multi-task(多重任务)的任务，其中包括分类、box(边框)回归等多个子任务，因此这类任务的损失函数通常是多个子任务的加权和，如

其中

是第k步第t个任务的损失函数，

为每个任务对应的权重。由于子任务和stage(阶段)的多样性以及每个任务重要性的不平衡，此类任务中，超参数往往较多。这些超参数虽平衡不同任务重要性来使得模型获得更好性能，但由于调这些超参数需要耗时耗资源，并且次优的超参数会导致模型次优的性能。

发明内容

本发明实施例提供一种基于RS loss的目标检测模型的训练方法及装置，在Faster-RCNN基础上，将原有通过指定多任务超参数方式替换为基于RS loss，简化原有检测模型的复杂性，并避免因次优超参数而降低模型性能，提升了模型视觉表征能力。

第一方面，本发明实施例提供的一种基于RS loss的目标检测模型的训练方法，包括：

获取多个目标检测训练数据集；

对所述多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据；

根据所述预处理数据，训练基于RS loss的Faster-RCNN模型，得到所述目标检测模型；

在所述目标检测模型基础上增加属性分支，并依据VG数据进行微调。

可选地，所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集；

所述对所述多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据，包括：

从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本，得到第一候选数据集和第二候选数据集；

使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增；

以倍增后的第三数据集为基础，将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中；

剔除合并后的第三数据集中的小于第二预设数量的样本的类别，得到所述预处理数据。

可选地，所述根据所述预处理数据，训练基于RS loss的Faster-RCNN模型，得到所述目标检测模型，包括：

构建基于RS loss的Faster-RCNN模型的损失函数；

使用基于RS loss构建的Faster-RCNN模型的损失函数，对所述预处理数据进行训练，得到所述目标检测模型。

可选地，所述构建基于RS loss的Faster-RCNN模型的损失函数，包括：

定义RS损失函数；

对所述RS损失函数进行计算；

优化所述RS损失函数；

将优化后的所述RS损失函数作为所述Faster-RCNN模型的损失函数。

可选地，所述在所述目标检测模型基础上增加属性分支，并依据VG数据进行微调，包括：

在所述目标检测模型添加属性类别数目为第三预设数量类的属性分支；

修改基于RS Loss的Faster-RCNN模型，并添加属性分支loss；

调整用于训练的超参数，基于VG数据集微调所述目标检测模型。

第二方面，本发明实施例提供一种基于RS loss的目标检测模型的训练装置，包括：

获取单元，用于获取多个目标检测训练数据集；

预处理单元，用于对所述多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据；

处理单元，用于根据所述预处理数据，训练基于RS loss的Faster-RCNN模型，得到所述目标检测模型；在所述目标检测模型基础上增加属性分支，并依据VG数据进行微调。

所述预处理单元具体用于：

可选地，所述处理单元具体用于：

构建基于RS loss的Faster-RCNN模型的损失函数；

可选地，所述处理单元具体用于：

定义RS损失函数；

对所述RS损失函数进行计算；

优化所述RS损失函数；

可选地，所述处理单元具体用于：

修改基于RS loss的Faster-RCNN模型，并添加属性分支loss；

第三方面，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述基于RS loss的目标检测模型的训练方法。

第四方面，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述基于RSloss的目标检测模型的训练方法。

本发明实施例中，通过获取多个目标检测训练数据集，对多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据，根据预处理数据，训练基于RS loss的Faster-RCNN模型，得到目标检测模型，在目标检测模型基础上增加属性分支，并依据VG数据进行微调。通过在Faster-RCNN基础上，将原有通过指定多任务超参数方式替换为基于RSloss，简化原有检测模型的复杂性，并避免因次优超参数而降低模型性能，提升了模型视觉表征能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种基于RS loss的目标检测模型的训练方法的流程示意图；

图3为本发明实施例提供的一种基于RS loss的目标检测模型的训练装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例所适用的一种系统架构，该系统架构可以为服务器100，包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与终端设备进行通信，收发该终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

图2示例性的示出了本发明实施例提供的一种基于RS loss的目标检测模型的训练的流程，该流程可以由基于RS loss的目标检测模型的训练装置执行。

如图2所示，该流程具体包括：

步骤201，获取多个目标检测训练数据集。

在本发明实施例中，该多个目标检测训练数据集可以包括第一数据集、第二数据集、第三数据集和第四数据集，例如可以使用Open-Images、Objects365、Visual genome和COCO数据集。

步骤202，对所述多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据。

目前视觉语言任务通常使用视觉模型都是骨干网络为ResNet-101C4的Faster-RCNN模型提取，训练时仅使用Visual genome数据集，虽此数据集针对目标有丰富标注，但针对视觉语言任务仍旧捉襟见肘。因此，为了丰富数据集，本发明实施例在VG数据集的基础上，利用已有的三个目标检测数据集进行进一步地数据丰富，提高视觉模型表征，具体的：

首先可以从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本，得到第一候选数据集和第二候选数据集。然后使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增。以倍增后的第三数据集为基础，将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中。最后剔除合并后的第三数据集中的小于第二预设数量的样本的类别，得到所述预处理数据。上述第一预设数量和第二预设数量可以依据经验设置。

这里的第一数据集可以为Open-Images数据集，第二数据集可以为Objects365数据集，第三数据集可以为Visual Genome数据集，第四数据集可以为COCO数据集。

在具体实施过程中，为了增强长尾分布中尾部视觉特征，分别从Open-Images(第一数据集)和Objects365(第二数据集)两个数据集中每个类别中至少选择2000(第一预设数量)个样本，得到2.2M(million)和0.8M图像，记为A(第一候选数据集)和B(第二候选数据集)。

为了平衡每个数据集贡献率，将4个数据集进行倍增处理，分别得到：8倍的COCO数据集(8x0.11M)、8倍的Visual genome数据集(8x0.1M)、1倍A(1x2.2M OpenImagesV5)、2倍的B(2x0.8M Objects365)。

此外，为了统一数据集目标词汇，以VG数据集为基石，将其他数据集中具有相同类别的数据合并到VG数据集的类别中，而不同类别的数据作为新类添加到VG数据集中。

基于此，为了减少因类别不平衡而影响模型性能，将类中少于30个样本剔除，这样在最终形成的数据集中VG有1594类，不属于VG属于其他三类的类别有254类，即最终得到的数据集有1848类，也即为预处理数据。

步骤203，根据所述预处理数据，训练基于RS loss的Faster-RCNN模型，得到所述目标检测模型。

具体的，首先构建基于RS loss的Faster-RCNN模型的损失函数，然后使用基于RSloss构建的Faster-RCNN模型的损失函数，对预处理数据进行训练，得到目标检测模型。

目前绝大多数视觉语言任务所使用的视觉特征提取模型Faster-RCNN结构，首先骨干网络根据输入图像提取特征，然后RPN网络根据anchor、NMS等技术得到候选区域，紧接着RoI Pooling综合输入的候选区域和特征图信息，通过全连接层，最后输出目标的位置以及对应类别。在训练过程中，RPN和整个网络都有输出，则分别对应的loss为RPN loss和Fast R-CNN loss，而每个部分都包含分类loss和定位loss，其形式如下：

其中，λ为权重平衡参数，L_cls与L_reg分别为分类loss和定位loss，N_cls为min-batch大小，N_reg为anchor位置数目，p_i为anchor的预测分类概率，当anchor为正样本时，

否则，

t_i和

分别为bounding box的预测坐标和真实坐标，具体如下：

t_x＝(x-x_a)/w_a；

t_y＝(y-y_a)/h_a；

其中，x,y,w,h分别是box的中心点坐标、宽、高，x,x_a,x^*分别对应于预测box、anchor box、ground truthbox，其他y,w,h也类似。在整个训练过程中，将RPN loss和FastR-CNN loss相加，但每一部分Loss都有对应的超参数λ，训练前已被指定，这种指定超参数的多任务策略，导致模型出现次优问题，RS loss完美的解决了此问题，并简化了原有模型训练复杂度，提高了模型的性能。

首先定义RS损失函数。然后对RS损失函数进行计算，优化RS损失函数。最后将优化后的RS损失函数作为Faster-RCNN模型的损失函数。

具体的，令模型输出的值为S_i，数据集真实的ground truth为y_i∈[0,1](如分类或IoU(交并比))，RS loss表示正样本在当前输出l_RS(i)与目标

RS的平均误差值：

其中l_RS(i)表示当前rank误差与sort误差的总和；

在正样本与负样本类间基础上，增加正样本类内优先级差异性，即：

其中，P为正样本、N为负样本，l_R(i)和l_S(i)为当前rank误差和当前sort误差，

和

为目标的rank误差和sort误差，p_R(j,i)和p_S(i,j)分别表示rank和sort概率密度函数(pmfs)，即：

在优化RS损失函数时，为了计算

使用Δx_ij替代RS loss中选项，则得所有正样本的

由于sort误差存在，

还包括所有正样本上升与排序下降的更新信号，

在基于RS loss构建Faster-RCNN损失函数时，可以将Faster-RCNN模型中的损失函数替换为RS Loss损失函数，即将Faster-RCNN损失函数：

替换为基于RS loss的损失函数：

其中L_RS为分类损失函数，L_box为box位置的损失函数，即

和b_i分别为预测box和ground truthbox，λ_box基于任务的平衡系数，使用grid搜索可以得到。

基于该损失函数对上述预处理数据进行训练，既可以得到目标检测模型。

步骤204，在所述目标检测模型基础上增加属性分支，并依据VG数据进行微调。

具体的，首先在目标检测模型添加属性类别数目为第三预设数量类的属性分支。然后修改基于RS Loss的Faster-RCNN模型，并添加属性分支loss。最后调整用于训练的超参数，基于VG数据集微调目标检测模型。该第三预设数量可以依据经验设置。

通过上述步骤得到的目标检测模型可以得到图像中对象检测结果，即图像有什么并且在什么位置，这对于视觉语言模型要理解图像内容还远远不够，因此需要在目标检测模型基础上添加属性分支。具体实施时，可以如下：

1)、目标检测模型添加属性类别数目为524类的属性分支；

2)、修改基于RS Loss的Faster-RCNN模型，并添加属性分支loss；

3)、调整训练相关超参数，基于VG数据集微调目标检测模型。

当前绝大多数视觉语言任务提取视觉特征仍采用基于VG数据集训练的骨干网络为ResNet-101 C4的Faster-RCNN模型，虽然VinVL利用已有目标检测数据扩充了原有的VG数据集，并将骨干网络替换为ResNeXt-152 C4，但在训练过程中仍采用基于指定超参数多任务策略，将导致训练复杂性以及模型次优问题。本发明实施例针对此问题，在基于Faster-RCNN基础上，引入RS loss，通过数据与模型本身属性动态解决多任务指定超参数问题，提升了模型视觉表征能力。

上述实施例表明，获取多个目标检测训练数据集，对多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据，根据预处理数据，训练基于RS loss的Faster-RCNN模型，得到目标检测模型，在目标检测模型基础上增加属性分支，并依据VG数据进行微调。通过在Faster-RCNN基础上，将原有通过指定多任务超参数方式替换为基于RS loss，简化原有检测模型的复杂性，并避免因次优超参数而降低模型性能，提升了模型视觉表征能力。

基于相同的技术构思，图3示例性的示出了本发明实施例提供的一种基于RS loss的目标检测模型的训练装置的结构，该装置可以执行基于RS loss的目标检测模型的训练流程。

如图3所示，该装置可以包括：

获取单元301，用于获取多个目标检测训练数据集；

预处理单元302，用于对所述多个目标检测训练数据集中的训练数据进行预处理，得到预处理数据；

处理单元303，用于根据所述预处理数据，训练基于RS loss的Faster-RCNN模型，得到所述目标检测模型；在所述目标检测模型基础上增加属性分支，并依据VG数据进行微调。

所述预处理单元302具体用于：

可选地，所述处理单元303具体用于：

构建基于RS loss的Faster-RCNN模型的损失函数；

可选地，所述处理单元303具体用于：

定义RS损失函数；

对所述RS损失函数进行计算；

优化所述RS损失函数；

可选地，所述处理单元303具体用于：

修改基于RS loss的Faster-RCNN模型，并添加属性分支loss；

基于相同的技术构思，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

基于相同的技术构思，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述基于RS loss的目标检测模型的训练方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于RS loss的目标检测模型的训练方法，其特征在于，包括：

获取多个目标检测训练数据集；

2.如权利要求1所述的方法，其特征在于，所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集；

3.如权利要求1所述的方法，其特征在于，所述根据所述预处理数据，训练基于RS loss的Faster-RCNN模型，得到所述目标检测模型，包括：

构建基于RS loss的Faster-RCNN模型的损失函数；

4.如权利要求3所述的方法，其特征在于，所述构建基于RS loss的Faster-RCNN模型的损失函数，包括：

定义RS损失函数；

对所述RS损失函数进行计算；

优化所述RS损失函数；

5.如权利要求1至4任一项所述的方法，其特征在于，所述在所述目标检测模型基础上增加属性分支，并依据VG数据进行微调，包括：

修改基于RS Loss的Faster-RCNN模型，并添加属性分支loss；

6.一种基于RS loss的目标检测模型的训练装置，其特征在于，包括：

获取单元，用于获取多个目标检测训练数据集；

7.如权利要求6所述的装置，其特征在于，所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集；

所述预处理单元具体用于：

8.如权利要求6所述的装置，其特征在于，所述处理单元具体用于：

构建基于RS loss的Faster-RCNN模型的损失函数；

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至5任一项所述的方法。

10.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至5任一项所述的方法。