CN116778267A

CN116778267A - 训练模型的方法和装置及信息处理方法

Info

Publication number: CN116778267A
Application number: CN202210209067.0A
Authority: CN
Inventors: 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-19
Also published as: JP2023129309A; EP4239537A1; US20230281969A1

Abstract

本公开内容涉及训练模型的方法、训练模型的装置及信息处理方法。根据本公开内容的一个实施例，该训练模型的方法包括：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于子样本集序列，分成N个阶段顺序迭代训练模型；其中，N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；降采样前子样本集和前子样本集的覆盖候选类集相同；并且降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。本公开内容的方法和装置的有益效果包括以下中的至少一个：改善模型的准确度性能。

Description

训练模型的方法和装置及信息处理方法

技术领域

本公开内容总体上涉及信息处理，更具体的，涉及训练模型的方法、训练模型的装置及信息处理方法。

背景技术

随着计算机科学与人工智能的发展，使用计算机运行人工智能模型实现信息处理越来越普遍和有效。

具有分类功能的模型可以实现诸如对象定位、对象识别、对象分割、对象检测等。模型的输入信息可以为声音信息、图像信息等。

在使用模型对待处理信息进行处理前，需要使用训练样本对模型进行训练。训练方法能够影响模型的性能。

发明内容

在下文中将给出关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本公开内容的一个方面，提供了一种训练具有分类功能的模型的计算机实现的方法，模型被配置成具有多个候选类。该方法包括：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于子样本集序列，分成N个阶段顺序迭代训练模型；其中，N个子样本集中的任两个的覆盖候选类集没有交集；子样本集序列的平均单个类样本量序列为降序序列；N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；降采样前子样本集和前子样本集的覆盖候选类集相同；并且降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。

根据本公开内容的一个方面，提供了一种图像检测方法。该方法包括：使用根据前述训练模型的方法训练的模型处理待处理对象。

根据本公开内容的一个方面，提供了一种用于训练模型的装置。该装置包括：子样本集序列确定单元和训练单元。子样本集序列确定单元被配置成确定由总训练样本集的N个子样本集构成的子样本集序列。训练单元被配置成：基于子样本集序列，分成N个阶段顺序迭代训练模型。其中，N个子样本集中的任两个的覆盖候选类集没有交集，子样本集序列的平均单个类样本量序列为降序序列，N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集，降采样前子样本集和前子样本集的覆盖候选类集相同，并且，降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。

根据本公开内容的一个方面，提供了一种用于训练模型的装置。模型被配置成具有多个候选类。该装置包括：存储器，其上存储有指令；以及至少一个处理器，与存储器连接并且被配置成执行指令以：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于子样本集序列，分成N个阶段顺序迭代训练模型；其中，N个子样本集中的任两个的覆盖候选类集没有交集；子样本集序列的平均单个类样本量序列为降序序列；N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；降采样前子样本集和前子样本集的覆盖候选类集相同；并且降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。

根据本公开内容的一个方面，提供了一种其上存储有程序的计算机可读存储介质，当被执行时，该程序使计算机：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于子样本集序列，分成N个阶段顺序迭代训练模型；其中，N个子样本集中的任两个的覆盖候选类集没有交集；子样本集序列的平均单个类样本量序列为降序序列；N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；降采样前子样本集和前子样本集的覆盖候选类集相同；并且降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。

根据本公开内容的一个方面，提供了一种其上存储有程序的计算机可读存储介质，当被执行时，该程序使计算机：使用训练后的模型处理待处理对象；其中，训练后的模型为使用本公开内容的模型训练方法训练的模型。

本公开内容的方法、装置以及存储介质的有益效果至少包括：改善模型的准确度性能。

附图说明

参照附图下面说明本公开内容的实施例，这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中：

图1示出了样本量关于类别呈长尾分布的示意图；

图2示出了根据本公开内容的一个实施例的训练模型的方法的示例性流程图；

图3示出了根据本公开内容的一个实施例的训练模型的方法的示例性流程；

图4示出了根据本公开内容的一个实施例的用于降采样的方法的流程图；

图5示出了根据本公开内容的一个实施例的用于降采样的方法的示意图；

图6示出了根据本公开内容的一个实施例的信息处理方法的示例性流程图；

图7示出了根据本公开内容的一个实施例的用于训练模型的装置的示例性框图；

图8示出了根据本公开内容的一个实施例的用于训练模型的装置的示例性框图；以及

图9是根据本公开内容的一个实施例的信息处理设备的示例性框图。

具体实施方式

在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开内容，在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构，而省略了与本公开内容关系不大的其他细节。

应理解的是，本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

用于执行本公开内容的实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如"C"程序设计语言或类似的程序设计语言。

本公开内容的方法可以通过具有相应功能配置的电路来实现。所述电路包括用于处理器的电路。

本公开内容一个方面涉及训练具有分类功能的模型M的方法。该方法可以用计算机实现。模型M可以为基于神经网络的深度学习模型。该方法可以用于抑制在训练模型时单个类样本量(即，在样本集中，属于一个候选类的样本的数量)的不均匀分布问题，尤其适用于抑制单个类样本分布的长尾现象对模型性能的不利影响。

下面对长尾现象进行描述。在训练一个具有分类功能的模型时，训练数据(即，训练样本集)包含所有类别的样本。然而，训练数据中这些样本的分布却往往是非常不均匀的。有些类别(头部类别)的样本的数量比较多，有些类别(尾部类别)的样本的数量比较少，此外，少样本量的尾部类别的类别数目往往比头部类别多。

例如：如果要训练一个图像识别模型，使其能从图像中识别给定的100种动物，那么训练数据中优选包含所有这100种动物的图像。对于猫狗等20类常见动物，获取图像很容易，因此，这20类常见动物的样本往往比较多；对于少见的甚至濒临灭绝的另外80种动物，获取图像非常困难，因此，另外80种动物的样本量比较少。

也就是说，对于用于训练具有分类功能的模型的训练样本集，以各类别的样本的数量(即“单个类样本量”)为纵坐标，以单个类样本量降序排列的类序列标记横坐标，所得到的单个类样本量关于类别的分布图显示有较长的尾，即，相对于具有较多样本量的较少头部类，有大量的样本量较少的尾部类，从而，分布图显示出长长的尾。图1示出了样本量关于类别呈长尾分布的示意图，其中，任意数据点P的横坐标x表示类别的编号，相当于类别C[x]，任意数据点P的纵坐标Qcs表示相应类别C[x]的单个类样本量，单个类样本量是基于样本集来统计。在横坐标上，从左向右，类别编号按其对应的类别的单个类样本量单调减小而排布。从图1可以清楚地看到，分布图具有较长的尾部，相对于头部，尾部汇集了大量的、小样本量的类别。具有诸如长尾分布的不均匀单个类样本量分布的训练样本集是常见的，并且获取成本较低，但使用这样的训练样本集按常规方法训练模型时，由于单个类样本量关于类别的不均匀分布，可能导致训练后得到的模型性能较低。相对于对应大样本量类别的待处理对象，对小样本量类别的待处理对象，分类准确度不佳。基于此，发明人经过研究，构思并提出了本公开内容的训练模型的方法。

下面参考图2对本公开内容的模型训练方法进行示例性描述。图2示出了根据本公开内容的一个实施例的训练模型M的方法200的示例性流程图。模型M是具有分类功能的模型，其中，模型M包括多个候选类，任意一个候选类可记为C[x]，多个候选类构成候选类集，记为{C[x]}(“{}”表示集合，C[x]是该集合中第x元素的表示，该集合包括多个元素，简化起见，仅示出了一个一般元素C[x])。{C[x]}可表示为：{C[xStart]，……，C[xEnd]}；即，x取xStart至xEnd之间的值。模型M在对待处理对象进行处理时，模型M给出的待处理对象的类别选自候选类集{C[x]}中的一个类别。待处理对象例如为图像信息或声音信息。用于训练模型M的总训练样本集St中的样本已被打标签，具有已知的标识该样本的类别的类别标签。在将该样本用于训练模型M时，可以基于模型M给出的该样本的估计类别与该样本的标识类别调整模型参数以优化模型，改善模型的性能。

在步骤S201，确定由总训练样本集St的N个子样本集构成的子样本集序列Ss：SamsSF[1]、……、SamsSF[n]、……SamsSF[N]。在N个子样本集中，任两个的覆盖候选类集没有交集。子样本集序列Ss的平均单个类样本量序列为降序序列。当子样本集包含候选类C[x]的样本，则认为该子样本集覆盖候选类C[x]。子样本集SamsSF[n]覆盖的所有候选类的集合记为“覆盖候选类集Cs[n]”。即，子样本集序列Ss满足式1。

子样本集序列Ss的平均单个类样本量序列Saq为avgQcs[1]、……、avgQcs[n]、……avgQcs[N]。序列Saq为平均单个类样本量(avgQcs)逐渐减小的降序序列。子样本集SamsSF[n]的覆盖候选类集Cs[n]中的元素个数(即，覆盖类量)用Qc[n]表示，子样本集SamsSF[n]中的样本量用Qs[n]表示，则子样本集SamsSF[n]的平均单个类样本量avgQcs[n]＝Qs[n]/Qc[n]。

由于后面有可能对子样本集SamsSF[n]进行降采样，因此，子样本集SamsSF[n]也被称为“完整子样本集”，对其进行降采样后得到的样本集可被称为“降采样子样本集”。

需要说明的是，虽然子样本集序列Ss中的N子样本集SamsSF[1]至SamsSF[N]是由总训练样本集的N个子样本集构成，即，St＝SamsSF[1]∪…∪SamsSF[N]，但是考虑到对子样本集序列Ss的其他限制，任意将总训练样本集St分组为N个子样本集时，这N个子样本集并不一定能充当子样本集SamsSF[1]至SamsSF[N]中的一个。

在步骤S203，基于子样本集序列Ss，分成N个阶段顺序迭代训练模型。N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集SamsPh[y]包括子样本集序列Ss中的第y子样本集SamsSF[y]及第y子样本集之前的所有子样本集构成的前子样本集SamsPre[y]的降采样前子样本集DwnSamsPre[y]。y为[2,N]范围内的任意自然数。在方法200中，可以将y设置为多个值，即，可以有多个这样的阶段，在训练时除了使用该阶段的相应子样本集外还使用相应的降采样前子样本集。在方法200中，采用降采样操作Op_dwnSam参考参考样本集Sref对目标样本集Sobj确定该目标样本集Sobj的降采样样本集DwnSobj。目标样本集Sobj可以是诸如SamsPre[y]或SamsFS[n]的样本集。降采样操作Op_dwnSam被配置成使得：在通过参考参考样本集Sref对目标样本集Sobj进行该降采样操作得到降采样样本集DwnSobj时，降采样样本集DwnSobj与目标样本集Sobj的覆盖候选类集相同，同时，降采样目标样本集的各单个类样本量靠近或落入参考样本集的单个类样本量分布区间。即，降采样减小目标样本集的单个类样本量，但不改变目标样本集的覆盖候选类集。在第y阶段，通过参考作为参考样本集的第y子样本集SamsSF[y]对前子样本集SamsPre[y]进行降采样操作SamsPre[y]来确定降采样前子样本集DwnSamsPre[y]。降采样前子样本集DwnSamsPre[y]和前子样本集SamsPre[y]的覆盖候选类集相同。同时，降采样前子样本集DwnSamsPre[y]的各单个类样本量(QcsD[y][i]，i为iStart至iEnd中的一个值，iStart和iEnd与y有关)靠近或落入第y子样本集SamsSF[y]的单个类样本量分布区间[Qcs0[y].[jStart],Qcs0[y].[jEnd]。DwnSamsPre[y]的覆盖类量QcD[y]为iEnd与iStart之间的差。SamsSF[y]的覆盖类量Qc[y]为jEnd与jStart的差.

在一个示例中，确定由总训练样本集St的N个子样本集构成的子样本集序列包括：基于总训练样本集St中各候选类的单个类样本量将总训练样本集St分组为N个子样本集；以及确定N个子样本集的平均单个类样本量降序排列的序列作为子样本集序列Ss，其中，N个子样本集中的每个的单个类样本量集中度在预定范围。总训练样本集St中各候选类可以表示为C[xStart]至C[xEnd]。第n子样本集的单个类样本量集中度Cnt[n]可以基于其单个类样本量分布区间[Qcs0[n].[jStart],Qcs0[n].[jEnd]来定义(参见式2)。

预定范围可以为[0.5,1]、[0.6,0.9]、[0.7,1]等。在一个示例中，可以通过聚类将总训练样本集St分组为N个子样本集。具体的，通过基于单个类样本量对总训练样本集St的候选类进行聚类来将总训练样本集St分组为N个子样本集。聚类时，将具有相近单个类样本量的候选类聚为一个子候选类集，然后，用该子候选类集的在总训练样本集St中的样本构成一个子样本集作为N个子样本集中的一个。

例如，第y子样本集之前的所有子样本集包含128个候选类的样本，则降采样前子样本集的覆盖候选类集由这128个候选类构成。

在一个示例中，通过单个类样本量降序变化的总候选类序列确定子样本集序列。具体的，确定由总训练样本集St的N个子样本集构成的子样本集序列Ss包括：将基于总训练样本集St中各候选类的单个类样本量确定的单个类样本量降序变化的总候选类序列Seq划分成N个候选类子序列sq[1]至sq[n]；其中，子样本集序列Ss为N个候选类子序列的在总训练样本集St中的对应子样本集构成的序列。即，通过降序排序操作Op_dSort基于总训练样本集St确定总候选类序列Seq。

在方法200中，其中，N为大于1的自然数，例如，N为2、3、4、5、6、7、8和9中的一个。N的选择可以根据单个类样本量分布情况来定。例如，当单个类样本量关于候选类的分布图显示单个类样本量有3个聚集区段，则N可以取3。可选的，方法200可以包括：根据单个类样本量分布情况确定子样本集数量N。

在方法200中，N个阶段中的每个阶段(用“n”标识，n为[1，N]中的任意自然数)的阶段训练样本集SamsPh[n]都包括子样本集序列Ss中的对应该阶段顺序编号的子样本集SamsFs[n]。例如，对第2阶段(n＝2)，第2阶段训练样本集SamsPh[2]为SamsFs[2]或SamsFs[2]与降采样前子样本集DwnSamsPre[2]的并集。

在一个示例中，在方法200中，在N个阶段中的第2阶段至第N阶段中的至少一个阶段中的每个阶段都进行降采样操作Op_dwnSam。即，在N个阶段中的第2阶段至第N阶段中的至少一个阶段，阶段训练不仅使用当前阶段的相应子样本集，还使用前子样本集的降采样前子样本集。优选的，在N个阶段中的第2阶段至第N阶段中的每个阶段都进行降采样操作Op_dwnSam。

在一个示例中，子样本集SamsSF[n]可以覆盖多个候选类。N个子样本集中的每个子样本集覆盖的候选类的数量优选不同。优选的，子样本集序列Ss中的在后子样本集比在前子样本集覆盖更多的候选类。例如，SamsSF[3]比SamsSF[2]覆盖更多的候选类。

在一个示例中，子样本集序列Ss中的在后子样本集的样本量的数量级与在前子样本集的样本量的数量级接近或相同。例如，SamsSF[3]的样本和SamsSF[2]的样本量在数量级方面接近或相同。

在一个示例中，总候选类序列Seq的关于候选类的单个类样本量分布为长尾分布。

在一个示例中，将基于总训练样本集St中各候选类的单个类样本量确定的单个类样本量降序变化的总候选类序列Seq划分成N个候选类子序列包括：参考总候选类序列Seq的关于候选类的单个类样本量分布，选择总候选类序列Seq中样本量减少50％或更多的相邻候选类之间的位置划分总候选类序列Seq。例如，当总候选类序列Seq中的相邻候选类C[x]、C[x+1]的单个类样本量Qcs[x]、Qcs[x+1]之间的差大于或等于Q[x+1]，则可以将候选类C[x]、C[x+1]之间的位置划分序列Seq，以将候选类C[x]、C[x+1]划分到两个不同的相邻子序列。优选的，在总候选类序列Seq的单个类样本量分布梯度局部极小位置划分总候选类序列Seq。

在一个示例中，方法200中的降采样操作Op_dwnSam被配置成使得，在阶段训练样本集SamsPh[y]中，子样本集序列Ss中的第y子样本集SamsSF[y]前的每个子样本集SamsSF[x]的降采样子样本集DwnSamsSF[x]的平均单个类样本量avgQcsD[x]都基本等于第y子样本集的平均单个类样本量avgQcs[y]。例如，若DwnSamsSF[x]包含10个候选类的样本，且样本总量为200，则平均单个类样本量avgQcsD[x]为20；同理，若SamsSF[y]包含20个类的样本，且样本总量为380，则平均单个类样本量avgQcs[y]为19，基本等于avgQcsD[x]。例如，降采样被配置成使得，在第y阶段训练样本集中，子样本集序列Ss中的第y子样本集前的每个子样本集的降采样子样本集的平均单个类样本量都基本等于第y子样本集的平均单个类样本量avgQcs[y]；进一步的，可以将降采样操作配置成使得，在第y阶段训练样本集中，avgQcsD[x]＝Int(avgQcs[y])，Int()取整函数。更进一步的，可以将降采样操作配置成使得，在第y阶段训练样本集中，每个前子样本集SamsSF[x]的降采样子样本集的每个候选类的单个类样本量都等于Int(avgQcs[y])。

在方法200中，顺序迭代训练模型M包括训练操作Op_Trn，具体的，包括：在第n训练阶段，通过使用阶段训练样本集SamsPh[n]对模型M[n-1]进行训练得到模型M[n]，其中，模型M[n-1]为由前一训练阶段确定的训练后的模型，当n＝1(即，在第1训练阶段)时，设定模型M[0]为训练开始前的初始模型，即将训练开始前的初始模型设置为模型M[0]。在第N训练阶段，通过使用阶段训练样本集SamsPh[N]对模型M[N-1]进行训练得到模型M[N]。模型M[N]即为最终得到的训练后的模型M。训练后的模型M可以用于对诸如声音信息或图像信息的待处理对象进行处理。每个训练阶段包括人工智能模型训练的常规操作：特征提取、分类、确定损失函数、调整模型参数等。

在方法200中，一方面，就整个训练过程而言，总训练样本集中的每个样本都用于训练，从而，保证了样本的充分利用；另一方面，在第y训练阶段，阶段训练样本集中降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间，从而抑制了不均匀单个类样本量分布对模型性能的不利影响，从而有利于改善模型的性能。

下面，以N＝3为例，示例性说明本公开内容的训练模型的方法。图3示出了根据本公开内容的一个实施例的训练模型的方法300的示例性流程，其中，示出了不同阶段的单个类样本量分布图P0、P1、P2、P3。

在初始化阶段，即阶段Pha 0，提供总训练样本集St，提供了初始模型M[0]，并确定出了由总训练样本集St的3个子样本集构成的子样本集序列Ss：SamsSF[1]、SamsSF[2]、SamsSF[3]。其中，采用排序操作Op_Sort由总训练样本集St得到单个类样本量Qcs降序变化的总候选类序列Seq：C[1]、C[2]、……、C[13]、C[14]。根据单个类样本量Qcs关于候选类的分布图中数据点的聚集情况(参见图3中的分布图P0)，将总候选类序列Seq分成3个候选类子序列，即，总候选类序列Seq可以表示为候选类子序列sq[1]、sq[2]、sq[3]。分布图中的14个数据点的横坐标x为1至14中的自然数，对应总候选类序列Seq中的各候选类。由于是通过划分总候选类序列Seq得到各候选类子序列，所以各候选类子序列中的候选类是按单个类样本量降序排列(参见图3中分布图P0中的单个类样本量Qcs关于候选类的分布)。图3中单个类样本量Qcs关于候选类的分布图P0中有已示出了候选类子序列sq[1]、sq[2]、sq[3]的对应子样本集为SamsSF[1]、SamsSF[2]、SamsSF[3]。子样本集SamsSF[1]、SamsSF[2]、SamsSF[3]两两之间没有交集，并且它们的并集为总训练样本集St。从图3中单个类样本量Qcs关于候选类的分布图P0可以看出：子样本集序列的平均单个类样本量序列为降序序列，即，SamsSF[1]具有最大的平均单个类样本量、SamsSF[3]具有最小的平均单个类样本量，SamsSF[2]的平均单个类样本量居中间。在图中的各组数据点(细线圆数据点组、粗线圆数据点组、实心圆数据点组)附近还示出了各完整子样本集SamsSF[1]、SamsSF[2]、SamsSF[3]的由单个候选类的样本构成的单个候选类样本集，其中，SamsSF[1]的单个候选类样本集包括SamsCF[1]和SamsCF[2]，其分别与候选类C[1]、C[2]对应；SamsSF[2]的单个候选类样本集包括SamsCF[3]至SamsCF[6]，其分别与候选类C[3]、……、C[6]对应；SamsSF[3]的单个候选类样本集包括SamsCF[7]至SamsCF[14]，其分别与候选类C[7]、……、C[14]对应。

在第1阶段，即阶段Pha 1，基于相应阶段训练样本集进行第1阶段的训练操作Op_Trn。具体的，通过使用第1阶段训练样本集SamsPh[1]训练模型M[0]得到模型M[1]。在第1阶段，不进行降采样操作，第1阶段训练样本集SamsPh[1]直接被设定为子样本集序列Ss中第1子样本集SamsSF[1]。第1阶段训练样本集SamsPh[1]的单个类样本量Qcs关于候选类的分布图P1在图3中已示出，其中，横坐标含义同第0阶段；由于未进行降采样，与候选类C[1]、C[2]关联的单个类样本量数据点未发生移动。

在第2阶段，即阶段Pha 2，基于相应阶段训练样本集进行第2阶段的训练操作Op_Trn。具体的，通过使用第2阶段训练样本集SamsPh[2]训练模型M[1]得到模型M[2]。在第2阶段，对第一子样本集SamsSF[1]进行降采样操作Op_dwnSam得到第二阶段的降采样子样本集DwnSamsSF[1]，该降采样子样本集的完整表示可以为Pha[2].DwnSamsSF[1]，即，降采样子样本集是与阶段相关的，不同的阶段的DwnSamsSF[x]是不同的(此示例中，x＝1)。第2阶段训练样本集SamsPh[2]为第2子样本集SamsSF[2]与降采样子样本集DwnSamsSF[1]的并集。第2阶段训练样本集SamsPh[2]的单个类样本量Qcs关于候选类的分布图P2在图3中已示出，单个类样本量分布情况如实线轮廓数据点所示，其中，横坐标含义同第0阶段；由于对与候选类C[1]、C[2]关联的第一子样本集SamsSF[1]进行了降采样操作Op_dwnSam，相对于分布图P0，与候选类C[1]、C[2]关联的单个类样本量数据点向下移动，使得各单个类样本量落入第2子样本集SamsSF[2]的单个类样本量分布区间(即[Qcs[6],Qcs[3]]，Qcs[6]为x＝6时的数据点的纵坐标，Qcs[3]为x＝3时的数据点的纵坐标)。

在第3阶段，即阶段Pha 3，基于相应阶段训练样本集进行第3阶段的训练操作Op_Trn。具体的，通过使用第3阶段训练样本集SamsPh[3]训练模型M[2]得到模型M[3]，迭代训练完成。在第3阶段，对第一、二子样本集SamsSF[1]、SamsSF[2]的并集进行降采样操作Op_dwnSam得到第三阶段的降采样子样本集DwnSamsSF[1](如前所述，其与第二阶段的DwnSamsSF[1]不同)、DwnSamsSF[2]。第3阶段训练样本集SamsPh[3]为第3子样本集SamsSF[3]、降采样子样本集DwnSamsSF[2]及降采样子样本集DwnSamsSF[1]的并集。第3阶段训练样本集SamsPh[3]的单个类样本量Qcs关于候选类的分布图P3在图3中已示出，单个类样本量分布情况如实线轮廓数据点所示，其中，横坐标含义同第0阶段；由于对与候选类C[1]、C[2]关联的第一子样本集SamsSF[1]、对与候选类C[3]、C[4]、C[5]、C[6]关联的第二子样本集SamsSF[2]进行了降采样操作Op_dwnSam，相对于分布图P0，与候选类C[1]、C[2]、C[3]、C[4]、C[5]、C[6]关联的单个类样本量数据点向下移动，使得各单个类样本量落入第3子样本集的单个类样本量分布区间(即[Qcs[14],Qcs[7]]，Qcs[14]为x＝14时的数据点的纵坐标，Qcs[7]为x＝7时的数据点的纵坐标。

参考图3中的分布图P2、P3可以看到降采样使单个类样本量分布变均匀，这有利于改善训练后模型的性能。

下面对降采样操作Op_dwnSam进行进一步的描述。

通过参考参考样本集Sref对目标样本集Sobj进行该降采样操作Op_dwnSam得到降采样目标样本集DwnSobj包括：通过对目标样本集Sobj中的每个候选类的样本集sc[jStart]至sc[jEnd]进行降采样来确定各候选类的降采样样本集Dwnsc[jStart]至Dwnsc[jEnd]使得每个候选类的降采样样本集的样本量靠近或落入参考样本集Sref的单个类样本量分布区间；以及将各候选类的降采样样本集的并集设置为降采样目标样本集DwnSobj。目标样本集Sobj可以是诸如SamsPre[y]或SamsFS[n]的样本集。

下面以对目标样本集Sobj中的一个候选类C[j]的样本集sc[j]进行降采样来确定该候选类的降采样样本集Dwnsc[j]为例说明通过降采样确定单个候选类的降采样样本集的方法。图4示出了根据本公开内容的一个实施例的用于降采样的方法400的流程图，其中，方法400用于通过降采样确定单个候选类的降采样样本集。

在步骤S401，基于参考样本集Sref的单个类样本量分布区间确定该候选类C[j]的关于该候选类的降采样样本集Dwnsc[j]的样本量k(即，单个类样本量)。例如，参考样本集Sref的单个类样本量分布区间为[min,max]，k可以取该区间的区间中值，或该区间的中段的随机值。考虑到参考样本集Sref的单个类样本量是在区间[min,max]内变化的值，k可以为与单个类样本量有关的单个类样本量的加权平均值。图5示出了根据本公开内容的一个实施例的用于降采样的方法的示意图，其对应方法400中，k＝3的情况。

在步骤S403，基于由模型M确定的目标样本集Sobj中的该候选类C[j]的样本集sc[j]中的样本的分类特征F[jStart]至F[jEnd]将样本集sc[j]中的样本聚类为k个样本簇clu[1]至clu[k]。分类特征可以为模型M的倒数第二个全连接层的输出。在阶段训练中使用降采样场景，在当前阶段为y时，用于输出分类特征的模型可以是前一阶段确定的模型M[y-1]。参见图5，在确定k＝3的情况下，聚类得到样本簇clu[1]、clu[2]和clu[3]。聚类方法可以例如是C均值(C-means)聚类算法。

在步骤S405，基于从k个样本簇中的每个选择的代表性样本Sam[i][ik]、构建该候选类的降采样样本集Dwnsc[j]：{Sam[1][r1],……,Sam[k][rk]}，i为1至k的自然数。代表性样本可以基于分类特征来确定。在一个示例中，选择与距离分类特征空间中的各分类特征簇的中心最近的分类特征对应的样本作为k个样本簇中的相应样本簇的代表性样本。例如，从与k个样本簇clu[1]至clu[k]对应的k个分类特征簇cluF[1]至cluF[k]中的每个分类特征簇选择一个代表性分类特征Fr[ir]，代表性分类特征Fr[ir]优选是距离分类特征空间中的分类特征簇cluF[i]的中心最近的分类特征。代表性分类特征Fr[ir]与样本簇clu[i]中的代表性样本Sam[i][ir]对应，具体的，模型针对样本Sam[i][ir]输出的分类特征为Fr[ir]。这样，就可以由k个代表性分类特征的对应样本构成降采样样本集Dwnsc[j]。图5中已示出在k＝3情况下，3个代表性样本构成的降采样样本集Dwnsc[j]。

本公开内容的一个方面涉及计算机实现的信息处理方法。下面参照图6进行示例性描述。图6示出了根据本公开内容的一个实施例的信息处理方法600的示例性流程图。在步骤S601，使用本公开内容的用于训练模型的方法训练模型M。在步骤S603，使用训练后的模型M处理待处理对象。可选的，在训练已经完成的情况下，方法600可以只包括步骤S603。待处理对象可以图像信息(例如，采集的图像数据)或声音信息(例如，采集的声音数据)。

本公开内容还提供一种用于训练模型的装置。下面参照图7进行示例性描述。图7示出了根据本公开内容的一个实施例的用于训练模型M的装置700的示例性框图。模型M被配置成具有多个候选类。装置700包括：子样本集序列确定单元701和训练单元703。子样本集序列确定单元701被配置成确定由总训练样本集St的N个子样本集构成的子样本集序列Ss。训练单元703被配置成：基于子样本集序列Ss，分成N个阶段顺序迭代训练模型。N个子样本集中的任两个的覆盖候选类集没有交集。子样本集序列的平均单个类样本量序列为降序序列。N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集。降采样前子样本集和前子样本集的覆盖候选类集相同。降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。装置700与方法200存在对应关系。装置700的进一步配置情况可参考本公开内容对方法200的描述。

本公开内容还提供一种用于训练模型的装置。下面参照图8进行示例性描述。图8示出了根据本公开内容的一个实施例的用于训练模型M的装置800的示例性框图。装置800包括：存储器801，其上存储有指令；以及至少一个处理器803，与存储器801连接，并且用于执行存储器801上的指令以实现：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于子样本集序列，分成N个阶段顺序迭代训练模型；其中，N个子样本集中的任两个的覆盖候选类集没有交集；子样本集序列的平均单个类样本量序列为降序序列；N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；降采样前子样本集和前子样本集的覆盖候选类集相同；并且降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。指令与方法200存在对应关系。装置800的进一步配置情况可参考本公开内容对方法200的描述。

本公开内容的一个方面提供一种其上存储有程序的计算机可读存储介质，当被执行时，该程序使计算机：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于子样本集序列，分成N个阶段顺序迭代训练模型；其中，N个子样本集中的任两个的覆盖候选类集没有交集；子样本集序列的平均单个类样本量序列为降序序列；N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括子样本集序列中的第y子样本集及第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；降采样前子样本集和前子样本集的覆盖候选类集相同；并且降采样前子样本集的各单个类样本量靠近或落入第y子样本集的单个类样本量分布区间。程序与方法200存在对应关系。程序的进一步配置情况可参考本公开内容对方法200的描述。

本公开内容的一个方面提供一种其上存储有程序的计算机可读存储介质，当被执行时，该程序使计算机：使用训练后的模型处理待处理对象，其中，训练后的模型为使用本公开内容的模型训练方法200训练的模型。

根据本公开内容一个方面，还提供一种信息处理设备。

图9是根据本公开内容的一个实施例的信息处理设备900的示例性框图。在图9中，中央处理单元(CPU)901根据存储在只读存储器(ROM)902中的程序或从存储部分908加载到随机存取存储器(RAM)903的程序来进行各种处理。在RAM 903中，也根据需要来存储在CPU901执行各种处理时所需的数据等。

CPU 901、ROM 902以及RAM 903经由总线904彼此连接。输入/输出接口905也连接至总线904。

下述部件连接至输入/输出接口905：包括软键盘等的输入部分906；包括诸如液晶显示器(LCD)等的显示器以及扬声器等的输出部分907；诸如硬盘的存储部分908；以及包括网络接口卡如LAN卡、调制解调器等的通信部分909。通信部分909经由诸如英特网、局域网、移动网络的网络或其组合执行通信处理。

驱动器910根据需要也连接至输入/输出接口905。可拆卸介质911如半导体存储器等根据需要安装在驱动器99上，使得从其中读取的程序根据需要被安装到存储部分908。

CPU 901可以运行对应用于训练模型的方法或信息处理方法的程序。

本公开内容的模型训练方法基于包括降采样操作的多阶段模型训练，使得在每个处理阶段，各候选类的样本的数量趋同或相同，使样本分布均匀。本公开内容的信息处理方法基于本公开内容的模型训练方法训练的模型。本公开内容的方法、装置以及存储介质的有益效果至少包括：提高模型的准确度性能，尤其是对低频次出现的对象的处理准确度。

如上所述，根据本公开内容，提供了训练模型和处理信息的原理。需要注意的是，本公开内容的方案的效果不一定限于上述效果，并且除了前面段落中描述的效果之外或代替前面段落中描述的效果，可以取得本说明书中示出的效果中的任何效果或者可以从本说明书中理解的其他效果。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下，各实施例之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开内容的保护范围内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

附记

本公开内容包括但不限于以下方案。

1.一种训练具有分类功能的模型的计算机实现的方法，所述模型被配置成具有多个候选类，其特征在于，所述方法包括：

确定由总训练样本集的N个子样本集构成的子样本集序列；以及

基于所述子样本集序列，分成N个阶段顺序迭代训练所述模型；

其中，所述N个子样本集中的任两个的覆盖候选类集没有交集；

所述子样本集序列的平均单个类样本量序列为降序序列；

所述N个阶段中的第2阶段至第N阶段中的第y阶段的阶段训练样本集包括所述子样本集序列中的第y子样本集及所述第y子样本集之前的所有子样本集构成的前子样本集的降采样前子样本集；

所述降采样前子样本集和所述前子样本集的覆盖候选类集相同；并且

所述降采样前子样本集的各单个类样本量靠近或落入所述第y子样本集的单个类样本量分布区间。

2.根据附记1所述的方法，其中，确定由总训练样本集的N个子样本集构成的子样本集序列包括：

基于所述总训练样本集中各候选类的单个类样本量将所述总训练样本集分组为所述N个子样本集；以及

确定所述N个子样本集的平均单个类样本量降序排列的序列作为所述子样本集序列；

其中，所述N个子样本集中的每个的单个类样本量集中度在预定范围。

3.根据附记2所述的方法，其中，基于所述总训练样本集中各候选类的单个类样本量将所述总训练样本集分组为N个子样本集包括：

通过基于单个类样本量对所述总训练样本集的候选类进行聚类来将所述总训练样本集分组为所述N个子样本集。

4.根据附记1所述的方法，其中，确定由总训练样本集的N个子样本集构成的子样本集序列包括：

将基于所述总训练样本集中各候选类的单个类样本量确定的单个类样本量降序变化的总候选类序列划分成N个候选类子序列；

其中，所述子样本集序列为所述N个候选类子序列的在所述总训练样本集中的对应子样本集构成的序列。

5.根据附记1所述的方法，其中，其中，N为2、3、4、5、6、7、8和9中的一个。

6.根据附记1所述的方法，其中，所述N个阶段中的每个阶段的阶段训练样本集都包括所述子样本集序列中的对应子样本集。

7.根据附记1所述的方法，其中，所述降采样前子样本集是通过参考所述第y子样本集对所述前子样本集进行降采样操作来确定；并且

所述降采样操作被配置成使得：在通过参考参考样本集对目标样本集进行该降采样操作得到降采样目标样本集时，所述降采样目标样本集与所述目标样本集的覆盖候选类集相同，所述降采样目标样本集的各单个类样本量靠近或落入所述参考样本集的单个类样本量分布区间。

8.根据附记7所述的方法，其中，在所述N个阶段中的第2阶段至第N阶段中的每个阶段都进行所述降采样操作。

9.根据附记4所述的方法，其中，所述总候选类序列的关于所述多个候选类的单个类样本量分布为长尾分布。

10根据附记4所述的方法，其中，将基于所述总训练样本集中各候选类的单个类样本量确定的单个类样本量降序变化的总候选类序列划分成N个候选类子序列包括：

参考所述总候选类序列的关于候选类的单个类样本量分布，选择所述总候选类序列中样本量减少50％或更多的相邻候选类之间的位置划分所述总候选类序列。

11.根据附记4所述的方法，其中，在所述总候选类序列的单个类样本量分布梯度局部极小位置划分所述总候选类序列。

12.根据附记7所述的方法，其中，所述降采样操作被配置成使得：在所述阶段训练样本集中，所述子样本集序列中的所述第y子样本集前的每个子样本集的降采样子样本集的平均单个类样本量都基本等于所述第y子样本集的平均单个类样本量。

13.根据附记1所述的方法，其中，所述N个子样本集中的每个子样本集覆盖的候选类的数量不同。

14.根据附记1所述的方法，其中，所述子样本集序列中的在后子样本集比在前子样本集覆盖更多的候选类。

15.根据附记1所述的方法，其中，所述子样本集序列中的在后子样本集的样本量的数量级与在前子样本集的样本量的数量级接近或相同。

16.根据附记7所述的方法，其中，通过参考参考样本集对目标样本集进行该降采样操作得到降采样目标样本集包括：

通过对所述目标样本集中的每个候选类的样本集进行降采样来确定各候选类的降采样样本集使得每个候选类的降采样样本集的样本量靠近或落入所述参考样本集的单个类样本量分布区间；以及

将各候选类的降采样样本集的并集设置为所述降采样目标样本集。

17.根据附记16所述的方法，其中，通过对所述目标样本集中的每个候选类的样本集进行降采样来确定各候选类的降采样样本集包括：

基于所述参考样本集的单个类样本量分布区间确定该候选类的关于该候选类的降采样样本集的样本量k；

基于由所述模型确定的所述目标样本集中的该候选类的样本集中的样本的分类特征将该候选类的样本集中的样本聚类为k个样本簇；以及

基于从所述k个样本簇中的每个选择的代表性样本构建该候选类的降采样样本集。

18.根据附记17所述的方法，其中，选择与距离分类特征空间中的各分类特征簇的中心最近的分类特征对应的样本作为所述k个样本簇中的相应样本簇的代表性样本。

19.一种计算机实现的信息处理方法，其特征在于，包括：

使用根据附记1至18中的一项所述的方法训练的模型处理待处理对象。

20.一种用于训练模型的装置，所述模型被配置成具有多个候选类，其特征在于，包括：

存储器，其上存储有指令；以及

至少一个处理器，与所述存储器连接并且被配置成执行所述指令以：确定由总训练样本集的N个子样本集构成的子样本集序列；以及基于所述子样本集序列，分成N个阶段顺序迭代训练所述模型；

所述子样本集序列的平均单个类样本量序列为降序序列；

Claims

所述子样本集序列的平均单个类样本量序列为降序序列；

2.根据权利要求1所述的方法，其中，确定由总训练样本集的N个子样本集构成的子样本集序列包括：

3.根据权利要求1所述的方法，其中，确定由总训练样本集的N个子样本集构成的子样本集序列包括：

4.根据权利要求1所述的方法，其中，所述降采样前子样本集是通过参考所述第y子样本集对所述前子样本集进行降采样操作来确定；并且

5.根据权利要求3所述的方法，其中，所述总候选类序列的关于所述多个候选类的单个类样本量分布为长尾分布。

6.根据权利要求4所述的方法，其中，通过参考参考样本集对目标样本集进行该降采样操作得到降采样目标样本集包括：

7.根据权利要求6所述的方法，其中，通过对所述目标样本集中的每个候选类的样本集进行降采样来确定各候选类的降采样样本集包括：

8.根据权利要求7所述的方法，其中，选择与距离分类特征空间中的各分类特征簇的中心最近的分类特征对应的样本作为所述k个样本簇中的相应样本簇的代表性样本。

9.一种计算机实现的信息处理方法，其特征在于，包括：

使用根据权利要求1所述的方法训练的模型处理待处理对象。

10.一种用于训练语义分割模型的装置，其特征在于，包括：

存储器，其上存储有指令；以及

至少一个处理器，被配置成执行所述指令以迭代方式训练所述语义分割模型，其中，所述语义分割模型包括语义分割网络，所述语义分割网络包括编码器和解码器，并且训练所述语义分割模型包括：

由图神经网络生成针对分割类别集的外部知识特征；

由所述解码器基于所述编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征；

通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征；

基于所述批次融合特征生成分割结果；以及一种用于训练模型的装置，所述模型被配置成具有多个候选类，其特征在于，包括：

存储器，其上存储有指令；以及

至少一个处理器，与所述存储器连接并且被配置成执行所述指令以：

基于所述子样本集序列，分成N个阶段顺序迭代训练所述模型；其中，所述N个子样本集中的任两个的覆盖候选类集没有交集；

所述子样本集序列的平均单个类样本量序列为降序序列；