CN109635034A

CN109635034A - 训练数据重采样方法、装置、存储介质及电子设备

Info

Publication number: CN109635034A
Application number: CN201811327417.3A
Authority: CN
Inventors: 李伟健; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-04-16
Anticipated expiration: 2038-11-08
Also published as: CN109635034B; WO2020093718A1

Abstract

本公开涉及一种训练数据重采样方法、装置、存储介质及电子设备，包括获取第一时段内的第一原始数据；计算第一原始数据中多个预设分类分别所占的第一比例；根据第一比例的大小关系按照预设规则对多个预设分类进行排序，获得第一排序结果；根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例，所述预设对应关系为所述排名与所述采样比例之间的对应关系；根据多个预设分类分别对应的采样比例对用于建模的训练数据进行重采样。这样，从而解决分类模型对小类别不友好的问题，提高通过该训练数据训练得到的分类模型针对不同应用的分类准确性，从而提高用户体验。

Description

训练数据重采样方法、装置、存储介质及电子设备

技术领域

本公开涉及数据挖掘领域，具体地，涉及一种训练数据重采样方法、装置、存储介质及电子设备。

背景技术

在机器学习中，训练数据中的针对分类模型中不同分类的样本数目经常可能出现相差巨大的情况，例如，在N个训练数据中，属于第一类的样本数目可能与属于第二类的样本数目以及属于第三类的样本数目等都相差巨大(例如属于第一类的样本数目可能占到N个训练数据中的90％，属于第二类和第三类的样本数目可能一共才占到N个训练数据中的10％)，这样直接用样本数目不均衡的训练数据去对分类模型进行训练时，机器学习算法倾向于产生不太令人满意的分类模型，例如可能会造成分类模型对于训练数据中样本数目较少的分类欠拟合、对训练模型中样本数量较多的分类过拟合的情况，实际上，如果不均衡比例超过4:1，分类模型就会偏向于大的类别而忽略小的类别。因此，用没有处理过的不均衡的训练数据训练出的分类模型可能对实际数据的分类效果并不理想。目前，针对训练数据不均衡的情况，通常会采用对训练数据进行重采样的方法。

发明内容

本公开的目的是提供一种训练数据重采样方法、装置、存储介质及电子设备，能够针对训练数据不均衡的情况，根据实际的原始数据中不同分类所占的比例来对训练数据进行重采样处理，从而解决分类模型对小类别不友好的问题。

为了实现上述目的，本公开提供一种训练数据重采样方法，所述方法包括：

获取第一时段内的第一原始数据；

计算所述第一原始数据中多个预设分类分别所占的第一比例；

根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果；

根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例，所述预设对应关系为所述排名与所述采样比例之间的对应关系；

根据所述多个预设分类分别对应的所述采样比例对用于建模的训练数据进行重采样。

可选地，在所述根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果之后，所述方法还包括：

获取第二时段内的第二原始数据；

计算所述第二原始数据中所述多个预设分类分别所占的第二比例；

根据所述第二比例的大小关系按照所述预设规则对所述多个预设分类进行排序，获得第二排序结果；

若所述第一排序结果和所述第二排序结果一致，执行所述根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例的步骤。

可选地，所述方法还包括：

若所述第一排序结果和所述第二排序结果不一致时，重新确定所述第二时段，并将所述第二排序结果确定为第一排序结果；

返回所述获取第二时段内的第二原始数据的步骤。

可选地，当至少两个预设分类的比例相同时，按照所述至少两个预设分类的优先级确定所述至少两个预设分类的排序。

本公开还提供一种训练数据重采样装置，所述装置包括：

第一获取模块，用于获取第一时段内的第一原始数据；

第一计算模块，用于计算所述第一原始数据中多个预设分类分别所占的第一比例；

第一排序模块，用于根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果；

比例获取模块，用于根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例，所述预设对应关系为所述排名与所述采样比例之间的对应关系；

重采样模块，用于根据所述多个预设分类分别对应的所述采样比例对用于建模的训练数据进行重采样。

可选地，在所述第一排序模块根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果之后，所述装置还包括：

第二获取模块，用于获取第二时段内的第二原始数据；

第二计算模块，用于计算所述第二原始数据中所述多个预设分类分别所占的第二比例；

第二排序模块，用于根据所述第二比例的大小关系按照所述预设规则对所述多个预设分类进行排序，获得第二排序结果；

排名比较模块，用于若所述第一排序结果和所述第二排序结果一致，触发所述比例获取模块根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例。

可选地，所述排名比较模块还用于：

触发所述第二获取模块获取第二时段内的第二原始数据。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述方法的步骤。

通过上述技术方案，能够针对训练数据不均衡的情况，根据实际的原始数据中不同分类所占的比例来对训练数据进行重采样处理，从而解决分类模型对小类别不友好的问题，提高通过该训练数据训练得到的分类模型针对不同应用的分类准确性，从而提高用户体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种训练数据重采样方法的流程图。

图2是根据本公开一示例性实施例示出的又一训练数据重采样方法的流程图。

图3是根据本公开一示例性实施例示出的一种训练数据重采样装置的结构框图。

图4是根据本公开一示例性实施例示出的又一训练数据重采样装置的结构框图。

图5是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

由于在建立分类模型时经常会遇到训练数据不均衡的情况，而根据分类不均衡的训练数据训练出来的分类模型经常会偏向占比较多的类别，对占比较多的类别可能会出现过拟合，而对占比较少的类别可能会出现欠拟合的情况，因此，本领域技术人员在建立分类模型时，通常会制定诸如提升分类算法或平衡训练数据的类(数据预处理)的策略，其中，后者因为应用范围广泛而更常使用，即对不均衡的训练数据进行重采样的处理。

根据重采样的原理，通常将重采样分为过采样(over-sampling)和欠采样(under-sampling)，过采样即通过增加训练数据中占比较少的类别的训练数据的数量，从而增加训练数据中少数类的代表性，欠采样即通过减少训练数据中占比较多的类别的训练数据的数量，从而减少训练数据中多数类的代表性，以此，来达到平衡训练数据中不同比例的类别的数据数量，解决训练数据不平衡的问题。重采样是采用的方法通常会为最邻近法、双线性内插法以及三次卷积内插法这三种。

由此，申请人发现，根据不同领域对训练数据重采样需求的不同，相同的重采样方法对训练数据处理的效果也不尽相同，因此，如何根据不同领域的分类分布的实际情况来确定如何对不均衡训练数据进行重采样，是亟需解决的重要问题。

因此，申请人提出了一种训练数据重采样方法。

图1是根据本公开一示例性实施例示出的一种训练数据重采样方法的流程图，如图1所示，所述方法包括步骤101至步骤105。

在步骤101中，获取第一时段内的第一原始数据。所述原始数据是指分类模型所适用的实际应用中产生的实际数据，例如，对在线小视频进行分类的分类模型所应用的在线小视频应用中实际产生的数据，所述第一时段内的第一原始数据可以为例如在2018年10月15日0:00到2018年10月16日0:00之间用户实际上传的小视频数据。

在步骤102中，计算所述第一原始数据中多个预设分类分别所占的第一比例。在获取到该第一原始数据之后，对该第一原始数据中多个预设分类分别所占的第一比例进行计算，该预设分类即为人为设定好的不同的分类，例如风景类、宠物类、舞蹈类、技术类、搞笑类等等。步骤102中即可以得到在该第一时段内获取到的第一原始数据中不同预设分类分别所占的第一比例。

在步骤103中，根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果。

在步骤104中，根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例，所述预设对应关系为所述排名与所述采样比例之间的对应关系。所述预设规则可以为从大到小，或者从小到大等，该预设规则应该与该预设对应关系互相配合，从而获取能够反映该第一原始数据中各个预设分类实际分布情况的采样比例。例如，在步骤103中可以按照第一比例从大到小的顺序对该多个预设分类进行排序，该预设对应关系可以为例如表1所示：

表1

排名	1	2	3	4	5
						采样比例	50％	20％	10％	10％	10％

其中，该预设分类不限于如表1中所示的5类，可以为其他任意个数。只要每个预设分类所对应的采样比例的总和为100％即可。由此，如表1所示，5个预设分类就能够分别得到与之相对应的采样比例。

在步骤105中，根据所述多个预设分类分别对应的所述采样比例对用于建模的训练数据进行重采样。在通过步骤101至步骤104得到第一时段的第一原始数据中不同预设分类分别对应的采样比例之后，就可以根据该采样比例对训练数据进行重采样了，本公开中对重采样采用的上采样还是下采样，以及具体何种采样方法不做限制，只要是根据图1中所示的步骤101至步骤104而得到的各个预设分类的采样比例进行重采样即可。

图2是根据本公开一示例性实施例示出的又一训练数据重采样方法的流程图，如图2所示，所述方法除了包括图1中所示的步骤101至步骤105之外，还包括步骤201至步骤205。

在步骤201中，获取第二时段内的第二原始数据。本公开中该第二时段与第一时段不相同，但允许第二时段和第一时段之间有重叠的时间，而且没有固定的先后顺序关系，即第一时段在第二时段之前或之后都可，但在先的时段的结束时间与在后的时段的开始时间之间间隔需要小于预设阈值。该预设阈值可以为例如24小时、48小时等，这样能够避免第一时段与第二时段选取间隔过大，所对应的第一原始数据和第二原始数据的数据内容变化过大，从而导致影响其中的各个预设分类所占比例的问题。其中，该第二原始数据中对原始数据的定义与上述第一原始数据中对原始数据的定义相同。

在步骤202中，计算第二原始数据中多个预设分类分别所占的第二比例。

在步骤203中，根据第二比例的大小关系按照预设规则对多个预设分类进行排序，获得第二排序结果。上述步骤202和步骤203与图1中所示的步骤102和步骤103中的步骤相似，步骤102和步骤103是根据在第一原始数据中的各个预设分类所占的比例确定各个预设分类所对应的采样比例，步骤202和步骤203是根据在第二原始数据中的各个预设分类所占的比例确定各个预设分类所对应的采样比例，分别得到了第一排序结果和第二排序结果。

在步骤204中，对在步骤103和步骤203中分别得到的第一排序结果和第二排序结果进行比较，如果二者一致，则表示该第一排序结果和第二排序结果是准确的，可以用于确定各个预设分类的不同采样比例，因此转至步骤104来确定个预设分类对应的采样比例，最后执行步骤105来根据各个预设分类对应的采样比例来对用于建模的训练数据进行重采样，以解决由于训练数据不均衡导致的分类模型效果的问题。而二者不一致时，转至步骤205。

在步骤205中，重新确定第二时段，并将第二排序结果确定为第一排序结果。其中，重新确定的第二时段，与在步骤201中使用的第二时段不相同，重新确定的第二时段与在步骤201中使用的第二时段之间的关系的限定，与在步骤201中使用的第二时段与第一时段的关系相似，都允许二者之间有重叠的时间，而且没有固定的先后顺序关系，另外，重新确定的第二时段也不能与第一时段以及之前所有曾经被确定为第二时段的时段相同，这样，保证了每一次获取原始数据进行比例计算以及排序时，都能保证选取的内容能够真实反映实际应用中不同预设分类所占的比例，且不重复。在重新确定了第二时段之后，将上述的第二排序结果确定为第一排序结果，并返回步骤201重新获取第二排序结果，进而对新获取的第二排序结果与上一次获取的曾经是第二排序结果的第一排序结果进行比较，从而来决定是否能够根据一致的采样比例对训练数据重采样。

综上，在本实施例中，先对第一时段的第一原始数据中各个预设分类所占的比例得到第一排序结果，然后对第二时段的第二原始数据中的各个预设分类所占的比例得到第二排序结果，并对第一排序结果和第二排序结果进行比较，如果一致，则可以表征该排序结果无误差，可以直接根据该排名确定各个预设分类的采样比例，进而根据该采样比例对训练数据重采样；如果不一致，则表征二者中有至少一者是由误差的，因此，需要重新选取新的时段中的新的原始数据，并重新根据新的原始数据得到一个新的排序结果，并与最近一次获取到的排序结果进行比较，直到比较结果一致为止。当该比较结果经过多次比较之后达到一致时，此时就根据该一致的排序结果来确定各个预设分类对应的采样比例，并根据该采样比例对训练数据进行重采样。

通过上述技术方案，通过至少两次对不同时段的不同原始数据中的各个预设分类所占的比例排名进行比较，就能够确定出一个能够真正反映原始数据中不同预设分类所占比例的排名，避免了由于所选取的时段比较特殊或者偶发性事件导致的所确定的原始数据中各个预设分类所占比例不能很好的反映实际原始数据中各个预设分类所占比例的情况，进而保证了根据该排名确定的采样比例进行重采样时的准确性，从而使得根据重采样后的训练数据训练得到的分类模型的效果更加得到了提升。

在一种可能的实施方式中，当至少两个预设分类的比例相同时，按照所述至少两个预设分类的优先级确定所述至少两个预设分类的排序。在图1中所示的步骤103和图2所示的步骤203中根据各个原始数据中多个预设分类分别所占的比例的大小关系按照预设规则进行排序时，如果出现两个预设分类所占的比例相同时，可以根据比例相同的预设分类的优先级来确定这些相同比例的预设分类的先后顺序。例如，令预设分类A、预设分类B、预设分类C在一个时段中的原始数据中所占的比例都为2％，预设分类A、预设分类B、预设分类C的优先级为预设分类A>预设分类B>预设分类C，那么在进行排序时，如果按照从大到小的预设规则，那么应该按照预设分类A排在三者之首，其次是预设分类B，最后是预设分类C，如果是按照从小到大的规则，则与之正好相反，预设分类C应该排在最前，其次是预设分类B，最后是预设分类A。

图3是根据本公开一示例性实施例示出的一种训练数据重采样装置的结构框图，如图3所示，所述装置包括：第一获取模块10，用于获取第一时段内的第一原始数据；第一计算模块20，用于计算所述第一原始数据中多个预设分类分别所占的第一比例；第一排序模块30，用于根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果；比例获取模块40，用于根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例，所述预设对应关系为所述排名与所述采样比例之间的对应关系；重采样模块50，用于根据所述多个预设分类分别对应的所述采样比例对用于建模的训练数据进行重采样。

图4是根据本公开一示例性实施例示出的又一训练数据重采样装置的结构框图，如图4所示，在所述第一排序模块30根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果之后，所述装置还包括：第二获取模块60，用于获取第二时段内的第二原始数据；第二计算模块70，用于计算所述第二原始数据中所述多个预设分类分别所占的第二比例；第二排序模块80，用于根据所述第二比例的大小关系按照所述预设规则对所述多个预设分类进行排序，获得第二排序结果；排名比较模块90，用于若所述第一排序结果和所述第二排序结果一致，触发所述比例获取模块40根据各预设分类的排名和预设对应关系，确定各预设分类对应的采样比例。

在一种可能的实施方式中，所述排名比较模块90还用于：若所述第一排序结果和所述第二排序结果不一致时，重新确定所述第二时段，并将所述第二排序结果确定为第一排序结果；触发所述第二获取模块60获取第二时段内的第二原始数据。

在一种可能的实施方式中，当至少两个预设分类的比例相同时，按照所述至少两个预设分类的优先级确定所述至少两个预设分类的排序

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。例如，电子设备500可以被提供为一服务器。参照图5，电子设备500包括处理器522，其数量可以为一个或多个，以及存储器532，用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器522可以被配置为执行该计算机程序，以执行上述的训练数据重采样方法。

另外，电子设备500还可以包括电源组件526和通信组件550，该电源组件526可以被配置为执行电子设备500的电源管理，该通信组件550可以被配置为实现电子设备500的通信，例如，有线或无线通信。此外，该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的训练数据重采样方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器532，上述程序指令可由电子设备500的处理器522执行以完成上述的训练数据重采样方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种训练数据重采样方法，其特征在于，所述方法包括：

获取第一时段内的第一原始数据；

2.根据权利要求1所述的方法，其特征在于，在所述根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果之后，所述方法还包括：

获取第二时段内的第二原始数据；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

返回所述获取第二时段内的第二原始数据的步骤。

4.根据权利要求1-3中任一项所述的方法，其特征在于，当至少两个预设分类的比例相同时，按照所述至少两个预设分类的优先级确定所述至少两个预设分类的排序。

5.一种训练数据重采样装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一时段内的第一原始数据；

6.根据权利要求5所述的装置，其特征在于，在所述第一排序模块根据所述第一比例的大小关系按照预设规则对所述多个预设分类进行排序，获得第一排序结果之后，所述装置还包括：

第二获取模块，用于获取第二时段内的第二原始数据；

7.根据权利要求6所述的装置，其特征在于，所述排名比较模块还用于：

触发所述第二获取模块获取第二时段内的第二原始数据。

8.根据权利要求5-7中任一项所述的装置，其特征在于，当至少两个预设分类的比例相同时，按照所述至少两个预设分类的优先级确定所述至少两个预设分类的排序。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-4中任一项所述方法的步骤。