CN109800891A

CN109800891A - 一种机器学习冗余数据删除方法及系统

Info

Publication number: CN109800891A
Application number: CN201811547099.1A
Authority: CN
Inventors: 韩锐; 刘驰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-05-24

Abstract

一种机器学习冗余数据删除方法及系统，获取机器学习模型对应的被训练数据；对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点；在训练过程中，基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点；基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据，量化的评价输入数据点对参数的影响值，从而为移除冗余数据提供了依据，减少了资源的浪费，准确度高。

Description

一种机器学习冗余数据删除方法及系统

技术领域

本发明涉及大数据领域，具体涉及一种机器学习冗余数据删除方法及系统。

背景技术

机器学习近来已经在人们生活中无处不在，其成功可归因于它从数据集中提取知识(模型)和支持决策的能力。而迭代优化是当前训练机器学习模型的首要方法，其通过多次迭代最小化输入数据的估计值和实际值直接的损失(误差)。而训练的模型用参数来描述，模型的好坏通过其在测试集上的精度指标(如分类准确率，回归分析误差)来衡量。

在大数据时代，很多机器学习应用需要在训练中处理海量的输入数据实例从而获得好的模型精度。然而，这往往导致很长的训练时间，而成为当前大数据机器学习的一个瓶颈。因此，如何有效的处理大量输入数据，依然是当前机器学习系统的一个突出挑战。

面向海量数据的机器学习技术主要可以归为精确处理和近似处理两大类：

(1)精确处理：数据并行化技术以并行方式处理数据以缩短训练过程，并专注于解决并行化中的问题，如落伍子任务(Straggling task)和数据局部性(data locality)。参数服务器技术旨在降低大规模分布式机器学习中的局部变量传输和同步开销。精确处理需要消耗大量资源而超出用户接受的预算。

(2)近似处理：这类技术对输入数据进行压缩和删除，或者采取近似的代码，从而加快训练速度。然而，跳过的输入数据或者近似的代码都可能对最后的模型精确度有影响，在有限资源的情况下往往导致较大的准确度损失。

综上，现有技术在训练过程中，同等处理每次迭代选取的输入数据点。然而，在实际训练过程中，不同数据点对模型参数的影响大不相同。显示了3个典型的迭代机器学习算法：如图6(a)所示，回归分析，如图6(b)所示，SVM分类器和如图6(c)所示，卷积神经网络CNN(Convolutional Neural Networks)。在每个算法中，仅有少量的有效输入数据点，即处理这些数据对模型参数更新有影响。而大部分的输入数据点属于冗余数据。通过真实数据集对这三个算法的评测显示，迭代训练过程中存在超过75％的输入数据点。因此，现有技术将大量训练时间和计算资源浪费在非关键数据点上，是进一步提升训练性能的瓶颈。

发明内容

为了解决现有技术中所存在的问题，本发明提供一种机器学习冗余数据删除方法及系统。

本发明提供的技术方案是：

一种机器学习冗余数据删除方法，所述方法包括：

获取机器学习模型对应的被训练数据；

对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点；

在训练过程中，基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点；

基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。

优选的，所述对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点，包括：

基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维；

基于所述降维数据和数据维度划分为多个子集；

基于所述划分的子集对应的所述被训练数据计算每个子集的平均值；

基于所述平均值进行压缩，转换成对应的粗粒度压缩点。

优选的，所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据，之前还包括：

获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界；

基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较；

保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据，删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。

优选的，所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据，包括：

当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界，大于所述有效点下界时：

基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较；

删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。

优选的，所述粗粒度压缩点或细粒度压缩点参数的影响值，计算式如下：

式中，e为粗粒度压缩点或细粒度压缩点的影响值；为机器学习被训练数据的特征向量值；y为机器学习被训练数据的特征向量值对应的标签值；g为机器学习被训练数据的梯度；Θ所有机器学习被训练数据集合；θ为机器学习被训练数据集合当前计算的参数。

一种迭代机器学习冗余数据删除系统，所述系统包括：

获取模块：用于获取机器学习模型对应的被训练数据；

第一压缩模块：用于对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点；

第二压缩模块：用于在训练过程中，基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点；

删除模块：用于基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。

优选的，所述第一压缩模块，包括：降维单元、划分单元、计算单元和压缩单元；

述降维单元，用于基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维；

所述划分单元，用于基于所述降维数据和数据维度划分为多个子集；

所述计算单元，用于基于所述划分的子集对应的所述被训练数据计算每个子集的平均值；

所述压缩单元，用于基于所述平均值进行压缩，转换成对应的粗粒度压缩点。

优选的，所述删除模块，还包括：第一删除模块；

第一删除模块，包括：获取单元、比较单元和删除单元；

所述获取单元，用于获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界；

所述比较单元，用于基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较；

所述删除单元，用于保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据，删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。

优选的，所述删除单元，包括：比较单元和删除单元；

所述判断单元，用于当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界，大于所述有效点下界时：

所述删除单元，用于删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。

优选的，所述删除单元，包括粗粒度压缩点或细粒度压缩点参数的影响值，计算式如下：

与现有技术相比，本发明的有益效果为：

1、本发明提供的一种机器学习冗余数据删除方法及系统，获取机器学习模型对应的被训练数据；对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点；在训练过程中，基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点；基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据，量化的评价输入数据点对参数的影响值，从而为移除冗余数据提供了依据，减少了资源的浪费，准确度高。

2、本发明提供的一种机器学习冗余数据删除方法及系统，使用层次化的压缩点来移除冗余数据。其中，粗粒度的压缩点数量较少，可以进行快速的处理；而细粒度的压缩点可以更准确地逼近原始输入数据，提供有效的冗余数据删除，从而显著降低训练过程中的通信和计算成本，降低整体训练时间，同时只有很小的准确度的损失。

3、本发明提供的一种机器学习冗余数据删除方法及系统，使用真实数据集对典型迭代机器学习算法的评测显示，在整个训练过程中，生成和处理压缩点的时间分别小于1％和3％。通过删除冗余数据，可以将训练时间缩短5倍，同时只有小于1％的准确度损失。

附图说明

图1为本发明的机器学习冗余数据删除方法结构示意图；

图2为本发明的面向海量数据的迭代机器学习冗余数据删除总体方案示意图；

图3为本发明的示例压缩点生成；

图4为本发明的示例压缩点和原始输入的层次结构和冗余数据删除；

图5为本发明的基于层次化压缩点的冗余数据删除方法示意图；

图6(a)为本发明的回归算法有效输入数据点示意图；

图6(b)为本发明的SVM分类器冗余输入数据点示意图；

图6(c)为本发明的卷积神经网络有效输入数据点示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

本发明提出一种面向海量数据的迭代机器学习冗余数据删除方法。旨在解决两个关键问题：是否有量化的指标，能够有效评估输入数据点是否冗余；以及，如何在迭代训练过程中，有效删除冗余数据来提升训练性能。

实施例1：如图1所示，本发明包括如下步骤：

步骤一：获取机器学习模型对应的被训练数据；

步骤二：对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点；

步骤三：在训练过程中，基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点；

步骤四：基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。

基于上述架构和指标，包括训练前阶段和迭代训练阶段。如图2所示；训练前阶段通过压缩点来近似表示原始输入数据点并保护它们的相似性，即每一个压缩点均代表多个相似的原始数据点。

具体的如下：

步骤一：获取机器学习模型对应的被训练数据；

获取机器学习模型过程中，大量的被训练数据。

1.数据降维。

这步使用增量奇异值分解SVD(Singular Value Decomposition)，将原始N×d的输入数据集(稀疏或稠密)，降维为N×v的稠密数据集(v<<d)。增量SVD因为两个原因被使用。首先，它最小化原始数据集合降维数据集之间的差距(Frobenius规范)。依次，它的执行时间独立于维度d，可以快速处理高维数据集。

2.基于LSH的数据划分。

这步将N×v的降维数据集中的N个数据点划分为2^v个子集，每个部分包括个相似数据点。具体来说，这步从整个数据集开始，递归地进行v次划分。每一次划分选择一个维度，根据该维度的值将每个子集的数据点从小到大排序，并将排好序的点均分为2个部分。这种划分保证了每一部分的点，都包含了相似的属性值。

3.信息聚合。

根据2的划分结果(即2^v个子集)，这步将每个子集所对应的原始输入数据点(不是降维数据点)，压缩其属性信息，转换成一个压缩点。在d个维度上，压缩点的每一个属性值，都是该子集上所有原始数据点在对应维度属性值的平均值。

如图3所示，显示了本方案中的训练前阶段压缩点生成方法。首先将12×5的输入数据降维为12×5的数据集。我们可以在原始数据集X中拥有相似属性的数据点(如和)，在降维数据集中(和)依然相似。将降维数据集划分为4个部分，每一部分包含3个相似的数据点。最后，将每个部分的点进行信息聚会，转换为一个压缩点。

生成m个粗粒度的压缩点，同时对于每一个压缩点，生成多个相对应的细粒度压缩点。

步骤四：基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据；

针对每个粗粒度压缩点计算其对参数更新的影响值e⁽ⁱ⁾(1≤i≤m)。

数据点对参数更新影响的指标。一个典型的迭代机器学习算法，从初始(随机)的模型参数出发，在每次迭代中不断使用梯度下降的方法更新参数。因此，如果处理一个数据点对参数更新的影响值，可以通过这个点在所有参数上的梯度的平方和来衡量：

如图4所示，显示了本方案中迭代训练阶段所使用的层次化压缩点，包括m个粗粒度压缩点，每个点对应多个细粒度压缩点。同时，每个细粒度压缩点又对应一组原始数据点，并对这些数据点提供准确近似信息。基于这两层的压缩点，本方案首先计算粗粒度压缩点。

使用有效点上界筛选压缩点，删除冗余数据。

如图5所示，具体来说，对于影响值大于上界的压缩点(即处理该点对参数更新有明显影响)，将其加入有效点数据集U。否则，判断其影响值e⁽ⁱ⁾是否大于有效点下界(小于下界则对参数更新没有影响)。将大于下界的粗粒度压缩点，进一步获取其对应的细粒度压缩点，计算这些点对参数更新的影响值，并将影响值大于有效点上界的细粒度压缩点加入U。

最后，返回所有有效点数据集U中压缩点对应的原始输入数据，删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据和所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。

实施例2：

基于同一种发明构思，本发明还提供了一种迭代机器学习冗余数据删除系统，所述系统包括：

获取模块：用于获取机器学习模型对应的被训练数据；

优选的，所述删除模块，还包括：第一删除模块；

第一删除模块，包括：获取单元、比较单元和删除单元；

优选的，所述删除单元，包括：比较单元和删除单元；

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种机器学习冗余数据删除方法，其特征在于，所述方法包括：

获取机器学习模型对应的被训练数据；

2.如权利要求1所述的迭代机器学习冗余数据删除方法，其特征在于，所述对所述被训练数据采用设定的降维方式进行压缩处理，得到粗粒度压缩点，包括：

基于所述降维数据和数据维度划分为多个子集；

基于所述平均值进行压缩，转换成对应的粗粒度压缩点。

3.如权利要求1所述的迭代机器学习冗余数据删除方法，其特征在于，所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据，之前还包括：

4.如权利要求3所述的迭代机器学习冗余数据删除方法，其特征在于，所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据，包括：

5.如权利要求1或3所述的迭代机器学习冗余数据删除方法，其特征在于，所述粗粒度压缩点或细粒度压缩点参数的影响值，计算式如下：

6.一种迭代机器学习冗余数据删除系统，其特征在于，所述系统包括：

获取模块：用于获取机器学习模型对应的被训练数据；

7.如权利要求6所述的迭代机器学习冗余数据删除系统，其特征在于，所述第一压缩模块，包括：降维单元、划分单元、计算单元和压缩单元；

8.如权利要求6所述的迭代机器学习冗余数据删除系统，其特征在于，所述删除模块，还包括：第一删除模块；

第一删除模块，包括：获取单元、比较单元和删除单元；

9.如权利要求6所述的迭代机器学习冗余数据删除系统，其特征在于，所述删除单元，包括：比较单元和删除单元；

10.如权利要求8或9所述的迭代机器学习冗余数据删除系统，其特征在于，所述删除单元，包括粗粒度压缩点或细粒度压缩点参数的影响值，计算式如下：