CN109800891A - 一种机器学习冗余数据删除方法及系统 - Google Patents

一种机器学习冗余数据删除方法及系统 Download PDF

Info

Publication number
CN109800891A
CN109800891A CN201811547099.1A CN201811547099A CN109800891A CN 109800891 A CN109800891 A CN 109800891A CN 201811547099 A CN201811547099 A CN 201811547099A CN 109800891 A CN109800891 A CN 109800891A
Authority
CN
China
Prior art keywords
data
point
machine learning
compression
compression point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811547099.1A
Other languages
English (en)
Inventor
韩锐
刘驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201811547099.1A priority Critical patent/CN109800891A/zh
Publication of CN109800891A publication Critical patent/CN109800891A/zh
Pending legal-status Critical Current

Links

Abstract

一种机器学习冗余数据删除方法及系统,获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,量化的评价输入数据点对参数的影响值,从而为移除冗余数据提供了依据,减少了资源的浪费,准确度高。

Description

一种机器学习冗余数据删除方法及系统
技术领域
本发明涉及大数据领域,具体涉及一种机器学习冗余数据删除方法及系统。
背景技术
机器学习近来已经在人们生活中无处不在,其成功可归因于它从数据集中提取知识(模型)和支持决策的能力。而迭代优化是当前训练机器学习模型的首要方法,其通过多次迭代最小化输入数据的估计值和实际值直接的损失(误差)。而训练的模型用参数来描述,模型的好坏通过其在测试集上的精度指标(如分类准确率,回归分析误差)来衡量。
在大数据时代,很多机器学习应用需要在训练中处理海量的输入数据实例从而获得好的模型精度。然而,这往往导致很长的训练时间,而成为当前大数据机器学习的一个瓶颈。因此,如何有效的处理大量输入数据,依然是当前机器学习系统的一个突出挑战。
面向海量数据的机器学习技术主要可以归为精确处理和近似处理两大类:
(1)精确处理:数据并行化技术以并行方式处理数据以缩短训练过程,并专注于解决并行化中的问题,如落伍子任务(Straggling task)和数据局部性(data locality)。参数服务器技术旨在降低大规模分布式机器学习中的局部变量传输和同步开销。精确处理需要消耗大量资源而超出用户接受的预算。
(2)近似处理:这类技术对输入数据进行压缩和删除,或者采取近似的代码,从而加快训练速度。然而,跳过的输入数据或者近似的代码都可能对最后的模型精确度有影响,在有限资源的情况下往往导致较大的准确度损失。
综上,现有技术在训练过程中,同等处理每次迭代选取的输入数据点。然而,在实际训练过程中,不同数据点对模型参数的影响大不相同。显示了3个典型的迭代机器学习算法:如图6(a)所示,回归分析,如图6(b)所示,SVM分类器和如图6(c)所示,卷积神经网络CNN(Convolutional Neural Networks)。在每个算法中,仅有少量的有效输入数据点,即处理这些数据对模型参数更新有影响。而大部分的输入数据点属于冗余数据。通过真实数据集对这三个算法的评测显示,迭代训练过程中存在超过75%的输入数据点。因此,现有技术将大量训练时间和计算资源浪费在非关键数据点上,是进一步提升训练性能的瓶颈。
发明内容
为了解决现有技术中所存在的问题,本发明提供一种机器学习冗余数据删除方法及系统。
本发明提供的技术方案是:
一种机器学习冗余数据删除方法,所述方法包括:
获取机器学习模型对应的被训练数据;
对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
优选的,所述对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点,包括:
基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
基于所述降维数据和数据维度划分为多个子集;
基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
优选的,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,之前还包括:
获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;
基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;
保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。
优选的,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,包括:
当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:
基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;
删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
优选的,所述粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
一种迭代机器学习冗余数据删除系统,所述系统包括:
获取模块:用于获取机器学习模型对应的被训练数据;
第一压缩模块:用于对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
第二压缩模块:用于在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
删除模块:用于基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
优选的,所述第一压缩模块,包括:降维单元、划分单元、计算单元和压缩单元;
述降维单元,用于基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
所述划分单元,用于基于所述降维数据和数据维度划分为多个子集;
所述计算单元,用于基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
所述压缩单元,用于基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
优选的,所述删除模块,还包括:第一删除模块;
第一删除模块,包括:获取单元、比较单元和删除单元;
所述获取单元,用于获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;
所述比较单元,用于基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;
所述删除单元,用于保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。
优选的,所述删除单元,包括:比较单元和删除单元;
所述判断单元,用于当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:
基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;
所述删除单元,用于删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
优选的,所述删除单元,包括粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
与现有技术相比,本发明的有益效果为:
1、本发明提供的一种机器学习冗余数据删除方法及系统,获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,量化的评价输入数据点对参数的影响值,从而为移除冗余数据提供了依据,减少了资源的浪费,准确度高。
2、本发明提供的一种机器学习冗余数据删除方法及系统,使用层次化的压缩点来移除冗余数据。其中,粗粒度的压缩点数量较少,可以进行快速的处理;而细粒度的压缩点可以更准确地逼近原始输入数据,提供有效的冗余数据删除,从而显著降低训练过程中的通信和计算成本,降低整体训练时间,同时只有很小的准确度的损失。
3、本发明提供的一种机器学习冗余数据删除方法及系统,使用真实数据集对典型迭代机器学习算法的评测显示,在整个训练过程中,生成和处理压缩点的时间分别小于1%和3%。通过删除冗余数据,可以将训练时间缩短5倍,同时只有小于1%的准确度损失。
附图说明
图1为本发明的机器学习冗余数据删除方法结构示意图;
图2为本发明的面向海量数据的迭代机器学习冗余数据删除总体方案示意图;
图3为本发明的示例压缩点生成;
图4为本发明的示例压缩点和原始输入的层次结构和冗余数据删除;
图5为本发明的基于层次化压缩点的冗余数据删除方法示意图;
图6(a)为本发明的回归算法有效输入数据点示意图;
图6(b)为本发明的SVM分类器冗余输入数据点示意图;
图6(c)为本发明的卷积神经网络有效输入数据点示意图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
本发明提出一种面向海量数据的迭代机器学习冗余数据删除方法。旨在解决两个关键问题:是否有量化的指标,能够有效评估输入数据点是否冗余;以及,如何在迭代训练过程中,有效删除冗余数据来提升训练性能。
实施例1:如图1所示,本发明包括如下步骤:
步骤一:获取机器学习模型对应的被训练数据;
步骤二:对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
步骤三:在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
步骤四:基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
基于上述架构和指标,包括训练前阶段和迭代训练阶段。如图2所示;训练前阶段通过压缩点来近似表示原始输入数据点并保护它们的相似性,即每一个压缩点均代表多个相似的原始数据点。
具体的如下:
步骤一:获取机器学习模型对应的被训练数据;
获取机器学习模型过程中,大量的被训练数据。
步骤二:对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
1.数据降维。
这步使用增量奇异值分解SVD(Singular Value Decomposition),将原始N×d的输入数据集(稀疏或稠密),降维为N×v的稠密数据集(v<<d)。增量SVD因为两个原因被使用。首先,它最小化原始数据集合降维数据集之间的差距(Frobenius规范)。依次,它的执行时间独立于维度d,可以快速处理高维数据集。
2.基于LSH的数据划分。
这步将N×v的降维数据集中的N个数据点划分为2v个子集,每个部分包括个相似数据点。具体来说,这步从整个数据集开始,递归地进行v次划分。每一次划分选择一个维度,根据该维度的值将每个子集的数据点从小到大排序,并将排好序的点均分为2个部分。这种划分保证了每一部分的点,都包含了相似的属性值。
3.信息聚合。
根据2的划分结果(即2v个子集),这步将每个子集所对应的原始输入数据点(不是降维数据点),压缩其属性信息,转换成一个压缩点。在d个维度上,压缩点的每一个属性值,都是该子集上所有原始数据点在对应维度属性值的平均值。
如图3所示,显示了本方案中的训练前阶段压缩点生成方法。首先将12×5的输入数据降维为12×5的数据集。我们可以在原始数据集X中拥有相似属性的数据点(如),在降维数据集中()依然相似。将降维数据集划分为4个部分,每一部分包含3个相似的数据点。最后,将每个部分的点进行信息聚会,转换为一个压缩点。
步骤三:在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
生成m个粗粒度的压缩点,同时对于每一个压缩点,生成多个相对应的细粒度压缩点。
步骤四:基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据;
针对每个粗粒度压缩点计算其对参数更新的影响值e(i)(1≤i≤m)。
数据点对参数更新影响的指标。一个典型的迭代机器学习算法,从初始(随机)的模型参数出发,在每次迭代中不断使用梯度下降的方法更新参数。因此,如果处理一个数据点对参数更新的影响值,可以通过这个点在所有参数上的梯度的平方和来衡量:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
如图4所示,显示了本方案中迭代训练阶段所使用的层次化压缩点,包括m个粗粒度压缩点,每个点对应多个细粒度压缩点。同时,每个细粒度压缩点又对应一组原始数据点,并对这些数据点提供准确近似信息。基于这两层的压缩点,本方案首先计算粗粒度压缩点。
使用有效点上界筛选压缩点,删除冗余数据。
如图5所示,具体来说,对于影响值大于上界的压缩点(即处理该点对参数更新有明显影响),将其加入有效点数据集U。否则,判断其影响值e(i)是否大于有效点下界(小于下界则对参数更新没有影响)。将大于下界的粗粒度压缩点,进一步获取其对应的细粒度压缩点,计算这些点对参数更新的影响值,并将影响值大于有效点上界的细粒度压缩点加入U。
最后,返回所有有效点数据集U中压缩点对应的原始输入数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据和所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
实施例2:
基于同一种发明构思,本发明还提供了一种迭代机器学习冗余数据删除系统,所述系统包括:
获取模块:用于获取机器学习模型对应的被训练数据;
第一压缩模块:用于对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
第二压缩模块:用于在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
删除模块:用于基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
优选的,所述第一压缩模块,包括:降维单元、划分单元、计算单元和压缩单元;
述降维单元,用于基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
所述划分单元,用于基于所述降维数据和数据维度划分为多个子集;
所述计算单元,用于基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
所述压缩单元,用于基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
优选的,所述删除模块,还包括:第一删除模块;
第一删除模块,包括:获取单元、比较单元和删除单元;
所述获取单元,用于获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;
所述比较单元,用于基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;
所述删除单元,用于保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。
优选的,所述删除单元,包括:比较单元和删除单元;
所述判断单元,用于当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:
基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;
所述删除单元,用于删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
优选的,所述删除单元,包括粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种机器学习冗余数据删除方法,其特征在于,所述方法包括:
获取机器学习模型对应的被训练数据;
对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
2.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点,包括:
基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
基于所述降维数据和数据维度划分为多个子集;
基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
3.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,之前还包括:
获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;
基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;
保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。
4.如权利要求3所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,包括:
当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:
基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;
删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
5.如权利要求1或3所述的迭代机器学习冗余数据删除方法,其特征在于,所述粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
6.一种迭代机器学习冗余数据删除系统,其特征在于,所述系统包括:
获取模块:用于获取机器学习模型对应的被训练数据;
第一压缩模块:用于对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
第二压缩模块:用于在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
删除模块:用于基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
7.如权利要求6所述的迭代机器学习冗余数据删除系统,其特征在于,所述第一压缩模块,包括:降维单元、划分单元、计算单元和压缩单元;
述降维单元,用于基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
所述划分单元,用于基于所述降维数据和数据维度划分为多个子集;
所述计算单元,用于基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
所述压缩单元,用于基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
8.如权利要求6所述的迭代机器学习冗余数据删除系统,其特征在于,所述删除模块,还包括:第一删除模块;
第一删除模块,包括:获取单元、比较单元和删除单元;
所述获取单元,用于获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;
所述比较单元,用于基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;
所述删除单元,用于保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。
9.如权利要求6所述的迭代机器学习冗余数据删除系统,其特征在于,所述删除单元,包括:比较单元和删除单元;
所述判断单元,用于当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:
基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;
所述删除单元,用于删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
10.如权利要求8或9所述的迭代机器学习冗余数据删除系统,其特征在于,所述删除单元,包括粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
CN201811547099.1A 2018-12-18 2018-12-18 一种机器学习冗余数据删除方法及系统 Pending CN109800891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811547099.1A CN109800891A (zh) 2018-12-18 2018-12-18 一种机器学习冗余数据删除方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811547099.1A CN109800891A (zh) 2018-12-18 2018-12-18 一种机器学习冗余数据删除方法及系统

Publications (1)

Publication Number Publication Date
CN109800891A true CN109800891A (zh) 2019-05-24

Family

ID=66556956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811547099.1A Pending CN109800891A (zh) 2018-12-18 2018-12-18 一种机器学习冗余数据删除方法及系统

Country Status (1)

Country Link
CN (1) CN109800891A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475848A (zh) * 2020-04-30 2020-07-31 北京理工大学 保障边缘计算数据隐私的全局和局部低噪声训练方法
CN115730592A (zh) * 2022-11-30 2023-03-03 贵州电网有限责任公司信息中心 电网冗余数据剔除方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475848A (zh) * 2020-04-30 2020-07-31 北京理工大学 保障边缘计算数据隐私的全局和局部低噪声训练方法
CN111475848B (zh) * 2020-04-30 2022-10-11 北京理工大学 保障边缘计算数据隐私的全局和局部低噪声训练方法
CN115730592A (zh) * 2022-11-30 2023-03-03 贵州电网有限责任公司信息中心 电网冗余数据剔除方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109993299B (zh) 数据训练方法及装置、存储介质、电子装置
Karloff et al. A model of computation for MapReduce
Ravi et al. Large scale distributed semi-supervised learning using streaming approximation
CN108491817A (zh) 一种事件检测模型训练方法、装置以及事件检测方法
Han et al. Signal processing and networking for big data applications
CN113064879A (zh) 数据库参数调整方法、装置及计算机可读存储介质
Baldán et al. Distributed FastShapelet Transform: a Big Data time series classification algorithm
CN109344969B (zh) 神经网络系统及其训练方法以及计算机可读介质
CN109597810B (zh) 一种任务切分方法、装置、介质及电子设备
CN108197656A (zh) 一种基于cuda的属性约简方法
CN109800891A (zh) 一种机器学习冗余数据删除方法及系统
Han et al. SlimML: Removing non-critical input data in large-scale iterative machine learning
Goodrich Simulating parallel algorithms in the MapReduce framework with applications to parallel computational geometry
CN109657711A (zh) 一种图像分类方法、装置、设备及可读存储介质
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
Iqbal et al. Reusing extracted knowledge in genetic programming to solve complex texture image classification problems
CN110019784A (zh) 一种文本分类方法及装置
Xu et al. Automatic perturbation analysis on general computational graphs
Huang et al. An efficient parallel method for batched OS-ELM training using MapReduce
CN110866605A (zh) 数据模型训练方法、装置、电子设备及可读介质
Chen et al. Using deep learning to predict and optimize hadoop data analytic service in a cloud platform
CN108830302A (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
Zhu et al. Smart-mDAG: An intelligent scheduling method for multi-DAG jobs
CN114237182A (zh) 机器人调度方法及系统
Al-Madi et al. Scaling genetic programming for data classification using mapreduce methodology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524