CN106650948A

CN106650948A - 一种机器学习中避免大数据冗余的方法

Info

Publication number: CN106650948A
Application number: CN201611130182.XA
Authority: CN
Inventors: 刘立; 许建卫; 窦晓光
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-05-10

Abstract

本发明公开了一种机器学习中避免大数据冗余的方法，包括以下步骤：S1、将训练数据按照预设规则均匀划分为规模相当的若干份；S2、对每一份数据按照预设的训练步骤进行训练计算，并绘制出跟随训练步骤的属性值曲线；S3、根据每份属性值曲线的相似度，保留相应的属性值曲线对应的数据和初步训练结果；S4、根据属性值曲线的相似度对保留的数据和初步训练结果进行排序，将相邻的相似度达到阈值的属性值曲线对应的数据和初步训练结果分别进行加权，返回步骤S2，直至所有训练数据合并为一个数据，并得到最终的训练结果。本发明操作简单，易于实现，并行度较高，极大的减小了计算量，提高了计算效率。

Description

一种机器学习中避免大数据冗余的方法

技术领域

本发明涉及机器学习领域，具体涉及一种机器学习中避免大数据冗余的方法。

背景技术

机器学习是一门让计算机在非精确编程下进行活动的科学，在过去十年，机器学习促成了无人驾驶车、高效语音识别、精确网络搜索及人类基因组织认知的大力发展。机器学习最基本的做法是采用算法来解析数据、从中学习，然后对真实世界中的事件作出决策和预测，与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。传统算法包括决策树学习、推导逻辑规划、聚类、强化学习和贝叶斯网络等等，众所周知，我们还没有实现强人工智能，早期机器学习方法甚至都无法实现弱人工智能。

机器学习最常见的一个应用场合就是大数据分析，现实世界中，越来越多的应用涉及到海量的数据，这些大数据的属性包括数量、速度和多样性等，都是呈现了大数据不断增长的复杂性，所以，大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。机器学习是自动化流程已经大数据规模化分析的重中之重，机器学习对大数据应用的贡献主要体现在两个方面：一是促进数据科学家门的多产性；二是发现一些被忽视的方案，有些方案甚至遭到了最好的数据科学家们的忽视，这些价值来自于机器学习的核心功能：即让分析算法无需人类干预和显式程序即可对最新数据进行学习。

利用机器学习对大数据进行分析确实是一种非常有效的方式，但是同时又出现了另一个问题，即机器学习，典型的如支持向量机和深度学习等算法往往包含着极为复杂和繁琐的计算迭代过程，计算量十分巨大，因此，如果处理的数据本身非常巨大，则对硬件的计算能力要求非常高。在一些大量图片的分类任务中，即便同时使用大量众核设备进行加速，也要等待数天甚至数月的时间。针对这种情况，在满足精度的要求下，适当地缩减数据规模，不仅是有效的，而且是十分必要的，以提高数据处理的边际效益。

有鉴于此，急需提供一种在满足精度的要求下，适当缩减机器学习中数据规模的方法。

发明内容

本发明所要解决的技术问题是提供一种在满足精度的要求下，适当缩减机器学习中数据规模的方法。

为了解决上述技术问题，本发明所采用的技术方案是提供一种机器学习中避免大数据冗余的方法，包括以下步骤：

S1、将训练数据按照预设规则均匀划分为规模相当的若干份；

S2、对每一份数据按照预设的训练步骤进行训练计算，并绘制出跟随训练步骤的属性值曲线；

S3、根据每份属性值曲线的相似度，保留相应的属性值曲线对应的数据和初步训练结果；

S4、根据属性值曲线的相似度对保留的数据和初步训练结果进行排序，将相邻的相似度达到阈值的属性值曲线对应的数据和初步训练结果分别进行加权，返回步骤S2，直至所有训练数据合并为一个数据，并得到最终的训练结果。

在上述技术方案中，当所述训练数据采用空间数据时，所述预设规则为：按照空间坐标信息将所述空间数据均匀划分为规模相当的若干份。

在上述技术方案中，所述属性值曲线为精度曲线或误差曲线。

在上述技术方案中，步骤S3具体为：

比较每份属性值曲线的相似度，判断相似度是否达到阈值；

若相似度达到阈值，则随机保留其中一份属性值曲线对应的数据和初步训练结果；若相似度未达到阈值，则保留所有属性值曲线对应的数据和初步训练结果。

在上述技术方案中，所述相似度的阈值上限为95％，所述相似度的阈值下限为99％。

本发明根据每份属性值曲线的相似度，保留相应的属性值曲线对应的数据和初步训练结果，并根据属性值曲线的相似度对保留的数据和初步训练结果进行排序，将相邻的相似度达到阈值的属性值曲线对应的数据和初步训练结果分别进行加权，直至所有训练数据合并为一个数据，并得到最终的训练结果，操作简单，易于实现，并行度较高，极大的减小了计算量，提高了计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种机器学习中避免大数据冗余的方法流程图；

图2为本发明中训练数据采用空间数据时的计算示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种机器学习中避免大数据冗余的方法，如图1所示，包括以下步骤：

S1、将训练数据按照预设规则均匀划分为规模相当的若干份。

当上述训练数据采用空间数据时，上述预设规则为：按照空间坐标信息将空间数据均匀划分为规模相当的若干份。

S2、对每一份数据按照预设的训练步骤进行训练计算，并绘制出跟随训练步骤的属性值曲线(精度曲线或误差曲线)。

S3、根据每份属性值曲线的相似度，保留相应的属性值曲线对应的数据和初步训练结果。

步骤S3具体为：比较每份属性值曲线的相似度，判断相似度是否达到阈值；若相似度达到阈值，则随机保留其中一份属性值曲线对应的数据和初步训练结果；若相似度未达到阈值，则保留所有属性值曲线对应的数据和初步训练结果。

其中，相似度的阈值上限为95％，所述相似度的阈值下限为99％。

如图2所示，为训练数据采用空间数据时的计算示意图，其中白球部分为初步训练结果经过排序后，剔除的相似度达到阈值的数据，其它黑球部分的数据再两两加权继续进行计算，经过若干层计算，得到最终的训练结果。

本发明具有以下优点：

(1)计算量小，提高了计算效率：由于每层都剔除了相似度达到阈值的数据，因此极大的减小了计算量，提高了计算效率；

(2)由于每一层都对数据独立处理，因此并行度高，对于并行程序的可扩展性有本质的提升；

(3)由于每一层的计算都会对各个数据进行相似度排序，因此对于数据的内部属性有比较充分的了解；

(4)操作简单，易于实现。

综上所述，借助于本发明的上述技术方案，通过

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器学习中避免大数据冗余的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的机器学习中避免大数据冗余的方法，其特征在于，当所述训练数据采用空间数据时，所述预设规则为：按照空间坐标信息将所述空间数据均匀划分为规模相当的若干份。

3.如权利要求1所述的机器学习中避免大数据冗余的方法，其特征在于，所述属性值曲线为精度曲线或误差曲线。

4.如权利要求1所述的机器学习中避免大数据冗余的方法，其特征在于，步骤S3具体为：

比较每份属性值曲线的相似度，判断相似度是否达到阈值；

5.如权利要求4所述的机器学习中避免大数据冗余的方法，其特征在于，所述相似度的阈值上限为95％，所述相似度的阈值下限为99％。