CN111126619A

CN111126619A - 一种机器学习方法与装置

Info

Publication number: CN111126619A
Application number: CN201911243079.XA
Authority: CN
Inventors: 陈仁革
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-08
Anticipated expiration: 2039-12-06
Also published as: CN111126619B

Abstract

本发明公开了一种机器学习方法与装置包括：从磁盘加载全部样本数据并允许内存根据Flink需求在不同时间读取全部或部分样本数据以使用Flink训练计算模型；持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据；响应于训练出现断点而允许内存选择性地读取分发数据和检查点数据以从上一检查点继续训练计算模型；响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到磁盘中。本发明能够加快数据加载、提高训练效率、提高缓存命中率，进而提升Flink的性能和稳定性。

Description

一种机器学习方法与装置

技术领域

本发明涉及交换机领域，更具体地，特别是指一种机器学习方法与装置。

背景技术

随着互联网、大数据的飞速发展，行业内对于数据的处理能力和计算能力都在不断增加，因此出现了许多开源大数据产品组件。Apache的Flink即是其中一款面向分布式数据流处理和批量数据处理的开源计算平台。Flink旨在提供‘一站式’的分布式开源数据处理框架，以高吞吐、低延迟、高性能的流处理闻名，同时支持机器学习(FlinkML)、图分析(Gelly)、关系数据处理(Table)、复杂事件处理(CEP)，而FlinkML是机器学习重要组件之一。

如今，大数据领域的开源框架(Hadoop，Spark，Storm)都使用的JVM(Java虚拟机)，包括Flink。基于JVM的数据计算引擎都需要面对将大量数据存放到内存中，这就不得不面对JVM存在的几个问题：

1)Java对象存储密度低，在32位系统或开启指针压缩的64位系统中，普通对象(非数组)对象头占用64bit，尾部还需要8字节对齐；

2)Full GC(全堆垃圾回收)会极大地影响性能，JVM分配的内存越大，执行GC时间越长，期间业务响应受到影响越大，Full GC的时间直接影响业务中断时间；

3)OOM(内存溢出)影响稳定性。OOM是分布式计算框架经常会遇到的问题，当JVM中所有对象大小超过分配给JVM的内存大小时，就会发生OOM导致JVM崩溃，分布式计算框架的健壮性和性能都会受到影响。

针对现有技术中Flink的存储密度低、性能差、稳定性低的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种机器学习方法与装置，能够加快数据加载、提高训练效率、提高缓存命中率，进而提升Flink的性能和稳定性。

基于上述目的，本发明实施例的第一方面提供了一种机器学习方法，包括由非易失性内存储器执行以下步骤：

从磁盘加载全部样本数据并允许内存根据Flink需求在不同时间读取全部或部分样本数据以使用Flink训练计算模型；

持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据；

响应于训练出现断点而允许内存选择性地读取分发数据和检查点数据以从上一检查点继续训练计算模型；

响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到磁盘中。

在一些实施方式中，持续从从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据包括：将分发数据和检查点数据保存到非易失性内存储器中，并异步保存到磁盘。

在一些实施方式中，允许内存选择性地读取和存储数据包括：允许内存在非易失性内存储器中以指针、索引、和标签的形式来选择性地读取和存储数据。

在一些实施方式中，在内存中执行且仅执行生成分发数据和检查点数据的计算操作、和元数据和对象的存储操作。

在一些实施方式中，还包括：响应于仅单次使用样本数据，而在训练完成后从非易失性内存储器中清除样本数据；响应于需要多次使用样本数据，而将样本数据长期存储在非易失性内存储器上。

本发明实施例的第二方面提供了一种机器学习装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时由非易失性内存储器执行以下步骤：

在一些实施方式中，持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据包括：将分发数据和检查点数据保存到非易失性内存储器中，并异步保存到磁盘。

在一些实施方式中，步骤还包括：响应于仅单次使用样本数据，而在训练完成后从非易失性内存储器中清除样本数据；响应于需要多次使用样本数据，而将样本数据长期存储在非易失性内存储器上。

本发明具有以下有益技术效果：本发明实施例提供的机器学习方法与装置，通过从磁盘加载全部样本数据并允许内存根据Flink需求在不同时间读取全部或部分样本数据以使用Flink训练计算模型；持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据；响应于训练出现断点而允许内存选择性地读取分发数据和检查点数据以从上一检查点继续训练计算模型；响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到磁盘中的技术方案，能够加快数据加载、提高训练效率、提高缓存命中率，进而提升Flink的性能和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的机器学习方法的流程示意图；

图2为本发明提供的机器学习方法的数据传输示意图；

图3为本发明提供的机器学习方法的数据传输结构图；

图4为本发明提供的机器学习方法的JVM内存分配示意图；

图5为本发明提供的机器学习方法的物理配置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够提升Flink的性能和稳定性的机器学习方法一个实施例。图1示出的是本发明提供的机器学习方法的流程示意图。

所述机器学习方法，如图1所示，包括由非易失性内存储器执行以下步骤：

步骤S101：从磁盘加载全部样本数据并允许内存根据Flink需求在不同时间读取全部或部分样本数据以使用Flink训练计算模型；

步骤S103：持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据；

步骤S105：响应于训练出现断点而允许内存选择性地读取分发数据和检查点数据以从上一检查点继续训练计算模型；

步骤S107：响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到磁盘中。

本发明为提高FlinkML的性能(主要是满足大数据量、高并发下性能要求)，使用了非易失性内存以堆外内存的方式缓存FlinkML的训练数据，相比使用内存提高了缓存的容量；另一方面将训练热点数据缓存到非易失内存中，提高FlinkML整体的性能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

下面根据如图2所示的具体实施例来进一步阐述本发明的具体实施方式。

如图2所示，从磁盘中加载样本数据到非易失性内存储器，并由非易失性内存储器和传统内存交换数据，其中非易失性内存储器用作存储样本数据、分发数据、和检查点数据，传统内存用作计算和存放对象、元数据。

图3示出的是具体实施例的流程，其中编号代表步骤顺序。事先开发FlinkML的应用程序接口，实现利用NVM(非易失性内存储器)作为堆外内存缓存数据，NVM数据区别与传统的DDR(易失性)内存数据，可以通过指针、索引、标签的形式来存储和查找数据。然后配置NVM缓存训练数据、shuffle(分发)数据、Checkpoint(检查点)数据，机器的传统内存作为计算内存使用，存放元数据和对象，由此实现数据分层存储。经过多次迭代训练，得到训练模型，需要的话可以异步持久化至磁盘。还可以将训练数据存放在NVM中，为下次模型训练提供数据集，减少数据加载过程，提升训练效率。

Flink收到机器学习任务，将存放在本地磁盘上的块数据加载到NVM中，数据存储以堆外内存offHeap方式实现；数据初始化，将数据格式化为FlinkML训练数据；根据训练模型进行数据训练。训练过程中产生的中间数据如shuffle、CheckPoint等数据存储在NVM上，减少了数据持久化磁盘；另外，样本数据缓存在NVM中，其它机器学习算法可以直接使用该数据集，跳过数据加载过程，综上，基于非易失性内存的Flink机器学习方法显著提升机器学习效率。

图4示出的是Flink的内存分配。Flink的Worker名叫TaskManager，是用来运行用户代码的JVM进程，TaskManager的堆内存分三部分：

1)Network Buffers：为shuffle/broadcost网络活动相关的内存；

2)Memory Manager：为cache/sorting/hashing计算相关的内存，将序列化后的数据存于其中，使用完后释放回内存池。Flink中的算法会向这个内存池申请MemorySegment(Flink中最小的内存分配单元)；

3)Free：存放用户代码产生的对象。

本发明实施例将Network Buffer存储于NVM，Memory Manager和Free存储于DDR。NVM与DDR物理层模块最优连接配置如图5所示，每个NVM均对应性地连接到一个DDR，并且在多个DDR之间建立连接，以达到使用NVM扩展DDR的目的。

从上述实施例可以看出，本发明实施例提供的机器学习方法，通过从磁盘加载全部样本数据并允许内存根据Flink需求在不同时间读取全部或部分样本数据以使用Flink训练计算模型；持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据；响应于训练出现断点而允许内存选择性地读取分发数据和检查点数据以从上一检查点继续训练计算模型；响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到磁盘中的技术方案，能够加快数据加载、提高训练效率、提高缓存命中率，进而提升Flink的性能和稳定性。

本发明实施例解决了数据加载的问题，以非易失性内存代替原来的DDR存放加载数据，NVM和磁盘的速度差比DDR和磁盘的速度差小，数据加载更快，从而降低数据加载时间，对于多个或多次使用的训练数据集，可以长期存放在NVM上，从而减少了数据加载的步骤，加速FlinkML训练效率。同时还解决了DRAM容量限制的问题，使用非易失性内存NVM缓存了训练数据集和CheckPoint数据，释放了大量DDR来进行内存计算，避免了因内存不足导致数据落磁盘，提升缓存命中率，更进一步提升了FlinkML的训练效率。

需要特别指出的是，上述机器学习方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于机器学习方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够提升Flink的性能和稳定性的机器学习装置的一个实施例。机器学习装置包括：

处理器；和

从上述实施例可以看出，本发明实施例提供的机器学习装置，通过从磁盘加载全部样本数据并允许内存根据Flink需求在不同时间读取全部或部分样本数据以使用Flink训练计算模型；持续从内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据；响应于训练出现断点而允许内存选择性地读取分发数据和检查点数据以从上一检查点继续训练计算模型；响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到磁盘中的技术方案，能够加快数据加载、提高训练效率、提高缓存命中率，进而提升Flink的性能和稳定性。

需要特别指出的是，上述机器学习装置的实施例采用了所述机器学习方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述机器学习方法的其他实施例中。当然，由于所述机器学习方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述机器学习装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种机器学习方法，其特征在于，包括由非易失性内存储器执行以下步骤：

响应于训练出现断点而允许内存选择性地读取所述分发数据和所述检查点数据以从上一检查点继续训练计算模型；

响应于训练完成而从内存接收训练好的参数模型并作为计算模型异步存储到所述磁盘中。

2.根据权利要求1所述的方法，其特征在于，持续从从所述内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据包括：将所述分发数据和所述检查点数据保存到所述非易失性内存储器中，并异步保存到所述磁盘。

3.根据权利要求1所述的方法，其特征在于，允许所述内存选择性地读取和存储数据包括：允许所述内存在所述非易失性内存储器中以指针、索引、和标签的形式来选择性地读取和存储数据。

4.根据权利要求1所述的方法，其特征在于，在所述内存中执行且仅执行生成所述分发数据和所述检查点数据的计算操作、和元数据和对象的存储操作。

5.根据权利要求1所述的方法，其特征在于，还包括：响应于仅单次使用所述样本数据，而在训练完成后从所述非易失性内存储器中清除所述样本数据；响应于需要多次使用所述样本数据，而将所述样本数据长期存储在所述非易失性内存储器上。

6.一种机器学习装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时由非易失性内存储器执行以下步骤：

7.根据权利要求6所述的装置，其特征在于，持续从所述内存接收并存储使用Flink训练计算模型时生成的具有检查点信息的分发数据和检查点数据包括：将所述分发数据和所述检查点数据保存到所述非易失性内存储器中，并异步保存到所述磁盘。

8.根据权利要求6所述的装置，其特征在于，允许所述内存选择性地读取和存储数据包括：允许所述内存在所述非易失性内存储器中以指针、索引、和标签的形式来选择性地读取和存储数据。

9.根据权利要求6所述的装置，其特征在于，在所述内存中执行且仅执行生成所述分发数据和所述检查点数据的计算操作、和元数据和对象的存储操作。

10.根据权利要求6所述的装置，其特征在于，所述步骤还包括：响应于仅单次使用所述样本数据，而在训练完成后从所述非易失性内存储器中清除所述样本数据；响应于需要多次使用所述样本数据，而将所述样本数据长期存储在所述非易失性内存储器上。