CN111191771A

CN111191771A - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN111191771A
Application number: CN201911386519.7A
Authority: CN
Inventors: 王鹏飞
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2019-12-29
Filing date: 2019-12-29
Publication date: 2020-05-22

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质，该方法的步骤包括：获取样本数据；基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据；利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。本方法能够确保GPU设备对预处理数据进行训练时硬件性能得到充分利用，进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。此外，本发明还提供一种数据处理装置、设备及存储介质，有益效果同上所述。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本发明涉及深度学习领域，特别是涉及一种数据处理方法、装置、设备及存储介质。

背景技术

随着GPU(Graphics Processing Unit，图形处理器)计算设备近十几年的快速发展，为科学计算和并行计算带来了巨大的性能提升，从最初的集成式GPU核心到独立式GPU核心再到当前的GPGPU(General Purpose GPU，通用计算图形处理器)，该过程不仅让视频、图像的处理速度和性能变得更加高效，同时也能够对当下的深度学习算法提供硬件支持，因此使用GPU进行基于深度学习的数据训练成为目前深度学习领域的常用方式。

TensorFlow深度学习框架是目前流行的深度学习框架之一，由于深度学习的训练过程需要大量的样本数据作为支持，因此当前基于TensorFlow深度学习框架对样本数据进行训练的整体效率是当前本领域技术人员所关注的重点，而现阶段在优化GPU中TensorFlow深度学习框架的数据训练效率时往往无章可循。

由此可见，提供一种数据处理方法，以相对提高GPU中TensorFlow深度学习框架的数据训练效率，是本领域技术人员需要解决的问题。

发明内容

本发明的目的是提供一种数据处理方法、装置、设备及存储介质，以相对提高GPU中TensorFlow深度学习框架的数据训练效率。

为解决上述技术问题，本发明提供一种数据处理方法，应用于GPU设备，包括：

获取样本数据；

基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据；

利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。

优选的，在利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果之前，方法还包括：

在TensorFlow深度学习框架中安装XLA框架；

利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，包括：

利用安装有XLA框架的TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果。

优选的，利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，包括：

利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果，最低训练精度为训练精度中能够正常训练预处理数据且数值最小的精度。

优选的，训练精度包括32位的浮点数精度以及16位的浮点数精度；

利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果，包括：

利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积通道的尺寸为8的倍数的卷积训练得到训练结果。

利用TensorFlow深度学习框架对预处理数据执行由TensorFlow-Slim API或TF.layer API发起的卷积训练得到训练结果。

优选的，获取样本数据，包括：

在缓存中获取样本数据，样本数据为TFrecord格式的数据。

优选的，当GPU设备的数量大于1时，利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，包括：

调用Horovod并行框架控制各GPU设备的TensorFlow深度学习框架之间以并行方式对相应的预处理数据执行卷积训练得到训练结果。

此外，本发明还提供一种数据处理装置，包括：

数据获取模块，用于获取样本数据；

预处理模块，用于基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据；

框架训练模块，用于利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。

此外，本发明还提供一种GPU设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述的数据处理方法的步骤。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的数据处理方法的步骤。

本发明所提供的数据处理方法，应用于GPU设备，首先获取样本数据，并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据，进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，其中，TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本方法以多线程并行的方式对样本数据执行数据预处理操作，得到预处理数据，因此能够相对提高对于样本数据的处理效率，并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性，因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练，能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用，进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。此外，本发明还提供一种数据处理装置、设备及存储介质，有益效果同上所述。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据处理方法的流程图；

图2为本发明实施例提供的另一种数据处理方法的流程图；

图3为本发明实施例提供的另一种数据处理方法的流程图；

图4为本发明实施例提供的一种数据处理装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为此，本发明的核心是提供一种数据处理方法、装置、设备及存储介质，以相对提高GPU中TensorFlow深度学习框架的数据训练效率。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

请参见图1所示，本发明实施例公开了一种数据处理方法，应用于GPU设备，包括：

步骤S10：获取样本数据。

需要说明的是，本实施例的执行主体为计算机设备中预设的GPU设备，本步骤中的样本数据指的是进行深度学习的卷积训练时需要的基础数据。GPU设备获取样本数据的方式包括但不限于在样本数据库直接读取，或获取当前应用场景中实时产生的数据作为样本数据。样本数据的类型包括但不限于图像数据以及视频数据。

步骤S11：基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据。

GPU设备在获取到样本数据后，进一步对样本数据执行数据预处理操作，此处所指的数据预处理操作是对所收集数据进行卷积训练的特征分类或分组前所做的审核、筛选、排序等处理，具体包括有多种方法，如数据清理、数据集成、数据变换以及数据归约等，在执行卷积训练之前对样本数据执行数据预处理操作，能够大大提高卷积训练过程的质量，降低卷积训练所需要的时间。

本步骤的重点在于GPU设备基于多线程并行的方式对样本数据执行数据预处理操作，也就是说，GPU设备中运行有多个用于执行数据预处理操作的线程，个线程之间同时对相应的样本数据进行数据预处理操作，以此在单位时间内提高样本数据执行数据预处理过程的整体效率。

步骤S12：利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。

在对样本数据执行数据预处理操作得到预处理数据后，本步骤进一步利用TensorFlow深度学习框架对预处理数据执行卷积训练得到最终的训练结果。本步骤的重点在于TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备，当前普遍采用第三方平台基于TensorFlow官方源码编译后生成的安装包进一步编译安装的，由于安装包普遍适用于各类的GPU设备，具有较大的GPU兼容范围，由于不是针对于当前GPU设备定制的，因此无法与当前的GPU设备达到最佳的兼容性，进而可能导致GPU设备的性能无法完全展现，而本步骤中基于TensorFlow官方源码在GPU设备中编译安装TensorFlow深度学习框架是考虑到，由于TensorFlow官方源码包含有TensorFlow深度学习框架适用于各性能类型GPU设备的功能代码，因此能够基于当前GPU设备的硬件性能编译安装兼容性最佳的源码，以此提高当前GPU设备中的TensorFlow深度学习框架的数据训练效率。

本发明所提供的数据处理方法，应用于GPU设备，首先获取样本数据，并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据，进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，其中，TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本方法以多线程并行的方式对样本数据执行数据预处理操作，得到预处理数据，因此能够相对提高对于样本数据的处理效率，并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性，因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练，能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用，进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。

在上述实施例的基础上，作为一种优选的实施方式，利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，包括：

需要说明的是，由于TensorFlow-Slim API以及TF.layer API能够将卷积训练的多个操作步骤进行融合，因此减少卷积训练中操作步骤对GPU设备的资源占用，因此能够进一步提高GPU设备中的TensorFlow深度学习框架的数据训练效率。

在上述实施例的基础上，作为一种优选的实施方式，获取样本数据，包括：

在缓存中获取样本数据，样本数据为TFrecord格式的数据。

需要说明的是，本实施方式的重点是样本数据具体在GPU设备的缓存中获取，由于缓存是指访问速度比一般随机存取存储器(RAM)快的一种高速存储器，因此GPU设备能够更加高效的获取到样本数据，另外，本实施方式中的样本数据为TFrecord格式的数据，由于TFrecord格式为TensorFlow深度学习框架中适用的数据格式，因此本实施方式能够进一步确保GPU设备中TensorFlow深度学习框架的数据训练效率。

请参见图2所示，本发明实施例公开了一种数据处理方法，应用于GPU设备，包括：

步骤S20：获取样本数据。

步骤S21：基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据。

步骤S22：在TensorFlow深度学习框架中安装XLA框架。

步骤S23：利用安装有XLA框架的TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。

需要说明的是，本实施例的重点在于在利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果之前，先在TensorFlow深度学习框架中安装XLA框架，进而利用安装有XLA框架的TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果。由于XLA(加速线性代数)框架是用于优化TensorFlow深度学习框架的线性代数的域特定编译器，能够提高TensorFlow深度学习框架的执行速度，以减少TensorFlow运行时间上的开销，并且能够融合流水线操作以减少对内存的占用，并且分析和计划内存使用情况，原则上消除许多中间存储缓冲区，改善内存使用效率。因此本实施例能够进一步提高GPU中TensorFlow深度学习框架的数据训练效率。

请参见图3所示，本发明实施例公开了一种数据处理方法，应用于GPU设备，包括：

步骤S30：获取样本数据。

步骤S31：基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据。

步骤S32：利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果，最低训练精度为训练精度中能够正常训练预处理数据且数值最小的精度，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。

需要说明的是，本实施例的重点是在GPU设备利用TensorFlow深度学习框架对预处理数据执行的卷积训练，是以预处理数据对应的最低训练精度进行的，其中，最低训练精度为训练精度中能够正常训练预处理数据且数值最小的精度，也就是说，对预处理数据进行训练，具体是以其所能够正常被卷积训练情况下的最小训练精度进行的，以此相对减少卷积训练过程中因训练精度较高而造成的运算量较高的情况，同时减少了对GPU设备运算资源的占用程度，减轻了GPU设备整体负载，以此进一步提高了卷积训练过程的整体效率。

在上述实施例的基础上，作为一种优选的实施方式，训练精度包括32位的浮点数精度以及16位的浮点数精度；

需要说明的是，本实施方式的TensorFlow深度学习框架中，可选的训练精度包括32位的浮点数精度以及16位的浮点数精度，由于32位的浮点数精度以及16位的浮点数精度是当前卷积训练中普遍适用的浮点数精度，因此本实施方式中，如果实际的预处理数据能够以16位浮点数精度进行卷积训练，则通过TensorFlow深度学习框架以16位浮点数精度对预处理数据进行卷积训练，如果实际的预处理数据无法以16位浮点数精度进行卷积训练，则通过TensorFlow深度学习框架以32位浮点数精度对预处理数据进行卷积训练，以此在确保预处理数据被正常处理的基础上，最大程度的减轻GPU设备整体负载。另外，本实施方式中，利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积通道的尺寸为8的倍数的卷积训练得到训练结果，由于卷积通道的尺寸为8的倍数时能够最大程度的利用GPU的硬件特性，进一步确保了GPU设备中TensorFlow深度学习框架的数据训练效率

在上述一系列实施例的基础上，作为一种优选的实施方式，当GPU设备的数量大于1时，利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，包括：

需要说明的是，本实施方式是当GPU设备的数量大于1时，进一步通过调用Horovod并行框架控制各GPU设备的TensorFlow深度学习框架之间以并行方式对相应的预处理数据执行卷积训练得到训练结果，由于Horovod并行框架能够相对可靠的实现GPU设备之间TensorFlow深度学习框架的协同工作，并能够对协同工作中的各GPU设备的TensorFlow深度学习框架之间的通信效率实现整体优化，因此本实施方式能够确保在当GPU设备的数量大于1时，各GPU之间TensorFlow深度学习框架的整体数据训练效率。更进一步的，在使用Horovod并行框架时控制各GPU设备的TensorFlow深度学习框架之间执行卷积训练时，可以进一步采用autotune自适应参数调整方式，采用IB网络，以此提高多GPU设备场景下GPU设备的整体扩展性。

图4为本发明实施例提供的一种数据处理装置的结构图。本发明实施例提供的数据处理装置，包括：

数据获取模块10，用于获取样本数据；

预处理模块11，用于基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据；

框架训练模块12，用于利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。

本发明所提供的数据处理装置，首先获取样本数据，并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据，进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，其中，TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本装置以多线程并行的方式对样本数据执行数据预处理操作，得到预处理数据，因此能够相对提高对于样本数据的处理效率，并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性，因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练，能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用，进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。

此外，本发明还提供一种GPU设备，包括：

存储器，用于存储计算机程序；

本发明所提供的GPU设备，首先获取样本数据，并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据，进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，其中，TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本设备以多线程并行的方式对样本数据执行数据预处理操作，得到预处理数据，因此能够相对提高对于样本数据的处理效率，并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性，因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练，能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用，进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。

本发明所提供的计算机可读存储介质，应用于GPU设备，首先获取样本数据，并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据，进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果，其中，TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本计算机可读存储介质以多线程并行的方式对样本数据执行数据预处理操作，得到预处理数据，因此能够相对提高对于样本数据的处理效率，并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性，因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练，能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用，进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。

以上对本发明所提供的一种数据处理方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据处理方法，其特征在于，应用于GPU设备，包括：

获取样本数据；

基于多线程以并行方式对所述样本数据执行数据预处理操作得到预处理数据；

利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果，所述TensorFlow深度学习框架基于TensorFlow官方源码编译安装于所述GPU设备。

2.根据权利要求1所述的数据处理方法，其特征在于，在所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果之前，所述方法还包括：

在所述TensorFlow深度学习框架中安装XLA框架；

所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果，包括：

利用安装有所述XLA框架的TensorFlow深度学习框架对所述预处理数据执行所述卷积训练得到训练结果。

3.根据权利要求1所述的数据处理方法，其特征在于，所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果，包括：

利用所述TensorFlow深度学习框架以所述预处理数据对应的最低训练精度对所述预处理数据执行所述卷积训练得到训练结果，所述最低训练精度为训练精度中能够正常训练所述预处理数据且数值最小的精度。

4.根据权利要求3所述的数据处理方法，其特征在于，所述训练精度包括32位的浮点数精度以及16位的浮点数精度；

所述利用所述TensorFlow深度学习框架以所述预处理数据对应的最低训练精度对所述预处理数据执行所述卷积训练得到训练结果，包括：

利用所述TensorFlow深度学习框架以所述预处理数据对应的最低训练精度对所述预处理数据执行卷积通道的尺寸为8的倍数的所述卷积训练得到训练结果。

5.根据权利要求1所述的数据处理方法，其特征在于，所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果，包括：

利用所述TensorFlow深度学习框架对所述预处理数据执行由TensorFlow-Slim API或TF.layer API发起的所述卷积训练得到训练结果。

6.根据权利要求1所述的数据处理方法，其特征在于，所述获取样本数据，包括：

在缓存中获取所述样本数据，所述样本数据为TFrecord格式的数据。

7.根据权利要求1至6任意一项所述的数据处理方法，其特征在于，当所述GPU设备的数量大于1时，所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果，包括：

调用Horovod并行框架控制各所述GPU设备的TensorFlow深度学习框架之间以并行方式对相应的所述预处理数据执行所述卷积训练得到训练结果。

8.一种数据处理装置，其特征在于，包括：

数据获取模块，用于获取样本数据；

预处理模块，用于基于多线程以并行方式对所述样本数据执行数据预处理操作得到预处理数据；

框架训练模块，用于利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果，所述TensorFlow深度学习框架基于TensorFlow官方源码编译安装于所述GPU设备。

9.一种GPU设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。