CN111191771A - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111191771A
CN111191771A CN201911386519.7A CN201911386519A CN111191771A CN 111191771 A CN111191771 A CN 111191771A CN 201911386519 A CN201911386519 A CN 201911386519A CN 111191771 A CN111191771 A CN 111191771A
Authority
CN
China
Prior art keywords
data
training
deep learning
tensorflow
learning framework
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911386519.7A
Other languages
English (en)
Inventor
王鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201911386519.7A priority Critical patent/CN111191771A/zh
Publication of CN111191771A publication Critical patent/CN111191771A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质,该方法的步骤包括:获取样本数据;基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据;利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。本方法能够确保GPU设备对预处理数据进行训练时硬件性能得到充分利用,进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。此外,本发明还提供一种数据处理装置、设备及存储介质,有益效果同上所述。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本发明涉及深度学习领域,特别是涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着GPU(Graphics Processing Unit,图形处理器)计算设备近十几年的快速发展,为科学计算和并行计算带来了巨大的性能提升,从最初的集成式GPU核心到独立式GPU核心再到当前的GPGPU(General Purpose GPU,通用计算图形处理器),该过程不仅让视频、图像的处理速度和性能变得更加高效,同时也能够对当下的深度学习算法提供硬件支持,因此使用GPU进行基于深度学习的数据训练成为目前深度学习领域的常用方式。
TensorFlow深度学习框架是目前流行的深度学习框架之一,由于深度学习的训练过程需要大量的样本数据作为支持,因此当前基于TensorFlow深度学习框架对样本数据进行训练的整体效率是当前本领域技术人员所关注的重点,而现阶段在优化GPU中TensorFlow深度学习框架的数据训练效率时往往无章可循。
由此可见,提供一种数据处理方法,以相对提高GPU中TensorFlow深度学习框架的数据训练效率,是本领域技术人员需要解决的问题。
发明内容
本发明的目的是提供一种数据处理方法、装置、设备及存储介质,以相对提高GPU中TensorFlow深度学习框架的数据训练效率。
为解决上述技术问题,本发明提供一种数据处理方法,应用于GPU设备,包括:
获取样本数据;
基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据;
利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。
优选的,在利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果之前,方法还包括:
在TensorFlow深度学习框架中安装XLA框架;
利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,包括:
利用安装有XLA框架的TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果。
优选的,利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,包括:
利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果,最低训练精度为训练精度中能够正常训练预处理数据且数值最小的精度。
优选的,训练精度包括32位的浮点数精度以及16位的浮点数精度;
利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果,包括:
利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积通道的尺寸为8的倍数的卷积训练得到训练结果。
优选的,利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,包括:
利用TensorFlow深度学习框架对预处理数据执行由TensorFlow-Slim API或TF.layer API发起的卷积训练得到训练结果。
优选的,获取样本数据,包括:
在缓存中获取样本数据,样本数据为TFrecord格式的数据。
优选的,当GPU设备的数量大于1时,利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,包括:
调用Horovod并行框架控制各GPU设备的TensorFlow深度学习框架之间以并行方式对相应的预处理数据执行卷积训练得到训练结果。
此外,本发明还提供一种数据处理装置,包括:
数据获取模块,用于获取样本数据;
预处理模块,用于基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据;
框架训练模块,用于利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。
此外,本发明还提供一种GPU设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的数据处理方法的步骤。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
本发明所提供的数据处理方法,应用于GPU设备,首先获取样本数据,并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据,进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,其中,TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本方法以多线程并行的方式对样本数据执行数据预处理操作,得到预处理数据,因此能够相对提高对于样本数据的处理效率,并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性,因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练,能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用,进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。此外,本发明还提供一种数据处理装置、设备及存储介质,有益效果同上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的流程图;
图2为本发明实施例提供的另一种数据处理方法的流程图;
图3为本发明实施例提供的另一种数据处理方法的流程图;
图4为本发明实施例提供的一种数据处理装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
TensorFlow深度学习框架是目前流行的深度学习框架之一,由于深度学习的训练过程需要大量的样本数据作为支持,因此当前基于TensorFlow深度学习框架对样本数据进行训练的整体效率是当前本领域技术人员所关注的重点,而现阶段在优化GPU中TensorFlow深度学习框架的数据训练效率时往往无章可循。
为此,本发明的核心是提供一种数据处理方法、装置、设备及存储介质,以相对提高GPU中TensorFlow深度学习框架的数据训练效率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
请参见图1所示,本发明实施例公开了一种数据处理方法,应用于GPU设备,包括:
步骤S10:获取样本数据。
需要说明的是,本实施例的执行主体为计算机设备中预设的GPU设备,本步骤中的样本数据指的是进行深度学习的卷积训练时需要的基础数据。GPU设备获取样本数据的方式包括但不限于在样本数据库直接读取,或获取当前应用场景中实时产生的数据作为样本数据。样本数据的类型包括但不限于图像数据以及视频数据。
步骤S11:基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据。
GPU设备在获取到样本数据后,进一步对样本数据执行数据预处理操作,此处所指的数据预处理操作是对所收集数据进行卷积训练的特征分类或分组前所做的审核、筛选、排序等处理,具体包括有多种方法,如数据清理、数据集成、数据变换以及数据归约等,在执行卷积训练之前对样本数据执行数据预处理操作,能够大大提高卷积训练过程的质量,降低卷积训练所需要的时间。
本步骤的重点在于GPU设备基于多线程并行的方式对样本数据执行数据预处理操作,也就是说,GPU设备中运行有多个用于执行数据预处理操作的线程,个线程之间同时对相应的样本数据进行数据预处理操作,以此在单位时间内提高样本数据执行数据预处理过程的整体效率。
步骤S12:利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。
在对样本数据执行数据预处理操作得到预处理数据后,本步骤进一步利用TensorFlow深度学习框架对预处理数据执行卷积训练得到最终的训练结果。本步骤的重点在于TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备,当前普遍采用第三方平台基于TensorFlow官方源码编译后生成的安装包进一步编译安装的,由于安装包普遍适用于各类的GPU设备,具有较大的GPU兼容范围,由于不是针对于当前GPU设备定制的,因此无法与当前的GPU设备达到最佳的兼容性,进而可能导致GPU设备的性能无法完全展现,而本步骤中基于TensorFlow官方源码在GPU设备中编译安装TensorFlow深度学习框架是考虑到,由于TensorFlow官方源码包含有TensorFlow深度学习框架适用于各性能类型GPU设备的功能代码,因此能够基于当前GPU设备的硬件性能编译安装兼容性最佳的源码,以此提高当前GPU设备中的TensorFlow深度学习框架的数据训练效率。
本发明所提供的数据处理方法,应用于GPU设备,首先获取样本数据,并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据,进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,其中,TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本方法以多线程并行的方式对样本数据执行数据预处理操作,得到预处理数据,因此能够相对提高对于样本数据的处理效率,并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性,因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练,能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用,进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。
在上述实施例的基础上,作为一种优选的实施方式,利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,包括:
利用TensorFlow深度学习框架对预处理数据执行由TensorFlow-Slim API或TF.layer API发起的卷积训练得到训练结果。
需要说明的是,由于TensorFlow-Slim API以及TF.layer API能够将卷积训练的多个操作步骤进行融合,因此减少卷积训练中操作步骤对GPU设备的资源占用,因此能够进一步提高GPU设备中的TensorFlow深度学习框架的数据训练效率。
在上述实施例的基础上,作为一种优选的实施方式,获取样本数据,包括:
在缓存中获取样本数据,样本数据为TFrecord格式的数据。
需要说明的是,本实施方式的重点是样本数据具体在GPU设备的缓存中获取,由于缓存是指访问速度比一般随机存取存储器(RAM)快的一种高速存储器,因此GPU设备能够更加高效的获取到样本数据,另外,本实施方式中的样本数据为TFrecord格式的数据,由于TFrecord格式为TensorFlow深度学习框架中适用的数据格式,因此本实施方式能够进一步确保GPU设备中TensorFlow深度学习框架的数据训练效率。
请参见图2所示,本发明实施例公开了一种数据处理方法,应用于GPU设备,包括:
步骤S20:获取样本数据。
步骤S21:基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据。
步骤S22:在TensorFlow深度学习框架中安装XLA框架。
步骤S23:利用安装有XLA框架的TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。
需要说明的是,本实施例的重点在于在利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果之前,先在TensorFlow深度学习框架中安装XLA框架,进而利用安装有XLA框架的TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果。由于XLA(加速线性代数)框架是用于优化TensorFlow深度学习框架的线性代数的域特定编译器,能够提高TensorFlow深度学习框架的执行速度,以减少TensorFlow运行时间上的开销,并且能够融合流水线操作以减少对内存的占用,并且分析和计划内存使用情况,原则上消除许多中间存储缓冲区,改善内存使用效率。因此本实施例能够进一步提高GPU中TensorFlow深度学习框架的数据训练效率。
请参见图3所示,本发明实施例公开了一种数据处理方法,应用于GPU设备,包括:
步骤S30:获取样本数据。
步骤S31:基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据。
步骤S32:利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果,最低训练精度为训练精度中能够正常训练预处理数据且数值最小的精度,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。
需要说明的是,本实施例的重点是在GPU设备利用TensorFlow深度学习框架对预处理数据执行的卷积训练,是以预处理数据对应的最低训练精度进行的,其中,最低训练精度为训练精度中能够正常训练预处理数据且数值最小的精度,也就是说,对预处理数据进行训练,具体是以其所能够正常被卷积训练情况下的最小训练精度进行的,以此相对减少卷积训练过程中因训练精度较高而造成的运算量较高的情况,同时减少了对GPU设备运算资源的占用程度,减轻了GPU设备整体负载,以此进一步提高了卷积训练过程的整体效率。
在上述实施例的基础上,作为一种优选的实施方式,训练精度包括32位的浮点数精度以及16位的浮点数精度;
利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积训练得到训练结果,包括:
利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积通道的尺寸为8的倍数的卷积训练得到训练结果。
需要说明的是,本实施方式的TensorFlow深度学习框架中,可选的训练精度包括32位的浮点数精度以及16位的浮点数精度,由于32位的浮点数精度以及16位的浮点数精度是当前卷积训练中普遍适用的浮点数精度,因此本实施方式中,如果实际的预处理数据能够以16位浮点数精度进行卷积训练,则通过TensorFlow深度学习框架以16位浮点数精度对预处理数据进行卷积训练,如果实际的预处理数据无法以16位浮点数精度进行卷积训练,则通过TensorFlow深度学习框架以32位浮点数精度对预处理数据进行卷积训练,以此在确保预处理数据被正常处理的基础上,最大程度的减轻GPU设备整体负载。另外,本实施方式中,利用TensorFlow深度学习框架以预处理数据对应的最低训练精度对预处理数据执行卷积通道的尺寸为8的倍数的卷积训练得到训练结果,由于卷积通道的尺寸为8的倍数时能够最大程度的利用GPU的硬件特性,进一步确保了GPU设备中TensorFlow深度学习框架的数据训练效率
在上述一系列实施例的基础上,作为一种优选的实施方式,当GPU设备的数量大于1时,利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,包括:
调用Horovod并行框架控制各GPU设备的TensorFlow深度学习框架之间以并行方式对相应的预处理数据执行卷积训练得到训练结果。
需要说明的是,本实施方式是当GPU设备的数量大于1时,进一步通过调用Horovod并行框架控制各GPU设备的TensorFlow深度学习框架之间以并行方式对相应的预处理数据执行卷积训练得到训练结果,由于Horovod并行框架能够相对可靠的实现GPU设备之间TensorFlow深度学习框架的协同工作,并能够对协同工作中的各GPU设备的TensorFlow深度学习框架之间的通信效率实现整体优化,因此本实施方式能够确保在当GPU设备的数量大于1时,各GPU之间TensorFlow深度学习框架的整体数据训练效率。更进一步的,在使用Horovod并行框架时控制各GPU设备的TensorFlow深度学习框架之间执行卷积训练时,可以进一步采用autotune自适应参数调整方式,采用IB网络,以此提高多GPU设备场景下GPU设备的整体扩展性。
图4为本发明实施例提供的一种数据处理装置的结构图。本发明实施例提供的数据处理装置,包括:
数据获取模块10,用于获取样本数据;
预处理模块11,用于基于多线程以并行方式对样本数据执行数据预处理操作得到预处理数据;
框架训练模块12,用于利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,TensorFlow深度学习框架基于TensorFlow官方源码编译安装于GPU设备。
本发明所提供的数据处理装置,首先获取样本数据,并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据,进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,其中,TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本装置以多线程并行的方式对样本数据执行数据预处理操作,得到预处理数据,因此能够相对提高对于样本数据的处理效率,并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性,因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练,能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用,进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。
此外,本发明还提供一种GPU设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的数据处理方法的步骤。
本发明所提供的GPU设备,首先获取样本数据,并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据,进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,其中,TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本设备以多线程并行的方式对样本数据执行数据预处理操作,得到预处理数据,因此能够相对提高对于样本数据的处理效率,并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性,因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练,能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用,进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
本发明所提供的计算机可读存储介质,应用于GPU设备,首先获取样本数据,并基于多线程并行方式对样本数据执行数据预处理操作得到预处理数据,进而利用TensorFlow深度学习框架对预处理数据执行卷积训练得到训练结果,其中,TensorFlow深度学习框架基于TensorFlow官方源码编译并安装于GPU设备。由于本计算机可读存储介质以多线程并行的方式对样本数据执行数据预处理操作,得到预处理数据,因此能够相对提高对于样本数据的处理效率,并且由于TensorFlow官方源码编译安装的TensorFlow深度学习框架能够与GPU设备具有更高的兼容性,因此利用GPU设备中基于TensorFlow官方源码编译安装的TensorFlow深度学习框架对预处理数据执行卷积训练,能够进一步确保GPU设备对预处理数据进行训练时硬件性能得到充分利用,进而相对提高了GPU设备中TensorFlow深度学习框架的数据训练效率。
以上对本发明所提供的一种数据处理方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种数据处理方法,其特征在于,应用于GPU设备,包括:
获取样本数据;
基于多线程以并行方式对所述样本数据执行数据预处理操作得到预处理数据;
利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果,所述TensorFlow深度学习框架基于TensorFlow官方源码编译安装于所述GPU设备。
2.根据权利要求1所述的数据处理方法,其特征在于,在所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果之前,所述方法还包括:
在所述TensorFlow深度学习框架中安装XLA框架;
所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果,包括:
利用安装有所述XLA框架的TensorFlow深度学习框架对所述预处理数据执行所述卷积训练得到训练结果。
3.根据权利要求1所述的数据处理方法,其特征在于,所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果,包括:
利用所述TensorFlow深度学习框架以所述预处理数据对应的最低训练精度对所述预处理数据执行所述卷积训练得到训练结果,所述最低训练精度为训练精度中能够正常训练所述预处理数据且数值最小的精度。
4.根据权利要求3所述的数据处理方法,其特征在于,所述训练精度包括32位的浮点数精度以及16位的浮点数精度;
所述利用所述TensorFlow深度学习框架以所述预处理数据对应的最低训练精度对所述预处理数据执行所述卷积训练得到训练结果,包括:
利用所述TensorFlow深度学习框架以所述预处理数据对应的最低训练精度对所述预处理数据执行卷积通道的尺寸为8的倍数的所述卷积训练得到训练结果。
5.根据权利要求1所述的数据处理方法,其特征在于,所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果,包括:
利用所述TensorFlow深度学习框架对所述预处理数据执行由TensorFlow-Slim API或TF.layer API发起的所述卷积训练得到训练结果。
6.根据权利要求1所述的数据处理方法,其特征在于,所述获取样本数据,包括:
在缓存中获取所述样本数据,所述样本数据为TFrecord格式的数据。
7.根据权利要求1至6任意一项所述的数据处理方法,其特征在于,当所述GPU设备的数量大于1时,所述利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果,包括:
调用Horovod并行框架控制各所述GPU设备的TensorFlow深度学习框架之间以并行方式对相应的所述预处理数据执行所述卷积训练得到训练结果。
8.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取样本数据;
预处理模块,用于基于多线程以并行方式对所述样本数据执行数据预处理操作得到预处理数据;
框架训练模块,用于利用TensorFlow深度学习框架对所述预处理数据执行卷积训练得到训练结果,所述TensorFlow深度学习框架基于TensorFlow官方源码编译安装于所述GPU设备。
9.一种GPU设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。
CN201911386519.7A 2019-12-29 2019-12-29 一种数据处理方法、装置、设备及存储介质 Withdrawn CN111191771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911386519.7A CN111191771A (zh) 2019-12-29 2019-12-29 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911386519.7A CN111191771A (zh) 2019-12-29 2019-12-29 一种数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111191771A true CN111191771A (zh) 2020-05-22

Family

ID=70707755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911386519.7A Withdrawn CN111191771A (zh) 2019-12-29 2019-12-29 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111191771A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021244261A1 (en) * 2020-06-02 2021-12-09 International Business Machines Corporation Streamlining data processing optimizations for machine learning workloads
WO2022042113A1 (zh) * 2020-08-28 2022-03-03 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109343978A (zh) * 2018-09-27 2019-02-15 郑州云海信息技术有限公司 一种深度学习分布式框架用的数据交换方法与装置
CN109711248A (zh) * 2018-11-08 2019-05-03 平安科技(深圳)有限公司 一种基于视频的环境识别方法及终端设备
CN109829907A (zh) * 2019-01-31 2019-05-31 浙江工业大学 一种基于深度学习的金属轴表面缺陷识别方法
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109343978A (zh) * 2018-09-27 2019-02-15 郑州云海信息技术有限公司 一种深度学习分布式框架用的数据交换方法与装置
CN109711248A (zh) * 2018-11-08 2019-05-03 平安科技(深圳)有限公司 一种基于视频的环境识别方法及终端设备
CN109829907A (zh) * 2019-01-31 2019-05-31 浙江工业大学 一种基于深度学习的金属轴表面缺陷识别方法
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘君楠: "支持复杂神经网络模型并行训练的资源分配算法优化", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021244261A1 (en) * 2020-06-02 2021-12-09 International Business Machines Corporation Streamlining data processing optimizations for machine learning workloads
US11574249B2 (en) 2020-06-02 2023-02-07 International Business Machines Corporation Streamlining data processing optimizations for machine learning workloads
GB2610543A (en) * 2020-06-02 2023-03-08 Ibm Streamlining data processing optimizations for machine learning workloads
AU2021285952B2 (en) * 2020-06-02 2023-05-11 International Business Machines Corporation Streamlining data processing optimizations for machine learning workloads
WO2022042113A1 (zh) * 2020-08-28 2022-03-03 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110389763B (zh) 用于调度专用处理资源的方法、设备和计算机可读介质
US9898266B2 (en) Loop vectorization methods and apparatus
US9027007B2 (en) Reducing excessive compilation times
CN110378419B (zh) 一种图像集扩充方法、装置、设备及可读存储介质
US20200226124A1 (en) Edge batch reordering for streaming graph analytics
CN110796242A (zh) 神经网络模型推理方法、装置、电子设备及可读介质
CN111191771A (zh) 一种数据处理方法、装置、设备及存储介质
CN110827208A (zh) 卷积神经网络的通用池化增强方法、装置、设备及介质
KR20170024898A (ko) 사용자 어플리케이션의 특성에 따른 연산 디바이스 동적 제어 기법
CN114416045A (zh) 自动生成算子的方法和装置
US9298434B2 (en) Optimizing if statements in computer programming
CN114337920B (zh) 编码解析方法、装置及电子设备
CN113204412A (zh) 用于任务调度的方法、电子设备和计算机存储介质
CN108536514B (zh) 一种热点方法的识别方法和装置
WO2022267638A1 (en) Method and apparatus for functional unit balancing at program compile time
CN112114817B (zh) 基于cobol语言的数据字典字段信息获取方法及装置
US9043582B2 (en) Enhanced instruction scheduling during compilation of high level source code for improved executable code
US11403082B1 (en) Systems and methods for increased bandwidth utilization regarding irregular memory accesses using software pre-execution
US8336041B2 (en) Compiler and compiling method
JP3871312B2 (ja) プログラム変換方法、これを用いたデータ処理装置及びプログラム
CN115081607A (zh) 基于嵌入算子的反向计算方法、装置、设备以及存储介质
CN114398178A (zh) 一种任务执行方法、装置及电子设备
CN110489124B (zh) 源代码执行方法、装置、存储介质及计算机设备
CN109002684B (zh) 一种区间信息分析方法
CN104484160A (zh) 一种优化的分簇vliw处理器上的指令调度和寄存器分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200522