CN110516817A

CN110516817A - 一种模型训练数据加载方法及装置

Info

Publication number: CN110516817A
Application number: CN201910827059.0A
Authority: CN
Inventors: 古迎冬; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2019-11-29

Abstract

本申请提出一种模型训练数据加载方法及装置，该方法包括：获取训练数据集；循环执行以下处理，直到到达预设的循环次数：从所述训练数据集中读取设定数量的数据文件，得到数据文件列表；其中，所述设定数量为当前内存资源所能加载的最大的文件数量；将所述数据文件列表所对应的文件加载到内存；调用预设的训练接口函数从所述内存中读取数据文件进行模型训练。上述处理过程可以最大化每次加载数据文件的数据量，从而减少数据加载次数，因此可以最大化CPU的数据读取效率，同时减少CPU与GPU的数据读取交互次数，从而可以使GPU更稳定地执行模型训练，提高模型训练效率。

Description

一种模型训练数据加载方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练数据加载方法及装置。

背景技术

当前人工智能技术发展十分迅速，作为人工智能核心技术的深度学习，在越来越多的领域如医疗、安防等领域的应用已经遥遥领先于传统方法。对深度学习模型的训练需要庞大的计算资源和计算数据，也就是需要大规模数据集。

面对大规模的数据集，常用的模型训练方法通过实时加载来降低内存的消耗，但是每次加载只能加载数量很少的数据进行训练，而且实时数据加载会导致CPU和GPU频繁交互，GPU与CPU的频繁交互会降低GPU的训练工作效率，拖慢模型训练速度。

发明内容

基于上述现有技术的缺陷和不足，本申请提出一种模型训练数据加载方法及装置，能够提高模型训练时的数据加载效率，进而有助于提高模型训练效率。

为了达到上述目的，本申请提出如下技术方案：

一种模型训练数据加载方法，包括：

获取训练数据集；

循环执行以下处理，直到到达预设的循环次数：

从所述训练数据集中读取设定数量的数据文件，得到数据文件列表；其中，所述设定数量为CPU当前的内存资源所能加载的最大的文件数量；

将所述数据文件列表所对应的文件加载到内存；

调用预设的训练接口函数从所述内存中读取数据文件进行模型训练。

可选的，所述获取训练数据集，包括：

获取数据集；

将所述数据集中的数据划分为训练数据和测试数据，得到训练数据集。

可选的，所述从所述训练数据集中读取设定数量的数据文件，包括：

通过随机抽样的方式，从所述训练数据集中读取设定数量的数据文件。

可选的，在将所述数据文件列表所对应的文件加载到内存之前，所述方法还包括：

对所述数据文件列表中的文件进行解码以及预处理。

可选的，所述调用预设的训练接口函数从所述内存中读取数据文件进行模型训练，包括：

确定训练接口函数的运算参数，其中，所述运算参数包括每个数据文件参与训练的次数、每次迭代加载的数据文件数量以及迭代次数；

调用所述训练接口函数，使所示训练接口函数根据所述运算参数从所述内存中读取数据文件进行模型训练。

一种模型训练数据加载装置，包括：

数据获取单元，用于获取训练数据集；

数据读取单元，用于从所述训练数据集中读取设定数量的数据文件，得到数据文件列表；其中，所述设定数量为CPU当前的内存资源所能加载的最大的文件数量；

数据加载单元，用于将所述数据文件列表所对应的文件加载到内存；

训练处理单元，用于调用预设的训练接口函数从所述内存中读取数据文件进行模型训练。

可选的，所述数据获取单元获取训练数据集时，具体用于：

获取数据集；

可选的，所述数据读取单元从所述训练数据集中读取设定数量的数据文件时，具体用于：

可选的，所述装置还包括：

数据处理单元，用于对所述数据文件列表中的文件进行解码以及预处理。

可选的，所述训练处理单元，包括：

参数确定单元，用于确定训练接口函数的运算参数，其中，所述运算参数包括每个数据文件参与训练的次数、每次迭代加载的数据文件数量以及迭代次数；

函数调用单元，用于调用所述训练接口函数，使所示训练接口函数根据所述运算参数从所述内存中读取数据文件进行模型训练。

本申请提出的模型训练数据加载方法，通过循环的方式分批次地将训练数据集中的数据文件加载到内存中，并且在每次循环加载时所加载的数据文件的数量，是当前内存资源所能加载的最大的文件数量。然后，训练接口函数即可从内存中读取数据文件进行模型训练。上述处理过程可以最大化每次加载数据文件的数据量，从而减少数据加载次数，因此可以最大化CPU的数据读取效率，同时减少CPU与GPU的数据读取交互次数，从而可以使GPU更稳定地执行模型训练，提高模型训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种模型训练数据加载方法的流程示意图；

图2是本申请实施例提供的另一种模型训练数据加载方法的流程示意图；

图3是本申请实施例提供的又一种模型训练数据加载方法的流程示意图；

图4是本申请实施例提供的还一种模型训练数据加载方法的流程示意图；

图5是本申请实施例提供的一种模型训练数据加载装置的结构示意图；

图6是本申请实施例提供的另一种模型训练数据加载装置的结构示意图。

具体实施方式

本申请实施例技术方案适用于对深度学习模型进行训练的应用场景。采用本申请实施例技术方案，能够提高模型训练数据加载效率，从而有助于提高模型训练效率。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本申请实施例提出的模型训练数据加载方法，包括：

S101、获取训练数据集；

具体的，上述训练数据集，是指由用于对深度学习模型进行训练的数据所构成的数据集。

示例性的，上述的训练数据集可以通过从常用的数据集中读取数据构成数据集合的方式得到。例如，本申请实施例从用于图像语义分割的coco2017数据集中读取数据用作深度学习模型的训练数据为例，利用读取的数据构建得到训练数据集。

作为另一种示例性的实现方式，也可以通过随机抽样的方式，从网络或数据库中抽取可用于深度学习模型训练的数据构成训练数据集。或者，也可以是预先构建训练数据集，当需要时直接读取该训练数据集。

本申请实施例不对获取上述训练数据集的具体实现方式进行限定，任意可以得到深度学习模型的训练数据集的方式都可以被本申请实施例所采用。

在获取到深度学习模型的训练数据集后，即可进行数据加载实施对深度学习模型的训练。

由于训练数据集的数据量较大，CPU无法一次全部加载，本申请实施例设定循环加载数据的方式，分批次地从训练数据集中加载数据。

示例性的，本申请实施例预先设置循环次数，然后开始循环地进行数据加载。

具体的，本申请实施例循环执行以下处理，直到到达预设的循环次数：

S102、从所述训练数据集中读取设定数量的数据文件，得到数据文件列表；其中，所述设定数量为当前内存资源所能加载的最大的文件数量；

具体的，本申请实施例根据当前内存资源所能加载的最大的文件数量为基准，将当前内存资源所能加载的最大的文件数量作为单次读取数据文件时的可读取文件数量。

按照上述规则，当每次从训练数据集中读取数据文件时，是读取设定数量的数据文件，该设定数量等于当前内存资源所能加载的最大的文件数量。也就是，每次从训练数据集中读取数据文件时，是读取当前内存资源所能加载的最大数量的数据文件。如果某次读取时，训练数据集中的数据文件的数量不足当前内存资源所能加载的最大数量，则将训练数据集中的所有数据文件全部读取。

从训练数据集中读取的数据文件构成数据文件列表，在该列表中，存储各个数据文件的名称及存储路径等信息。

S103、将所述数据文件列表所对应的文件加载到内存；

示例性的，根据上述的数据文件列表中所记载的文件名称和存储路径，从相应的存储路径读取相应名称的文件，并将读取的文件加载的内存中。该文件加载过程可以通过多线程批量进行，从而使得一次加载能够加载更多的数据文件。

按照本申请实施例的上述处理，在每次加载数据时，能够充分利用CPU的内存资源，使得每次数据加载都能发挥最大用处。在总的训练数据量一定的情况下，增加单次数据加载的数据文件数量，可以减少数据加载次数，从而可以降低GPU与CPU的数据加载交互次数。一方面，CPU的数据加载效率更高；另一方面，GPU可以更专注地执行模型训练处理，从而可以提高模型训练效率。

S104、调用预设的训练接口函数从所述内存中读取数据文件进行模型训练；

具体的，将训练数据加载到内存后，即可调用预设的训练接口函数从内存中读取数据文件进行模型训练，即执行后续的模型训练过程。

在该数据读取和模型训练过程中，对于单个训练数据的应用可以重复多次，例如利用单个训练数据多次对模型进行训练，或者也可以在单次训练时加载多个数据文件进行训练，具体的数据加载和训练模式，可以通过设置训练接口函数的参数进行灵活设定。

S105、判断是否到达预设的循环次数；

具体的，当每执行一次数据文件向内存的加载，并且调用训练接口函数从内存中读取数据文件并进行模型训练后，判断一次执行数据文件加载的次数是否达到预设的循环次数，也就是判断循环执行数据文件加载的次数是否到达预设的循环次数。

如果到达预设的循环次数，则执行步骤S106、结束数据读取；

如果没有到达预设的循环次数，则返回步骤S102重新执行。

具体的，如果达到预设的循环次数，则结束数据读取，相应的也就结束对模型的训练；如果没有达到预设的循环次数，则返回步骤S102进行下一次循环。

需要说明的是，按照本申请实施例上述介绍，当同时设置多次循环以及设置训练接口函数利用同一数据文件进行N次(N大于等于1)训练时，本申请实施例具体是在每次循环时，控制利用该数据文件进行一次训练，在下一次循环时再利用该数据文件进行一次训练，直到经过N次循环后，该数据文件被N次用于训练。

或者，根据实际训练情况，也可以设置在一次循环过程中，利用同一数据文件进行N次的训练，当完成N次训练后，再进行下一次循环。

通过上述介绍可见，本申请实施例提出的模型训练数据加载方法，通过循环的方式分批次地将训练数据集中的数据文件加载到内存中，并且在每次循环加载时所加载的数据文件的数量，是当前内存资源所能加载的最大的文件数量。然后，训练接口函数即可从内存中读取数据文件进行模型训练。上述处理过程可以最大化每次加载数据文件的数据量，从而减少数据加载次数，因此可以最大化CPU的数据读取效率，同时减少CPU与GPU的数据读取交互次数，从而可以使GPU更稳定地执行模型训练，提高模型训练效率。

作为一种示例性的实现方式，参见图2所示，本申请另一实施例还公开了，上述的获取训练数据集的具体处理过程，包括：

S201、获取数据集；

示例性的，本申请实施例将用于图像语义分割的coco2017数据集作为深度学习模型训练的原始数据集。

S202、将所述数据集中的数据划分为训练数据和测试数据，得到训练数据集。

具体的，在获取到上述的数据集后，对上述数据集中的数据进行划分，将其分为训练数据和测试数据。

其中，上述的训练数据用于对深度学习模型进行训练；上述的测试数据用于对训练完成后的深度学习模型进行功能测试。

作为示例性的处理方式，本申请实施例将上述的数据集中的数据按照比例划分，例如按照7:3的比例，分为训练数据和测试数据。在实际实施本申请实施例技术方案时，可以灵活设置训练数据与测试数据的比例，但通常情况下，应当设置训练数据的量大于测试数据的量，以便对模型进行更充分的训练。

在对上述数据集中的数据进行划分后，将划分出的作为训练数据的数据进行整理得到训练数据集。

图2所示的实施例中的步骤S203～S207分别对应图1所示的方法实施例中的步骤S102～S106，其具体内容请参见图1所示的方法实施例的内容，此处不再赘述。

示例性的，本申请另一实施例还公开了，上述的从训练数据集中读取设定数量的数据文件，具体包括：

通过随机抽样的方式，从训练数据集中读取设定数量的数据文件。

具体的，本申请实施例设定，当从训练数据集中读取设定数量的数据文件时，是以随机抽取的方式，从训练数据集中抽取设定数量的数据文件进行读取。

按照上述随机抽样的方式进行数据读取，可以保证在训练数据集中的所有数据均有被读取的可能，从而可以丰富每次读取的数据的种类，利用提升对模型的训练效果。

另一方面，由于本申请实施例是随机地从训练数据集中进行读取的，并没有限定读取地址或读取数据类型等条件，因此在数据读取过程中，可以允许对训练数据集中的数据进行动态修改，例如临时添加数据、删减数据等。

因此，采用本申请实施例技术方案，可以对训练数据集进行动态的扩充和删减，从而提高了模型训练数据加载的灵活性。

示例性的，参见图3所示，本申请另一实施例还公开了，在执行步骤S304、将所述数据文件列表所对应的文件加载到内存之前，所述方法还包括：

S303、对所述数据文件列表中的文件进行解码以及预处理。

具体的，上述的解码及预处理，主要包括对数据文件列表中的文件的格式进行解码，使其符合模型训练需求。另一方面，对文件进行归一化，例如将图像文件的RGB值归一化到[-1,1]之间等。

上述的解码以及预处理，主要是将上述数据文件列表中的文件转换成符合模型训练需求的文件，以便将文件加载到内存后，可以直接被用于模型训练。

图3所示的实施例中的步骤S301、S302、S304～S307分别对应图1所示的方法实施例中的步骤S101、S102、S103～S106，其具体内容请参见图1所示的方法实施例的内容，此处不再赘述。

可选的，参见图4所示，在本申请另一实施例中还公开了，所述调用预设的训练接口函数从所述内存中读取数据文件进行模型训练，包括：

S404、确定训练接口函数的运算参数，其中，所述运算参数包括每个数据文件参与训练的次数、每次迭代加载的数据文件数量以及迭代次数；

具体的，当训练接口函数从内存中读取数据文件进行模型训练之前，先对模型训练参数进行设置，包括设置每个数据文件参与训练的次数、每次迭代加载的数据文件数量以及迭代次数等。

其中，每个数据文件参与训练的次数，是指每个数据文件被用于模型训练的次数；每次迭代加载的数据文件数量，表示训练接口函数每次从内存中读取数据文件时所读取的文件数量；而迭代次数，则是指训练接口函数从内存中读取文件的次数。

当上述各参数确定时，训练接口函数从内存中读取数据文件具体过程也就被确定。

S405、调用所述训练接口函数，使所示训练接口函数根据所述运算参数从所述内存中读取数据文件进行模型训练。

具体的，按照上述的运算参数，训练接口函数可以从中读取数据文件并用于对模型进行训练，即实现对模型的训练过程。

图4所示的方法实施例中的步骤S401～S403、S406、S407分别对应图1所示的方法实施例中的步骤S101～S103、S105、S106，其具体内容请参见图1所示的方法实施例的内容，此处不再赘述。

与上述的模型训练数据加载方法相对应的，本申请另一实施例还公开了一种模型训练数据加载装置，参见图5所示，该装置包括：

数据获取单元100，用于获取训练数据集；

数据读取单元110，用于从所述训练数据集中读取设定数量的数据文件，得到数据文件列表；其中，所述设定数量为当前内存资源所能加载的最大的文件数量；

数据加载单元120，用于将所述数据文件列表所对应的文件加载到内存；

训练处理单元130，用于调用预设的训练接口函数从所述内存中读取数据文件进行模型训练。

可选的，本申请另一实施例还公开了，所述数据获取单元100获取训练数据集时，具体用于：

获取数据集；

可选的，本申请另一实施例还公开了，所述数据读取单元110从所述训练数据集中读取设定数量的数据文件时，具体用于：

可选的，参见图6所示，本申请另一实施例还公开了，所述装置还包括：

数据处理单元140，用于对所述数据文件列表中的文件进行解码以及预处理。

可选的，本申请另一实施例还公开了，所述训练处理单元，包括：

具体的，上述模型训练数据加载装置的各个实施例中的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练数据加载方法，其特征在于，包括：

获取训练数据集；

循环执行以下处理，直到到达预设的循环次数：

将所述数据文件列表所对应的文件加载到内存；

2.根据权利要求1所述的方法，其特征在于，所述获取训练数据集，包括：

获取数据集；

3.根据权利要求1所述的方法，其特征在于，所述从所述训练数据集中读取设定数量的数据文件，包括：

4.根据权利要求1所述的方法，其特征在于，在将所述数据文件列表所对应的文件加载到内存之前，所述方法还包括：

对所述数据文件列表中的文件进行解码以及预处理。

5.根据权利要求1所述的方法，其特征在于，所述调用预设的训练接口函数从所述内存中读取数据文件进行模型训练，包括：

6.一种模型训练数据加载装置，其特征在于，包括：

数据获取单元，用于获取训练数据集；

7.根据权利要求6所述的装置，其特征在于，所述数据获取单元获取训练数据集时，具体用于：

获取数据集；

8.根据权利要求6所述的装置，其特征在于，所述数据读取单元从所述训练数据集中读取设定数量的数据文件时，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6所述的装置，其特征在于，所述训练处理单元，包括：