CN112597113B

CN112597113B - 一种数据快速读取方法、装置、电子设备及存储介质

Info

Publication number: CN112597113B
Application number: CN202110246172.7A
Authority: CN
Inventors: 陈刚; 王跃锋; 银燕龙; 陈伟剑; 毛旷; 杨弢; 何水兵; 曾令仿
Original assignee: Zhejiang University ZJU; Zhejiang Lab
Current assignee: Zhejiang University ZJU; Zhejiang Lab
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-01
Anticipated expiration: 2041-03-05
Also published as: CN112597113A

Abstract

本发明公开了一种数据快速读取方法、装置、电子设备及存储介质，该方法包括：将数据集划分成若干份图片子集，对每个图片子集进行归一化处理，并分别聚合为一个文件；给数据集中的每个图片分配一个请求编号；通过继承深度学习平台的数据集抽象类，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射；根据所述映射，快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件，减少了海量小样本元数据管理的开销，优化了数据集的组织形式，极大地提升了图片的读取速度；图片读取时通过多级地址映射，取代了原本低效的海量图片中随机查找的过程，极大地提升了读取速率。

Description

一种数据快速读取方法、装置、电子设备及存储介质

技术领域

本发明涉及深度学习领域，尤其涉及一种数据快速读取方法、装置、电子设备及存储介质。

背景技术

作为一种自动描述对象、趋势和异常的方法，深度学习在科学及商用领域得到了广泛的运用。深度学习的具体流程为：1.设定损失函数，初始化模型参数。2.从选定的训练数据集中随机读取一定批次数量的数据，输入模型，进行正向传播，计算得到损失值。3. 再使用后向传播方法，将相应的损失值逐层反方向传递，计算出每个参数的参数误差。随后使用模型参数更新优化方法更新模型参数。4.重复2，3两步，直到损失值降到可接受的值，模型得到收敛。

在整个深度学习过程中会频繁地随机读取整个数据集中的样本，计算损失值，更新模型参数。数据集本身体积非常大，但是样本本身又是非常小的文件，以致引入了一个海量小文件的随机I\O问题，造成了严重的I\O瓶颈。

发明内容

本发明实施例的目的是提供一种数据快速读取方法、装置、电子设备及存储介质，以解决相关技术中数据集读取缓慢的问题。

根据本发明实施例的第一方面，提供一种数据快速读取方法，包括：

将数据集划分成若干份图片子集，将每个所述图片子集聚合为一个文件，所述文件中包含文件地址和各个图片的偏移信息；

给数据集中的每个图片分配一个请求编号；

通过继承深度学习平台的数据集抽象类，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射；

根据所述映射，快速读取所述数据集中的所有图片。

进一步地，将数据集划分成若干份图片子集，对每个所述图片子集进行归一化处理后聚合为一个文件，具体包括：

获取数据集中所有图片的路径，组成路径集合；

将所述路径集合进行打乱；

在打乱后的路径集合中，读取n个路径，其中n代表聚合为一个文件所需的图片数量；

利用读取的n个路径，读取路径对应的图片，组建成一个图片子集，并进行归一化处理；

将归一化处理后的图片集合按照图片数量、宽度、长度、色道的多维数组存储方式聚合为一个文件。

进一步地，根据所述映射，快速读取所述数据集中的所有图片，具体包括：

通过请求编号N，读取对应的图片；

根据所述映射找到编号为N的图片所在的文件，该文件编号记为M；

如果编号为M的文件还未载入内存，那么载入内存，否则根据所述映射从已载入内存的编号为M的文件中读取编号为N的图片的信息。

根据本发明实施例的第二方面，提供一种数据快速读取装置，包括：

聚合模块，用于将数据集划分成若干份图片子集，将每个所述图片子集聚合为一个文件，所述文件中包含文件地址和各个图片的偏移信息；

编号分配模块，用于给数据集中的每个图片分配一个请求编号；

计算模块，用于通过继承深度学习平台的数据集抽象类，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射；

读取模块，用于根据所述映射，快速读取所述数据集中的所有图片。

根据本发明实施例的第三方面，提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

根据以上技术方案，本发明的有益效果如下：

1、将数据集划分成若干份图片子集，将每个所述图片子集聚合为一个文件，减少了海量小样本元数据管理的开销，优化了数据集的组织形式，极大地提升了图片的读取速度；

2、通过继承深度学习平台的数据集抽象类，来实现数据集快速读取操作，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射；图片读取时通过多级地址映射，取代了原本低效的海量图片中随机查找的过程，极大地提升了读取速率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据一示例性实施例示出的一种数据快速读取方法的流程图；

图2为根据一示例性实施例示出的文件聚合生成流程图；

图3为根据一示例性实施例示出的内部实现映射关系图；

图4为根据一示例性实施例示出的数据集快速读取流程图；

图5为根据一示例性实施例示出的一种数据快速读取装置的框图。

图6为根据一示例性实施例示出的聚合模块的框图。

图7为根据一示例性实施例示出的读取模块的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为根据一示例性实施例示出的一种数据快速读取方法的流程图；下文以ImageNet数据集、Pytorch深度学习平台、HDF5存储中间件为例，来详细讲解一种数据快速读取方法，该方法包括：

步骤S101，将数据集划分成若干份图片子集，将每个所述图片子集聚合为一个文件，所述文件中包含文件地址和各个图片的偏移信息，图2为根据一示例性实施例示出的文件聚合生成流程图，该步骤具体包括以下子步骤：

步骤S1011，获取数据集中所有图片的路径，组成路径集合；把图片的路径而不是整个图片载入内存，加快了载入速度，同时减少了内存的浪费。

步骤S1012，将获得的路径集合进行打乱；

步骤S1013，在打乱后的路径集合中，读取n个路径，其中n代表转化为一个.h5文件所需的图片数量；

步骤S1014，利用读取的n个路径，读取路径对应的图片，组成一个图片子集，并进行归一化处理；

步骤 S1015，将归一化处理后的图片集合按照dataspace（n, width, height,channels）写入.h5文件中，其中dataspace为HDF5中间件对写入数据的数据布局，width为图片的宽度，height为图片的高度，channels为图片的色道数量；使用dataspace（n,width, height, channels）这样的数据布局，非常利于数据的读取，同时也有逻辑意义。图片统一规格存入.h5文件中，使得一次性读取整个.h5文件变得非常快。

步骤S102，给数据集中的每个图片分配一个请求编号；

具体地，依次为每个图片分配0,1,2,3,……,M-1的请求编号，对于图片的请求操作，都会通过所述分配的编号来指定，其中M为数据集中图片的总数。

步骤S103，通过继承深度学习平台的数据集抽象类，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射，具体包括：

通过继承Pytorch的抽象类Dataset，实现其中的__getitem__和__len__抽象方法，建立每张图片到.h5文件的映射，得到数据集读取API FastRecord。以此来实现数据集快速读取操作，不需要重复开发实现批次读取、混洗读取等数据集操作的通用方法，并且实现的所属读取方法可以完美无缝地替换原有的数据集操作类进行数据集读取；其中__getitem__方法实现根据输入编号返回样本内容的功能，__len__方法实现返回本数据集样本个数的功能；

具体地，如图3所示，建立FastRecord类和HDF5Dataset类，两个类均继承Pytorch提供的Dataset抽象类。其中整个数据集对应为一个FastRecord类，每个.h5文件分别对应于一个HDF5Dataset类。在FastRecord类中实现__getitem__和__len__方法，建立请求读取的图片编号到.h5文件的映射。在HDF5Dataset中实现__getitem__和__len__方法，建立好.h5文件到具体图片编号的映射。两个类均继承Pytorch的Dataset抽象类，最大化地减少了代码功能的重复实现；具体的.h5文件聚合生成流程如图3所示。

步骤S104，根据所述映射，快速读取所述数据集中的所有图片；图4为根据一示例性实施例示出的数据集快速读取流程图，在深度学习训练过程中，通过API FastRecord快速读取数据集图片，如图4所示，包括以下子步骤：

步骤S1041，通过FastRecord读取编号为N的图片；

步骤S1042，通过所述映射找到编号为N的图片所在的.h5文件，该.h5文件编号记为M；通过多级地址映射，取代了原本低效的海量小文件随机查找过程，极大地提升了读取速率；

步骤 S1043，如果编号M的.h5文件还未载入内存，那么载入内存；否则根据所述映射从已载入内存的.h5文件中读取编号为N的图片的信息。一次性读取图片所在的整个.h5文件，当读取该.h5文件中其他图片时，只需要在内存中读取，不再需要磁盘I\O。

具体地，在PyTorch上实现了相应的数据集操作API FastRecord。显著地减少了训练的总体时间，与Pytorch官方提供的数据集操作API ImageFolder相比，使用ImageNet数据集的ResNet-50网络训练时间下降为了原本的三分之一，得到了显著的性能提升。本实例中所述图片的信息可以包括图片的像素值、灰度值和RGB值。

需要说明的是，本实施例所用的HDF5是美国国家高级计算应用中心为了满足各种领域研究需求而研制的一种能高效存储和分发科学数据的新型数据格式，HDF5可以表示出科学数据存储和分布的许多必要条件，同时具有很好的I\O性能。

本发明实施例将数据集划分成若干份图片子集，将每个所述图片子集聚合为一个文件，减少了海量小样本元数据管理的开销，优化了数据集的组织形式，极大地提升了图片的读取速度；通过继承深度学习平台的数据集抽象类，来实现数据集快速读取操作，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射；图片读取时通过多级地址映射，取代了原本低效的海量图片中随机查找的过程，极大地提升了读取速率。

与前述的一种数据快速读取方法的实施例相对应，本申请还提供了一种数据快速读取装置的实施例。

图5为根据一示例性实施例示出的一种数据快速读取装置的框图，如图5所示，该装置包括：

聚合模块21，用于将数据集划分成若干份图片子集，将每个所述图片子集聚合为一个文件，所述文件中包含文件地址和各个图片的偏移信息；

编号分配模块22，用于给数据集中的每个图片分配一个请求编号；

计算模块23，用于通过继承深度学习平台的数据集抽象类，根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息，从而获得每张图片到该图片所属文件的映射；

读取模块24，用于根据所述映射，快速读取所述数据集中的所有图片。

图6为根据一示例性实施例示出的聚合模块的框图，本实施例中，所述聚合模块21包括：

获取子模211，用于获取数据集中所有图片的路径，组成路径集合；

打乱子模块212，用于将所述路径集合进行打乱；

第一读取子模块213，用于在打乱后的路径集合中，读取n个路径，其中n代表聚合为一个文件所需的图片数量；

组建归一处理子模块214，用于利用读取的n个路径，读取路径对应的图片，组建成一个图片子集，并进行归一化处理；

聚合子模块215，用于将归一化处理后的图片集合按照图片数量、宽度、长度、色道的多维数组存储方式聚合为一个文件。

图7为根据一示例性实施例示出的读取模块的框图，本实施例中，所述读取模块24包括：

第二读取子模块241，用于通过请求编号N，读取对应的图片；

寻找子模块242，用于根据所述映射找到编号为N的图片所在的文件，该文件编号记为M；

判断子模块243，用于如果编号为M的文件还未载入内存，那么载入内存，否则根据所述映射从已载入内存的编号为M的文件中读取编号为N的图片的信息。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本实施例还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种数据快速读取方法。

相应的，本实施例提供一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上述的一种数据快速读取方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的设备实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据快速读取方法，其特征在于，包括：

给数据集中的每个图片分配一个请求编号；

根据所述映射，快速读取所述数据集中的所有图片；

其中，将数据集划分成若干份图片子集，对每个所述图片子集聚合为一个文件，具体包括：

获取数据集中所有图片的路径，组成路径集合；

将所述路径集合进行打乱；

2.根据权利要求1所述的一种数据快速读取方法，其特征在于，根据所述映射，快速读取所述数据集中的所有图片，具体包括：

通过请求编号N，读取对应的图片；

根据所述映射找到编号为N的图片所在的文件，该文件的编号记为M；

3.根据权利要求2所述的一种数据快速读取方法，其特征在于，所述图片的信息包括图片的像素值、灰度值和RGB值。

4.一种数据快速读取装置，其特征在于，包括：

读取模块，用于根据所述映射，快速读取所述数据集中的所有图片；

其中，所述聚合模块包括：

获取子模块，用于获取数据集中所有图片的路径，组成路径集合；

打乱子模块，用于将所述路径集合进行打乱；

第一读取子模块，用于在打乱后的路径集合中，读取n个路径，其中n代表聚合为一个文件所需的图片数量；

组建归一处理子模块，用于利用读取的n个路径，读取路径对应的图片，组建成一个图片子集，并进行归一化处理；

聚合子模块，用于将归一化处理后的图片集合按照图片数量、宽度、长度、色道的多维数组存储方式聚合为一个文件。

5.根据权利要求4所述的一种数据快速读取装置，其特征在于，所述读取模块包括：

第二读取子模块，用于通过请求编号N，读取对应的图片；

寻找子模块，用于根据所述映射找到编号为N的图片所在的文件，该文件的编号记为M；

判断子模块，用于如果编号为M的文件还未载入内存，那么载入内存，否则根据所述映射从已载入内存的编号为M的文件中读取编号为N的图片的信息。

6.根据权利要求5所述的一种数据快速读取装置，其特征在于，所述图片的信息包括图片的像素值、灰度值和RGB值。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3任一项所述的方法。

8.一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的方法。