CN117312394B

CN117312394B - 一种数据访问方法、装置、存储介质及电子设备

Info

Publication number: CN117312394B
Application number: CN202311481292.0A
Authority: CN
Inventors: 韩珂; 李勇; 曾令仿; 刘晓宇
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-03-05
Anticipated expiration: 2043-11-08
Also published as: CN117312394A

Abstract

本说明书公开了一种数据访问方法、装置、存储介质及电子设备，通过第一缓存和第二缓存分别缓存原始样本和处理样本，当接受到模型训练请求后，随机确定一个样本标识，根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时，在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回，经增强计算后确定最终增强样本，用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时，从存储器中获取一个训练样本返回。本方法在保证了训练样本选择的随机性的情况下，提高了缓存命中率，减少CPU冗余计算，并减少了对输入输出接口资源的调用，使得训练过程耗时减少，效率增高。

Description

一种数据访问方法、装置、存储介质及电子设备

技术领域

本说明书涉及机器学习领域，尤其涉及一种数据访问方法、装置、存储介质及电子设备。

背景技术

深度神经网络模型的训练常常需要大量的训练数据和时间，随着深度神经网络技术的发展，对深度神经网络模型的训练效率的要求也越高。一般，为了增加样本的丰富度，可以对样本进行数据增强，得到增强样本用于训练。

在现有技术中，进行数据增强时，为加快数据增强计算的速度，会将原始数据的增强流程拆分为原始数据-部分增强数据-最终增强数据，并对部分增强的数据进行存储和重复使用，从而减少中央处理器（Central Processing Unit，CPU）进行数据增强时的计算开销。并且，训练过程中会随机调用部分增强数据或者原始数据用于模型训练，一般部分增强数据存储在缓存中，而原始数据存储在如机械硬盘、固态硬盘等存储器中。

但是，目前数据缓存系统在随机调用数据训练模型时，为了平衡训练样本，避免出现计算偏斜问题，会高频调用原始数据，导致缓存命中率不高的情况。不仅会导致计算资源的浪费，还会占用较多的输入输出（input output，IO）接口的资源，使得训练过程耗时增加，效率降低。基于此本说明书提供了一种数据访问方法。

发明内容

本说明书提供一种数据访问方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种数据访问方法，训练样本包括原始样本以及处理样本，所述第一缓存中存储有原始样本，所述第二缓存中存储有处理样本，所述处理样本为对原始样本进行部分增强后的数据，所述方法包括：

响应于模型训练请求，确定所述训练样本的样本标识；

根据所述样本标识，分别检索所述第一缓存和所述第二缓存；

当所述第一缓存和所述第二缓存均未命中时，判断所述第一缓存和所述第二缓存中是否存在未命中过的训练样本；

若是，则从未命中的训练样本中随机选择一个训练样本，并返回经增强计算后确定最终增强样本，用于模型训练；

若否，则向所述存储器发出训练样本的访问请求，通过所述存储器的输入输出接口，获取训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

可选地，确定所述训练样本的样本标识，具体包括：

确定所述存储器中存储的原始样本及其样本标识；

对所述原始样本进行数据增强，确定处理样本；

生成所述处理样本的样本标识，并在缓存中存储所述处理样本及其样本标识；

将所述存储器中存储的原始样本以及所述缓存中存储的所述处理样本，作为训练样本，根据所述训练样本与样本标识的对应关系，构建索引列表；

从所述索引列表中随机确定一个样本标识。

可选地，所述方法还包括：

当所述样本标识命中第一缓存时，从所述第一缓存中，读取所述样本标识对应的原始样本，并返回；

从各训练样本中，确定未存储在所述第一缓存中的原始样本对应的样本标识，作为待缓存样本的样本标识；

将所述样本标识对应的原始样本从所述第一缓存中删除；

根据所述待缓存样本的样本标识，从所述存储器中获取对应的原始样本，并缓存至所述第一缓存。

可选地，所述方法还包括：

当所述样本标识命中第二缓存时，从所述第二缓存中，读取所述样本标识对应的处理样本，并返回；

判断所述样本标识对应的处理样本在所述第二缓存中被命中次数是否达到预设值；

若是，从各训练样本中，确定未存储在所述第二缓存中的处理样本对应的样本标识，作为待缓存样本的样本标识；

从所述第二缓存中删除所述样本标识对应的处理样本；

根据所述待缓存样本的样本标识，从所述缓存中获取对应的处理样本，并缓存至所述第二缓存。

可选地，所述方法还包括：

从所述存储器中确定预设数量的处理样本，并存储至所述第二缓存；

从剩余的处理样本中选择预设数量的处理样本，作为备选的处理样本；

确定未存储在所述第二缓存中的处理样本对应的样本标识，具体包括：

在各备选的处理样本中，判断是否存在被选为备选的处理样本后，未存储至所述第二缓存的备选的处理样本；

若是，则从被选为备选的处理样本后，未存储至所述第二缓存的备选的处理样本中，选择备选的处理样本对应的样本标识；

若否，则从所述缓存存储的非备选的处理样本中，选择预设数量的处理样本，重新作为备选的处理样本，并在重新确定的备选的处理样本中，选择备选的处理样本对应的样本标识。

可选地，从未命中的训练样本中随机选择一个训练样本，具体包括：

判断所述第一缓存中是否存在未命中过的原始样本；

若是，从所述未命中过的原始样本中选择一个原始样本；

若否，从所述第二缓存中，获取一个未命中过的处理样本。

可选地，所述方法还包括：

根据所述第一缓存的缓存容量，确定单位容量；

按所述单位容量对所述训练样本进行分组，得到各原始样本分组以及各处理样本分组；

将至少一个原始样本分组存储至所述第一缓存，将至少一个处理样本分组存储至所述第二缓存。

本说明书提供了一种数据访问装置，训练样本包括原始样本以及处理样本，所述第一缓存中存储有原始样本，所述第二缓存中存储有处理样本，所述处理样本为对原始样本进行部分增强后的数据，包括：

确定模块，用于响应于模型训练请求，确定所述训练样本的样本标识；

查询模块，根据所述样本标识，分别遍历所述第一缓存和所述第二缓存；

访问模块，当所述第一缓存和所述第二缓存均未命中时，判断所述第一缓存和所述第二缓存中是否存在未命中过的训练样本；若是，则从未命中的训练样本中随机选择一个作为训练所需的样本数据，并返回经增强计算后确定最终增强样本，用于模型训练；若否，则向存储发出训练样本的访问请求，通过存储的输入输出接口，获取训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种数据访问方法。

本说明书提供了一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种数据访问方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的一种数据访问方法中，通过第一缓存和第二缓存分别缓存原始样本和处理样本，当接受到模型训练请求后，随机确定一个样本标识，根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时，在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回，经增强计算后确定最终增强样本，用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时，从存储器中获取一个训练样本返回。

从上述方法中可以看出，本方法通过第一缓存和第二缓存分别缓存原始样本和处理样本，在样本标识为命中时，从第一缓存和第二缓存中获取为命中过的训练样本，代替该样本标识对应的训练样本，在保证了训练样本选择的随机性的情况下，提高了缓存命中率，减少了对存储器的直接访问，并减少了对输入输出接口资源的调用，使得训练过程耗时减少，效率增高。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的一种数据访问方法的流程示意图；

图2a和图2b为本说明书提供的一种数据增强流程的示意图；

图3为本说明书提供的一种数据访问装置的示意图；

图4为本说明书提供的一种存储和数据加载系统的示意图；

图5为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

需要说明的是，在本说明书一个或多个实施例中，缓存指的是目前常用的易失性存储器如可变存储器（RandomAccessMemory，RAM）等，也可以是常用电子设备的内存。存储器指非易失性存储器，如固态硬盘、机械硬盘等，为方便对所述方法的描述，后续以缓存，存储处理样本和部分原始样本，存储器用于存储所有原始样本为例，对该方法进行描述。

通常情况下，在通过数据增强之后的数据进行模型训练时，CPU会先对一个训练样本进行数据增强，再将数据增强后的结果发送至图形处理器（graphics processing unit，GPU）或现场可编程门阵列（Field Programmable Gate Array，FPGA）等硬件加速器中进行梯度计算。然后在硬件加速器在进行梯度计算时，CPU开始进行对下一个训练样本进行数据增强，实现CPU和硬件加速器的计算重叠，以减少模型训练的时间。

目前，随着硬件加速器的发展，硬件加速器在进行梯度计算的速度越来越快，而数据增强的速度成为了模型训练的瓶颈。如图2a和图2b所示，图2a和图2b为本说明书实施例提供的数据增强计算过程。在数据增强的过程中，一般数据增强过程为图2a所示，原始样本经增强计算，得到最终增强样本。而为缓解CPU的计算压力，将原始数据的增强流程拆分为原始数据-部分增强数据-最终增强数据，并存储部分增强的数据。如图2b所示，将原本的增强计算，划分成原始样本经部分增强计算得到部分增强样本也就是处理样本，处理样本在经过计算得到最终增强的样本两步。

而目前的缓存和数据加载系统为稳定CPU，将处理样本存储在缓存中，在进行数据增强时，随机从缓存或从存储器中获取训练样本，但是，当多次访问存储器获取原始样本时，由于原始样本计算时间较长，且还有可能由于IO口堵塞导致获取时间也较长，从而造成计算偏斜。为缓解数据增强计算中计算偏斜的问题，通过平衡的驱逐，使得似的缓存未命中的次数均匀分布在训练集中，即，原始样本和处理样本的均匀调用。需要说明的是，在本说明书一个或多个实施例中，本说明书不对存储器具体类型进行限制，仅需保证该存储器可进行数据交互即可。

但是，这种设计会出现缓存的命中率较低，且对存储器的访问次数增多，导致模型的训练速度降低。

为解决上述问题，在本说明书提供一种数据访问方法，其中该数据访问方法可以由任何包含存储空间的电子设备实现，该电子设备可以是终端、服务器、单片机等，由于该方法后续步骤包含缓存遍历，存储器访问等步骤，而这些步骤通常由服务器执行，后续在本说明书一个或多个实施例中，也已服务器为执行主体，对该数据访问方法进行说明。

需要说明的是，该服务器至少包含一个处理器，该处理器至少包含两个缓存，在本说明书一个或多个实施例中，上述的两个缓存指的是该服务器为分别存储原始样本和处理样本，而向缓存的申请的两块存储空间，为方便描述，将两块存储空间分别命名为第一缓存和第二缓存，当然，在本说明书中，不限制两个缓存的具体命。此外，一般情况下，第一缓存的存储空间小于第二缓存的存储空间。其中，第一缓存用于存储部分原始样本，第二缓存用于存储部分处理样本。

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种数据访问方法的流程示意图，具体包括以下步骤：

S101：响应于模型训练请求，确定所述训练样本的样本标识。

当服务器接受到模型训练请求时，开始准备数据增强，为保证训练样本的随机性，防止模型欠拟合，服务器在所有训练样本的样本标识中，随机选择一个。而该被选择出来的样本标识对应的训练样本，作为本次要返回CPU进行数据增强计算，得到最终增强的样本的训练样本。

当然，也可以是在模型训练请求中，便包含本轮训练需要的训练样本的样本标识，当服务器接收到模型训练请求后，根据模型训练请求，确定其中包含的样本标识。本说明书不对此进行限制。

此外，为方便随机确定样本标识，在本说明书一个或多个实施例中，服务器还可以在模型训练开始前，确定存储器中存储的原始样本及其样本标识。然后，对各原始样本进行数据增强，确定处理样本。再生成处理样本的样本标识，并在缓存中存储处理样本及其样本标识。将存储器中存储的原始样本以及缓存中存储的处理样本，作为训练样本，根据训练样本与样本标识的对应关系，构建索引列表。当然，该索引列表可以存储在存储器中，也可以存储在缓存或其他可具有存储功能，可进行交互的设备中。

当接受到模型训练请求后，该服务器在索引列表中随机确定一个样本标识。

S102：根据所述样本标识，分别遍历所述第一缓存和所述第二缓存。

由于服务器确定的样本标识，可以是原始样本，也可以是处理样本。所以，该服务器根据确定的样本标识，对第一缓存和第二缓存都进行检索，确定该样本标识是否命中第一缓存或第二缓存。当然，在本说明书一个或多个实施例中，不限制检索缓存的先后顺序，可以先检索第一缓存，再检索第二缓存。也可以先检索第二缓存，再检索第一缓存，也可以两者同时进行检索。

S104：当所述第一缓存和所述第二缓存均未命中时，判断所述第一缓存和所述第二缓存中是否存在未命中过的训练样本，若是，执行步骤S106，若否，执行步骤S108。

当该样本标识命中第一缓存或第二缓存时，直接将该样本标识对应的训练样本返回即可，当该样本表示在第一缓存和第二缓存中均为未命中时，在本说明书一个或多个实施例中，为在保证训练样本的随机性的同时，减少对存储器的访问，该服务器可先判断第一缓存或第二缓存中，是否有在存储进缓存后还未被命中过的训练样本。

若有，则可在未被命中过的样本中选择一个，若无，再从存储器或缓存中去获取训练样本。

S106：未命中的训练样本中选择一个训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

从未命中的训练样本中选择一个作为本轮训练需要的训练样本，其中，服务器可在未命中的训练样本中随机选择一个返回，也可以按照训练样本的样本标识的顺序，从未命中的训练样本中进行选择，还可以按照缓存进第一缓存或第二缓存的时间，从长到最短进行排序，然后再选择。在本说明书一个或多个实施例中，不限制具体采用何种选择方法。

具体的，可先判断所述第一缓存中是否存在未命中过的原始样本，若是，从所述未命中过的原始样本中选择一个原始样本。若否，从所述第二缓存中，获取一个未命中过的处理样本。

此外，在本说明书一个或多个实施例中，为减少服务器对存储器的访问次数和对IO接口的调用，由于第一缓存和第二缓存存储的训练样本不同，且第一缓存的存储空间要小于第二缓存。本说明书还提供两种训练样本的更新方法，应用于第一缓存和第二缓存。

具体地，由于第一缓存的存储空间较小，且存储的原始样本在数据增强时需要额外的部分增强计算，所以计算速度会比第二缓存中存储的处理样本的计算时间长。因此，为减少服务器对存储器的访问次数和对IO接口的调用，第一缓存中的原始样本不会被复用。

所以，当样本标识命中第一缓存时，从第一缓存中，读取样本标识对应的原始样本，并返回。然后从各训练样本中，确定未存储在第一缓存中的原始样本对应的样本标识，作为待缓存样本的样本标识。再将样本标识对应的原始样本从所述第一缓存中删除，根据待缓存样本的样本标识，从存储器中获取对应的原始样本，并缓存至第一缓存。

而第二缓存的存储空间较大，且其中存储的处理样本，得到最终增强样本所需时间相对较短，因此，可根据实际的模型训练情况，确定预设次数，当第二缓存中某处理样本被命中达到预设次数时，更新第二缓存。

具体地，当样本标识命中第二缓存时，从第二缓存中，读取样本标识对应的处理样本，并返回。然后，判断样本标识对应的处理样本在第二缓存中被命中次数是否达到预设值。若是，从各训练样本中，确定未存储在第二缓存中的处理样本对应的样本标识，作为待缓存样本的样本标识，从第二缓存中删除所述样本标识对应的处理样本。根据待缓存样本的样本标识，从缓存中获取对应的处理样本，并缓存至第二缓存。

S108：向存储器发出训练样本的访问请求，通过所述存储器的输入输出接口，获取训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

理想情况下，由于步骤S106中，第一缓存的更新方法，第一缓存和第二缓存中应是一直有未命中的原始样本，但是，实际上会由于第一缓存中数据更新不及时，导致第一缓存中也不包含在存入第一缓存后尚未命中过的原始样本，此时，为不影响模型训练，服务器可根据确定的样本标识，从存储器中直接获取该样本标识对应的训练样本。当然，也可以等第一缓存中已被命中过的原始样本更新后，再从第一缓存中获取原始样本。除此之外，还可以在存储器中，随机选择预设次数内，没有被存入缓存的训练样本。

基于图1所示的数据访问方法，通过第一缓存和第二缓存分别缓存原始样本和处理样本，当接受到模型训练请求后，随机确定一个样本标识，根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时，在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回，经增强计算后确定最终增强样本，用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时，从存储器中获取一个训练样本返回。

从上述方法中可以看出，本方法通过第一缓存和第二缓存分别缓存原始样本和处理样本，在样本标识为命中时，从第一缓存和第二缓存中获取为命中过的训练样本，代替该样本标识对应的训练样本，在保证了训练样本选择的随机性的情况下，提高了缓存命中率，减少了对存储器的访问，并减少了对输入输出接口资源的调用，似的训练过程耗时减少，效率增高。

需要说明的是，在本说明书一个或多个实施例中，处理样本是在接收到模型训练指令之前，便由原始样本经部分增强计算之后的到的结果，并存储在存储器中。然后，在训练开始之前或接收到模型训练请求之后，将原始样本和处理样本分别存储进第一缓存和第二缓存时，为尽快将训练样本存入缓存，可根据第一缓存的缓存容量，确定单位容量，按单位容量对训练样本进行分组，得到各原始样本分组以及各处理样本分组，然后第一缓存和第二缓存以分组后的训练样本为缓存单位，将训练样本存储进分别存储进第一缓存和第二缓存。

另外，在步骤S106中，在对第一缓存和第二缓存中的训练样本进行更新时，为保证刚被从缓存中删除的数据被重复存储进缓存中，影响模型训练的精度，还可以从存储器中先确定备选训练样本。

具体的，以更新第二缓存为例，该服务器从缓存中确定预设数量的处理样本，并存储至所述第二缓存。然后从剩余的处理样本中选择预设数量的处理样本，作为备选的处理样本。当需要对第二缓存更新时，在各备选的处理样本中，判断是否存在被选为备选的处理样本后，未存储至所述第二缓存的备选的处理样本。若是，则从被选为备选的处理样本后，未存储至所述第二缓存的备选的处理样本中，选择备选的处理样本对应的样本标识。若否，则从缓存存储的非备选的处理样本中，选择预设数量的处理样本，重新作为备选的处理样本，并在重新确定的备选的处理样本中，选择备选的处理样本对应的样本标识。

另外，为加快第一缓存的更新速度，减少第一缓存中存储的原始样本更新不及时的状况的出现，第一缓存还可以采用双缓冲的设计，从而增大第一缓存对原始样本的吞吐量。

以上为本说明书的一个或多个实施例提供的数据访问方法，基于同样的思路，本说明书还提供了相应的数据访问装置，如图3所示。

图3为本说明书提供的一种数据访问装置示意图，其中训练样本包括原始样本以及处理样本，所述第一缓存中存储有原始样本，所述第二缓存中存储有处理样本，所述处理样本为对原始样本进行部分增强后的数据，具体包括：

确定模块400，具体用于响应于模型训练请求，确定所述训练样本的样本标识。

查询模块401，具体用于根据所述样本标识，分别遍历所述第一缓存和所述第二缓存。

访问模块402，具体用于当所述第一缓存和所述第二缓存均未命中时，判断所述第一缓存和所述第二缓存中是否存在未命中过的训练样本；若是，则从未命中的训练样本中随机选择一个作为训练所需的样本数据，并返回经增强计算后确定最终增强样本，用于模型训练；若否，则向存储器发出训练样本的访问请求，通过存储器的输入输出接口，获取训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

可选地，确定模块400，具体用于确定存储器中存储的原始样本及其样本标识，对所述原始样本进行数据增强，确定处理样本，生成所述处理样本的样本标识，并在缓存中存储所述处理样本及其样本标识，将所述存储器中存储的原始样本以及所述缓存中存储的所述处理样本，作为训练样本，根据所述训练样本与样本标识的对应关系，构建索引列表，从所述索引列表中随机确定一个样本标识。

可选地，访问模块402还用于，当所述样本标识命中第一缓存时，从所述第一缓存中，读取所述样本标识对应的原始样本，并返回，从各训练样本中，确定未存储在所述第一缓存中的原始样本对应的样本标识，作为待缓存样本的样本标识，将所述样本标识对应的原始样本从所述第一缓存中删除，根据所述待缓存样本的样本标识，从所述存储器中获取对应的原始样本，并缓存至所述第一缓存。

可选地，访问模块402还用于，当所述样本标识命中第二缓存时，从所述第二缓存中，读取所述样本标识对应的处理样本，并返回，判断所述样本标识对应的处理样本在所述第二缓存中被命中次数是否达到预设值，若是，从各训练样本中，确定未存储在所述第二缓存中的处理样本对应的样本标识，作为待缓存样本的样本标识，从所述第二缓存中删除所述样本标识对应的处理样本，根据所述待缓存样本的样本标识，从所述缓存中获取对应的处理样本，并缓存至所述第二缓存。

可选地，访问模块402还用于从所述存储器中确定预设数量的处理样本，并存储至所述第二缓存，从剩余的处理样本中选择预设数量的处理样本，作为备选的处理样本，确定未存储在所述第二缓存中的处理样本对应的样本标识，具体包括：在各备选的处理样本中，判断是否存在被选为备选的处理样本后，未存储至所述第二缓存的备选的处理样本，若是，则从被选为备选的处理样本后，未存储至所述第二缓存的备选的处理样本中，选择备选的处理样本对应的样本标识，若否，则从所述存储器存储的非备选的处理样本中，选择预设数量的处理样本，重新作为备选的处理样本，并在重新确定的备选的处理样本中，选择备选的处理样本对应的样本标识。

可选地，访问模块402，具体用于判断所述第一缓存中是否存在未命中过的原始样本，若是，从所述未命中过的原始样本中选择一个原始样本，若否，从所述第二缓存中，获取一个未命中过的处理样本。

可选地，访问模块402还用于根据所述第一缓存的缓存容量，确定单位容量，按所述单位容量对所述训练样本进行分组，得到各原始样本分组以及各处理样本分组，将至少一个原始样本分组存储至所述第一缓存，将至少一个处理样本分组存储至所述第二缓存。

在本说明书一个或多个实施例中，该数据访问方法可以应用于存储和数据加载系统。例如，如图4所示，图4为本说明书提供的一种存储和数据加载系统的示意图。该系统至少包含三个模块：客户端缓存、存储服务器、存储管理器。其中，客户端缓存用于梯度计算和向存储服务器请求样本。存储服务器用于训练样本的存储，即第一缓存和第二缓存，应用上述的数据访问方法，存储管理器用于维护索引列表，并确定第一缓存和第二缓存的备选样本。

具体的，当接收到模型训练请求，客户端缓存向存储服务器发出训练样本获取请求，存储服务器根据训练样本获取请求中的样本标识，在第一缓存和第二缓存中遍历训练样本，若该样本标识命中存储服务器中存储的训练样本，则将训练样本返回客户端缓存，用于数据增强和梯度计算。若该样本标识没有命中存储服务器中存储的训练样本，则判断第一缓存和第二缓存中是否存在未命中过的训练样本，若是，则从未命中的训练样本中选择一个训练样本，并返回客户端缓存，经增强计算后确定最终增强样本，进行梯度计算。若否，则向存储器发出训练样本的访问请求，通过存储器的输入输出接口，获取训练样本，并返回客户端缓存，经增强计算后确定最终增强样本，进行梯度计算。

当然，上述的系统还可以是一个分布式系统，其中客户端缓存、存储管理器以及存储服务器可以被部署在在不同可交互的设备上，在本说明书一个或多个实施例中，不对此进行限制。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的数据访问方法。

本说明书还提供了图5所示的电子设备的示意结构图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的数据方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据访问方法，其特征在于，训练样本包括原始样本以及处理样本，第一缓存中存储有原始样本，第二缓存中存储有处理样本，所述处理样本为对原始样本进行部分增强后的数据，所述方法包括：

响应于模型训练请求，确定所述训练样本的样本标识；

若是，则确定所述第一缓存中是否存在未命中过的原始样本，当所述第一缓存中存在所述未命中过的原始样本时，从所述未命中过的原始样本中选择一个原始样本，当所述第一缓存中不存在所述未命中过的原始样本时，从所述第二缓存中，获取一个未命中过的处理样本，将获取的原始样本或部分增强样本经增强计算后，确定最终增强样本，用于模型训练；

若否，则向存储器发出训练样本的访问请求，通过所述存储器的输入输出接口，获取训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

2.如权利要求1所述方法，其特征在于，确定所述训练样本的样本标识，具体包括：

确定所述存储器中存储的原始样本及其样本标识；

对所述原始样本进行数据增强，确定处理样本；

从所述索引列表中随机确定一个样本标识。

3.如权利要求1所述方法，其特征在于，所述方法还包括：

将所述样本标识对应的原始样本从所述第一缓存中删除；

根据所述待缓存样本的样本标识，从所述缓存中获取对应的原始样本，并缓存至所述第一缓存。

4.如权利要求1所述方法，其特征在于，所述方法还包括：

从所述第二缓存中删除所述样本标识对应的处理样本；

5.如权利要求4所述方法，其特征在于，所述方法还包括：

从所述缓存中确定预设数量的处理样本，并存储至所述第二缓存；

6.如权利要求1所述方法，其特征在于，所述方法还包括：

根据所述第一缓存的缓存容量，确定单位容量；

7.一种数据访问装置，其特征在于，训练样本包括原始样本以及处理样本，第一缓存中存储有原始样本，第二缓存中存储有处理样本，所述处理样本为对原始样本进行部分增强后的数据，所述装置包括：

查询模块，用于根据所述样本标识，分别遍历所述第一缓存和所述第二缓存；

访问模块，用于当所述第一缓存和所述第二缓存均未命中时，判断所述第一缓存和所述第二缓存中是否存在未命中过的训练样本；若是，则

确定所述第一缓存中是否存在未命中过的原始样本，当所述第一缓存中存在所述未命中过的原始样本时，从所述未命中过的原始样本中选择一个原始样本，当所述第一缓存中不存在所述未命中过的原始样本时，从所述第二缓存中，获取一个未命中过的处理样本，将获取的原始样本或部分增强样本经增强计算后，确定最终增强样本，用于模型训练；若否，则向存储发出训练样本的访问请求，通过存储器的输入输出接口，获取训练样本，并返回经增强计算后确定最终增强样本，用于模型训练。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。