CN116048421A

CN116048421A - 数据存储方法、装置、电子设备及存储介质

Info

Publication number: CN116048421A
Application number: CN202310163239.XA
Authority: CN
Inventors: 谢凯; 钱瀚
Original assignee: Beijing Volcano Engine Technology Co Ltd; Lemon Inc Cayman Island
Current assignee: Beijing Volcano Engine Technology Co Ltd; Lemon Inc Cayman Island
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-05-02

Abstract

本公开提供了一种数据存储方法、装置、电子设备及存储介质，该数据存储方法包括：响应于针对第一目标数据文件的文件存储请求，获取待存入目标存储系统的第一目标数据文件，目标存储系统配置有表元数据，表元数据指示目标存储系统对应的存储分支信息，存储分支信息包括主干分支和至少一个实验分支，主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，实验分支用于挂载尚未用于模型训练的数据文件，基于表元数据，确定与文件存储请求对应的第一目标实验分支，并新建与第一目标实验分支对应的第一目标快照，并基于第一目标快照，将第一目标数据文件存储到目标存储系统中的对应存储位置。本申请实施例，可以提升数据存储效率。

Description

数据存储方法、装置、电子设备及存储介质

技术领域

本公开涉及数据存储技术领域，具体而言，涉及一种数据存储方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，机器学习对于训练数据的需求越来越大，为了便于对大批量的数据进行管理，通常采用存储系统对数据进行存储。比如，对用户在使用应用程序过程中的使用行为数据进行存储，以便于后续使用。

目前的数据存储系统，通常采用写时复制的方式向存储系统中添加新的数据，然而，此种方式需要将存储系统中已存入的数据读出，与新的数据合并之后再重新写入到存储系统中，导致数据读写的开销较大，进而影响数据存储的效率。

发明内容

本公开实施例至少提供一种数据存储方法、装置、电子设备及存储介质，可以提升数据存储效率。

本公开实施例提供了一种数据存储方法，包括：

响应于针对第一目标数据文件的文件存储请求，获取待存入目标存储系统的第一目标数据文件，所述第一目标数据文件包括至少一个特征数据；所述目标存储系统配置有表元数据，所述表元数据用于指示所述目标存储系统所对应的存储分支信息，所述存储分支信息包括主干分支以及至少一个实验分支，所述主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，所述实验分支用于挂载尚未用于模型训练的数据文件，所述文件存储请求携带第一目标分支信息；

基于所述表元数据，从所述至少一个实验分支中确定与所述文件存储请求所携带的第一目标分支信息匹配的第一目标实验分支，并新建与所述第一目标实验分支对应的第一目标快照，所述第一目标快照用于指示所述第一目标数据文件在所述目标存储系统中的目标存储路径；

按照所述第一目标快照所指示的存储路径，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置。

本公开实施例中，由于目标存储系统的存储架构是通过主干分支以及至少一个实验分支实现的，其中主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，实验分支用于挂载尚未用于模型训练的数据文件，在向目标存储系统中添加新的数据文件时，可以通过其中一个实验分支进行添加，与相关技术中所采用的写时复制的存储方式相比，新的数据文件与目标存储系统中的其他分支对应的数据文件之间相互隔离，无需对其他分支中的数据进行复制和读取，如此，可以减小数据处理的开销，进而有利于提升数据存储的效率。

在一种可能的实施方式中，所述第一目标快照对应目标文件明细，所述目标文件明细包括在所述目标存储系统中为所述第一目标数据文件分配的目标存储路径；所述按照所述第一目标快照所指示的存储路径，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置，包括：

按照所述第一目标快照对应的目标文件明细所包括的目标存储路径，将所述第一目标数据文件存储到所述目标存储路径对应的存储位置。

本公开实施例中，由于目标文件明细包括在目标存储系统中为所述第一目标数据文件分配的目标存储路径，因此，按照目标文件明细包含的目标存储路径，可以提升第一目标数据文件存储的准确性。

在一种可能的实施方式中，所述方法还包括：

基于所述第一目标数据文件，对目标模型进行训练，得到训练结果，并确定所述训练结果是否符合所述预设要求；

在所述训练结果符合所述预设要求的情况下，新建与所述主干分支对应的第二目标快照，并建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系。

本公开实施例中，在训练结果符合预设要求的情况下，建立第二目标快照与第一目标数据文件和主干分支对应的已有的数据文件的对应指示关系，如此，可以确保主干分支对应的数据文件均是有利于模型训练的，进而有利于提升主干分支对应的数据文件的质量。

在一种可能的实施方式中，所述建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系，包括：

判断所述第一目标数据文件与所述主干分支对应的已有的数据文件之间是否存在矛盾的特征数据；

在所述第一目标数据文件与所述主干分支对应的已有的数据文件之间不存在矛盾的特征数据的情况下，建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系。

本公开实施例中，在第一目标数据文件与主干分支对应的已有的数据文件之间不存在矛盾的特征数据，的情况下，建立第二目标快照与第一目标数据文件和主干分支对应的已有的数据文件的对应指示关系，这样，可以避免主干分支对应的数据文件中的特征数据矛盾，进而提升数据存储的质量。此外，在进行后续读时合并的过程中，避免数据合并存在矛盾，影响数据读取的效率。

在一种可能的实施方式中，在所述第一目标数据文件中的特征数据为基于预设的变更逻辑，对所述主干分支对应的数据文件中的特征数据进行变更得到的数据的情况下，所述方法还包括：

在所述主干分支对应的数据文件发生变更的情况下，基于所述主干分支对应的最新变更后的数据文件以及所述预设的变更逻辑，得到变更后的第一目标数据文件；

新建与所述第一目标实验分支对应的第三快照，并建立所述第三快照与所述变更后的第一目标数据文件之间的对应指示关系。

本公开实施例中，在第一目标数据文件中的特征数据为基于预设的变更逻辑，对主干分支对应的数据文件中的特征数据进行变更得到的数据的情况下，若主干分支对应的数据文件发生变更，可以同时对第一目标实验分支对应的数据文件进行更新，如此可以确保第一目标实验分支对应的数据文件执行的特征数据时最新的，如此，在后续基于第一目标实验分支进行特征数据调研时，可以确保特征数据的时效性，进而提升特征调研的准确性。

在一种可能的实施方式中，所述方法还包括：

针对每个快照，确定每个快照的留存时间是否超过预设时间；

在所述快照的留存时间超过所述预设时间且所述快照未被任一分支连接的情况下，将所述快照进行删除。

本公开实施例中，在快照的留存时间超过预设时间且快照未被任一分支连接的情况下，说明该快照未被使用，因此，可以将该快照从表元数据中删除，如此，可以提升表元数据的简洁性，进而在基于表元数据进行分支查找时，可以节约查找时间，进而提升分支确定的效率。

在一种可能的实施方式中，所述方法还包括：

针对每个分支，在所述分支上存在与各个快照均不存在对应关系的文件明细的情况下，将所述不存在对应关系的文件明细从所述表元数据中删除；和/或，

针对每个分支，在所述分支上存在与各个快照均不存在对应指示关系的数据文件的情况下，将所述不存在对应指示关系的数据文件进行删除。

本公开实施例中，还可以对表元数据中的不存在对应关系的文件明细进行删除，可以简化表元数据的内容，进而在基于表元数据进行分支查找时，可以节约查找时间，进而提升分支确定的效率；将不存在对应指示关系的数据文件进行删除，可以提升目标存储系统的有效存储空间。。

在一种可能的实施方式中，所述方法还包括：

响应于文件读取请求，基于所述文件读取请求所携带的第二目标分支信息，从所述表元数据中确定第二目标实验分支，并从所述第二目标实验分支对应的数据文件中，确定与所述文件读取请求所携带的第二目标分支信息匹配的至少一个第二目标数据文件；

对所述至少一个第二目标数据文件进行读时合并，得到合并数据文件，并基于所述合并数据文件进行特征数据读取。

本公开实施例中，在读取数据文件时，可以通过实验分支进行读取，这样，可以实现特征数据的读隔离，也即，对于不需要的数据无需进行读取，如此，可以减小数据读取的开销，有利于提升数据读取的效率。

在一种可能的实施方式中，所述数据文件中的特征数据还具有标识信息；所述对所述至少一个第二目标数据文件进行读时合并，得到合并数据文件，包括：

根据所述至少一个第二目标数据文件中的各个特征数据的标识信息，将具有相同标识信息的特征数据进行合并，得到所述合并数据文件。

本公开实施例中，基于各个特征数据的标识信息，对特征数据进行合并，如此，可以提升数据合并的准确性。

本公开实施例提供了一种数据存储装置，包括：

数据获取模块，用于响应于针对第一目标数据文件的文件存储请求，获取待存入目标存储系统的第一目标数据文件，所述第一目标数据文件包括至少一个特征数据；所述目标存储系统配置有表元数据，所述表元数据用于指示所述目标存储系统所对应的存储分支信息，所述存储分支信息包括主干分支以及至少一个实验分支，所述主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，所述实验分支用于挂载尚未用于模型训练的数据文件，所述文件存储请求携带第一目标分支信息；

分支确定模块，用于基于所述表元数据，从所述至少一个实验分支中确定与所述文件存储请求所携带的第一目标分支信息匹配的第一目标实验分支，并新建与所述第一目标实验分支对应的第一目标快照，所述第一目标快照用于指示所述第一目标数据文件在所述目标存储系统中的目标存储路径；

数据存储模块，用于按照所述第一目标快照所指示的存储路径，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置。

在一种可能的实施方式中，所述第一目标快照对应目标文件明细，所述目标文件明细包括在所述目标存储系统中为所述第一目标数据文件分配的目标存储路径；所述数据存储模块具体用于：

在一种可能的实施方式中，所述数据存储装置还包括关系确定模块，所述关系确定模块用于：

在一种可能的实施方式中，所述关系确定模块具体用于：

在一种可能的实施方式中，所述关系确定模块还用于：

在所述第一目标数据文件中的特征数据为基于预设的变更逻辑，对所述主干分支对应的数据文件中的特征数据进行变更得到的数据且在所述主干分支对应的数据文件发生变更的情况下，基于所述主干分支对应的最新变更后的数据文件以及所述预设的变更逻辑，得到变更后的第一目标数据文件；

在一种可能的实施方式中，所述数据存储装置还包括信息删除模块，所述信息删除模块用于：

在一种可能的实施方式中，所述信息删除模块还用于：

在一种可能的实施方式中，所述数据存储装置还包括数据读取模块，

所述分支确定模块还用于：

所述数据读取模块用于：

本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述任一实施方式中所述的数据存储方法。

本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施方式中所述的数据存储方法。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开一些实施例所提供的一种数据存储方法的流程图；

图2示出了本公开一些实施例所提供的一种目标存储系统的存储架构的示意图；

图3示出了本公开一些实施例所提供的一种第一目标数据文件与主干分支的对应指示关系的建立方法的流程图；

图4示出了本公开一些实施例所提供的一种新建与主干分支对应的第二目标快照的示意图；

图5示出了本公开一些实施例所提供的一种新建与实验分支对应的新的快照的示意图；

图6示出了本公开一些实施例所提供的一种数据读取方法的流程图；

图7示出了本公开一些实施例所提供的一种数据存储装置的结构示意图；

图8示出了本公开一些实施例所提供的另一种数据存储装置的结构示意图；

图9示出了本公开一些实施例所提供的电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，目前的数据存储系统，通常采用写时复制的方式向存储系统中添加新的数据，然而，此种方式需要将存储系统中已存入的数据读出，与新的数据合并之后再重新写入到存储系统中，导致数据读写的开销较大，进而使得数据存储效率较低。

基于上述研究，本公开实施例提供一种数据存储方法，首先响应于针对第一目标数据文件的文件存储请求，获取待存入目标存储系统的第一目标数据文件，所述目标数据文件包括至少一个特征数据；所述目标存储系统配置有表元数据，所述表元数据用于指示所述目标存储系统所对应的存储分支信息，所述存储分支信息包括主干分支以及至少一个实验分支，所述主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，所述实验分支用于挂载尚未用于模型训练的数据文件；所述文件存储请求携带目标分支信息；然后基于所述表元数据，从所述至少一个实验分支中确定与所述文件存储请求对应的第一目标实验分支，并新建与所述第一目标实验分支对应的第一目标快照，所述第一目标快照用于指示所述第一目标数据文件在所述目标存储系统中的目标存储路径；最后基于所述第一目标快照，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置。如此，可以基于实验分支将第一目标数据文件写入系统，对于主干分支挂载的数据文件不产生影响，与相关技术中所采用的写时复制的方式相比，无需对主干分支挂载的数据文件进行操作，从而可以提升数据存储的效率。

为便于对本实施例进行理解，首先对本公开实施例所提供的数据存储方法的执行主体进行详细介绍。本公开实施例所提供的数据存储方法的执行主体为电子设备。本实施方式中，所述电子设备为服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云存储、大数据和人工智能平台等基础云计算服务的云服务器。其他实施例中，该电子设备还可以为终端设备。其中，该终端设备可以为移动设备、用户终端、手持设备、计算设备及可穿戴设备等。此外，该数据存储方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面结合附图对本申请实施例所提供的数据存储方法进行详细说明。参见图1所示，为本公开实施例提供的一种数据存储方法的流程图，该数据存储方法包括以下S101～S102：

S101，响应于针对第一目标数据文件的文件存储请求，获取待存入目标存储系统的第一目标数据文件，所述第一目标数据文件包括至少一个特征数据；所述目标存储系统配置有表元数据，所述表元数据用于指示所述目标存储系统所对应的存储分支信息，所述存储分支信息包括主干分支以及至少一个实验分支，所述主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，所述实验分支用于挂载尚未用于模型训练的数据文件，所述文件存储请求携带第一目标分支信息。

首先，针对目标存储系统的存储架构进行介绍。具体的，目标存储系统依赖于元数据架构实现数据文件的存储，请参见图2，为本公开实施例所提供的一种目标存储系统的存储架构的示意图，如图2中所示，目标存储系统配置有表元数据，所述表元数据中包括目标存储系统对应的存储分支信息，其中，存储分支信息包括主干分支以及至少一个实验分支(或者调研分支)，例如，图2中所示的实验分支1以及实验分支2，其中，主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件(例如数据文件1、2、3)，实验分支用于挂载尚未用于模型训练的数据文件(例如数据文件5)，应当理解，可以基于数据文件对目标模型进行模型训练，得到训练结果，若训练结果符合预设要求，则可以将数据文件挂载到主干分支，对于一些数据文件(例如新增文件)，则可以将其挂载到实验分支上。

本公开实施例中，文件存储请求携带第一目标分支信息，第一目标分支信息可以是其中一个实验分支的标识信息(例如实验分支1的标识信息可以是A1、实验分支2的标识信息可以是A2，还可以是其他格式的标识信息，并不进行限定)，以在后续步骤中确定存储所述第一目标数据文件所对应的第一目标实验分支。

可选地，第一目标数据文件可以包括用户在使用目标应用程序过程中的使用行为数据，所述使用行为数据包括样本数据和/或样本标签数据，所述样本数据以及所述样本标签数据用于对目标模型进行训练，训练好的模型可以用于预测用户的目标使用行为，并依据该目标使用行为所述用户展示与所述目标使用行为匹配的内容。其他实施例中，目标存储系统所存储的数据文件还可以是基于通用数据保护条例(General Data ProtectionRegulation，GDPR)合规要求所需要保留的用户数据。

需要说明的是，通过新增的样本数据以及样本标签数据对模型进行训练后，若模型性能得到了提升，则将新增的样本数据以及样本标签数据进行保留；若模型性能降低了，则会将新增的样本数据以及样本标签数据删除，进而节省相应的存储空间。

示例性地，目标应用程序可以为短视频类应用程序、新闻发现类应用程序以及购物类应用程序等，此处不做具体限定。所述样本数据是指用于表征用户行为的数据，所述样本标签数据是指用于表征用户行为结果的数据。针对不同的类型的应用程序，所述样本数据的内容以及样本标签数据的内容不同。

比如，针对新闻类应用程序，该样本数据可以为用户浏览新闻的浏览内容以及浏览时长等相关数据，相应地，该样本标签数据可以是针对某一新闻内容的收藏、点赞或者点踩数据；针对购物类应用程序，所述样本数据可以是用户搜索或者观看某类购物内容的消费数据，而相应的，该样本标签数据可以是用户是否下单购买或者将某一商品加入到购物车的相关数据；针对短视频类的应用程序，所述样本数据可以是用户观看某一类或者某一个视频的时长数据或者频次数据，而样本标签数据则可以是是否对该视频感兴趣的数据等。

需要说明的是，样本数据的发生时间通常会早于样本标签数据的发生时间。此外，上述关于样本数据以及样本标签数据的举例仅仅是示意性的，在其他实施例中，针对不同类型的应用程序，样本数据以及样本标签数据还可以根据实际应用需求而确定。另外，对上述目标应用程序的分类也仅仅是举例，有些应用程序可以对应几个不同的类别，比如，一些短视频类的应用程序实际上也具有购物功能，也可以是购物类应用程序。

在一些实施方式中，第一目标数据文件所包括的多个特征数据存在预设的关联关系，比如，该多个特征数据可以是不同用户在同一时间范围内的使用行为数据。

参见图2可知，每个分支对应至少一个快照，每个快照对应至少一个数据文件，例如，主干分支对应的快照1对应文件1、文件2以及文件3。每个快照还对应一个文件明细，所述文件明细中包括该快照对应的各个数据文件的存储路径。在一些实施方式中，所述文件明细中还可以包括各个数据文件的文件属性信息，文件属性信息可以包括文件类型、文件统计信息(例如数据文件包括的特征数据的数量或者据文件包括哪种类型的特征数据)以及存储时间等，在此不做限定。

S102，基于所述表元数据，从所述至少一个实验分支中确定与所述文件存储请求所携带的第一目标分支信息匹配的第一目标实验分支，并新建与所述第一目标实验分支对应的第一目标快照，所述第一目标快照用于指示所述第一目标数据文件在所述目标存储系统中的目标存储路径。

可以理解，由于文件存储请求携带第一目标分支信息，因此，可以基于表元数据中的存储分支信息中，确定与第一目标分支信息对应的第一目标实验分支。例如，若文件存储请求携带目标分支信息为实验分支1，则将目标存储系统中的实验分支1确定为第一目标实验分支，其中，所述文件存储请求中所携带的第一目标分支信息是由用户确定的。

示例性地，用户可以在预设的文件存储界面中输入第一目标分支信息(例如实验分支1)，进而基于第一目标分支信息可以生成文件存储请求，如此，使得所述文件存储请求中携带所述第一目标分支信息。

由于第一目标数据文件是需要存储到目标存储系统中的，因此，在确定第一目标分支后，即可创建第一目标快照，由于第一目标快照用于指示所述第一目标数据文件在所述目标存储系统中的目标存储路径，如此，即可确定第一目标数据文件对应的存储路径。

S103，按照所述第一目标快照所指示的存储路径，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置。

由于第一目标快照用于指示所述第一目标数据文件在目标存储系统中的目标存储路径，因此，即可基于第一目标快照，将第一目标数据文件存储到目标存储系统中与所述目标存储路径对应的存储位置。

由于每个快照对应一个文件明细，且所述文件明细包括为第一目标数据文件分配的目标存储路径，因此，在一些实施方式中，可以基于所述第一目标快照对应的目标文件明细，将所述目标数据文件存储到与目标存储路径的存储位置。

本公开实施例中，由于目标存储系统的存储架构是通过主干分支以及至少一个实验分支实现的，在向目标存储系统中添加新的数据文件时，可以通过其中一个实验分支添加，与相关技术中所采用的写时复制的存储方式相比，新的数据文件与目标存储系统中的其他分支对应的数据文件之间相互隔离，无需对其他数据进行操作，如此，可以减小数据处理的开销，进而有利于提升数据存储的效率。

可选的，针对每个快照，在该快照对应的数据文件发生变更(例如新增数据文件或者删除数据文件)的情况下，则将产生一个新的快照且该新的快照对应于变更后的数据文件。下面基于图2所示的存储架构，针对不同变更场景(新增数据文件或者删除数据文件)进行详细说明。

(1)以新增数据文件为例，对快照变更的过程进行介绍。

若文件存储请求携带的第一目标分支信息为实验分支2，则可以新建与实验分支2对应的第一目标快照(例如快照3)，快照3指示将在所述目标存储系统中的目标存储路径，这样在确定目标存储路径后，即可将第一目标数据文件存储到与目标存储路径的存储位置，这样写入第一目标数据文件时，则可以将第一目标数据文件与存储系统中的其他数据文件进行隔离。

(2)以删除数据文件为例，对快照变更的过程进行介绍。

示例性地，请再次参见图2，若用户需要删除实验分支1对应的数据文件3中的部分特征数据，根据图中架构可知，数据文件3还与主干分支对应的快照1存在对应指示关系，因此，不能直接将数据文件3进行删除，对此，可以新建数据文件6，并将数据文件3中删除部分特征数据之外的其他数据存入数据文件6中，并创建文件明细5，该文件明细5为数据文件6的文件明细，同时新增与实验分支1对应的快照4，并建立快照4与文件明细3和文件明细5的对应关系，这样便将数据文件3中的部分特征数据删除，同时，还不会对其他分支对应的数据文件产生影响，进而实现数据写入过程中实验分支与主干分支之间的数据隔离。

在一些实施方式中，针对每个实验分支，若该实验分支挂载的数据文件已经用于模型训练且训练结果符合预设要求，则可以将该数据文件与主干分支建立对应指示关系，具体的，请参见图3所示，为本公开实施例提供的一种第一目标数据文件与主干分支的对应指示关系的建立方法的流程图，该方法包括以下S301～S302：

S301，基于所述第一目标数据文件，对目标模型进行训练，得到训练结果，并确定所述训练结果是否符合所述预设要求。

具体的，可以将第一目标数据文件中的特征数据输入到目标模型中，对目标模型进行训练，得到模型的训练结果，并判断训练结果是否符合预设要求，可选的，训练结果可以包括模型的性能指标，将模型的性能指标与预设的性能指标进行比对，即可确定训练结果是否符合预设要求，在其他实施方式中，还可以通过其他方式进行判断，例如，还可以是用户人工对训练结果进行查看，以确定训练结果是否符合预设要求。在此并不限定。

S302，在所述训练结果符合所述预设要求的情况下，新建与所述主干分支对应的第二目标快照，并建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系。

示例性地，请同时参见图2和图4，图4为本公开实施例提供的一种新建与主干分支对应的第二目标快照的示意图，其中，主干分支上包含快照4、快照1，若实验分支2对应的快照3所对应的数据文件对应的训练结果符合预设要求，即可新建与主干分支对应的第二目标快照(也即快照5)，并建立快照5与实验分支2对应的快照3所对应的数据文件(数据文件5)与主干分支对应的已有的数据文件(例如数据文件1、2、3)的对应指示关系，这样，通过变更快照与数据文件之间的对应指示关系，而无需数据的复制，如此，有利于减小数据处理的开销。

可选的，在建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系时，可以首先判断第一目标数据文件与所述主干分支对应的已有的数据文件之间是否存在矛盾的特征数据，在所述第一目标数据文件与所述主干分支对应的已有的数据文件之间不存在矛盾的特征数据的情况下，建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系。

示例性地，若第一目标数据文件与主干分支对应的已有的数据文件均对同一特征数据进行了修改且修改的内容不同，则认为第一目标数据文件与主干分支对应的已有的数据文件之间存在矛盾，此时不能进行后续步骤；若第一目标数据文件与主干分支对应的已有的数据文件分别增加了不同的特征数据，则可以认为不存在矛盾，可以进行后续步骤。

需要说明的是，在多个实验分支对同一特征数据进行不同修改的情况下，例如，则认为这多个实验分支对应的数据文件之间存在矛盾，也是无法进行后续步骤的。若多个实验分支修改的内容之间互不影响，则认为不存在矛盾，此时，可以新建主干分支对应的新的快照，并建立新的快照与多个实验分支下的各个数据文件和主干分支对应的已有数据文件之间的对应指示关系。

在一些实施方式中，所述第一目标数据文件中的特征数据可以是根据预设的变更逻辑对主干分支对应的数据文件中的特征数据进行变更操作(例如运算操作)得到的数据，在所述主干分支对应的数据文件发生变更(例如有新的数据写入)的情况下，基于所述主干分支对应的最新变更后的数据文件以及所述预设的变更逻辑，得到变更后的第一目标数据文件，此时，由于第一目标数据文件发生了变更，因此，需要新建与所述第一目标实验分支对应的第三快照，并建立所述第三快照与所述变更后的第一目标数据文件之间的对应指示关系，这样，可以基于实验分支对应的最新的数据文件进行特征调研。

示例性地，请参见图5所示，为本公开实施例提供的一种新建与实验分支对应的新的快照的示意图，如图5中所示，主干分支对应的快照包括快照4、快照1、快照5以及快照6，实验分支2对应快照3，且快照3对应的数据文件是对快照1对应的数据文件进行逻辑变更得到的，随着主干分支对应的快照1到快照6的变更(快照1到快照6的变更是指快照对应的数据文件发生变更)，则可以基于主干分支对应的新的数据文件进行逻辑变更，得到与实验分支2对应的新的数据文件，并在实验分支上新建快照7，并建立快照7与实验分支2对应的新的数据文件之间的对应指示关系，如此，可以确保该实验分支2对应的数据文件是最新的数据文件。

本公开实施例中，目标存储系统还支持定期清理的能力，若实验分支对应的数据文件为实验失败的数据文件，则可以从表元数据中将该实验分支进行删除，例如，请再次参见图2，若实验分支2对应的数据文件5为实验失败的数据文件，则可以将实验分支2从表元数据中删除，如此，通过较低的数据开销即可将进行数据的删除，并且也对其他数据也不会产生影响。

可选的，针对每个快照，可以确定每个快照的留存时间是否超过预设时间，若该快照的留存时间超过所述预设时间且该快照与任一分支均不存在对应关系的情况下，则可以将该快照从表元数据中进行删除。

又可选的，针对每个分支，在该分支上存在与各个快照均不存在对应关系的文件明细的情况下，则可以将该文件明细从表元数据中删除。同理，针对每个数据文件，若该数据文件与每个分支对应的各个快照均不存在对应指示关系的数据文件的情况下，则将该数据文件进行删除。

应当理解，在数据存储后，在对模型进行训练时，需要从目标存储系统中读取训练所需要的训练数据，因此，参见图6所示，为本公开实施例提供的一种数据读取方法的流程图，所述读取方法包括以下步骤S601～S602：

S601，响应于文件读取请求，基于所述文件读取请求所携带的第二目标分支信息，从所述表元数据中确定第二目标实验分支，并从所述第二目标实验分支对应的数据文件中，确定与所述文件读取请求所携带的第二目标分支信息匹配的至少一个第二目标数据文件。

其中，文件读取请求所携带的第二目标分支信息可以是用于指示其中一个分支的标识信息，例如，若实验分支1的标识信息为ID1，则第二目标分支信息可以是ID1，如此，便可基于标识信息为ID1从所述表元数据中确定实验分支1。

可以理解，目标存储系统是基于表元数据架构的，因此，在读取数据时，也需要根据架构进行数据读取，示例性地，请再次参见图2，若文件读取请求指示访问实验分支1对应的数据文件，则在读取数据文件时，可以基于以下：实验分支1->快照2->文件明细1、2、3->数据文件1、2、3、4，完成数据读取。从图2中可以看出，由于各个分支之间是相互隔离的，在读取主干分支对应的数据文件1、2、3时，可以直接读取，无需将数据文件1、2、3复制到与实验分支1对应的存储空间中，如此，可以节约数据文件的复制开销。并且，由于各个实验分支(例如实验分支1和实验分支2)之间时相互隔离的，在读取实验分支1对应的数据文件时，无需读取实验分支2对应的数据文件，如此，实现数据的读取隔离。

S603，对所述至少一个第二目标数据文件进行读时合并，得到合并数据文件，并基于所述合并数据文件进行特征数据读取。

可选的，在对多个第二目标数据文件进行读时合并时，可以采用多路归并算法进行合并读取。

示例性地，针对数据文件1、2、3、4，可以采用多路归并算法进行数据文件的合并读取。如此，在数据读取时，同一时间无需将目标存储系统中的所有的文件都加载如内存，进而不会出现因数据溢出到磁盘中，而导致性能退化的现象。

在一些实施方式中，可以基于各个第二目标数据文件的主键，将所述至少一个第二目标数据文件进行排序，并对排序后的至少一个第二目标数据文件采用多路归并方法进行数据读取。

具体的，在对排序后的至少一个第二目标数据文件采用多路归并方法进行数据读取的过程中，需要将各个特征数据进行对齐合并，本实施方式中，可以根据所述多个第二目标数据文件中的各个特征数据的标识信息，将具有相同标识信息的特征数据进行合并，得到所述合并数据文件，其中，所述标识信息可以是行主键，也可以是除行主键外的其他能够唯一标识各个特征数据的标识信息，在此不做限定。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。此外，各个实施例之间可以相互组合，以形成不同的技术方案。

基于同一技术构思，本公开实施例中还提供了与数据存储方法对应的数据存储装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据存储方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图7所示，为本公开实施例提供的一种数据存储装置700的示意图，所述数据存储装置包括：

数据获取模块701，用于响应于针对第一目标数据文件的文件存储请求，获取待存入目标存储系统的第一目标数据文件，所述第一目标数据文件包括至少一个特征数据；所述目标存储系统配置有表元数据，所述表元数据用于指示所述目标存储系统所对应的存储分支信息，所述存储分支信息包括主干分支以及至少一个实验分支，所述主干分支用于挂载已经用于模型训练且训练结果符合预设要求的数据文件，所述实验分支用于挂载尚未用于模型训练的数据文件，所述文件存储请求携带第一目标分支信息；

分支确定模块702，用于基于所述表元数据，从所述至少一个实验分支中确定与所述文件存储请求所携带的第一目标分支信息匹配的第一目标实验分支，并新建与所述第一目标实验分支对应的第一目标快照，所述第一目标快照用于指示所述第一目标数据文件在所述目标存储系统中的目标存储路径；

数据存储模块703，用于按照所述第一目标快照所指示的存储路径，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置。

在一种可能的实施方式中，所述第一目标快照对应目标文件明细，所述目标文件明细包括在所述目标存储系统中为所述第一目标数据文件分配的目标存储路径；所述数据存储模块703具体用于：

请参见图8，为本公开实施例提供的另一种数据存储装置的结构示意图，所述数据存储装置还包括关系确定模块704，所述关系确定模块704用于：

在一种可能的实施方式中，所述关系确定模块704具体用于：

在一种可能的实施方式中，所述关系确定模块704还用于：

在一种可能的实施方式中，所述数据存储装置还包括信息删除模块705，所述信息删除模块705用于：

在一种可能的实施方式中，所述信息删除模块705还用于：

在一种可能的实施方式中，所述数据存储装置还包括数据读取模块706，

所述分支确定模块702还用于：

所述数据读取模块706用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图9所示，为本公开实施例提供的电子设备900的结构示意图，包括处理器901、存储器902、和总线903。其中，存储器902用于存储执行指令，包括内存9021和外部存储器9022；这里的内存9021也称内存储器，用于暂时存放处理器901中的运算数据，以及与硬盘等外部存储器9022交换的数据，处理器901通过内存9021与外部存储器9022进行数据交换。

本申请实施例中，存储器902具体用于存储执行本申请方案的应用程序代码，并由处理器901来控制执行。也即，当电子设备900运行时，处理器901与存储器902之间通过总线903通信，使得处理器901执行存储器902中存储的应用程序代码，进而执行前述任一实施例中所述的方法。

其中，存储器902可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read－Only Memory，EEPROM)等。

处理器901可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备900的具体限定。在本申请另一些实施例中，电子设备900可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中的数据存储方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中的数据存储方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据存储方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一目标快照对应目标文件明细，所述目标文件明细包括在所述目标存储系统中为所述第一目标数据文件分配的目标存储路径；所述按照所述第一目标快照所指示的存储路径，将所述第一目标数据文件存储到所述目标存储系统中的对应存储位置，包括：

按照所述第一目标快照对应的目标文件明细所包括的目标存储路径，将所述目标数据文件存储到所述目标存储路径对应的存储位置。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述建立所述第二目标快照与所述第一目标数据文件和所述主干分支对应的已有的数据文件的对应指示关系，包括：

5.根据权利要求1所述的方法，其特征在于，在所述第一目标数据文件中的特征数据为基于预设的变更逻辑，对所述主干分支对应的数据文件中的特征数据进行变更得到的数据的情况下，所述方法还包括：

新建与所述第一目标实验分支对应的第三目标快照，并建立所述第三目标快照与所述变更后的第一目标数据文件之间的对应指示关系。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述数据文件中的特征数据还具有标识信息；所述对所述至少一个第二目标数据文件进行读时合并，得到合并数据文件，包括：

10.一种数据存储装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-9中任一项所述的数据存储方法。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-9中任一项所述的数据存储方法。