CN112988920A

CN112988920A - 面向ai应用的数据版本管理方法、装置和计算机设备

Info

Publication number: CN112988920A
Application number: CN202110548754.0A
Authority: CN
Inventors: 余跃; 张禹; 周悦; 常峰; 曾炜; 田永鸿
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-06-18

Abstract

本申请涉及一种面向AI应用的数据版本管理方法、装置和计算机设备。所述方法包括：通过获取面向AI应用的待管理数据，由监控组件扫描，将待管理数据与已知数据集进行比对，标识出重复数据和新增数据；删除重复数据，将待管理数据提交到本地仓库，通过哈希图结构建立新增数据和已知数据集的关联信息，建立新增数据在本地仓库中位置的索引信息，根据新增数据和关联信息，得到新版本数据的版本信息；将新增数据、关联信息、索引信息和版本信息上传到远程仓库，完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法，支持数据共享、协同开发。

Description

面向AI应用的数据版本管理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种面向AI应用的数据版本管理方法、装置、计算机设备和存储介质。

背景技术

AI定义为“系统地正确理解外部数据，并从此类数据中学习以及利用这些学习通过灵活的适应来实现特定目标和任务的能力。”随着数字化越来越深刻地影响当今社会，我们能够以前所未有的速度收集，例如数字、文本、音频、图像等。这些海量数据使模型能够更快地学习，推动AI迅猛发展。

在软件开发过程中，为了更有效地跟踪记录软件开发过程，技术团队往往会对软件代码及相关文档进行版本管理，即存储管理各个阶段完成的代码文档并加以标识，良好的版本管理能够帮助团队快速定位和修复错误更改、实现同时开发以提高效率、清楚掌握团队工作进度等。根据版本管理的发展历史，可以分为3个阶段：本地式、集中式和分布式三类版本管理系统。分布式版本管理作为当前使用最广泛的系统，使用Peer-Peer模式，将代码库进行端到端的镜像传输到开发本地，消除了集中式版本管理中的中心代码库，取而代之的是项目的每名开发者都拥有代码副本和完整的开发历史记录。

与普通的应用软件相比，AI应用的效果和质量更多地依赖于它所使用的AI模型和训练数据，AI应用的版本也与其所使用的训练数据版本具有对应关系。因此，如何更高效地管理数据版本以更好地配合AI应用的开发实践是目前急需研究的技术点。

现有的数据版本管理工具主要采取存储完整数据文件的方法，早期的版本控制系统，例如SVN，虽然支持代码文件的增量管理，但是针对AI应用中的大规模数据管理效率低，时间长，且集中式版本管理存在单点故障等缺陷，存在效率低，效果不佳的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高面向AI应用的数据版本管理效率的面向AI应用的数据版本管理方法、装置、计算机设备和存储介质。

一种面向AI应用的数据版本管理方法，所述方法包括：

获取面向AI应用的待管理数据，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据；

删除所述重复数据，将所述待管理数据提交到本地仓库，通过哈希图结构建立所述新增数据和所述已知数据集的关联信息，建立所述新增数据在所述本地仓库中位置的索引信息，根据所述新增数据和所述关联信息，得到新版本数据的版本信息；

将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库，完成所述待管理数据的增量式数据存储。

在其中一个实施例中，还包括：获取面向AI应用的待管理数据，将所述待管理数据从工作区加载到缓存区后，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据。

在其中一个实施例中，还包括：获取面向AI应用的待管理数据，将所述待管理数据从工作区加载到缓存区后，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据；所述已知数据集为预设的共有数据集或用户先前提交的数据集。

在其中一个实施例中，还包括：删除所述重复数据，将所述待管理数据提交到本地仓库；

通过哈希图结构建立所述新增数据和所述已知数据集的关联信息，并将所述新增数据和所述关联信息持久化存储在所述本地仓库中；

通过哈希图结构建立所述新增数据在所述本地仓库中位置的索引信息；

根据所述新增数据和所述关联信息，得到新版本数据的版本信息。

在其中一个实施例中，还包括：在根据所述新增数据和所述关联信息，得到新版本数据的版本信息之前，通过数据校验算法，确保所述新增数据和所述关联信息构成的新版本数据为完整数据。

在其中一个实施例中，还包括：根据需要下载的数据的索引信息和版本信息，通过组装式下载，将下载数据及其对应的关联信息从所述远程仓库中下载到所述本地仓库中；所述下载数据可以是其他用户所提交的数据；

根据所述关联信息，将所述下载数据与所述工作区当前的数据进行合并，得到协同开发数据。

在其中一个实施例中，还包括：所述待管理数据的数据量为GB级。

一种面向AI应用的数据版本管理装置，所述装置包括：

数据扫描模块，用于获取面向AI应用的待管理数据，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据；

数据版本更新模块，用于删除所述重复数据，将所述待管理数据提交到本地仓库，通过哈希图结构建立所述新增数据和所述已知数据集的关联信息，建立所述新增数据在所述本地仓库中位置的索引信息，根据所述新增数据和所述关联信息，得到新版本数据的版本信息；

数据上传模块，用于将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库，完成所述待管理数据的增量式数据存储。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述面向AI应用的数据版本管理方法、装置、计算机设备和存储介质，通过获取面向AI应用的待管理数据，由监控组件扫描，将待管理数据与已知数据集进行比对，标识出重复数据和新增数据；删除重复数据，将待管理数据提交到本地仓库，通过哈希图结构建立新增数据和已知数据集的关联信息，建立新增数据在本地仓库中位置的索引信息，根据新增数据和关联信息，得到新版本数据的版本信息；将新增数据、关联信息、索引信息和版本信息上传到远程仓库，完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法，支持数据共享、协同开发，更好地应对了AI应用持续增长数据集的版本管理问题。

附图说明

图1为一个实施例中面向AI应用的数据版本管理方法的流程示意图；

图2为另一个实施例中面向AI应用的数据版本管理方法的示意图，其中(a)为数据存储示意图、(b)为数据读取示意图；

图3为另一个实施例中面向AI应用的数据版本管理方法实现的数据增量存储示意图；

图4为一个实施例中面向AI应用的数据版本管理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的面向AI应用的数据版本管理方法，可以应用于如下应用环境中。其中，终端执行一种面向AI应用的数据版本管理方法。获取面向AI应用的待管理数据，由监控组件扫描，将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据；删除重复数据，将待管理数据提交到本地仓库，通过哈希图结构建立新增数据和已知数据集的关联信息，建立新增数据在本地仓库中位置的索引信息，根据新增数据和所述关联信息，得到新版本数据的版本信息；将新增数据、关联信息、索引信息和版本信息上传到远程仓库，完成所述待管理数据的增量式数据存储。其中，终端可以但不限于是各种个人计算机、笔记本电脑、平板电脑。

在一个实施例中，如图1所示，提供了一种面向AI应用的数据版本管理方法，包括以下步骤：

步骤102，获取面向AI应用的待管理数据，通过监控组件将待管理数据与已知数据集进行比对，标识出重复数据和新增数据。

AI应用很大程度上依赖使用的数据集，从软件开发到软件维护，数据集的扩充对应用的效果起到很大的影响。特别是一些启发式的AI应用，需要不断加入新的数据以达到更好的模型效果。每新增一部分数据，版本管理系统对应新增一个数据版本，如果使用存储完整数据文件的方法，动辄几十、几百GB的数据集每个版本都要占据大量存储空间，且其中绝大部分的数据是重复的。

本发明针对AI应用数据集规模庞大且不断增长的特点，提出去除重复基础数据后单独保存部分新增数据的增量式数据存储优化方法。首先需要扫描用户新提交的完整数据，对比已有版本数据，自动标识出重复不变的数据和新增数据。

步骤104，删除重复数据，将待管理数据提交到本地仓库，通过哈希图结构建立新增数据和已知数据集的关联信息，建立新增数据在本地仓库中位置的索引信息，根据新增数据和关联信息，得到新版本数据的版本信息。

去除重复数据后将新增数据同原始已有数据建立关联后保存，并通过内容校验和建立数据索引实现快速定位具体数据。

步骤106，将新增数据、关联信息、索引信息和版本信息上传到远程仓库，完成待管理数据的增量式数据存储。

除此之外，基于公有数据集或个人数据集，用户之间也需要共享数据以开发AI应用。用户提交的数据经过增量存储、版本标识等步骤后被保存至远程仓库，当用户分享数据时，只需从远程仓库复制下载所需数据到其他用户本地即可，更好地应对了AI应用持续增长数据集的版本管理问题。

上述面向AI应用的数据版本管理方法中，通过获取面向AI应用的待管理数据，由监控组件扫描，将待管理数据与已知数据集进行比对，标识出重复数据和新增数据；删除重复数据，将待管理数据提交到本地仓库，通过哈希图结构建立新增数据和已知数据集的关联信息，建立新增数据在本地仓库中位置的索引信息，根据新增数据和关联信息，得到新版本数据的版本信息；将新增数据、关联信息、索引信息和版本信息上传到远程仓库，完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法，支持数据共享、协同开发，更好地应对了AI应用持续增长数据集的版本管理问题。

在其中一个实施例中，还包括：获取面向AI应用的待管理数据，将待管理数据从工作区加载到缓存区后，通过监控组件将待管理数据与已知数据集进行比对，标识出重复数据和新增数据。

在其中一个实施例中，还包括：获取面向AI应用的待管理数据，将待管理数据从工作区加载到缓存区后，通过监控组件将待管理数据与已知数据集进行比对，标识出重复数据和新增数据；已知数据集为预设的共有数据集或用户先前提交的数据集。

在其中一个实施例中，还包括：删除重复数据，将待管理数据提交到本地仓库；通过哈希图结构建立新增数据和已知数据集的关联信息，并将新增数据和关联信息持久化存储在本地仓库中；通过哈希图结构建立新增数据在本地仓库中位置的索引信息；根据新增数据和关联信息，得到新版本数据的版本信息。

通过新增数据和关联信息，得到新版本数据，并建立高效索引，完成了数据版本管理需要的增量存储数据和标识版本工作。

在其中一个实施例中，还包括：在根据新增数据和关联信息，得到新版本数据的版本信息之前，通过数据校验算法，确保新增数据和关联信息构成的新版本数据为完整数据。

数据校验是为保证数据的完整性进行的一种验证操作。通常用一种指定的算法对原始数据计算出的一个校验值，接收方用同样的算法计算一次校验值，如果两次计算得到的检验值相同，则说明数据是完整的。

在其中一个实施例中，还包括：根据需要下载的数据的索引信息和版本信息，通过组装式下载，将下载数据及其对应的关联信息从远程仓库中下载到本地仓库中；下载数据可以是其他用户所提交的数据；根据关联信息，将下载数据与工作区当前的数据进行合并，得到协同开发数据。

基于分享数据索引和关联结构并组装式下载数据的数据共享方法，可以实现数据共享、协同开发。

在其中一个实施例中，还包括：待管理数据的数据量为GB级。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个具体实施例中，如图2所示，提供了一种面向AI应用的数据版本管理方法，其中(a)为数据存储示意图、(b)为数据读取示意图，包括：

S1 ADD：用户将数据从工作区加载到缓存区，此时监控组件进行扫描，对比已知数据集（平台所提供的公有数据集、用户以往提交版本数据集），自动标识出重复不变的数据和新增数据；

S2 COMMIT：用户将数据从缓存区提交到本地仓库，重复数据则从此次提交中删除，新增数据被保留，使用哈希图结构建立新增数据与已知原始数据的关联后将其持久化存储，计算数据校验和并建立高效索引，新增数据及其与已知原始数据的关联共同形成新一版本数据。

S1和S2实现的功能如图3所示，完成了数据版本管理需要的增量存储数据和标识版本工作。数据版本1中有数据A和数据B，数据版本2中数据A有了新增数据

，数据B无新增，数据版本3中数据A无新增，数据B有了新增数据

，数据版本4中数据A有了新增数据

，数据B有了新增数据

，数据版本5中数据A有了新增数据

，数据B有了新增数据

。

S3 PUSH：用户将本地仓库的数据及其关联结构、索引和版本等信息上传到远程仓库；

S4 PULL：用户可获得其他用户所分享的个人数据关联结构、索引和版本信息，也可以直接从远程仓库组装式下载数据到本地并与工作区数据合并。

S4.1 FETCH：用户从相应远程仓库，通过检索版本号和索引，将数据及其关联数据组装式下载到自己的本地仓库；

S4.2 MERGE：用户将下载到本地仓库的数据同工作区正在使用的数据进行合并；

S3和S4对应数据版本管理中数据共享和协同开发过程，可以实现多用户协同使用数据的功能。

在一个实施例中，如图4所示，提供了一种面向AI应用的数据版本管理装置，包括：数据扫描模块402、数据版本更新模块404和数据上传模块406，其中：

数据扫描模块402，用于获取面向AI应用的待管理数据，通过监控组件将待管理数据与已知数据集进行比对，标识出重复数据和新增数据；

数据版本更新模块404，用于删除重复数据，将待管理数据提交到本地仓库，通过哈希图结构建立新增数据和已知数据集的关联信息，建立新增数据在本地仓库中位置的索引信息，根据新增数据和关联信息，得到新版本数据的版本信息；

数据上传模块406，用于将新增数据、关联信息、索引信息和版本信息上传到远程仓库，完成待管理数据的增量式数据存储。

数据扫描模块402还用于获取面向AI应用的待管理数据，将待管理数据从工作区加载到缓存区后，通过监控组件将待管理数据与已知数据集进行比对，标识出重复数据和新增数据。

数据扫描模块402还用于获取面向AI应用的待管理数据，将待管理数据从工作区加载到缓存区后，通过监控组件将待管理数据与已知数据集进行比对，标识出重复数据和新增数据；已知数据集为预设的共有数据集或用户先前提交的数据集。

数据版本更新模块404还用于删除重复数据，将待管理数据提交到本地仓库；通过哈希图结构建立新增数据和已知数据集的关联信息，并将新增数据和关联信息持久化存储在本地仓库中；通过哈希图结构建立新增数据在本地仓库中位置的索引信息；根据新增数据和关联信息，得到新版本数据的版本信息。

数据版本更新模块404还用于通过数据校验算法，确保新增数据和关联信息构成的新版本数据为完整数据。

数据上传模块406还用于根据需要下载的数据的索引信息和版本信息，通过组装式下载，将下载数据及其对应的关联信息从远程仓库中下载到本地仓库中；下载数据可以是其他用户所提交的数据；根据关联信息，将下载数据与工作区当前的数据进行合并，得到协同开发数据。

关于面向AI应用的数据版本管理装置的具体限定可以参见上文中对于面向AI应用的数据版本管理方法的限定，在此不再赘述。上述面向AI应用的数据版本管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向AI应用的数据版本管理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种面向AI应用的数据版本管理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待管理数据，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据，包括：

获取面向AI应用的待管理数据，将所述待管理数据从工作区加载到缓存区后，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据。

3.根据权利要求2所述的方法，其特征在于，所述获取待管理数据，将所述待管理数据从工作区加载到缓存区后，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据，包括：

获取面向AI应用的待管理数据，将所述待管理数据从工作区加载到缓存区后，通过监控组件将所述待管理数据与已知数据集进行比对，标识出重复数据和新增数据；所述已知数据集为预设的共有数据集或用户先前提交的数据集。

4.根据权利要求3所述的方法，其特征在于，删除所述重复数据，将所述待管理数据提交到本地仓库，通过哈希图结构建立所述新增数据和所述已知数据集的关联信息，建立所述新增数据在所述本地仓库中位置的索引信息，根据所述新增数据和所述关联信息，得到新版本数据的版本信息，包括：

删除所述重复数据，将所述待管理数据提交到本地仓库；

5.根据权利要求4所述的方法，其特征在于，在根据所述新增数据和所述关联信息，得到新版本数据的版本信息之前，还包括：

通过数据校验算法，确保所述新增数据和所述关联信息构成的新版本数据为完整数据。

6.根据权利要求5所述的方法，其特征在于，在将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库，完成所述待管理数据的增量式数据存储之后，还包括：

根据需要下载的数据的索引信息和版本信息，通过组装式下载，将下载数据及其对应的关联信息从所述远程仓库中下载到所述本地仓库中；所述下载数据可以是其他用户所提交的数据；

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述待管理数据的数据量为GB级。

8.一种面向AI应用的数据版本管理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，数据版本更新模块还用于：

删除所述重复数据，将所述待管理数据提交到本地仓库；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。