CN112988920A - 面向ai应用的数据版本管理方法、装置和计算机设备 - Google Patents

面向ai应用的数据版本管理方法、装置和计算机设备 Download PDF

Info

Publication number
CN112988920A
CN112988920A CN202110548754.0A CN202110548754A CN112988920A CN 112988920 A CN112988920 A CN 112988920A CN 202110548754 A CN202110548754 A CN 202110548754A CN 112988920 A CN112988920 A CN 112988920A
Authority
CN
China
Prior art keywords
data
managed
newly added
information
version
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110548754.0A
Other languages
English (en)
Inventor
余跃
张禹
周悦
常峰
曾炜
田永鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110548754.0A priority Critical patent/CN112988920A/zh
Publication of CN112988920A publication Critical patent/CN112988920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种面向AI应用的数据版本管理方法、装置和计算机设备。所述方法包括:通过获取面向AI应用的待管理数据,由监控组件扫描,将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和关联信息,得到新版本数据的版本信息;将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法,支持数据共享、协同开发。

Description

面向AI应用的数据版本管理方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种面向AI应用的数据版本管理方法、装置、计算机设备和存储介质。
背景技术
AI定义为“系统地正确理解外部数据,并从此类数据中学习以及利用这些学习通过灵活的适应来实现特定目标和任务的能力。”随着数字化越来越深刻地影响当今社会,我们能够以前所未有的速度收集,例如数字、文本、音频、图像等。这些海量数据使模型能够更快地学习,推动AI迅猛发展。
在软件开发过程中,为了更有效地跟踪记录软件开发过程,技术团队往往会对软件代码及相关文档进行版本管理,即存储管理各个阶段完成的代码文档并加以标识,良好的版本管理能够帮助团队快速定位和修复错误更改、实现同时开发以提高效率、清楚掌握团队工作进度等。根据版本管理的发展历史,可以分为3个阶段:本地式、集中式和分布式三类版本管理系统。分布式版本管理作为当前使用最广泛的系统,使用Peer-Peer模式,将代码库进行端到端的镜像传输到开发本地,消除了集中式版本管理中的中心代码库,取而代之的是项目的每名开发者都拥有代码副本和完整的开发历史记录。
与普通的应用软件相比,AI应用的效果和质量更多地依赖于它所使用的AI模型和训练数据,AI应用的版本也与其所使用的训练数据版本具有对应关系。因此,如何更高效地管理数据版本以更好地配合AI应用的开发实践是目前急需研究的技术点。
现有的数据版本管理工具主要采取存储完整数据文件的方法,早期的版本控制系统,例如SVN,虽然支持代码文件的增量管理,但是针对AI应用中的大规模数据管理效率低,时间长,且集中式版本管理存在单点故障等缺陷,存在效率低,效果不佳的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高面向AI应用的数据版本管理效率的面向AI应用的数据版本管理方法、装置、计算机设备和存储介质。
一种面向AI应用的数据版本管理方法,所述方法包括:
获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
在其中一个实施例中,还包括:获取面向AI应用的待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据。
在其中一个实施例中,还包括:获取面向AI应用的待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;所述已知数据集为预设的共有数据集或用户先前提交的数据集。
在其中一个实施例中,还包括:删除所述重复数据,将所述待管理数据提交到本地仓库;
通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,并将所述新增数据和所述关联信息持久化存储在所述本地仓库中;
通过哈希图结构建立所述新增数据在所述本地仓库中位置的索引信息;
根据所述新增数据和所述关联信息,得到新版本数据的版本信息。
在其中一个实施例中,还包括:在根据所述新增数据和所述关联信息,得到新版本数据的版本信息之前,通过数据校验算法,确保所述新增数据和所述关联信息构成的新版本数据为完整数据。
在其中一个实施例中,还包括:根据需要下载的数据的索引信息和版本信息,通过组装式下载,将下载数据及其对应的关联信息从所述远程仓库中下载到所述本地仓库中;所述下载数据可以是其他用户所提交的数据;
根据所述关联信息,将所述下载数据与所述工作区当前的数据进行合并,得到协同开发数据。
在其中一个实施例中,还包括:所述待管理数据的数据量为GB级。
一种面向AI应用的数据版本管理装置,所述装置包括:
数据扫描模块,用于获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
数据版本更新模块,用于删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
数据上传模块,用于将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
上述面向AI应用的数据版本管理方法、装置、计算机设备和存储介质,通过获取面向AI应用的待管理数据,由监控组件扫描,将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和关联信息,得到新版本数据的版本信息;将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法,支持数据共享、协同开发,更好地应对了AI应用持续增长数据集的版本管理问题。
附图说明
图1为一个实施例中面向AI应用的数据版本管理方法的流程示意图;
图2为另一个实施例中面向AI应用的数据版本管理方法的示意图,其中(a)为数据存储示意图、(b)为数据读取示意图;
图3为另一个实施例中面向AI应用的数据版本管理方法实现的数据增量存储示意图;
图4为一个实施例中面向AI应用的数据版本管理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的面向AI应用的数据版本管理方法,可以应用于如下应用环境中。其中,终端执行一种面向AI应用的数据版本管理方法。获取面向AI应用的待管理数据,由监控组件扫描,将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和所述关联信息,得到新版本数据的版本信息;将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。其中,终端可以但不限于是各种个人计算机、笔记本电脑、平板电脑。
在一个实施例中,如图1所示,提供了一种面向AI应用的数据版本管理方法,包括以下步骤:
步骤102,获取面向AI应用的待管理数据,通过监控组件将待管理数据与已知数据集进行比对,标识出重复数据和新增数据。
AI应用很大程度上依赖使用的数据集,从软件开发到软件维护,数据集的扩充对应用的效果起到很大的影响。特别是一些启发式的AI应用,需要不断加入新的数据以达到更好的模型效果。每新增一部分数据,版本管理系统对应新增一个数据版本,如果使用存储完整数据文件的方法,动辄几十、几百GB的数据集每个版本都要占据大量存储空间,且其中绝大部分的数据是重复的。
本发明针对AI应用数据集规模庞大且不断增长的特点,提出去除重复基础数据后单独保存部分新增数据的增量式数据存储优化方法。首先需要扫描用户新提交的完整数据,对比已有版本数据,自动标识出重复不变的数据和新增数据。
步骤104,删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和关联信息,得到新版本数据的版本信息。
去除重复数据后将新增数据同原始已有数据建立关联后保存,并通过内容校验和建立数据索引实现快速定位具体数据。
步骤106,将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成待管理数据的增量式数据存储。
除此之外,基于公有数据集或个人数据集,用户之间也需要共享数据以开发AI应用。用户提交的数据经过增量存储、版本标识等步骤后被保存至远程仓库,当用户分享数据时,只需从远程仓库复制下载所需数据到其他用户本地即可,更好地应对了AI应用持续增长数据集的版本管理问题。
上述面向AI应用的数据版本管理方法中,通过获取面向AI应用的待管理数据,由监控组件扫描,将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和关联信息,得到新版本数据的版本信息;将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法,支持数据共享、协同开发,更好地应对了AI应用持续增长数据集的版本管理问题。
在其中一个实施例中,还包括:获取面向AI应用的待管理数据,将待管理数据从工作区加载到缓存区后,通过监控组件将待管理数据与已知数据集进行比对,标识出重复数据和新增数据。
在其中一个实施例中,还包括:获取面向AI应用的待管理数据,将待管理数据从工作区加载到缓存区后,通过监控组件将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;已知数据集为预设的共有数据集或用户先前提交的数据集。
在其中一个实施例中,还包括:删除重复数据,将待管理数据提交到本地仓库;通过哈希图结构建立新增数据和已知数据集的关联信息,并将新增数据和关联信息持久化存储在本地仓库中;通过哈希图结构建立新增数据在本地仓库中位置的索引信息;根据新增数据和关联信息,得到新版本数据的版本信息。
通过新增数据和关联信息,得到新版本数据,并建立高效索引,完成了数据版本管理需要的增量存储数据和标识版本工作。
在其中一个实施例中,还包括:在根据新增数据和关联信息,得到新版本数据的版本信息之前,通过数据校验算法,确保新增数据和关联信息构成的新版本数据为完整数据。
数据校验是为保证数据的完整性进行的一种验证操作。通常用一种指定的算法对原始数据计算出的一个校验值,接收方用同样的算法计算一次校验值,如果两次计算得到的检验值相同,则说明数据是完整的。
在其中一个实施例中,还包括:根据需要下载的数据的索引信息和版本信息,通过组装式下载,将下载数据及其对应的关联信息从远程仓库中下载到本地仓库中;下载数据可以是其他用户所提交的数据;根据关联信息,将下载数据与工作区当前的数据进行合并,得到协同开发数据。
基于分享数据索引和关联结构并组装式下载数据的数据共享方法,可以实现数据共享、协同开发。
在其中一个实施例中,还包括:待管理数据的数据量为GB级。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个具体实施例中,如图2所示,提供了一种面向AI应用的数据版本管理方法,其中(a)为数据存储示意图、(b)为数据读取示意图,包括:
S1 ADD:用户将数据从工作区加载到缓存区,此时监控组件进行扫描,对比已知数据集(平台所提供的公有数据集、用户以往提交版本数据集),自动标识出重复不变的数据和新增数据;
S2 COMMIT:用户将数据从缓存区提交到本地仓库,重复数据则从此次提交中删除,新增数据被保留,使用哈希图结构建立新增数据与已知原始数据的关联后将其持久化存储,计算数据校验和并建立高效索引,新增数据及其与已知原始数据的关联共同形成新一版本数据。
S1和S2实现的功能如图3所示,完成了数据版本管理需要的增量存储数据和标识版本工作。数据版本1中有数据A和数据B,数据版本2中数据A有了新增数据
Figure 79296DEST_PATH_IMAGE001
,数据B无新增,数据版本3中数据A无新增,数据B有了新增数据
Figure 402961DEST_PATH_IMAGE002
,数据版本4中数据A有了新增数据
Figure 979436DEST_PATH_IMAGE003
,数据B有了新增数据
Figure 30438DEST_PATH_IMAGE004
,数据版本5中数据A有了新增数据
Figure 579231DEST_PATH_IMAGE005
,数据B有了新增数据
Figure 198431DEST_PATH_IMAGE006
S3 PUSH:用户将本地仓库的数据及其关联结构、索引和版本等信息上传到远程仓库;
S4 PULL:用户可获得其他用户所分享的个人数据关联结构、索引和版本信息,也可以直接从远程仓库组装式下载数据到本地并与工作区数据合并。
S4.1 FETCH:用户从相应远程仓库,通过检索版本号和索引,将数据及其关联数据组装式下载到自己的本地仓库;
S4.2 MERGE:用户将下载到本地仓库的数据同工作区正在使用的数据进行合并;
S3和S4对应数据版本管理中数据共享和协同开发过程,可以实现多用户协同使用数据的功能。
在一个实施例中,如图4所示,提供了一种面向AI应用的数据版本管理装置,包括:数据扫描模块402、数据版本更新模块404和数据上传模块406,其中:
数据扫描模块402,用于获取面向AI应用的待管理数据,通过监控组件将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
数据版本更新模块404,用于删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和关联信息,得到新版本数据的版本信息;
数据上传模块406,用于将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成待管理数据的增量式数据存储。
数据扫描模块402还用于获取面向AI应用的待管理数据,将待管理数据从工作区加载到缓存区后,通过监控组件将待管理数据与已知数据集进行比对,标识出重复数据和新增数据。
数据扫描模块402还用于获取面向AI应用的待管理数据,将待管理数据从工作区加载到缓存区后,通过监控组件将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;已知数据集为预设的共有数据集或用户先前提交的数据集。
数据版本更新模块404还用于删除重复数据,将待管理数据提交到本地仓库;通过哈希图结构建立新增数据和已知数据集的关联信息,并将新增数据和关联信息持久化存储在本地仓库中;通过哈希图结构建立新增数据在本地仓库中位置的索引信息;根据新增数据和关联信息,得到新版本数据的版本信息。
数据版本更新模块404还用于通过数据校验算法,确保新增数据和关联信息构成的新版本数据为完整数据。
数据上传模块406还用于根据需要下载的数据的索引信息和版本信息,通过组装式下载,将下载数据及其对应的关联信息从远程仓库中下载到本地仓库中;下载数据可以是其他用户所提交的数据;根据关联信息,将下载数据与工作区当前的数据进行合并,得到协同开发数据。
关于面向AI应用的数据版本管理装置的具体限定可以参见上文中对于面向AI应用的数据版本管理方法的限定,在此不再赘述。上述面向AI应用的数据版本管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向AI应用的数据版本管理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向AI应用的数据版本管理方法,其特征在于,所述方法包括:
获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
2.根据权利要求1所述的方法,其特征在于,所述获取待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据,包括:
获取面向AI应用的待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据。
3.根据权利要求2所述的方法,其特征在于,所述获取待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据,包括:
获取面向AI应用的待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;所述已知数据集为预设的共有数据集或用户先前提交的数据集。
4.根据权利要求3所述的方法,其特征在于,删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息,包括:
删除所述重复数据,将所述待管理数据提交到本地仓库;
通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,并将所述新增数据和所述关联信息持久化存储在所述本地仓库中;
通过哈希图结构建立所述新增数据在所述本地仓库中位置的索引信息;
根据所述新增数据和所述关联信息,得到新版本数据的版本信息。
5.根据权利要求4所述的方法,其特征在于,在根据所述新增数据和所述关联信息,得到新版本数据的版本信息之前,还包括:
通过数据校验算法,确保所述新增数据和所述关联信息构成的新版本数据为完整数据。
6.根据权利要求5所述的方法,其特征在于,在将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储之后,还包括:
根据需要下载的数据的索引信息和版本信息,通过组装式下载,将下载数据及其对应的关联信息从所述远程仓库中下载到所述本地仓库中;所述下载数据可以是其他用户所提交的数据;
根据所述关联信息,将所述下载数据与所述工作区当前的数据进行合并,得到协同开发数据。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述待管理数据的数据量为GB级。
8.一种面向AI应用的数据版本管理装置,其特征在于,所述装置包括:
数据扫描模块,用于获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
数据版本更新模块,用于删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
数据上传模块,用于将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
9.根据权利要求8所述的装置,其特征在于,数据版本更新模块还用于:
删除所述重复数据,将所述待管理数据提交到本地仓库;
通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,并将所述新增数据和所述关联信息持久化存储在所述本地仓库中;
通过哈希图结构建立所述新增数据在所述本地仓库中位置的索引信息;
根据所述新增数据和所述关联信息,得到新版本数据的版本信息。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
CN202110548754.0A 2021-05-20 2021-05-20 面向ai应用的数据版本管理方法、装置和计算机设备 Pending CN112988920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548754.0A CN112988920A (zh) 2021-05-20 2021-05-20 面向ai应用的数据版本管理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548754.0A CN112988920A (zh) 2021-05-20 2021-05-20 面向ai应用的数据版本管理方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN112988920A true CN112988920A (zh) 2021-06-18

Family

ID=76337080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548754.0A Pending CN112988920A (zh) 2021-05-20 2021-05-20 面向ai应用的数据版本管理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112988920A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138734A (zh) * 2022-02-07 2022-03-04 中国人民解放军国防科技大学 基于Web的面向数据库及文件资源的版本管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356133A1 (en) * 2012-12-03 2015-12-10 Vmware, Inc. Distributed, Transactional Key-Value Store
CN111209444A (zh) * 2020-01-06 2020-05-29 电子科技大学 一种基于时间序列多版本图拓扑数据的存储方法
CN112000848A (zh) * 2020-08-20 2020-11-27 南京智慧图谱信息技术有限公司 一种图数据处理方法、装置、电子设备及存储介质
CN112100152A (zh) * 2020-09-14 2020-12-18 广州华多网络科技有限公司 业务数据处理方法、系统、服务器和可读存储介质
CN112433986A (zh) * 2020-11-02 2021-03-02 中国科学院深圳先进技术研究院 数据的存储方法、电子设备以及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356133A1 (en) * 2012-12-03 2015-12-10 Vmware, Inc. Distributed, Transactional Key-Value Store
CN111209444A (zh) * 2020-01-06 2020-05-29 电子科技大学 一种基于时间序列多版本图拓扑数据的存储方法
CN112000848A (zh) * 2020-08-20 2020-11-27 南京智慧图谱信息技术有限公司 一种图数据处理方法、装置、电子设备及存储介质
CN112100152A (zh) * 2020-09-14 2020-12-18 广州华多网络科技有限公司 业务数据处理方法、系统、服务器和可读存储介质
CN112433986A (zh) * 2020-11-02 2021-03-02 中国科学院深圳先进技术研究院 数据的存储方法、电子设备以及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲜学丰等: "基于属性值序列图模型的deep Web新数据发现策略", 《通信学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138734A (zh) * 2022-02-07 2022-03-04 中国人民解放军国防科技大学 基于Web的面向数据库及文件资源的版本管理方法

Similar Documents

Publication Publication Date Title
CN110209650B (zh) 数据规整迁移方法、装置、计算机设备和存储介质
Balci Requirements for model development environments
Koenker et al. On reproducible econometric research
CN109885299B (zh) 模型开发中的模板处理方法、装置、计算机设备和存储介质
CN107016047A (zh) 文档查询、文档存储方法及装置
CN103248524B (zh) 基于柔性测试技术的测试数据版本控制方法、装置及系统
EP2610762A1 (en) Database version management system
CN111061475A (zh) 软件代码生成方法、装置、计算机设备和存储介质
CN106445529A (zh) 持续集成服务器的配置信息的备份方法及系统
CN110990048A (zh) 一种监控Unity项目资源缺失的方法及系统
CN110597552B (zh) 项目持续集成流水线的配置方法、装置、设备及存储介质
CN112988920A (zh) 面向ai应用的数据版本管理方法、装置和计算机设备
CN113515322B (zh) 应用程序加载方法、装置、计算机设备和可读存储介质
CN114461217A (zh) 代码编译方法、装置、电子设备及存储介质
CN111984659B (zh) 数据更新方法、装置、计算机设备和存储介质
CN111143130B (zh) 数据恢复方法、装置、计算机可读存储介质和计算机设备
CN113112270B (zh) 基于区块链的数据组织方法
CN114201207A (zh) 一种资源同步方法、装置、电子设备及存储介质
CN114625751A (zh) 基于区块链的数据溯源查询方法及装置
CN114239054A (zh) iOS应用构建方法、装置、计算机设备和存储介质
CN112015429A (zh) 一种代码生成方法、装置及设备
CN110162507B (zh) 快照覆写方法、装置、计算机设备及存储介质
CN113448617B (zh) 数据对象管理方法、装置、计算机设备和存储介质
CN114840237A (zh) 流程程序代码的更新方法、装置、计算机设备和存储介质
US20240152338A1 (en) Efficiently vectorized implementation of operations in a global grid indexing library

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210618