CN110297869A - 一种ai数据仓库平台及操作方法 - Google Patents

一种ai数据仓库平台及操作方法 Download PDF

Info

Publication number
CN110297869A
CN110297869A CN201910463442.2A CN201910463442A CN110297869A CN 110297869 A CN110297869 A CN 110297869A CN 201910463442 A CN201910463442 A CN 201910463442A CN 110297869 A CN110297869 A CN 110297869A
Authority
CN
China
Prior art keywords
data
module
service
submodule
layer module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910463442.2A
Other languages
English (en)
Other versions
CN110297869B (zh
Inventor
施恩
谢永康
胡鸣人
臧硕
陈晓宇
于燕松
喻友平
吴甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910463442.2A priority Critical patent/CN110297869B/zh
Publication of CN110297869A publication Critical patent/CN110297869A/zh
Application granted granted Critical
Publication of CN110297869B publication Critical patent/CN110297869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据存储领域,具体地涉及一种AI数据仓库平台,所述平台包括:业务层模块,用于接收AI产品的业务请求,向服务层模块发送对应的操作请求,以及将服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能;服务层模块,用于接收所述业务层模块的操作请求,对存储层模块进行对应的操作;以及将对存储层模块的操作结果反馈至所述业务层模块中对应的子模块;存储层模块,用于根据服务层模块的操作对所述AI数据进行处理后进行存储。同时还提供了一种AI数据仓库的操作方法。本发明实施例适用于PB量级以上的AI数据存储,能够提升存储效率,降低存储成本,有助于更大地发挥AI数据的价值。

Description

一种AI数据仓库平台及操作方法
技术领域
本发明涉及数据存储领域,具体地涉及一种AI数据仓库平台,以及一种AI数据仓库操作方法。
背景技术
随着人工智能(AI)技术在越来越多的业务场景应用,每天都有大量的AI数据产生,包括视频、图像、音频、文本等各种类型的多媒体数据。大规模AI数据的存储、处理、查询、更新给传统的数据仓库带来了很大的挑战,也正是这样大量的AI数据推动了相关AI模型的不断迭代、优化、升级,以更好地服务相关业务场景需求。与传统的互联网时代所产生的大规模用户行为数据不同,AI数据往往都是各种类型的多媒体数据,因而在数据的收集、存储及使用方式上都与传统的大数据存在较大的差异。
现有的数据仓库一般基于MPP(Massively Parallel Processing)架构设计,提供数据ETL、数据导入、数据存储、多维度查询分析、数据可视化等一系列配套的服务。现有的数据仓库常被应用在用户行为数据等互联网大数据的存储、查询、分析。但其具有以下缺陷:已有的数据仓库比较适合于日志类数据,而AI数据大多是多媒体对象数据,传统的数据仓库满足AI数据的数据组织和使用需求。
现有的AI数据,由于视频、图像、文本、音频等不同类型的对象数据在存储、查询上的差异性,以及不同模型对于数据的组织、标注、使用方式不同,往往不同类型的AI数据甚至同类型数据的不同类型模型都有一套独立的AI数据管理方案。但其具有以下缺陷:存在很多冗余的工作量,并且大大提升了对AI数据维护的成本,也不便于数据在多个模型间互通以更大地发挥数据价值。
AI数据具有的几大特性:大规模、多样性、高价值、版本和快照以及数据隐私性,使其需要有专门的数据仓库以实现对其进行有效存储和复用。
HDFS:Hadoop分布式文件系统;
MongoDB:一种基于分布式文件存储的数据库。
发明内容
本发明的目的是提出一种AI数据仓库平台,通过设计一种针对AI数据的特性的数据仓库解决方案,以至少解决现有大规模、多类型AI数据的存储、查询、加工与使用等问题。
在本发明的第一方面,提供了一种AI数据仓库平台,所述AI数据仓库平台包括:
业务层模块,用于接收AI产品的业务请求,向服务层模块发送对应的操作请求,以及将服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能;
所述业务层模块包括若干事先定义的子模块;每个子模块包括业务调用接口和指令集合,所述业务调用接口用于为接入AI数据仓库平台的所述AI产品提供接口,所述指令集合用于向服务层模块发送相应的指令以获取反馈;
服务层模块,用于接收所述业务层模块的操作请求,对存储层模块进行对应的操作;以及将对存储层模块的操作结果反馈至所述业务层模块中对应的子模块;
存储层模块,存储有AI数据,用于根据服务层模块的操作对所述AI数据进行处理后进行存储。
可选的,所述业务层模块包括以下子模块:
在线数据接入子模块,所述在线数据接入子模块用于向在线AI服务或模型训练服务平台提供接入服务;所述接入服务包括数据存储和数据访问;
离线数据导入子模块,所述离线数据导入子模块用于创建离线数据集并通过API完成数据导入;所述离线数据集包括数据以及该数据对应的数据类型、数据格式和使用方式;
在线查询子模块,所述在线查询子模块用于提供在线查询功能,根据用户提供的相关的字段、维度及筛选条件,查询该用户权限范围内所存储的AI数据;
批量导出子模块,所述批量导出子模块用于在模型训练时,根据筛选条件选择匹配的数据集进行数据导出,同时提供可选的快照功能,所述快照功能为每一次的模型训练存储一份快照数据;
数据更新子模块,所述数据更新子模块用于同时维护AI数据的多个版本信息;所述数据更新子模块包括元数据更新单元和对象数据更新单元。
可选的,所述业务层模块还包括以下子模块中的至少一个:
在线查看编辑子模块,所述在线查看编辑子模块用于提供在线查看及编辑功能,并提供对应的API;
权限管理子模块,所述权限管理子模块用于对不同的用户提供对应的平台使用权限;
管理配置子模块,所述管理配置子模块用于向用户提供对于数据或数据集的管理配置。
可选的,所述服务层模块包括:
基础操作模块,用于提供基础数据操作服务,所述基础数据操作服务包括数据装载、数据读取、数据更新和数据删除;
数据分离模块,用于针对数据的类型和/或格式进行数据处理及解析,将数据分离成对象数据和元数据,并将所述元数据存储至所述存储层模块;;
数据加密解密模块,用于提供数据的加密解密服务,所述加密解密服务包括:使用预设的加密方式对所述对象数据进行加密并将加密后的对象数据存储至所述存储层模块,以及读取加密数据后对其进行对应的解密操作。
可选的,所述服务层模块还包括:
冷热数据分离模块,用于根据预设配置定期将冷数据从所述存储层模块中导出,经过聚合并将聚合后的冷数据存储至所述存储层模块的预设位置,并修改冷数据对应的元数据信息。
可选的,所述存储层模块包括:
对象存储引擎模块,用于存储所述加密后的对象数据;
MongoDB模块,存储有多个元数据表,所述元数据表用于存储元数据。
可选的,所述存储层模块还包括:
HDFS模块,所述HDFS模块用于存储所述聚合后的冷数据。
在本发明的第二方面,还提供一种AI数据仓库的操作方法,所述方法包括:
业务层模块接收到AI产品的业务请求,向服务层模块发送对应的操作请求;其中所述业务层模块包括若干事先定义的子模块,每个子模块包括业务调用接口和指令集合,所述业务调用接口用于为接入AI数据仓库的所述AI产品提供接口,所述指令集合用于向服务层模块发送相应的指令以获取反馈;
所述服务层模块接收所述业务层模块的操作请求,对存储层模块进行对应的操作;
所述存储层模块根据所述服务层模块的操作对所存储的AI数据进行存储;
所述服务层模块将对所述存储层模块的操作结果反馈至所述业务层模块;
所述业务层模块将所述服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能。
可选的,所述业务层模块提供以下操作,以供所述AI产品根据自身业务特性选择使用:
在线数据接入:向在线AI服务或模型训练服务平台提供接入服务,所述接入服务包括数据存储和数据访问;
离线数据导入:创建离线数据集并通过API完成数据导入,所述离线数据集包括数据以及该数据对应的数据类型、数据格式和使用方式;
在线查询:提供在线查询功能,根据用户提供的相关的字段、维度及筛选条件,查询该用户权限范围内所存储的AI数据;
批量导出:在模型训练时,根据筛选条件选择匹配的数据集进行数据导出,同时提供可选的快照功能,所述快照功能为每一次的模型训练存储一份快照数据;
数据更新:同时维护AI数据的多个版本信息,所述数据更新包括元数据更新和对象数据更新。
可选的,所述业务层模块还提供以下至少一种操作,以供所述AI产品根据自身业务特性选择使用:
在线查看编辑:提供在线查看及编辑功能,并提供对应的API;
权限管理:对不同的用户提供对应的平台使用权限;
管理配置:向用户提供对于数据或数据集的管理配置。
可选的,所述服务层模块根据对应的指令实现以下操作:
基础操作:提供基础数据操作服务,所述基础数据操作服务包括数据装载、数据读取、数据更新和数据删除;
数据分离:针对数据的类型和/或格式进行数据处理、解析,将数据分离成对象数据和元数据,并将所述元数据存储至所述存储层模块;;
数据加密解密:提供数据的加密解密服务,所述加密解密服务包括:使用预设的加密方式对所述对象数据进行加密并将加密后的对象数据存储至所述存储层模块中,以及读取加密数据后对其进行对应的解密操作。
可选的,所述服务层模块还根据对应的指令实现以下操作:
冷热数据分离:根据预设配置定期将冷数据从所述存储层模块导出,经过聚合并将聚合后的冷数据存储至所述存储层模块,并修改冷数据对应的元数据信息。
可选的,该操作方法还包括:对所述对象数据和元数据进行分离存储:
将所述加密后的对象数据存储于所述存储层模块中的对象存储引擎;
将所述元数据存储到所述存储层模块中的MongoDB的相关元数据表中。
可选的,所述将聚合后的冷数据存储至所述存储层模块,包括:
将聚合后的冷数据存储至所述存储层模块中的HDFS模块中。
在本发明的第三方面,还提供了一种数据存储系统,所述数据存储系统包括前述的AI数据仓库平台。
在本发明的第四方面,还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述的AI数据仓库操作方法。
通过上述技术方案,本发明提供了一种AI数据仓库平台及对应的操作方法,具有以下优点:解决了大规模(PB量级以上)AI数据的收集、存储、加工和运用的问题,使得各类AI应用平台能够更加便捷地管理AI数据,更好地发挥AI数据的价值。
附图说明
图1是本发明一种实施方式提供的AI数据仓库平台的系统结构示意图;
图2是本发明一种实施方式提供的AI数据仓库平台的业务层模块结构示意图;
图3为本发明一种实施方式提供的AI数据仓库平台的服务层模块结构示意图;
图4为本发明一种实施方式提供的AI数据仓库平台的存储层模块结构示意图;
图5为本发明一种实施方式提供的AI数据仓库操作方法的流程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明一种实施方式提供的AI数据仓库平台的系统结构示意图,如图1所示:一种AI数据仓库平台,所述数据仓库平台包括:
业务层模块,用于接收AI产品的业务请求,向服务层模块发送对应的操作请求,以及将服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能;
所述业务层模块包括若干事先定义的子模块;每个子模块包括业务调用接口和指令集合,所述业务调用接口用于为接入AI数据仓库平台的所述AI产品提供接口,所述指令集合用于向服务层模块发送相应的指令以获取反馈;
服务层模块,用于接收业务层模块的操作请求,对存储层模块进行对应的操作;以及将对存储层模块的操作结果,反馈至所述业务层模块中对应的子模块;
存储有AI数据,用于根据服务层模块的操作对所述AI数据进行处理后进行存储。
如此,通过存储层模块存储数据,服务层模块提供内部接口,业务层模块提供对外的功能,使整个AI数据仓库平台的结构明晰,简化了模块之间的数据互交。存储层模块对数据的统一管理,降低了对AI数据的维护成本;业务层模块的自由定制和组合,丰富了该平台的功能。
具体的,系统包括业务层模块、服务层模块和存储层模块。
所述业务层模块用于本AI数据仓库平台对外提供服务。具体的,提供的服务是由若干事先定义的子模块提供的;每个子模块实际上为程序模块,服务请求通过命令或者API对子模块进行调用,子模块对AI数据仓库内数据的操作是通过服务层模块来完成的。如果是数据查询等需要返回数据等操作时,子模块需要转发服务层模块的反馈(此时为查询结果)至所述AI产品,以实现对应的功能。其中业务层中的业务可以根据具体的使用场景进行配置或添加。
所述服务层模块主要为业务层模块的相关功能提供访问存储层模块的接口。其在系统中的主要作用在于:向业务层模块提供封装好的数据访问接口,屏蔽数据处理的具体细节,降低了业务层模块复杂性,有利于业务层模块的扩展。同时能够降低存储层模块对数据格式的耦合性,使存储层模块更关注于存储数据的本身。
所述存储层模块主要用于提供AI数据的存储,本发明实施例中的存储层模块的存储方式包括对象存储引擎、MongoDB和HDFS,三者是如何配合使用以实现AI数据的高效存储,将在后文详述。
在本发明提供的一种实施方式中,所述业务层模块包括以下子模块。图2是本发明一种实施方式提供的AI数据仓库平台的业务层模块结构示意图,如图2所示:
在线数据接入子模块,所述在线数据接入子模块用于向在线AI服务或模型训练服务平台提供接入服务;所述接入服务包括数据存储和数据访问;具体的,若接入AI数据仓库的产品为在线AI服务,可以通过配置,将AI服务实际调用中产生的调用数据直接接入到AI数据仓库进行存储,并使用相关的功能对数据进行访问和使用。若接入AI数据仓库的产品为模型训练服务平台,可以使用相关的组件将模型相关的训练、测试、评估集接入到AI数据仓库,并为用户提供在线的数据上传、编辑、标注等操作。
离线数据导入子模块,所述离线数据导入子模块用于创建离线数据集并通过API完成数据导入;用户通过选择相关的数据类型、数据格式、使用方式等就可以创建相关的离线数据集并通过相关的API完成导入;
在线查询子模块,所述在线查询子模块用于提供在线查询功能,根据用户提供的相关的字段、维度及筛选条件,查询该用户权限范围内所存储的AI数据;
批量导出子模块,所述批量导出子模块用于在模型训练时,根据筛选条件选择匹配的数据集进行数据导出,同时提供可选的快照功能,所述快照功能为每一次的模型训练存储一份快照数据;由于进行了元数据与对象数据的分离,快照并不会重复存储对象数据,而只是存储、修改相关的元数据。
数据更新子模块,所述数据更新子模块用于同时维护AI数据的多个版本信息;所述数据更新子模块包括元数据更新单元和对象数据更新单元,会对应地修改元数据以及对象数据本身。
除此之外,还包括:
在线查看编辑子模块,所述在线查看编辑子模块用于提供在线查看及编辑功能,并提供对应的API;不同的产品具有对应的在线数据或数据集的查看、管理、标注、更新功能;
权限管理子模块,所述权限管理子模块用于对不同的用户提供对应的平台使用权限;由于AI数据具有很强的隐私行,需要进行严格的权限管理,只有数据的上传者及授权方才可以查看、操作、使用对应的AI数据。
管理配置子模块,所述管理配置子模块用于向用户提供对于数据或数据集的管理配置,比如:数据加密方式、数据索引、冷数据转储方案、机密数据定期删除机制等。
以上的八个子模块中,前五个子模块是必须的,后三个子模块可以根据业务需求进行选取是否打开,但常用的场景中,通常也需要使用到这三个子模块。
以上子模块即本AI数据仓库平台能够向外提供的主要功能。接入AI数据仓库的不同AI产品可以根据自身的业务特性从中调用对应的子模块,即选择相应的功能,以满足产品的业务需求。
在本发明提供的一种实施方式中,所述服务层模块包括以下子模块。图3是本发明一种实施方式提供的AI数据仓库平台的服务层模块结构示意图,如图3所示:
所述服务层模块包括:
基础操作模块,用于提供基础数据操作服务,所述基础数据操作服务包括数据装载、数据读取、数据更新和数据删除;数据的复杂操作为以上基础操作的组合,其如何组合是可以在业务层模块中的子模块内设定的。
数据分离模块,用于针对数据的类型和/或格式进行数据处理及解析,将数据分离成对象数据和元数据,并将所述元数据存储至所述存储层模块;提取元数据存储到MongoDB的相关元数据表;此处的处理和解析包括分离数据中的数据本身和数据属性,将数据属性写入元数据。AI数据仓库平台的一个创新点就是将对象数据与元数据分离,采用不同的存储方案与访问机制,提高AI数据仓库对不同类型AI数据的兼容性,提升系统整体的安全性、稳定性。
数据加密解密模块,用于提供数据的加密解密服务,所述加密解密服务包括:使用预设的加密方式对所述对象数据加密后存储至存储层模块中,具体的,是存储至对象存储引擎模块,以及读取加密数据后对其进行对应的解密操作。此处的加密方式是预设的,加密方式的选择需要考虑数据特性和系统加密开销。
进一步的,所述服务层模块还包括:冷热数据分离模块,用于根据预设配置定期将冷数据从存储层模块中导出,具体的,是从对象存储引擎模块中导出,经过聚合后存储到存储层模块中的预设位置。同时修改相应的元数据信息。查询是根据元数据信息的指引从不同的存储引擎中获取数据。具体的,定期检查数据的访问频率,对访问频率低于预设值的冷数据进行上述操作。同时修改相应的元数据信息是为了保持数据在转移过程中的一致性。
在本发明提供的一种实施方式中,所述存储层模块中包括以下子模块。图4为本发明一种实施方式提供的AI数据仓库平台的存储层模块结构示意图;如图4所示:
对象存储引擎模块,用于存储所述加密后的对象数据;
MongoDB模块,存储有多个元数据表,所述元数据表用于存储元数据。还包括:
HDFS模块,所述HDFS模块用于存储所述冷热数据分离模块根据预设配置定期从对象存储引擎模块中导出,经过聚合后的冷数据。
根据数据的特性,将数据存储至以上三种模块之一。本发明的实施方式将对象数据与元数据进行分离存储,同时将冷数据和其他数据(热数据、温数据)进行分离存储,有利于提升存储销量,降低存储开销。
具体的,AI数据包括对象数据和元数据,对象数据是指视频、图片、音频、文本等数据本身,而元数据是指依附于对象数据上的数据标识,比如:标注、调用、版本、快照等。由于AI数据具有不同的版本与快照,当对象数据本身没有更新,只有相关元数据更新时,并不需要修改或者重复存储对象数据。同样,同一个对象数据也可能被多个AI服务模型使用,这种方式也避免了对象数据的重复存储,大大节约了存储成本。
将对象数据和元数据分离存储,还具有以下优点:
提升数据隐私性。通过这种元数据与对象数据分离的方式,将对象数据进行严格加密,提高数据安全性;
提升数据可扩展性。由于AI数据的多样性,将具有共性的元数据进行提取、统一管理,而对于复杂多样的对象数据,使用对数据类型不敏感的对象存储引擎进行存储。
同时本发明实施方式采用了冷热数据分离存储的方式。冷数据和热数据(可能还包括温数据)的划分,是将数据从访问频次和数据分析进行的数据划分。冷数据作为不经常访问的数据或分析权重较底的数据,可以采用成本更低的HDFS等方式进行存储。该冷热分离的存储方式,不仅有利于降低存储成本,还有利于提高数据的访问效率。
在本发明的一种实施方式中,还提供了一种AI数据仓库操作方法。图5为本发明一种实施方式提供的AI数据仓库操作方法的流程示意图,如图所示,所述方法包括:
业务层模块接收到AI产品的业务请求,向服务层模块发送对应的操作请求;其中所述业务层模块包括若干事先定义的子模块,每个子模块包括业务调用接口和指令集合,所述业务调用接口用于为接入AI数据仓库的所述AI产品提供接口,所述指令集合用于向服务层模块发送相应的指令以获取反馈;
所述服务层模块接收所述业务层模块的操作请求,对存储层模块进行对应的操作;
所述存储层模块根据所述服务层模块的操作对所存储的AI数据进行处理后进行存储;
所述服务层模块将对所述存储层模块的操作结果反馈至所述业务层模块;
所述业务层模块将所述服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能。
可选的,所述业务层模块提供以下操作,以供所述AI产品根据自身业务特性选择使用:
在线数据接入:向在线AI服务或模型训练服务平台提供接入服务,所述接入服务包括数据存储和数据访问;
离线数据导入:创建离线数据集并通过API完成数据导入,所述离线数据集包括数据以及该数据对应的数据类型、数据格式和使用方式;
在线查询:提供在线查询功能,根据用户提供的相关的字段、维度及筛选条件,查询该用户权限范围内所存储的AI数据;
批量导出:在模型训练时,根据筛选条件选择匹配的数据集进行数据导出,同时提供可选的快照功能,所述快照功能为每一次的模型训练存储一份快照数据;
数据更新:同时维护AI数据的多个版本信息,所述数据更新包括元数据更新和对象数据更新。
可选的,所述业务层模块还提供以下至少一种操作,以供所述AI产品根据自身业务特性选择使用:
在线查看编辑:提供在线查看及编辑功能,并提供对应的API;
权限管理:对不同的用户提供对应的平台使用权限;
管理配置:向用户提供对于数据或数据集的管理配置。
可选的,所述服务层模块根据对应的指令实现以下操作:
基础操作:提供基础数据操作服务,所述基础数据操作服务包括数据装载、数据读取、数据更新和数据删除;
数据分离:针对数据的类型和/或格式进行数据处理、解析,将数据分离成对象数据和元数据,并将所述元数据存储至所述存储层模块;;
数据加密解密:提供数据的加密解密服务,所述加密解密服务包括:使用预设的加密方式对所述对象数据进行加密并将加密后的对象数据存储至所述存储层模块中,以及读取加密数据后对其进行对应的解密操作。
可选的,所述服务层模块还根据对应的指令实现以下操作:
冷热数据分离:根据预设配置定期将冷数据从所述存储层中导出,经过聚合并将聚合后的冷数据存储至所述存储层模块中的预设位置,并修改冷数据对应的元数据信息。
可选的,该操作方法还包括:对所述存对象数据和元数据进行分离存储:
将所述对象数据加密后存储于所述存储层模块中的对象存储引擎;
将所述元数据存储到所述存储层模块中的MongoDB的相关元数据表中。
可选的,所述将聚合后的冷数据存储至所述存储层模块,包括:
将聚合后的冷数据存储至所述存储层模块中的HDFS模块中。
此处操作方法的技术细节与前文仓库平台的技术细节相参照,此处不再重复。
在本发明的一种实施方式中,还提供一种数据存储系统,所述存储系统包括前述的AI数据仓库平台。该数据存储系统,包括控制主机和存储系统,所述控制主机通常为服务器,优选为服务器组或服务器组集群,主要考虑大数据量下的负荷分担以及业务响应需求。其通过网络访问提供业务响应。存储系统的包括存储AI数据的物理介质以及介质驱动程序,目前常用的物理介质为磁盘阵列。
在本发明的一种实施方式还提供了提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述的AI数据仓库操作方法。
如此,本发明的实施方式能够满足PB量级以上、多类型AI数据的存储、查询、加工与使用需求。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (16)

1.一种AI数据仓库平台,其特征在于,所述平台包括:
业务层模块,用于接收AI产品的业务请求,向服务层模块发送对应的操作请求,以及将服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能;
所述业务层模块包括若干事先定义的子模块;每个子模块包括业务调用接口和指令集合,所述业务调用接口用于为接入AI数据仓库平台的所述AI产品提供接口,所述指令集合用于向服务层模块发送相应的指令以获取反馈;
服务层模块,用于接收所述业务层模块的操作请求,对存储层模块进行对应的操作;以及将对存储层模块的操作结果反馈至所述业务层模块中对应的子模块;
存储层模块,存储有AI数据,用于根据服务层模块的操作对所述AI数据进行存储。
2.根据权利要求1所述的AI数据仓库平台,其特征在于,所述业务层模块包括以下子模块:
在线数据接入子模块,所述在线数据接入子模块用于向在线AI服务或模型训练服务平台提供接入服务;所述接入服务包括数据存储和数据访问;
离线数据导入子模块,所述离线数据导入子模块用于创建离线数据集并通过API完成数据导入;所述离线数据集包括数据以及该数据对应的数据类型、数据格式和使用方式;
在线查询子模块,所述在线查询子模块用于提供在线查询功能,根据用户提供的相关的字段、维度及筛选条件,查询该用户权限范围内所存储的AI数据;
批量导出子模块,所述批量导出子模块用于在模型训练时,根据筛选条件选择匹配的数据集进行数据导出,同时提供可选的快照功能,所述快照功能为每一次的模型训练存储一份快照数据;
数据更新子模块,所述数据更新子模块用于同时维护AI数据的多个版本信息;所述数据更新子模块包括元数据更新单元和对象数据更新单元。
3.根据权利要求2所述的AI数据仓库平台,其特征在于,所述业务层模块还包括以下子模块中的至少一个:
在线查看编辑子模块,所述在线查看编辑子模块用于提供在线查看及编辑功能,并提供对应的API;
权限管理子模块,所述权限管理子模块用于对不同的用户提供对应的平台使用权限;
管理配置子模块,所述管理配置子模块用于向用户提供对于数据或数据集的管理配置。
4.根据权利要求1所述的AI数据仓库平台,其特征在于,所述服务层模块包括:
基础操作模块,用于提供基础数据操作服务,所述基础数据操作服务包括数据装载、数据读取、数据更新和数据删除;
数据分离模块,用于针对数据的类型和/或格式进行数据处理及解析,将数据分离成对象数据和元数据,并将所述元数据存储至所述存储层模块;
数据加密解密模块,用于提供数据的加密解密服务,所述加密解密服务包括:使用预设的加密方式对所述对象数据进行加密并将加密后的对象数据存储至所述存储层模块,以及读取加密数据后对其进行对应的解密操作。
5.根据权利要求4所述的AI数据仓库平台,其特征在于,所述服务层模块还包括:
冷热数据分离模块,用于根据预设配置定期将冷数据从所述存储层模块中导出,经过聚合并将聚合后的冷数据存储至所述存储层模块的预设位置,并修改冷数据对应的元数据信息。
6.根据权利要求5所述的AI数据仓库平台,其特征在于,所述存储层模块包括:
对象存储引擎模块,用于存储所述加密后的对象数据;
MongoDB模块,存储有多个元数据表,所述元数据表用于存储元数据。
7.根据权利要求6所述的AI数据仓库平台,其特征在于,所述存储层模块还包括:
HDFS模块,所述HDFS模块用于存储所述聚合后的冷数据。
8.一种AI数据仓库的操作方法,其特征在于,所述方法包括:
业务层模块接收到AI产品的业务请求,向服务层模块发送对应的操作请求;其中所述业务层模块包括若干事先定义的子模块,每个子模块包括业务调用接口和指令集合,所述业务调用接口用于为接入AI数据仓库的所述AI产品提供接口,所述指令集合用于向服务层模块发送相应的指令以获取反馈;
所述服务层模块接收所述业务层模块的操作请求,对存储层模块进行对应的操作;
所述存储层模块根据所述服务层模块的操作对所存储的AI数据进行存储;
所述服务层模块将对所述存储层模块的操作结果反馈至所述业务层模块;
所述业务层模块将所述服务层模块的反馈转发至所述AI产品,以实现所述业务请求所对应的功能。
9.根据权利要求8所述的AI数据仓库的操作方法,其特征在于,所述业务层模块提供以下操作,以供所述AI产品根据自身业务特性选择使用:
在线数据接入:向在线AI服务或模型训练服务平台提供接入服务,所述接入服务包括数据存储和数据访问;
离线数据导入:创建离线数据集并通过API完成数据导入,所述离线数据集包括数据以及该数据对应的数据类型、数据格式和使用方式;
在线查询:提供在线查询功能,根据用户提供的相关的字段、维度及筛选条件,查询该用户权限范围内所存储的AI数据;
批量导出:在模型训练时,根据筛选条件选择匹配的数据集进行数据导出,同时提供可选的快照功能,所述快照功能为每一次的模型训练存储一份快照数据;
数据更新:同时维护AI数据的多个版本信息,所述数据更新包括元数据更新和对象数据更新。
10.根据权利要求9所述的AI数据仓库的操作方法,其特征在于,所述业务层模块还提供以下至少一种操作,以供所述AI产品根据自身业务特性选择使用:
在线查看编辑:提供在线查看及编辑功能,并提供对应的API;
权限管理:对不同的用户提供对应的平台使用权限;
管理配置:向用户提供对于数据或数据集的管理配置。
11.根据权利要求8所述的AI数据仓库的操作方法,其特征在于,所述服务层模块根据对应的指令实现以下操作:
基础操作:提供基础数据操作服务,所述基础数据操作服务包括数据装载、数据读取、数据更新和数据删除;
数据分离:针对数据的类型和/或格式进行数据处理、解析,将数据分离成对象数据和元数据,并将所述元数据存储至所述存储层模块;
数据加密解密:提供数据的加密解密服务,所述加密解密服务包括:使用预设的加密方式对所述对象数据进行加密并将加密后的对象数据存储至所述存储层模块,以及读取加密数据后对其进行对应的解密操作。
12.根据权利要求11所述的AI数据仓库的操作方法,其特征在于,所述服务层模块还根据对应的指令实现以下操作:
冷热数据分离:根据预设配置定期将冷数据从所述存储层模块中导出,经过聚合并将聚合后的冷数据存储至所述存储层模块,并修改冷数据对应的元数据信息。
13.根据权利要求12所述的AI数据仓库的操作方法,其特征在于,该操作方法还包括:对所述对象数据和所述元数据进行分离存储:
将加密后的对象数据存储于所述存储层模块中的对象存储引擎;
将所述元数据存储到所述存储层模块中的MongoDB的相关元数据表中。
14.根据权利要求13所述的AI数据仓库的操作方法,其特征在于:所述将聚合后的冷数据存储至所述存储层模块,包括:
将聚合后的冷数据存储至所述存储层模块中的HDFS模块中。
15.一种数据存储系统,其特征在于,所述数据存储系统包括权利要求1-7中任一项所述的AI数据仓库平台。
16.一种存储介质,其特征在于,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求8-14中任一项所述的AI数据仓库的操作方法。
CN201910463442.2A 2019-05-30 2019-05-30 一种ai数据仓库平台及操作方法 Active CN110297869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910463442.2A CN110297869B (zh) 2019-05-30 2019-05-30 一种ai数据仓库平台及操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910463442.2A CN110297869B (zh) 2019-05-30 2019-05-30 一种ai数据仓库平台及操作方法

Publications (2)

Publication Number Publication Date
CN110297869A true CN110297869A (zh) 2019-10-01
CN110297869B CN110297869B (zh) 2022-11-25

Family

ID=68027542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910463442.2A Active CN110297869B (zh) 2019-05-30 2019-05-30 一种ai数据仓库平台及操作方法

Country Status (1)

Country Link
CN (1) CN110297869B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415014A (zh) * 2020-03-20 2020-07-14 中国建设银行股份有限公司 一种模型预测的结果数据管理系统及方法
CN111597173A (zh) * 2020-04-02 2020-08-28 上海瀚之友信息技术服务有限公司 一种数据仓库系统
CN114153387A (zh) * 2021-11-17 2022-03-08 苏州浪潮智能科技有限公司 一种ai平台的多用户存储对接方法和ai平台
CN114741441A (zh) * 2022-06-08 2022-07-12 广州市玄武无线科技股份有限公司 多类型存储引擎对象存储系统、方法和计算机可读介质
WO2024087125A1 (zh) * 2022-10-27 2024-05-02 北京小米移动软件有限公司 算法更新方法、装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030117652A1 (en) * 1999-09-17 2003-06-26 Paul Lapstun Rotationally symmetric tags
CN101610190A (zh) * 2009-07-22 2009-12-23 刘文祥 数据网络和系统
CN104123346A (zh) * 2014-07-02 2014-10-29 广东电网公司信息中心 一种结构化数据搜索方法
CN104657903A (zh) * 2015-03-12 2015-05-27 四川航天系统工程研究所 基于ietm的装备综合保障系统
US20150156206A1 (en) * 2007-01-05 2015-06-04 Digital Doors, Inc. Information Infrastructure Management Tools With Extractor, Storage and Data Release Control Functions and Segmental Data Stores
CN105183735A (zh) * 2014-06-18 2015-12-23 阿里巴巴集团控股有限公司 数据的查询方法及查询装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
US20180052897A1 (en) * 2016-08-22 2018-02-22 Oracle International Corporation System and method for automated mapping of data types for use with dataflow environments
CN108052681A (zh) * 2018-01-12 2018-05-18 毛彬 一种关系型数据库间结构化数据的同步方法及系统
CN108170867A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种元数据服务系统
CN109376017A (zh) * 2019-01-07 2019-02-22 人和未来生物科技(长沙)有限公司 基于容器的云计算平台任务处理方法、系统及其应用方法
US10260232B1 (en) * 2017-12-02 2019-04-16 M-Fire Supression, Inc. Methods of designing and constructing Class-A fire-protected multi-story wood-framed buildings
CN109684422A (zh) * 2018-12-28 2019-04-26 河南城建学院 一种基于人工智能的大数据平台的单指标预测和预警方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030117652A1 (en) * 1999-09-17 2003-06-26 Paul Lapstun Rotationally symmetric tags
US20150156206A1 (en) * 2007-01-05 2015-06-04 Digital Doors, Inc. Information Infrastructure Management Tools With Extractor, Storage and Data Release Control Functions and Segmental Data Stores
CN101610190A (zh) * 2009-07-22 2009-12-23 刘文祥 数据网络和系统
CN105183735A (zh) * 2014-06-18 2015-12-23 阿里巴巴集团控股有限公司 数据的查询方法及查询装置
CN104123346A (zh) * 2014-07-02 2014-10-29 广东电网公司信息中心 一种结构化数据搜索方法
CN104657903A (zh) * 2015-03-12 2015-05-27 四川航天系统工程研究所 基于ietm的装备综合保障系统
US20180052897A1 (en) * 2016-08-22 2018-02-22 Oracle International Corporation System and method for automated mapping of data types for use with dataflow environments
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
US10260232B1 (en) * 2017-12-02 2019-04-16 M-Fire Supression, Inc. Methods of designing and constructing Class-A fire-protected multi-story wood-framed buildings
CN108052681A (zh) * 2018-01-12 2018-05-18 毛彬 一种关系型数据库间结构化数据的同步方法及系统
CN108170867A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种元数据服务系统
CN109684422A (zh) * 2018-12-28 2019-04-26 河南城建学院 一种基于人工智能的大数据平台的单指标预测和预警方法
CN109376017A (zh) * 2019-01-07 2019-02-22 人和未来生物科技(长沙)有限公司 基于容器的云计算平台任务处理方法、系统及其应用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨正武: "基于数据智能和人工智能的商务系统分析与研究", 《福建电脑》 *
疯狂的萝卜: "浅谈数据仓库的基本架构", 《HTTPS://BLOG.CSDN.NET/WENJIANFENG/ARTICLE/DETAILS/90353765》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415014A (zh) * 2020-03-20 2020-07-14 中国建设银行股份有限公司 一种模型预测的结果数据管理系统及方法
CN111415014B (zh) * 2020-03-20 2023-10-20 中国建设银行股份有限公司 一种模型预测的结果数据管理系统及方法
CN111597173A (zh) * 2020-04-02 2020-08-28 上海瀚之友信息技术服务有限公司 一种数据仓库系统
CN114153387A (zh) * 2021-11-17 2022-03-08 苏州浪潮智能科技有限公司 一种ai平台的多用户存储对接方法和ai平台
CN114153387B (zh) * 2021-11-17 2023-08-15 苏州浪潮智能科技有限公司 一种ai平台的多用户存储对接方法和ai平台
CN114741441A (zh) * 2022-06-08 2022-07-12 广州市玄武无线科技股份有限公司 多类型存储引擎对象存储系统、方法和计算机可读介质
WO2024087125A1 (zh) * 2022-10-27 2024-05-02 北京小米移动软件有限公司 算法更新方法、装置

Also Published As

Publication number Publication date
CN110297869B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110297869A (zh) 一种ai数据仓库平台及操作方法
CN105183735B (zh) 数据的查询方法及查询装置
US11341263B2 (en) Efficient data query and utilization through a semantic storage model
US9002871B2 (en) Method and system of mapreduce implementations on indexed datasets in a distributed database environment
CN109964216A (zh) 识别未知数据对象
CN102542071B (zh) 一种分布式处理数据的系统及方法
Kolodner et al. A cloud environment for data-intensive storage services
CN103023982B (zh) 一种云存储客户端的低延迟元数据访问方法
CN108885582A (zh) 存储器池结构的多租户存储器服务
CN105144159A (zh) Hive表链接
US10977278B2 (en) Multi-level metadata in database systems
CN109417573A (zh) 用于计算系统的应用驱动的存储系统
US11106678B2 (en) Storing metadata using data structures in database systems
Li et al. Write-only oblivious RAM-based privacy-preserved access of outsourced data
EP3864503A1 (en) Techniques for decoupling access to infrastructure models
KR101621385B1 (ko) 클라우드 스토리지 서비스의 파일 검색 시스템 및 방법, 및 파일 제어 방법
CN108062384A (zh) 数据检索的方法和装置
CN110019332A (zh) 一种基于预计算的数据查询方法及装置
CN107408239B (zh) 通过多个邮箱在通信应用中进行海量数据管理的架构
CN110069453A (zh) 运维数据处理方法和装置
CN109308310B (zh) 一种用于资产管理平台的子系统数据互联处理方法
Trihinas Datachain: A query framework for blockchains
JP2008152359A5 (zh)
Castro-Medina et al. Design of a horizontal data fragmentation, allocation and replication method in the cloud
Shang et al. One Stone, Three Birds: Finer-Grained Encryption with Apache Parquet@ Large Scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant