CN114374701A - 一种多级联动人工智能平台样本模型透明共享装置 - Google Patents
一种多级联动人工智能平台样本模型透明共享装置 Download PDFInfo
- Publication number
- CN114374701A CN114374701A CN202111474479.9A CN202111474479A CN114374701A CN 114374701 A CN114374701 A CN 114374701A CN 202111474479 A CN202111474479 A CN 202111474479A CN 114374701 A CN114374701 A CN 114374701A
- Authority
- CN
- China
- Prior art keywords
- sample model
- artificial intelligence
- subsystem
- data
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 86
- 230000005540 biological transmission Effects 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000009826 distribution Methods 0.000 claims abstract description 6
- 238000003860 storage Methods 0.000 claims description 35
- 238000013500 data storage Methods 0.000 claims description 15
- 238000002955 isolation Methods 0.000 claims description 15
- 230000001360 synchronised effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004888 barrier function Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多级联动人工智能平台样本模型透明共享装置,包括:包括:全局目录服务子系统、至少一个样本模型透明共享子系统以及至少一人工智能平台;人工智能平台与所述样本模型透明共享子系统一比一配对部署;每个样本模型透明共享子系统均连接至所述所述全局目录服务子系统;通过全局目录服务子系统维护全部的样本模型目录,确保一致性;通过样本模型透明共享子系统接管来自本地人工智能平台的请求,并通过全局目录服务子系统协同,查询全网数据分布,再通过样本模型透明共享子系统进行样本模型数据的存储以及同步传输,解决跨区域多级人工智能平台海量样本模型数据透明共享、安全共享、高效传输的相关需求。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种多级联动人工智能平台样本模型透明共享装置。
背景技术
人工智能技术日渐成为推动生产力发展,改变生产作业模式,提高生产效率的关键要素。为支撑人工智能应用的的规模化开发和运行,大型企业也纷纷研发、上线了各自的“人工智能平台”,实现人工智能相关能力的汇总与融合,为包括人脸身份验证、流程机器人、知识检索、风险防控等各类企业人工智能应用场景提供支撑。
所谓人工智能平台,通常由“两库一平台”构成,及样本库、模型库和运行平台。其中,样本库作为存储和管理各专业、各类型样本资源的组件,依托样本入库、样本预处理、样本标注、样本标签管理和样本服务目录等功能,为人工智能模型训练提供样本资源;模型库作为存储和管理各专业通用和专用模型的组件,提供各类通用及电力专用算法模型,依托模型测试、镜像封装、版本管理、模型上传、模型下载和模型服务目录等功能,为人工智能应用提供智能模型资源;运行平台提供模型导入、模型校验、模型部署、服务发布和云边协同等功能,支撑模型推理和应用集成。
人工智能平台中包含的各类数据样本、模型,需要投入大量的智力资源和人力劳动制作。无论是外购或自研,都希望能在整个企业范围内集约使用,避免重复采购或研发。另一方面,对于包括中央企业等大型企业而言,其分支生成机构分布在全国乃至全世界,应用人工智能技术的网络环境包括物理隔离的内网、外网及互联网,应用环境包括企业内部和作业现场,从实时访问的性能和应用推广难度等角度考虑,无法靠一套人工智能平台为所有用户提供服务,而需要在不同的分支结构、网络中部署人工智能平台,从而大型企业有很强的意愿打通各个部署点的人工智能平台,实现多级人工智能平台间数据样本和模型文件的透明共享。
如图1所示,大型企业多级人工智能平台间样本模型透明安全共享需求;针对面向大企业的多级人工智能平台部署及多级平台间样本模型的透明安全共享难点问题,目前存在的技术难点主要包括:
(1)难以透明共享:需要在多级人工智能平台之间(包括总部、地区中心、边缘侧作业现场等)、不同网络之间(内网、外网、互联网)共享所有人工智能模型、样本数据,为所有用户提供统一的目录及访问手段。如何面向大量重复数据存储的情况下,让不同区域的用户可以访问全网的模型和样本,是需要考量的问题;
(2)难以实现安全规范统一遵从:不同级别平台、网络有不同的数据安全规范和特殊装置(防火墙、信息安全隔离装置),这对实现跨网络级别的模型样本共享带来挑战:不同网络的“密级”要求不同,多级联动的人工智能平台需要满足不同网络区域的密级规范,提供一致、完整的支持。大型企业的网络一般会涉及三种:物理隔离的专有信息网络(内网)、逻辑隔离的专有信息网络(外网)和互联网。在三种网络中,互联网区域不能以任何形式存储使用涉密数据、外网可以使用及缓存低密级的文件、内网则可以使用及长期保存所有密级文件;
(3)对数据传输的传输性能传输及完整性校验:多级人工智能平台需要传输的数据分两类,一是单体GB级别的模型大文件,二是数量众多但单个文件较小的数据样本文件(如图片、音频等)。在不同级别平台,不同网络环境之间,如何充分利用网络带宽和信息安全隔离装置带宽,实现GB级别大模型和KB级别小样本文件的高效传输共享,也是需要整体考虑的问题。
因此,大型企业多级人工智能平台间样本模型透明安全共享需要解决的技术问题主要是:如何在多级机构、多类型网络之间,实现超大容量的人工智能模型数据和样本数据的高性能传输、透明共享,并支持通用的安全设备、符合企业安全规定。
目前,尚未见公开文献有针对大型企业多级人工智能平台间样本模型透明安全共享问题给出整体解决方案。但针对其中涉及的技术问题,包括大文件高性能传输、网络间数据传输等都存在有技术方案。分析如下:
现有技术方案主要针对大文件,通过文件数据分片及多线程并行传输,解决大文件高性能传输问题。典型的对比文件是发明名称为:一种大文件传输方法、装置及系统,申请号为:202011337777.9,其将大文件传输分解为文件分片、多线程传输、基于文件标识的合并三个环节完成;该方案较好提升了大文件传输的性能、降低失败率。但没有解决文件完整性保证,或完整性保证所涉及的数字摘要计算较为耗时的问题。
综上所述,目前尚未见公开文献有针对大型企业多级人工智能平台间样本模型透明安全共享问题给出整体解决方案;涉及的海量文件的高性能传输技术、网间数据双向交换技术等,不能完全满足本发明背景中指出的数据高效传输、安全合规、透明共享方面存在的问题现状,对大型企业人工智能平台多级部署的相关问题均不完全适用。
发明内容
本发明要解决的技术问题,在于提供一种多级联动人工智能平台样本模型透明共享装置,解决跨区域多级人工智能平台海量样本模型数据透明共享、安全共享、高效传输的相关需求。
本发明提供了一种多级联动人工智能平台样本模型透明共享装置,包括:全局目录服务子系统、至少一个样本模型透明共享子系统以及至少一人工智能平台;人工智能平台与所述样本模型透明共享子系统一比一配对部署;每个样本模型透明共享子系统均连接至所述所述全局目录服务子系统;
通过全局目录服务子系统维护全部的样本模型目录,确保一致性;通过样本模型透明共享子系统接管来自本地人工智能平台的请求,并通过全局目录服务子系统协同,查询全网数据分布,再通过样本模型透明共享子系统进行样本模型数据的存储以及同步传输。
进一步地,所述样本模型透明共享子系统包括本地目录服务、全局同步服务以及数据存储服务;具体包括样本模型更新以及样本模型跨平台共享;
所述样本模型更新包括:人工智能平台调用部署在同一个网络区域的样本模型透明共享系统的本地目录服务,提交文件数据;本地目录服务调用本地的数据存储服务存储文件数据,同时将新增的文件数据的目录作为消息文本提交到全局目录服务子系统;全局目录服务子系统进行目录更新;
所述样本模型跨平台共享包括:所述本地目录服务每间隔设定时间发起对全局目录服务子系统的查询,全局目录服务子系统将过去设定时间内发生的目录数据变动返回给全局同步服务;获取变更的全局目录数据后,全局同步服务调用本地目录服务进行本地目录合并更新。
进一步地,所述数据存储服务中设有网络隔离设备适配插件,所述网络隔离设备适配插件是将网络隔离设备适配功能单独提取出,设计形成统一接口的形式,用于适配不同网络环境中防火墙以及信息安全隔离装置。
进一步地,所述数据存储服务中设有一存储资源读写模块;所述存储资源读写模块是Java语言针对主流的云存储协议,将块数据读写接口进行统一,并支持通过配置文件修改所采用的具体实现,实现插件化管理。
进一步地,所述存储资源读写模块根据文件的密级以及企业对不同密级数据在不同网络区域是否能长期存储、是否能临时缓存、临时缓存时间多长的配置要求信息,将需要临时缓存的文件写入分布式缓存,并同时设置过期时间;所述分布式缓存为IT中间件,支持配置过期自动删除;且人工智能平台根据返回的文件路径,访问样本模型文件;针对涉密数据,人工智能平台不提供文件二次分发功能。
进一步地,所述同步传输进一步具体为:
在传输前,将文件拆分为设定阈值MB的块,直至所有块均小于等于设定阈值MB的块,如果文件小于设定阈值MB,则不作拆分,计算所有块的数字摘要,合并成一个数字摘要,而后分块多线程并行传输;
传输过程中,文件接收方接收文件、并行化地计算固定块的数字摘要,逐一保存;
传输完成后,将所有块按顺序合并成原始大文件,并将所有块的数字摘要也合并为一个数字摘要,得到最终同步传输得到的样本模型文件及其对应的数字摘要,将得到的数字摘要与传输前合并的数字摘要进行比对,如果相同,则文件传输完整;如果不同,则回滚重新传输。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的一种多级联动人工智能平台样本模型透明共享装置,由“全局目录服务子系统”和“样本模型透明共享子系统”构成支撑人工智能平台模型样本透明共享的基础服务设施的架构体系,并通过“基于分级目录的模型文件透明共享机制”、“跨网络环境下基于分段传输校验的高性能样本模型数据同步及异构存储集成”、“基于统一缓存方案的跨网络区域数据安全合规利用”等方案,解决跨区域多级人工智能平台海量样本模型数据透明共享、安全共享、高效传输的相关需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为现有技术中大型企业多级人工智能平台间样本模型透明安全共享需求的架构示意图;
图2为本发明装置的总体架构图;
图3为本发明基于分级目录的模型文件透明共享机制的示意图;
图4为本发明基于分段传输与校验的高性能样本模型数据同步方案的示意图;
图5为本发明基于统一缓存方案的跨网络区域数据安全合规利用的时序图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:
针对多级联动人工智能平台大小不一的样本模型数据的高速传输、分布在不同地域网络层级的样本模型数据透明共享获取,以及不同网络区域样本模型数据的安全合规利用,提供了系统的、整体的方法,为大型企业人工智能平台的多级、跨网部署提供技术基础。发明内容主要包括以下几个部分:
(1)一个支撑多级联动人工智能平台透明共享的系统架构。提出由“全局目录服务子系统”和“样本模型透明共享子系统”构成支撑人工智能平台模型样本透明共享的基础服务设施的架构体系。
(2)一种基于分级目录的模型文件透明共享机制设计。提出基于分级目录的透明共享机制,即通过“全局目录”维护全网的统一样本模型目录,确保全局信息一致性,通过“本地目录服务”接管来自本地人工智能平台的所有请求,并通过其与全局目录服务的协同,在本地人工智能平台对全局目录无感知的情况下,就可以快速查询全网数据分布。
(3)一种跨网络环境下基于分段传输校验的高性能样本模型数据同步及异构存储集成设计。提出基于分段传输与校验的高性能样本模型数据同步设计,针对人工智能平台样本模型数据的全生命周期多次局部变更的特点,设计将文件进行分段拆分、按段传输并校验的方式,可以显著提升样本模型数据的同步性能;提出将网络隔离设备适配功能单独提取出设计成统一接口的插件化形式,以实现与不同的设备集成,提升系统对不同网络环境的适应性;提出设置单独的“存储资源读写模块”模块,并通过插件化适配不同的存储资源、支持存储技术路线的演进的技术方案。
(4)一种基于统一缓存方案的跨网络区域数据安全合规利用设计。提出基于统一缓存的数据安全合规利用方案,将涉密文件的“跨网络安全利用问题”转换为不同密级文件在不同网络区域的缓存时间问题,完全避免了额外的加密开销,且满足的企业数据安全规范,一定程度上低成本地解决了跨网络区域数据安全合规利用问题。
通过系统整体架构设计、基于分级目录的模型文件透明共享机制设计、跨网络环境下基于分段传输校验的高性能样本模型数据同步及异构存储集成设计、基于统一缓存方案的跨网络区域数据安全合规利用设计四个方面,阐述本发明的具体实施方式。
(1)总体架构设计
如图2所示,整体架构由“全局目录服务子系统”和“样本模型透明共享子系统”构成。其中“全局目录服务子系统”在全网仅需部署一个服务示例;“样本模型透明共享子系统”与人工智能平台一比一配对部署,可以作为人工智能平台服务群的一部分,也可以作为单独服务,为人工智能提供完整的的样本模型数据存储、同步传输服务。
“全局目录服务子系统”及“样本模型透明共享子系统”的主要模块构成及运行机制,将在以下的具体方案中进行阐述。
(2)基于分级目录的模型文件透明共享机制设计
分级部署的人工智能平台,可以通过任意的部署点上传样本和模型数据。为了使这些样本模型数据都能被其他的部署点透明共享,本发明提出基于分级目录的透明共享机制,即通过“全局目录”维护全网的统一样本模型目录,确保全局信息一致性;通过“本地目录服务”接管来自本地人工智能平台的所有请求,并通过其与全局目录服务的协同,在本地人工智能平台对全局目录无感知的情况下,就可以快速查询全网数据分布。全局目录和本地目录共同构成支撑各级人工智能平台的人工智能样本模型目录服务。
需要指出的是,全局同步的仅限于目录数据,样本模型的文件本身还在各自本地维护,只有在后续需要异地调用时才按需传输。目录数据比样本模型文件本身要小得多,从而在支持全网共享的同时有效避免大量数据重复存储、传输。
如图3所示,全局透明共享机制方案包括通过“样本模型更新”与“样本模型跨平台共享”两个阶段过程:
1)样本模型更新阶段
步骤1:本地上传数据。用户在人工智能平台中,提供界面上传、标注工具修改样本或训练生成新的模型后,由人工智能平台调用部署在同一个网络区域的“样本模型透明共享系统”的本“地目录服务”,提交文件数据。
步骤2:提交到全局目录。“本地目录服务”调用本地的“数据存储服务”存储文件数据,同时将新增数据的名录(包含名称、元数据等)作为消息文本提交到“全局目录”的分布式消息中间件。
步骤3:更新到全局目录。“全局目录服务”监听本地分布式消息中间件的消息,并将消息内容更新到全局目录中。依托分布式消息中间件高可用、高一致性特性,可以确保全局目录中的内容无遗漏、不重复。
2)样本模型跨平台共享
为了确保本地人工智能平台能够查询、浏览全网样本模型目录数据,需要定期从“全局目录服务”同步目录数据。具体步骤为:
步骤1:定时同步请求全局目录。本地的“全局同步服务”定期(如每小时)发起对全局目录服务的查询,“全局目录服务”将过去一个小时发生的目录数据变动返回给“全局同步服务”。
步骤2:本地目录合并更新。获取变更的全局目录数据后,“全局同步服务”调用本地目录服务的更新接口,将变更的目录数据提交给本地目录合并更新。
(3)跨网络环境下基于分段传输校验的高性能样本模型数据同步及异构存储集成设计
人工智能平台中的模型、样本数据,在整个生命周期中会进行多次修改,如增加样本标注,或者模型叠加融合等。在上述的多种数据修改中,文件本身可能只发生局部的变化,如果尽可能只传输变更的内容,可大大提升样本模型数据的在多个平台间的传输效率。
另一方面,数据传输后需要保证同步前后数据的完整性。主流方案通常采用数字摘要技术(如MD5),在文件同步传输前后分别计算单个文件的数字摘要,如果二者完全相等,就可以证明同步的数据是完整的。而由于数据摘要算法执行通常非常耗时,且与文件大小成正比例关系,针对单个文件计算数字摘要的方法需要耗费较多时间,如果能缩减数字摘要算法的运行时间,将有助于提升模型数据的同步传输效率。
本发明提出基于分段传输与校验的高性能样本模型数据同步设计,针对人工智能平台样本模型数据的全生命周期多次局部变更的特点,设计将文件进行分段拆分、按段传输并校验的方式,可以显著提升样本模型数据的同步性能。总体方案如图所示。
如图4所示,通过以下三个方面对具体机制设计进行介绍:
1)分段传输与校验。由“分段传输校验模块”在文件传输过程执行。
具体过程是:
在传输前,将人工智能样本模型大文件拆分为1MB大小的块(如果部分样本文件小于1MB,则不作拆分),计算所有块的数字摘要,合并成一个数字摘要。而后分块多线程并行传输;
传输过程中,文件接收方接收文件、并行化地计算固定块的数字摘要,逐一保存;
传输完成后,将所有块按顺序合并成原始大文件、将所有块的数字摘要也合并为一个数字摘要,得到最终同步传输得到的样本模型文件及其对应的数字摘要。将得到的数字摘要与传输前合并的数字摘要进行比对,如果相同,则文件传输完整。如果不同,则回滚重新传输。
在数据流传输方面,本发明具体采用的是基于Java Mina框架的流式文件传输技术。该技术是在行业中普遍应用的成熟技术,不再展开介绍。
本发明给出的分段传输及校验设计,能有效利用现在多核计算机系统闲置的计算资源,并行化地开展文件传输和数字摘要计算,从而提升了文件传输及完整性校验的性能。
2)网络隔离设备适配插件。在企业区域网络互联环境中,不同网络分区可能是通过“防火墙”或“信息安全隔离装置”连接,这些设备,特别是“信息安全隔离装置”,通常不支持透明传输,而提供了独特的接口供数据传输过程调用。
本发明将网络隔离设备适配功能单独提取出,设计成统一接口的插件化形式,以实现与不同的设备集成,提升系统对不同网络环境的适应性。
3)异构存储资源的读写。人工智能样本模型单个文件可能达到GB大小级别,在成熟推广的人工智能平台中,可能耗费高达数百TB甚至PB的存储资源以存储各样本模型文件,对存储资源提出了很高的要求。由于不同区域的信息化基础设施架构不一致,并且可能同时存在多种不同的存储资源(如企业私有云存储、分布式存储、集中式存储阵列设备等),本发明设置了单独的“存储资源读写模块”模块,与“网络隔离设备适配”类似,通过插件化适配不同的存储资源,并支持存储技术路线的演进。
具体而言,本发明在“存储资源读写模块”模块中,基于Java语言针对主流的云存储协议(如S3协议)、块数据读写接口进行了统一的实现,并支持通过配置文件修改所采用的具体实现,实现插件化管理。其中,针对不同存储资源的读写是共性技术。
同时,“存储资源读写模块”也是实现“基于统一缓存方案的跨网络区域数据安全合规利用”方案的主要载体,请参见下一步相关介绍。
(4)基于统一缓存方案的跨网络区域数据安全合规利用设计
针对不同网络区域,文件安全级别(密级)不同的问题,针对跨网络区域数据的安全保障,主流的方法是通过对文件进行加密而实现的。然而,由于人工智能样本模型文件数量大、单体文件最高可达GB级别,对文件进行加密、解密需要大量的计算资源开销和时间开销,在实际应用过程中几乎无法接受。
本发明提出基于统一缓存的数据安全合规利用方案,将涉密文件的“跨网络安全利用问题”转换为不同密级文件在不同网络区域的缓存时间问题,完全避免了额外的加密开销,且满足“互联网区域不能以任何形式存储使用涉密数据、外网可以使用及缓存低密级的文件、内网则可以使用及长期保存所有密级文件”的企业数据安全规范,一定程度上低成本地解决了跨网络区域数据安全合规利用问题。
具体的方案如图5所示,“存储资源读写模块”根据文件的密级以及企业对不同密级数据在不同网络区域是否能长期存储、是否能临时缓存、临时缓存时间多长的配置要求信息,将需要临时缓存的文件(如普通密级的文件在互联网区域利用时)写入“分布式缓存”,并同时设置过期时间。“分布式缓存”是当前主流的IT中间件,支持配置过期自动删除,能满足本方案的要求;人工智能平台系统根据返回的文件路径,访问样本模型文件。针对涉密数据,平台在界面上不提供文件下载等二次分发功能,从而实现对企业数据安全规范的遵从。
实施例一
本实施例提供一种多级联动人工智能平台样本模型透明共享装置,包括:全局目录服务子系统、至少一个样本模型透明共享子系统以及至少一人工智能平台;人工智能平台与所述样本模型透明共享子系统一比一配对部署;每个样本模型透明共享子系统均连接至所述所述全局目录服务子系统;
通过全局目录服务子系统维护全部的样本模型目录,确保一致性;通过样本模型透明共享子系统接管来自本地人工智能平台的请求,并通过全局目录服务子系统协同,查询全网数据分布,再通过样本模型透明共享子系统进行样本模型数据的存储以及同步传输;
所述同步传输进一步具体为:在传输前,将文件拆分为设定阈值MB的块,直至所有块均小于等于设定阈值MB的块,如果文件小于设定阈值MB,则不作拆分,计算所有块的数字摘要,合并成一个数字摘要,而后分块多线程并行传输;
传输过程中,文件接收方接收文件、并行化地计算固定块的数字摘要,逐一保存;
传输完成后,将所有块按顺序合并成原始大文件,并将所有块的数字摘要也合并为一个数字摘要,得到最终同步传输得到的样本模型文件及其对应的数字摘要,将得到的数字摘要与传输前合并的数字摘要进行比对,如果相同,则文件传输完整;如果不同,则回滚重新传输。
所述样本模型透明共享子系统包括本地目录服务、全局同步服务以及数据存储服务;具体包括样本模型更新以及样本模型跨平台共享;
所述样本模型更新包括:人工智能平台调用部署在同一个网络区域的样本模型透明共享系统的本地目录服务,提交文件数据;本地目录服务调用本地的数据存储服务存储文件数据,同时将新增的文件数据的目录作为消息文本提交到全局目录服务子系统;全局目录服务子系统进行目录更新;
所述样本模型跨平台共享包括:所述本地目录服务每间隔设定时间发起对全局目录服务子系统的查询,全局目录服务子系统将过去设定时间内发生的目录数据变动返回给全局同步服务;获取变更的全局目录数据后,全局同步服务调用本地目录服务进行本地目录合并更新。
所述数据存储服务中设有网络隔离设备适配插件,所述网络隔离设备适配插件是将网络隔离设备适配功能单独提取出,设计形成统一接口的形式,用于适配不同网络环境中防火墙以及信息安全隔离装置。
所述数据存储服务中设有一存储资源读写模块;所述存储资源读写模块是Java语言针对主流的云存储协议,将块数据读写接口进行统一,并支持通过配置文件修改所采用的具体实现,实现插件化管理。
所述存储资源读写模块根据文件的密级以及企业对不同密级数据在不同网络区域是否能长期存储、是否能临时缓存、临时缓存时间多长的配置要求信息,将需要临时缓存的文件写入分布式缓存,并同时设置过期时间;所述分布式缓存为IT中间件,支持配置过期自动删除;且人工智能平台根据返回的文件路径,访问样本模型文件;针对涉密数据,人工智能平台不提供文件二次分发功能。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种多级联动人工智能平台样本模型透明共享装置,其特征在于:包括:全局目录服务子系统、至少一个样本模型透明共享子系统以及至少一人工智能平台;人工智能平台与所述样本模型透明共享子系统一比一配对部署;每个样本模型透明共享子系统均连接至所述所述全局目录服务子系统;
通过全局目录服务子系统维护全部的样本模型目录,确保一致性;通过样本模型透明共享子系统接管来自本地人工智能平台的请求,并通过全局目录服务子系统协同,查询全网数据分布,再通过样本模型透明共享子系统进行样本模型数据的存储以及同步传输。
2.根据权利要求1所述的一种多级联动人工智能平台样本模型透明共享装置,其特征在于:
所述样本模型透明共享子系统包括本地目录服务、全局同步服务以及数据存储服务;具体包括样本模型更新以及样本模型跨平台共享;
所述样本模型更新包括:人工智能平台调用部署在同一个网络区域的样本模型透明共享系统的本地目录服务,提交文件数据;本地目录服务调用本地的数据存储服务存储文件数据,同时将新增的文件数据的目录作为消息文本提交到全局目录服务子系统;全局目录服务子系统进行目录更新;
所述样本模型跨平台共享包括:所述本地目录服务每间隔设定时间发起对全局目录服务子系统的查询,全局目录服务子系统将过去设定时间内发生的目录数据变动返回给全局同步服务;获取变更的全局目录数据后,全局同步服务调用本地目录服务进行本地目录合并更新。
3.根据权利要求2所述的一种多级联动人工智能平台样本模型透明共享装置,其特征在于:所述数据存储服务中设有网络隔离设备适配插件,所述网络隔离设备适配插件是将网络隔离设备适配功能单独提取出,设计形成统一接口的形式,用于适配不同网络环境中防火墙以及信息安全隔离装置。
4.根据权利要求2所述的一种多级联动人工智能平台样本模型透明共享装置,其特征在于:所述数据存储服务中设有一存储资源读写模块;所述存储资源读写模块是Java语言针对主流的云存储协议,将块数据读写接口进行统一,并支持通过配置文件修改所采用的具体实现,实现插件化管理。
5.根据权利要求4所述的一种多级联动人工智能平台样本模型透明共享装置,其特征在于:所述存储资源读写模块根据文件的密级以及企业对不同密级数据在不同网络区域是否能长期存储、是否能临时缓存、临时缓存时间多长的配置要求信息,将需要临时缓存的文件写入分布式缓存,并同时设置过期时间;所述分布式缓存为IT中间件,支持配置过期自动删除;且人工智能平台根据返回的文件路径,访问样本模型文件;针对涉密数据,人工智能平台不提供文件二次分发功能。
6.根据权利要求1所述的一种多级联动人工智能平台样本模型透明共享装置,其特征在于:所述同步传输进一步具体为:
在传输前,将文件拆分为设定阈值MB的块,直至所有块均小于等于设定阈值MB的块,如果文件小于设定阈值MB,则不作拆分,计算所有块的数字摘要,合并成一个数字摘要,而后分块多线程并行传输;
传输过程中,文件接收方接收文件、并行化地计算固定块的数字摘要,逐一保存;
传输完成后,将所有块按顺序合并成原始大文件,并将所有块的数字摘要也合并为一个数字摘要,得到最终同步传输得到的样本模型文件及其对应的数字摘要,将得到的数字摘要与传输前合并的数字摘要进行比对,如果相同,则文件传输完整;如果不同,则回滚重新传输。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111474479.9A CN114374701B (zh) | 2021-12-06 | 2021-12-06 | 一种多级联动人工智能平台样本模型透明共享装置 |
PCT/CN2022/079255 WO2023103190A1 (zh) | 2021-12-06 | 2022-03-04 | 一种多级联动人工智能平台样本模型透明共享装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111474479.9A CN114374701B (zh) | 2021-12-06 | 2021-12-06 | 一种多级联动人工智能平台样本模型透明共享装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114374701A true CN114374701A (zh) | 2022-04-19 |
CN114374701B CN114374701B (zh) | 2024-05-14 |
Family
ID=81140352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111474479.9A Active CN114374701B (zh) | 2021-12-06 | 2021-12-06 | 一种多级联动人工智能平台样本模型透明共享装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114374701B (zh) |
WO (1) | WO2023103190A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861673B (zh) * | 2023-07-10 | 2024-02-02 | 贵州宏信达高新科技有限责任公司 | 基于数据共享的多人远程在线协同设计系统及方法 |
CN116668968B (zh) * | 2023-07-25 | 2023-10-13 | 西安优光谱信息科技有限公司 | 跨平台通讯的信息处理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577936A (zh) * | 2013-11-15 | 2014-02-12 | 国家电网公司 | 一种电网模型分布式维护与全局共享系统及其实现方法 |
CN105447175A (zh) * | 2015-12-09 | 2016-03-30 | 中国电力科学研究院 | 一种适用于电力系统分布式计算的电网模型共享方法 |
CN107016478A (zh) * | 2016-01-28 | 2017-08-04 | 中国电力科学研究院 | 一种基于两级部署的全网模型快速生成及共享方法 |
CN107071001A (zh) * | 2017-03-22 | 2017-08-18 | 南京理工大学 | 智能交通Web信息共享服务平台架构方法 |
CN110266775A (zh) * | 2019-06-04 | 2019-09-20 | 南京南瑞继保电气有限公司 | 文件传输方法、装置、计算机设备及存储介质 |
US20200067933A1 (en) * | 2018-08-27 | 2020-02-27 | Amazon Technologies, Inc. | Directory access sharing across web services accounts |
CN112398655A (zh) * | 2019-08-19 | 2021-02-23 | 中移(苏州)软件技术有限公司 | 一种文件传输方法、服务器及计算机存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506632B (zh) * | 2014-12-25 | 2018-05-04 | 中国科学院电子学研究所 | 一种基于分布式多中心的资源共享系统及方法 |
US11640374B2 (en) * | 2016-06-22 | 2023-05-02 | Nasuni Corporation | Shard-level synchronization of cloud-based data store and local file systems |
CN106484533B (zh) * | 2016-09-21 | 2019-11-12 | 南方电网科学研究院有限责任公司 | 一种基于电力PaaS云平台的服务建模系统及方法 |
CN107016069A (zh) * | 2017-03-22 | 2017-08-04 | 南京理工大学 | 面向智能交通的元数据交换系统 |
CN112615899A (zh) * | 2020-11-25 | 2021-04-06 | 北京中电普华信息技术有限公司 | 一种大文件传输方法、装置及系统 |
-
2021
- 2021-12-06 CN CN202111474479.9A patent/CN114374701B/zh active Active
-
2022
- 2022-03-04 WO PCT/CN2022/079255 patent/WO2023103190A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577936A (zh) * | 2013-11-15 | 2014-02-12 | 国家电网公司 | 一种电网模型分布式维护与全局共享系统及其实现方法 |
CN105447175A (zh) * | 2015-12-09 | 2016-03-30 | 中国电力科学研究院 | 一种适用于电力系统分布式计算的电网模型共享方法 |
CN107016478A (zh) * | 2016-01-28 | 2017-08-04 | 中国电力科学研究院 | 一种基于两级部署的全网模型快速生成及共享方法 |
CN107071001A (zh) * | 2017-03-22 | 2017-08-18 | 南京理工大学 | 智能交通Web信息共享服务平台架构方法 |
US20200067933A1 (en) * | 2018-08-27 | 2020-02-27 | Amazon Technologies, Inc. | Directory access sharing across web services accounts |
CN110266775A (zh) * | 2019-06-04 | 2019-09-20 | 南京南瑞继保电气有限公司 | 文件传输方法、装置、计算机设备及存储介质 |
CN112398655A (zh) * | 2019-08-19 | 2021-02-23 | 中移(苏州)软件技术有限公司 | 一种文件传输方法、服务器及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023103190A1 (zh) | 2023-06-15 |
CN114374701B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956601B2 (en) | Fully managed account level blob data encryption in a distributed storage environment | |
US8862617B2 (en) | System and method for replicating objects in a distributed storage system | |
US8542695B1 (en) | System and method for storing/caching, searching for, and accessing data | |
US8341118B2 (en) | Method and system for dynamically replicating data within a distributed storage system | |
CN114374701B (zh) | 一种多级联动人工智能平台样本模型透明共享装置 | |
WO2013117104A1 (zh) | Bt离线数据下载系统及方法、计算机存储介质 | |
CN105138615A (zh) | 一种构建大数据分布式日志的方法和系统 | |
WO2020186807A1 (zh) | 一种基于区块链技术的电力数据链接系统及方法 | |
EP2534571B1 (en) | Method and system for dynamically replicating data within a distributed storage system | |
EA006223B1 (ru) | Способ и система для проверки достоверности удалённой базы данных | |
CN111339192A (zh) | 一种分布式边缘计算数据存储系统 | |
CN106326372A (zh) | Git中央仓库管理系统及控制方法 | |
CN112671840A (zh) | 一种基于区块链技术的跨部门数据共享系统及方法 | |
CN103428288A (zh) | 基于分区状态表和协调节点的副本同步方法 | |
US11210212B2 (en) | Conflict resolution and garbage collection in distributed databases | |
CN114281790A (zh) | 一种多类型负荷资源聚合商接入系统及方法 | |
CN110188118A (zh) | 一种数据同步方法、装置 | |
Kasu et al. | FTLADS: Object-logging based fault-tolerant big data transfer system using layout aware data scheduling | |
JP2002007191A (ja) | タグ付き言語で表現した情報間の情報複製方法 | |
CN110109871B (zh) | 一种跨站点的高能物理数据访问方法及系统 | |
TW201810090A (zh) | 避免多餘的資料複製的資料同步方法及裝置 | |
Kasu et al. | DLFT: Data and layout aware fault tolerance framework for big data transfer systems | |
CN115695049A (zh) | 一种cdn元数据分发方法及装置 | |
CN110928839A (zh) | 国际运价数据的存储方法和系统 | |
CN111143280B (zh) | 一种数据调度方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |