CN118051773A - 一种标准化的人工智能模型研发平台 - Google Patents
一种标准化的人工智能模型研发平台 Download PDFInfo
- Publication number
- CN118051773A CN118051773A CN202410107361.XA CN202410107361A CN118051773A CN 118051773 A CN118051773 A CN 118051773A CN 202410107361 A CN202410107361 A CN 202410107361A CN 118051773 A CN118051773 A CN 118051773A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- user
- service
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 29
- 238000012827 research and development Methods 0.000 title abstract description 9
- 238000007726 management method Methods 0.000 claims abstract description 42
- 238000013500 data storage Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 22
- 238000011161 development Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000013079 data visualisation Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000003032 molecular docking Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 5
- 230000001360 synchronised effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007123 defense Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 201000007023 Thrombotic Thrombocytopenic Purpura Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种标准化的人工智能模型研发平台,包括:基础业务层,用于提供给用户进行登录设置和数据接入展示操作;任务计算层,用于对业务层的计算任务作出响应;数据存储层,用于存储管理图像数据和模型数据;管理服务层,用于提供对硬件资源的管理。本方案构建了标准化的人工智能模型的研发平台,可提升人工智能模型构建的效率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种标准化的人工智能模型研发平台。
背景技术
随着人工智能的不断发展,属于人工智能的时代终于到来。人工智能的应用研究促进了生产力的增长和创新,为企业和经济发展带来了巨大的利益。但人工智能模型开发需要投入高昂的成本,包括人工智能模型算法构建、大规模的数据采集和标注以及长时间的模型训练和调试。高昂的前期投入和难以预期的最终效果,明显放缓了人工智能进入企业的速度。
如何构建一个标准的人工智能模型的研发平台是现阶段亟需解决的问题。
发明内容
本发明提供一种标准化的人工智能模型研发平台,以解决现有技术中存在的上述问题。
本发明提供一种标准化的人工智能模型研发平台,该研发平台包括:
基础业务层,用于提供给用户进行登录设置和数据接入展示操作;
任务计算层,用于对业务层的计算任务作出响应;
数据存储层,用于存储管理图像数据和模型数据;
管理服务层,用于提供对硬件资源的管理。
优选的,基础业务层具体提供:
设置有用户登录和权限设置内容项,以提供给用户进行VPN远程登录,以及提供给管理人员进行权限设置;
设置数据接入操作任务项,以提供将数据接入相对应的容器中。
优选的,基础业务层还包括:提供给用户进行数据展示操作,具体为:从平台的服务器采集数据,并将数据导入到Zabbix数据库,并利用Grafana数据可视化工具,进行数据可视化展示。
优选的,任务计算层包括对用于计算任务的模型进行训练,具体包括:
先建立WIKI知识库系统的页面和项目,再将用于模型训练的训练数据存放于网络存储服务器中存储,并设置与WIKI页面同步;接着使用TensorFlow、PyTorch框架编写模型,将模型代码存放于GitLab分布式版本控制系统中,并利用Docker容器创建训练环境;在模型训练过程中,将模型文件存放于网络存储服务器中存储,并设置与WIKI知识库系统的页面同步。
优选的,任务计算层包括对用于计算任务的模型进行测试,具体包括:
将系统组件划分为多个微服务;对微服务利用TensorFlow Serving部署机器学习模型进行处理,获得处理后微服务;对处理后微服务,利用训练模型,为TensorFlowServing部署机器学习模型配置工作节点,完成数据缓存和gRPC通信工作。
优选的,模型测试还包括:
在平台后端发起预测请求后,基于消息队列Kafka对请求消息进行预处理,获得处理后数据;针对处理后数据,调度器根据对工作节点状态的监控结果,对消息队列中的任务进行分配;在数据预测完成后,基于后处理模块对预测完成的数据进行处理,获得最终处理信息;将最终处理信息返回平台后端。
优选的,基础业务层还包括:
根据用户指定的配置信息生成RestfulAPI服务;当用户进行RestfulAPI服务请求时,根据用户调用的模型服务接口,从模型库中查找并加载与模型服务接口相对应的若干个第一模型,基于第一模型对用户上传的数据进行预测,获得预测结果,并将预测结果返回给用户;当用户请求切换模型时,根据用户的请求指令切换预设的绑定模型;配置信息包括模型、服务名称和API后缀名称。
优选的,根据用户的请求指令切换预设的绑定模型包括:
用户选择待切换模型后,填写服务名称、API后缀名称作为待切换模型的配置信息;将模型ID和配置信息注册到服务执行模块中,并发布Restful架构风格的服务连接地址,将服务连接地址注册到对接网关中对外提供服务。
优选的,基础业务层还包括:配置项管理模块,配置项管理模块用于针对用户的若干个配置项,基于配置项的值形成定制化的MalDNS系统参数,并将MalDNS系统参数用于指导MalDNS系统生成DNS窃密数据;
配置项管理模块包括:
预处理单元,用于对配置文件进行预处理;
冲突处理单元,用于用户对照DNS窃密攻击的案例报告进行定制化地编辑;
参数转化单元,用于在确认初始参数配置的正确性后,基于初始参数进行计算和转换,形成供MalDNS系统直接使用的参数集合。
优选的,管理服务层还包括任务调度算法模块;任务调度算法模块包括:
管理单元,用于在测试过程中,通过调用容器创建、启动、停止、删除接口管理容器;
节点排除单元,用于对不可用的节点进行排除;
打分单元,用于在经过节点排除单元排除不可用的节点后,形成剩余候选节点,在剩余候选节点中基于打分机制进行选择,获得打分结果;
选择单元,用于根据打分结果,对各节点进行排序,根据排序结果,选择排序最靠前的节点作为最优节点运行容器。
与现有技术相比,本发明具有以下优点:
本发明提供一种标准化的人工智能模型研发平台,本方案构建了标准化的人工智能模型的研发平台,可提升人工智能模型构建的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种标准化的人工智能模型研发平台的结构示意图;
图2为本发明实施例中标准化的人工智能模型研发平台系统的拓扑关系图;
图3为本发明实施例中标准化的人工智能模型的研发平台的系统框架图;
图4为本发明实施例中数据监控模块的框架图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种标准化的人工智能模型研发平台,请参照图1,该标准化的人工智能模型研发平台包括:
基础业务层,用于提供给用户进行事件和任务操作;事件操作包括账户管理、权限管理和传递事件;任务操作包括开发、运维和部署任务;
任务计算层,用于响应业务层的计算任务,计算任务包括模型创建、训练、评估和部署;
数据存储层,用于存储和管理图像数据、模型数据,具体为:图像标注、图像增强、模型版本的存储和管理管理;
管理服务层,用于管理系统硬件资源,具体为计算和存储单元的调度与扩展。
上述技术方案的工作原理为:本实施例采用的方案是包括:基础业务层,用于提供给用户进行事件和任务操作;事件操作包括账户管理、权限管理和传递事件;任务操作包括开发、运维和部署任务;任务计算层,用于响应业务层的计算任务,计算任务包括模型创建、训练、评估和部署;数据存储层,用于存储和管理图像数据、模型数据,具体为:图像标注、图像增强、模型版本的存储和管理管理;管理服务层,用于管理系统硬件资源,具体为计算和存储单元的调度与扩展。本方案构建了标准化的人工智能模型的研发平台,提升人工智能模型构建的效率。
本实施例提供的系统拓扑关系如图2所示,GPU服务器:建议每台包含4块3090显卡,内存128GB,1TB的SSD主盘,3*10TB的存储盘;NAS存储:基础存储约50T,可以根据需要增加两个扩容柜,最大可保存120TB的数据。
在另一实施例中,基础业务层包括下列模块:
登录模块,提供给用户通过VPN远程登录到系统;
权限设置模块,提供给系统管理员通过Portainer进行权限设置控制,不同的用户可使用不同的镜像、容器及网络;
数据接入容器模块,用于根据数据来源的不同,将数据接入相对应的容器中使用。
上述技术方案的工作原理为:本实施例采用的方案是:登录模块,提供给用户通过VPN远程登录到系统;权限设置模块,提供给系统管理员通过Portainer进行权限设置控制,不同的用户可使用不同的镜像、容器及网络;数据接入容器模块,用于根据数据来源的不同,将数据接入相对应的容器中使用。
本实施例中系统框架如图3所示,用户通过VPN远程登录到系统;VPN的英文全称是“Virtual Private Network”,即“虚拟专用网络”。可以把它理解成虚拟的企业内部专线。它可以通过特殊的加密的通讯协议在连接在Internet上的位于不同地方的两个或多个企业内部网之间建立一条专有的通讯线路。系统管理员通过Portainer进行权限设置控制,不同的用户可使用不同的镜像、容器及网络;Portainer是一个可视化的Docker操作界面,提供状态显示面板、应用模板快速部署、容器镜像网络数据卷的基本操作(包括上传下载镜像,创建容器等操作)、事件日志显示、容器控制台操作、Swarm集群和服务等集中管理和操作、登录用户管理和控制等功能。功能十分全面,基本能满足中小型单位对容器管理的全部需求。最后,根据不同的数据来源可将数据接入到不同的容器中使用。
在另一实施例中,基础业务层还包括:采集服务器的底层数据,并导入至Zabbix数据库;
通过Grafana对Zabbix数据库可视化,展示到前端,实现实时监控。
上述技术方案的工作原理为:本实施例采用的方案是:数据监控模块包括采集单元、导入单元和实时监控单元;采集服务器的底层数据,并导入至Zabbix数据库;通过Grafana对Zabbix数据库可视化,展示到前端,实现实时监控。
监控模块的框架如图4所示,(1)将服务器的底层数据进行采集;(2)将采集的数据导入至Zabbix数据库;(3)通过Grafana对Zabbix数据库可视化,展示到前端,实现实时监控。Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知。
在另一实施例中,业务计算层包括模型训练;
模型训练包括:建立WIKI页面,记录项目计划、时间安排、代码历史、数据与模型版本;
按照负责人、任务类型建立不同的项目,用于维护项目中的数据预处理与训练代码,所有的代码更新需要被记录;
训练数据按照负责人、任务类型、版本号等存放于NAS存储中,并与WIKI页面同步;
使用TensorFlow、PyTorch框架编写模型,代码全部存放于GitLab,训练环境可用Docker Container创建,分布式训练需要分配GPU的占用;
训练过程中,将模型文件按照负责人、任务类型、版本号等存放于NAS存储中,并与WIKI页面同步。
上述技术方案的工作原理为:本实施例采用的方案是WIKI:在人工智能项目进行之前,首先建立WIKI页面,记录项目计划、时间安排、代码历史、数据与模型版本等;GitLab:按照负责人、任务类型建立不同的项目,用于维护项目中的数据预处理与训练代码,所有的代码更新需要被记录;GitLab是一个用于仓库管理系统的开源项目,使用Git作为代码管理工具,并在此基础上搭建起来的web服务。安装方法是参考GitLab在GitHub上的Wiki页面。Source:训练数据按照负责人、任务类型、版本号等存放于NAS存储中,并与WIKI页面同步;Model Training:可使用TensorFlow、PyTorch等框架编写模型,代码全部存放于GitLab,训练环境可用Docker Container创建,分布式训练需要分配GPU的占用;Models:训练过程中,将模型文件按照负责人、任务类型、版本号等存放于NAS存储中,并与WIKI页面同步。
在另一实施例中,所述业务计算层包括:模型测试模块;
所述模型测试模块包括:
将不同的系统组件划分为微服务;
在TensorFlow Serving容器化后放入训练完成的模型,为每一个TensorFlowServing容器配置一个工作节点,以完成数据缓存、gRPC通信工作,二者对应一个GPU,共同提供测试服务。
在另一实施例中,所述模型测试模块还包括:
后端发起预测请求后,消息通过消息队列Kafka进行预处理,处理后将数据送入调度器;
调度器会监控所有工作节点的状态,统一对队列中的任务进行分配;
数据预测完成后,结果将被发到后处理模块进行最后的处理,通过消息队列返回后端;
测试代码同步于GitLab,测试结果数据按照负责人、任务类型、版本号存放于NAS存储中,并与WIKI页面同步。
上述技术方案的工作原理为:本实施例采用的方案是可将不同的系统组件划分为微服务,TensorFlow Serving容器化后放入训练完成的模型,为每一个TensorFlowServing容器(适合在生产环境中对TensorFlow深度学习模型进行部署,可以方便通过restful形式的接口进行访问)配置一个工作节点,以完成数据缓存、gRPC通信等工作,二者对应一个GPU,共同提供测试服务。后端发起预测请求后,消息会通过消息队列(Kafka)(事件流平台,专门为分布式高吞吐量系统而设计的消息传递系统,分布式消息队列,在架构中年起到解耦,削峰、异步处理的作用,消息的生产者Producer,接收者Consumer,生产设将数据保存在Kafka集群中,消费者从中获取消息进行处理,broker为中间人,在Kafka中存储消息)分发到预处理模块,处理后将数据送入调度器。调度器会监控所有工作节点的状态,统一对队列中的任务进行分配。数据预测完成后,结果将被发到后处理模块进行最后的处理,通过消息队列返回后端。测试代码同步于GitLab,测试结果数据按照负责人、任务类型、版本号等存放于NAS存储中,并与WIKI页面同步。
在另一实施例中,所述基础业务层还包括:
RestfulAPI服务生成模块,用于系统根据用户指定模型、服务名称、API后缀名称的配置信息生成RestfulAPI服务;
模型绑定模块,用于当用户进行服务请求时,请求进入服务执行模块;服务执行模块根据用户调用的模型服务接口,从模型库中查找并加载相关模型,基于相关模型对用户上传的数据进行预测,将预测结果返回给用户;
模型切换模块,用于当用户请求切换模型时,根据用户请求指令切换绑定的模型。
上述技术方案的工作原理为:本实施例采用的方案是:RestfulAPI服务生成模块,用于系统根据用户指定模型、服务名称、API后缀名称的配置信息生成RestfulAPI服务;模型绑定模块,用于当用户进行服务请求时,请求进入服务执行模块;服务执行模块根据用户调用的模型服务接口,从模型库中查找并加载相关模型,基于相关模型对用户上传的数据进行预测,将预测结果返回给用户;模型切换模块,用于当用户请求切换模型时,根据用户请求指令切换绑定的模型。
在另一实施例中,所述模型绑定模块包括:
配置信息获取单元,用于用户选择满足需求的模型,填写服务名称、API后缀名称作为配置信息;
注册单元,用于将模型ID、服务名称、API后缀名称作为服务配置信息注册到服务执行模块中;
发布单元,用于发布Restful架构风格的服务连接地址;
提供服务单元,用于将服务连接地址注册到对接网关中对外提供服务;对接网关统对外提供模型服务的注册、发布、监控、限流、鉴权及负载均衡功能;日志、流量监控功能采用插件化开发;使用异步通信方式将每个请求的处理日志信息通过异步方式发送到消息队列,由单独的日志收集进程进行收集,以供后续对收集的日志进行分析处理。
目前,在公开的人工智能模型开发平台中,人工智能模型发布成服务后,服务绑定的模型可进行版本维度的切换,但是不能进行模型维度的切换。这样,每个模型都需发布成服务。一方面,用户需申请注册多个服务,降低了人工智能模型落地效率。另一方面,会给模型服务中心造成巨大的压力,进行服务发现的时间会增加,导致服务调用时间增加。
因此,采用本实施例提供的方案实现了动态模型服务子系统,提供模型服务的动态生成、统一执行和模型切换等功能,从整体上提升了模型服务的灵活性,来适应多变的服务场景,满足用户的个性化需求。
在另一实施例中,所述基础业务层还包括:配置项管理模块,面向用户的众多配置项,并基于各配置项的值形成定制化的MalDNS系统参数,用于指导MalDNS系统生成所需的DNS窃密数据;
所述配置项管理模块包括:
预处理单元,用于对配置文件进行预处理,例如读取配置项后进行分类提取、初始转化等操作,即基于众多配置项的值形成初始的系统参数集合;
冲突处理单元,用于用户对照DNS窃密攻击的案例报告进行定制化地编辑,各配置项之间不是完全独立,存在相关性的配置项之间存在冲突的情况;冲突处理是对具有相关性的配置项的正确性进行确认并反馈;
参数转化单元,用于确认初始参数配置的正确性以后,配置项管理需要基于初始参数进行计算和转换,形成供MalDNS系统直接使用的参数集合,便于生成系统在不同的阶段直接调用需要的参数值。
上述技术方案的工作原理为:本实施例采用的方案是:配置项管理模块,面向用户的众多配置项,并基于各配置项的值形成定制化的MalDNS系统参数,用于指导MalDNS系统生成所需的DNS窃密数据;所述配置项管理模块包括:预处理单元,用于对配置文件进行预处理,例如读取配置项后进行分类提取、初始转化等操作,即基于众多配置项的值形成初始的系统参数集合;冲突处理单元,用于用户对照DNS窃密攻击的案例报告进行定制化地编辑,各配置项之间不是完全独立,存在相关性的配置项之间存在冲突的情况;冲突处理是对具有相关性的配置项的正确性进行确认并反馈;例如,由用户编辑配置的子域标签最大长度为63字符,又指定窃密数据分片长度大于63字符。那么,在未配置多级标签的情况下就出现了参数冲突的情况,因此配置项管理中的冲突处理操作是很有必要的。参数转化单元,用于确认初始参数配置的正确性以后,配置项管理需要基于初始参数进行计算和转换,形成供MalDNS系统直接使用的参数集合,便于生成系统在不同的阶段直接调用需要的参数值。
基于DNS窃密的攻击TTPs设计DNS窃密流量自动生成框架,对应的MalDNS生成系统实现完整的DNS窃密框架;通过配置文件来改变系统配置,即对应启用战术对应下的选定技术集合;最后定制化的配置文件应用于MalDNS系统的流量生成过程中,即对应实际攻击活动中的样本程序。其中,配置项管理部分的作用是处理面向用户的配置文件,并转化为MalDNS的系统参数。内容加工处理、数据嵌入与提取、DNS窃密传送3个模块则是一个完整的DNS窃密框架,使得MalDNS系统能够按配置文件描述的攻击模式来执行DNS窃密任务,从而大批量地生成DNS窃密流量。
在另一实施例中,所述管理服务层包括任务调度算法模块;
所述任务调度算法模块包括:
管理单元,用于在测试过程中,通过调用容器创建、启动、停止、删除接口管理容器;
节点排除单元,用于对不可用的节点进行排除,包括:异常节点、忙碌节点、运行时端口冲突的节点;
打分单元,用于在经过节点排除单元排除不可用的节点后,形成剩余候选节点,在剩余候选节点中进行选择,选择依据为打分机制;
选择单元,用于对按照得分对各节点排序,选择最优节点运行容器。
上述技术方案的工作原理为:本实施例采用的方案是:任务调度算法模块;所述任务调度算法模块包括:管理单元,用于在测试过程中,通过调用容器创建、启动、停止、删除接口管理容器;节点排除单元,用于对不可用的节点进行排除,包括:异常节点、忙碌节点、运行时端口冲突的节点;打分单元,用于在经过节点排除单元排除不可用的节点后,形成剩余候选节点,在剩余候选节点中进行选择,选择依据为打分机制;选择单元,用于对按照得分对各节点排序,选择最优节点运行容器。
用户测试时首先需要选择或者上传模型并进行实验配置,可选系统自带数据集也可以自行上传数据集。然后平台会根据模型和需要测试的项目生成测试脚本,从攻击算法库匹配攻击方法。同时调度中心调用攻击算法容器构建模块,拉起待测模型的运行环境容器,并根据脚本启动相应的攻击算法库中的攻击镜像,开始生成对抗样本。当所有的攻击过程结束后,由评估模块对攻击结果进行收集和分析。然后调度中心调用防御算法容器构建模块,在防御算法库匹配合适的防御算法对模型进行加固,将加固模型进行保存并和原始模型比较。最后再次调用相同的攻击方法在加固模型上生成对抗样本并进行综合评估,从而评估原始模型的安全性和加固模型效果。在测试过程中,任务调度中心通过调用容器创建,启动,停止,删除接口管理容器。在进行多个任务时,调度中心会启动多个容器同时进行测试,进一步提高测试效率和资源使用率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种标准化的人工智能模型研发平台,其特征在于,包括:
基础业务层,用于提供给用户进行登录设置和数据接入展示操作;
任务计算层,用于对业务层的计算任务作出响应;
数据存储层,用于存储管理图像数据和模型数据;
管理服务层,用于提供对硬件资源的管理。
2.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,基础业务层具体提供:
设置有用户登录和权限设置内容项,以提供给用户进行VPN远程登录,以及提供给管理人员进行权限设置;
设置数据接入操作任务项,以提供将数据接入相对应的容器中。
3.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,基础业务层还包括:提供给用户进行数据展示操作,具体为:从平台的服务器采集数据,并将数据导入到Zabbix数据库,并利用Grafana数据可视化工具,进行数据可视化展示。
4.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,任务计算层包括对用于计算任务的模型进行训练,具体包括:
先建立WIKI知识库系统的页面和项目,再将用于模型训练的训练数据存放于网络存储服务器中存储,并设置与WIKI页面同步;接着使用TensorFlow、PyTorch框架编写模型,将模型代码存放于GitLab分布式版本控制系统中,并利用Docker容器创建训练环境;在模型训练过程中,将模型文件存放于网络存储服务器中存储,并设置与WIKI知识库系统的页面同步。
5.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,任务计算层包括对用于计算任务的模型进行测试,具体包括:
将系统组件划分为多个微服务;对微服务利用TensorFlow Serving部署机器学习模型进行处理,获得处理后微服务;对处理后微服务,利用训练模型,为TensorFlow Serving部署机器学习模型配置工作节点,完成数据缓存和gRPC通信工作。
6.根据权利要求5所述的一种标准化的人工智能模型研发平台,其特征在于,模型测试还包括:
在平台后端发起预测请求后,基于消息队列Kafka对请求消息进行预处理,获得处理后数据;针对处理后数据,调度器根据对工作节点状态的监控结果,对消息队列中的任务进行分配;在数据预测完成后,基于后处理模块对预测完成的数据进行处理,获得最终处理信息;将最终处理信息返回平台后端。
7.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,基础业务层还包括:
根据用户指定的配置信息生成RestfulAPI服务;当用户进行RestfulAPI服务请求时,根据用户调用的模型服务接口,从模型库中查找并加载与模型服务接口相对应的若干个第一模型,基于第一模型对用户上传的数据进行预测,获得预测结果,并将预测结果返回给用户;当用户请求切换模型时,根据用户的请求指令切换预设的绑定模型;配置信息包括模型、服务名称和API后缀名称。
8.根据权利要求7所述的一种标准化的人工智能模型研发平台,其特征在于,根据用户的请求指令切换预设的绑定模型包括:
用户选择待切换模型后,填写服务名称、API后缀名称作为待切换模型的配置信息;将模型ID和配置信息注册到服务执行模块中,并发布Restful架构风格的服务连接地址,将服务连接地址注册到对接网关中对外提供服务。
9.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,基础业务层还包括:配置项管理模块,配置项管理模块用于针对用户的若干个配置项,基于配置项的值形成定制化的MalDNS系统参数,并将MalDNS系统参数用于指导MalDNS系统生成DNS窃密数据;
配置项管理模块包括:
预处理单元,用于对配置文件进行预处理;
冲突处理单元,用于用户对照DNS窃密攻击的案例报告进行定制化地编辑;
参数转化单元,用于在确认初始参数配置的正确性后,基于初始参数进行计算和转换,形成供MalDNS系统直接使用的参数集合。
10.根据权利要求1所述的一种标准化的人工智能模型研发平台,其特征在于,管理服务层还包括任务调度算法模块;任务调度算法模块包括:
管理单元,用于在测试过程中,通过调用容器创建、启动、停止、删除接口管理容器;
节点排除单元,用于对不可用的节点进行排除;
打分单元,用于在经过节点排除单元排除不可用的节点后,形成剩余候选节点,在剩余候选节点中基于打分机制进行选择,获得打分结果;
选择单元,用于根据打分结果,对各节点进行排序,根据排序结果,选择排序最靠前的节点作为最优节点运行容器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410107361.XA CN118051773A (zh) | 2024-01-26 | 2024-01-26 | 一种标准化的人工智能模型研发平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410107361.XA CN118051773A (zh) | 2024-01-26 | 2024-01-26 | 一种标准化的人工智能模型研发平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118051773A true CN118051773A (zh) | 2024-05-17 |
Family
ID=91045993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410107361.XA Pending CN118051773A (zh) | 2024-01-26 | 2024-01-26 | 一种标准化的人工智能模型研发平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118051773A (zh) |
-
2024
- 2024-01-26 CN CN202410107361.XA patent/CN118051773A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569298B (zh) | 一种数据对接、可视化方法和系统 | |
US8056046B2 (en) | Integrated system-of-systems modeling environment and related methods | |
US10481890B2 (en) | Environment mapping and patching synthesis | |
CN109192248A (zh) | 基于云平台的生物信息分析系统、方法及云计算平台系统 | |
CN108399101A (zh) | 资源调度的方法、装置和系统 | |
CN113010393A (zh) | 基于混沌工程的故障演练方法及装置 | |
CN108920153A (zh) | 一种基于负载预测的Docker容器动态调度方法 | |
CN111459763A (zh) | 跨kubernetes集群监控系统及方法 | |
CN108416657B (zh) | 一种基于咨询服务的订单生成方法及设备 | |
CN111679911A (zh) | 云环境中gpu卡的管理方法、装置、设备及介质 | |
CN111860853A (zh) | 在线预测系统、设备、方法及电子设备 | |
CN112256406A (zh) | 作业流程平台化调度方法 | |
CN116383223A (zh) | 资产数据处理方法、相关装置及存储介质 | |
CN114912255A (zh) | 在线仿真实验系统及方法 | |
US12028269B2 (en) | Method for optimal resource selection based on available GPU resource analysis in large-scale container platform | |
CN110650063A (zh) | 一种集中式的银行第三方软件仿真系统及方法 | |
CN118051773A (zh) | 一种标准化的人工智能模型研发平台 | |
CN111290855B (zh) | 分布式环境中多gpu服务器的gpu卡管理方法、系统及存储介质 | |
CN113032647B (zh) | 数据分析系统 | |
JP2023538941A (ja) | コンテナ化された環境のインテリジェントバックアップ及び復元 | |
CN110784545B (zh) | 实时数据分发系统 | |
CN113472638A (zh) | 边缘网关控制方法及系统、装置、电子设备、存储介质 | |
CN114461233A (zh) | 基于云环境实现数据中心软件自动化部署的系统及方法 | |
CN115348185B (zh) | 一种分布式查询引擎的控制方法及其控制装置 | |
CN115185700B (zh) | 一种高集成单进程的容器管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |