CN112699994A - 一种深度学习模型的自动化训练与测试系统 - Google Patents

一种深度学习模型的自动化训练与测试系统 Download PDF

Info

Publication number
CN112699994A
CN112699994A CN202011566027.9A CN202011566027A CN112699994A CN 112699994 A CN112699994 A CN 112699994A CN 202011566027 A CN202011566027 A CN 202011566027A CN 112699994 A CN112699994 A CN 112699994A
Authority
CN
China
Prior art keywords
training
server
task
file
testing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011566027.9A
Other languages
English (en)
Inventor
陈楷
廖奇
冯世杰
蔡劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kexun Jialian Information Technology Co ltd
Original Assignee
Kexun Jialian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kexun Jialian Information Technology Co ltd filed Critical Kexun Jialian Information Technology Co ltd
Priority to CN202011566027.9A priority Critical patent/CN112699994A/zh
Publication of CN112699994A publication Critical patent/CN112699994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种深度学习模型的自动化训练与测试系统,包括用户端、管理服务器、若干执行服务器和文件服务器;所述用户端包括web界面和应用后台;所述管理服务器用于分发任务至资源充足的执行服务器,并将执行服务器反馈的任务进度经应用后台反馈至web界面;所述执行服务器用于执行任务,同时采用固定频率心跳保存对应epoch算法效果及任务进度,并同步给管理服务器维护;所述文件服务器用于存储训练/测试用数据集,训练后生成的训练结果文件,以及测试后生成的测试结果文件;所述管理服务器周期性获取所有执行服务器的资源信息,以及正在进行的任务列表详情。本发明极大降低了人工智能算法模型的使用门槛,有效缩短项目开发周期。

Description

一种深度学习模型的自动化训练与测试系统
技术领域
本发明涉及深度学习技术领域,具体是一种深度学习模型的自动化训练与测试系统。
背景技术
人工智能已成为国家新一代重大基础设施建设的一部分,是占领科技高地、保证国家安全的关键。目前,以深度学习为主的人工智能算法模型的训练、调优和测试大都依赖算法工程师手动操作,使用门槛较高,也无法充分利用众多云服务器的计算资源。针对不同的任务和算法模型都需要修改源码,数据集也需要人工进行数据清洗和格式转换,开发效率低。实际应用中,不同的算法工程师可能使用不同框架/版本的开源项目源码,不同任务、不同框架的实现之间缺乏灵活性,算法代码通常比较分散臃肿,未与用户需求进行紧密结合,极大限制了当前用户对人工智能算法爆炸式的增长需求,阻碍了算法项目的快速实现和迭代,不利于企业AI平台化建设。
发明内容
针对现有深度学习模型训练与测试存在的技术缺陷,本发明提供一种可视化、轻量级、可扩展的自动化训练与测试系统。
一种深度学习模型的自动化训练与测试系统,包括用户端、管理服务器、若干执行服务器和文件服务器;
所述用户端包括用于提交任务的web界面和用于推送任务至管理服务器的应用后台;
所述管理服务器用于分发任务至资源充足的执行服务器,并将执行服务器反馈的任务进度经应用后台反馈至web界面;
所述执行服务器用于执行任务,同时采用固定频率心跳保存对应epoch算法效果及任务进度,并同步给管理服务器维护;
所述文件服务器用于存储训练/训练用数据集,训练后生成的训练文件,以及测试后生成的测试文件;
所述管理服务器周期性获取所有执行服务器的资源信息,以及正在进行的任务列表详情,资源信息至少包括CPU使用率、内存使用率、剩余内存、显存利用率、剩余显存、剩余磁盘空间,任务列表详情至少包括当前执行服务器所有正在处理任务的任务编号、任务进度、任务效果。
进一步的,数据集由用户提交至文件服务器,任务由用户根据用户名称、业务名称、算法名称在web界面创建。
进一步的,执行服务器接收到任务,根据用户名称、业务名称、算法名称在文件服务器查找已训练完成的同用户同业务同算法下的历史模型;
若有历史模型则下载该历史模型并校验其标注类型及顺序编号是否一致,若一致则基于该历史模型进行训练;若无历史模型或者标注类型及顺序编号不一致,则采用baseline模型进行训练。
进一步的,执行服务器从文件服务器下载数据集到本地进行解析及格式转换;
若是同任务下的全量训练,则下载所有同任务历史相关数据并校验,具有相同标准的数据加入到当前指定的数据集中;
若是同任务下的增量训练,则仅下载当前数据,并根据文件类型及其数据格式进行解析,转存至对应目录下。
进一步的,管理服务器接收到任务后,根据节点路由算法选举出执行服务器,节点路由算法具体操作为,归一化处理剩余内存、剩余显存、剩余磁盘空间及任务响应时间,按照既定权重,加权计算每个执行服务器的综合得分,向得分最高的执行服务器分发任务;强制校验各执行服务器CPU最高使用率,内存的最高使用率,显存最高使用率,若其值超出设定阈值,则该执行服务器综合得分强制评为0。
进一步的,训练任务结束后,执行服务器将本次训练任务形成的训练文件进行打包上传至文件服务器,训练文件至少包含配置文件、词汇文件、标签文件、模型文件;与此同时,通知应用后台训练结束,并将结果异步通知给应用后台指定的url。
进一步的,测试任务结束后,执行服务器统计各标签效果,将数据集中未正确预测的数据保存至对应目录下,打包上传到文件服务器,并通知应用后台测试结果。
本发明充分利用带有系统内众多服务器进行算法任务的集群式处理,提供web界面供用户创建新任务和上传数据集,能够快速根据用户需求进行扩展,实现模型训练及测试的自动化和可视化,极大降低了人工智能算法模型的使用门槛,有效缩短项目开发周期。
附图说明
图1为系统组成示意图;
图2为系统内部数据流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
一种深度学习模型的自动化训练与测试系统,如图1所示,包括用户端、管理服务器、若干执行服务器和文件服务器。
所述用户端包括用于提交任务的web界面和用于推送任务至管理服务器的应用后台。
所述管理服务器用于分发任务至资源充足的执行服务器,并将执行服务器反馈的任务进度经应用后台反馈至web界面。
所述执行服务器用于执行任务,同时采用固定频率心跳保存对应epoch算法效果及任务进度,并同步给管理服务器维护。
所述文件服务器用于存储训练/训练用数据集,训练后生成的训练文件,以及测试后生成的测试文件。
所述管理服务器周期性获取所有执行服务器的资源信息,以及正在进行的任务列表详情,资源信息至少包括CPU使用率、内存使用率、剩余内存、显存利用率、剩余显存、剩余磁盘空间,任务列表详情至少包括当前执行服务器所有正在处理任务的任务编号、任务进度、任务效果。
下面结合图2对系统内部数据流程进行阐述。
1、用户通过用户端的web界面创建任务(包括训练任务和测试任务),每个任务有其对应的用户名称、业务名称、算法名称,还可以其他限定,例如用于自然语言处理的深度学习模型可以设置NLP(自然语言处理)能力种类的限定;创建任务的同时,用户还需向文件服务器提交数据集。
2、用户端的应用后台将用户创建的任务推送至管理服务器。
3、管理服务器接收到任务后,根据节点路由算法选举出执行服务器,节点路由算法具体包括以下步骤:
①线性归一化处理剩余内存Mf、剩余显存Gf、剩余磁盘空间Df,得到归一化后的剩余内存Mf′=Mf/Mfmax、剩余显存Gf′=Gf/Gfmax、剩余磁盘空间Df′=Df/Dfmax
②非线性归一化处理任务响应时间R,得到归一化后的任务响应时间
Figure BDA0002860684340000041
其中kscale为量化的时间间隔尺度,Rmax为预定义的最大响应时间,常数K为
Figure BDA0002860684340000042
③按照既定权重,加权计算每个执行服务器的综合得分
Weighti=Mfi′·WMf+Gfi′·WGf+Dfi′·WDf+(1-Cv)·WCv+(1-Gv)·WGv+(1-Mv)·WMv+R′·Ri,其中WMf、WGf、WDf、WCv、WGv、WMv、Ri均为对应权重。
④强制校验各执行服务器CPU最高使用率Cvmax,内存的最高使用率Mvmax,显存最高使用率Gvmax,若其值超出设定阈值,则该执行服务器综合得分强制评为0。
⑤向得分最高的执行服务器分发任务。
4、执行服务器接收到任务,根据用户名称、业务名称、算法名称在文件服务器查找已训练完成的同用户同业务同算法下的历史模型;若有历史模型则下载该历史模型并校验其标注类型及顺序编号是否一致,若一致则基于该历史模型进行训练;若无历史模型或者标注类型及顺序编号不一致,则采用baseline模型进行训练。
若是同任务下的全量训练,则下载所有同任务历史相关数据并校验,具有相同标准的数据加入到当前指定的数据集中;若是同任务下的增量训练,则仅下载当前数据,并根据文件类型及其数据格式进行解析,转存至对应目录下。
考虑到现实中训练数据都有长尾分布现象,导致算法模型整体效果难以提升。为此,执行服务器会根据数据分布进行扩增,具体扩增策略为依句子长度对句子中的词/短语进行概率性同义替换、随机插入、随机删除和随机倒序等操作,使得数据分布更加平滑,同时完成训练集和测试集的划分。
训练任务时,执行服务器将训练进度及当期效果通过心跳方式同步到管理服务器,由管理服务器对外(web界面)提供查询接口。
训练过程每次迭代会进行一次模型效果评估,并将当前模型各标签的准确率、召回率、F1指标等指标详情以及总的效果和进度记录到内存中。
5、训练任务结束后,执行服务器将本次训练任务形成的训练文件进行打包上传至文件服务器,训练文件至少包含配置文件、词汇文件、标签文件、模型文件;与此同时,通知应用后台训练结束,并将结果异步通知给应用后台指定的url。
测试任务结束后,执行服务器统计各标签效果,将数据集中未正确预测的数据保存至对应目录下,打包上传到文件服务器,并通知应用后台测试结果。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

Claims (8)

1.一种深度学习模型的自动化训练与测试系统,其特征在于,包括用户端、管理服务器、若干执行服务器和文件服务器;
所述用户端包括用于提交任务的web界面和用于推送任务至管理服务器的应用后台;
所述管理服务器用于分发任务至资源充足的执行服务器,并将执行服务器反馈的任务进度经应用后台反馈至web界面;
所述执行服务器用于执行任务,同时采用固定频率心跳保存对应epoch算法效果及任务进度,并同步给管理服务器维护;
所述文件服务器用于存储训练/测试用数据集,训练后生成的训练结果文件,以及测试后生成的测试结果文件;
所述管理服务器周期性获取所有执行服务器的资源信息,以及正在进行的任务列表详情,资源信息至少包括CPU使用率、内存使用率、剩余内存、显存利用率、剩余显存、剩余磁盘空间,任务列表详情至少包括当前执行服务器所有正在处理任务的任务编号、任务进度、任务效果。
2.根据权利要求1所述的深度学习模型的自动化训练与测试系统,其特征在于,数据集由用户提交至文件服务器,任务由用户根据用户名称、业务名称、算法名称在web界面进行创建。
3.根据权利要求1所述的深度学习模型的自动化训练与测试系统,其特征在于,执行服务器接收到任务,根据用户名称、业务名称、算法名称在文件服务器查找已训练完成的同用户同业务同算法下的历史模型;
若有历史模型则下载该历史模型并校验其标注类型及顺序编号是否一致,若一致则基于该历史模型进行优化训练;若无历史模型或者标注类型及顺序编号不一致,则采用baseline模型进行训练。
4.根据权利要求3所述的深度学习模型的自动化训练与测试系统,其特征在于,执行服务器从文件服务器下载数据集到本地进行解析及格式转换;
若是同任务下的全量训练,则下载所有同任务历史相关数据并校验,具有相同标准的数据加入到当前指定的数据集中;
若是同任务下的增量训练,则仅下载当前数据,并根据文件类型及其数据格式进行解析,转存至对应目录下。
5.根据权利要求1所述的深度学习模型的自动化训练与测试系统,其特征在于,管理服务器接收到任务后,根据节点路由算法选举出执行服务器,节点路由算法具体操作为,归一化处理剩余内存、剩余显存、剩余磁盘空间及任务响应时间,按照既定权重,加权计算每个执行服务器的综合得分,向得分最高的执行服务器分发任务。
6.根据权利要求5所述的深度学习模型的自动化训练与测试系统,其特征在于,强制校验各执行服务器CPU最高使用率,内存的最高使用率,显存最高使用率,若其值超出设定阈值,则该执行服务器综合得分强制评为0。
7.根据权利要求1所述的深度学习模型的自动化训练与测试系统,其特征在于,训练任务结束后,执行服务器将本次训练任务形成的训练文件进行打包上传至文件服务器,训练文件至少包含配置文件、词汇文件、标签文件、模型文件;与此同时,通知应用后台训练结束,并将结果异步通知给应用后台指定的url。
8.根据权利要求1所述的深度学习模型的自动化训练与测试系统,其特征在于,测试任务结束后,执行服务器统计各标签效果,将数据集中未正确预测的数据保存至对应目录下,打包上传到文件服务器,并通知应用后台测试结果。
CN202011566027.9A 2020-12-25 2020-12-25 一种深度学习模型的自动化训练与测试系统 Pending CN112699994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011566027.9A CN112699994A (zh) 2020-12-25 2020-12-25 一种深度学习模型的自动化训练与测试系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011566027.9A CN112699994A (zh) 2020-12-25 2020-12-25 一种深度学习模型的自动化训练与测试系统

Publications (1)

Publication Number Publication Date
CN112699994A true CN112699994A (zh) 2021-04-23

Family

ID=75510759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011566027.9A Pending CN112699994A (zh) 2020-12-25 2020-12-25 一种深度学习模型的自动化训练与测试系统

Country Status (1)

Country Link
CN (1) CN112699994A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794411A (zh) * 2022-12-27 2023-03-14 阿里巴巴(中国)有限公司 模型的数据处理系统、方法和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847358A (zh) * 2016-03-24 2016-08-10 广东三盟信息科技有限公司 一种云计算环境下大数据节点分布的实现方法及其系统
CN106529673A (zh) * 2016-11-17 2017-03-22 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN108197633A (zh) * 2017-11-24 2018-06-22 百年金海科技有限公司 基于TensorFlow的深度学习图像分类与应用部署方法
CN108875289A (zh) * 2017-05-08 2018-11-23 腾讯科技(深圳)有限公司 一种算法调试方法、客户端、后台服务器及系统
CN109344853A (zh) * 2018-08-06 2019-02-15 杭州雄迈集成电路技术有限公司 一种可定制目标检测算法的智能化云平台系统及操作方法
CN110378463A (zh) * 2019-07-15 2019-10-25 北京智能工场科技有限公司 一种人工智能模型标准化训练平台及自动化系统
US20200175416A1 (en) * 2018-11-30 2020-06-04 Jpmorgan Chase Bank, N.A. Methods for sharing machine learning based web service models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847358A (zh) * 2016-03-24 2016-08-10 广东三盟信息科技有限公司 一种云计算环境下大数据节点分布的实现方法及其系统
CN106529673A (zh) * 2016-11-17 2017-03-22 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN108875289A (zh) * 2017-05-08 2018-11-23 腾讯科技(深圳)有限公司 一种算法调试方法、客户端、后台服务器及系统
CN108197633A (zh) * 2017-11-24 2018-06-22 百年金海科技有限公司 基于TensorFlow的深度学习图像分类与应用部署方法
CN109344853A (zh) * 2018-08-06 2019-02-15 杭州雄迈集成电路技术有限公司 一种可定制目标检测算法的智能化云平台系统及操作方法
US20200175416A1 (en) * 2018-11-30 2020-06-04 Jpmorgan Chase Bank, N.A. Methods for sharing machine learning based web service models
CN110378463A (zh) * 2019-07-15 2019-10-25 北京智能工场科技有限公司 一种人工智能模型标准化训练平台及自动化系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏冉;: "基于Spark的机器学习Web服务引擎设计", 指挥控制与仿真, no. 01, 15 February 2018 (2018-02-15) *
朱天放;梁明;王家乐;杨志浩;李亚敏;: "基于容器云的深度学习平台设计与实现", 电子设计工程, no. 09, 5 May 2019 (2019-05-05) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794411A (zh) * 2022-12-27 2023-03-14 阿里巴巴(中国)有限公司 模型的数据处理系统、方法和存储介质

Similar Documents

Publication Publication Date Title
Hardy et al. Distributed deep learning on edge-devices: feasibility via adaptive compression
CN113094200B (zh) 一种应用程序的故障预测方法和装置
US10984319B2 (en) Neural architecture search
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
Costa et al. Availability evaluation and sensitivity analysis of a mobile backend‐as‐a‐service platform
CN110895586B (zh) 生成新闻页面的方法、装置、计算机设备及存储介质
CN113010393A (zh) 基于混沌工程的故障演练方法及装置
CN115169810A (zh) 一种面向电网调控的人工智能系统构建方法及装置
JP2023534696A (ja) ネットワークトポロジーにおけるアノマリー検知
US11307781B2 (en) Managing replicas of content in storage systems
CN111340220A (zh) 用于训练预测模型的方法和装置
CN112988741A (zh) 实时业务数据合并方法、装置及电子设备
CN112699994A (zh) 一种深度学习模型的自动化训练与测试系统
CN111062521A (zh) 一种在线预测方法、系统及服务器
Herwanto et al. Measuring throughput and latency distributed ledger technology: Hyperledger
US20210357795A1 (en) Transferring large datasets by using data generalization
US20160342899A1 (en) Collaborative filtering in directed graph
CN113761193A (zh) 日志分类方法、装置、计算机设备和存储介质
CN106843822B (zh) 一种执行代码生成方法及设备
EP4227850A1 (en) Program, learning method, and information processing apparatus
CN113051479B (zh) 文件处理、推荐信息生成方法、装置、设备及存储介质
Mendonça et al. Onception: Active learning with expert advice for real world machine translation
CN112604295A (zh) 游戏更新失败的上报方法、装置及管理方法、服务器
KR102635363B1 (ko) 대화용 챗봇 기반 ai 코드 생성 시스템
WO2021037025A1 (zh) 一种预测产品排期时间的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination