CN112699994A

CN112699994A - 一种深度学习模型的自动化训练与测试系统

Info

Publication number: CN112699994A
Application number: CN202011566027.9A
Authority: CN
Inventors: 陈楷; 廖奇; 冯世杰; 蔡劲松
Original assignee: Kexun Jialian Information Technology Co ltd
Current assignee: Kexun Jialian Information Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-23

Abstract

本发明公开了一种深度学习模型的自动化训练与测试系统，包括用户端、管理服务器、若干执行服务器和文件服务器；所述用户端包括web界面和应用后台；所述管理服务器用于分发任务至资源充足的执行服务器，并将执行服务器反馈的任务进度经应用后台反馈至web界面；所述执行服务器用于执行任务，同时采用固定频率心跳保存对应epoch算法效果及任务进度，并同步给管理服务器维护；所述文件服务器用于存储训练/测试用数据集，训练后生成的训练结果文件，以及测试后生成的测试结果文件；所述管理服务器周期性获取所有执行服务器的资源信息，以及正在进行的任务列表详情。本发明极大降低了人工智能算法模型的使用门槛，有效缩短项目开发周期。

Description

一种深度学习模型的自动化训练与测试系统

技术领域

本发明涉及深度学习技术领域，具体是一种深度学习模型的自动化训练与测试系统。

背景技术

人工智能已成为国家新一代重大基础设施建设的一部分，是占领科技高地、保证国家安全的关键。目前，以深度学习为主的人工智能算法模型的训练、调优和测试大都依赖算法工程师手动操作，使用门槛较高，也无法充分利用众多云服务器的计算资源。针对不同的任务和算法模型都需要修改源码，数据集也需要人工进行数据清洗和格式转换，开发效率低。实际应用中，不同的算法工程师可能使用不同框架/版本的开源项目源码，不同任务、不同框架的实现之间缺乏灵活性，算法代码通常比较分散臃肿，未与用户需求进行紧密结合，极大限制了当前用户对人工智能算法爆炸式的增长需求，阻碍了算法项目的快速实现和迭代，不利于企业AI平台化建设。

发明内容

针对现有深度学习模型训练与测试存在的技术缺陷，本发明提供一种可视化、轻量级、可扩展的自动化训练与测试系统。

一种深度学习模型的自动化训练与测试系统，包括用户端、管理服务器、若干执行服务器和文件服务器；

所述用户端包括用于提交任务的web界面和用于推送任务至管理服务器的应用后台；

所述管理服务器用于分发任务至资源充足的执行服务器，并将执行服务器反馈的任务进度经应用后台反馈至web界面；

所述执行服务器用于执行任务，同时采用固定频率心跳保存对应epoch算法效果及任务进度，并同步给管理服务器维护；

所述文件服务器用于存储训练/训练用数据集，训练后生成的训练文件，以及测试后生成的测试文件；

所述管理服务器周期性获取所有执行服务器的资源信息，以及正在进行的任务列表详情，资源信息至少包括CPU使用率、内存使用率、剩余内存、显存利用率、剩余显存、剩余磁盘空间，任务列表详情至少包括当前执行服务器所有正在处理任务的任务编号、任务进度、任务效果。

进一步的，数据集由用户提交至文件服务器，任务由用户根据用户名称、业务名称、算法名称在web界面创建。

进一步的，执行服务器接收到任务，根据用户名称、业务名称、算法名称在文件服务器查找已训练完成的同用户同业务同算法下的历史模型；

若有历史模型则下载该历史模型并校验其标注类型及顺序编号是否一致，若一致则基于该历史模型进行训练；若无历史模型或者标注类型及顺序编号不一致，则采用baseline模型进行训练。

进一步的，执行服务器从文件服务器下载数据集到本地进行解析及格式转换；

若是同任务下的全量训练，则下载所有同任务历史相关数据并校验，具有相同标准的数据加入到当前指定的数据集中；

若是同任务下的增量训练，则仅下载当前数据，并根据文件类型及其数据格式进行解析，转存至对应目录下。

进一步的，管理服务器接收到任务后，根据节点路由算法选举出执行服务器，节点路由算法具体操作为，归一化处理剩余内存、剩余显存、剩余磁盘空间及任务响应时间，按照既定权重，加权计算每个执行服务器的综合得分，向得分最高的执行服务器分发任务；强制校验各执行服务器CPU最高使用率，内存的最高使用率，显存最高使用率，若其值超出设定阈值，则该执行服务器综合得分强制评为0。

进一步的，训练任务结束后，执行服务器将本次训练任务形成的训练文件进行打包上传至文件服务器，训练文件至少包含配置文件、词汇文件、标签文件、模型文件；与此同时，通知应用后台训练结束，并将结果异步通知给应用后台指定的url。

进一步的，测试任务结束后，执行服务器统计各标签效果，将数据集中未正确预测的数据保存至对应目录下，打包上传到文件服务器，并通知应用后台测试结果。

本发明充分利用带有系统内众多服务器进行算法任务的集群式处理，提供web界面供用户创建新任务和上传数据集，能够快速根据用户需求进行扩展，实现模型训练及测试的自动化和可视化，极大降低了人工智能算法模型的使用门槛，有效缩短项目开发周期。

附图说明

图1为系统组成示意图；

图2为系统内部数据流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

一种深度学习模型的自动化训练与测试系统，如图1所示，包括用户端、管理服务器、若干执行服务器和文件服务器。

所述用户端包括用于提交任务的web界面和用于推送任务至管理服务器的应用后台。

所述管理服务器用于分发任务至资源充足的执行服务器，并将执行服务器反馈的任务进度经应用后台反馈至web界面。

所述执行服务器用于执行任务，同时采用固定频率心跳保存对应epoch算法效果及任务进度，并同步给管理服务器维护。

所述文件服务器用于存储训练/训练用数据集，训练后生成的训练文件，以及测试后生成的测试文件。

下面结合图2对系统内部数据流程进行阐述。

1、用户通过用户端的web界面创建任务(包括训练任务和测试任务)，每个任务有其对应的用户名称、业务名称、算法名称，还可以其他限定，例如用于自然语言处理的深度学习模型可以设置NLP(自然语言处理)能力种类的限定；创建任务的同时，用户还需向文件服务器提交数据集。

2、用户端的应用后台将用户创建的任务推送至管理服务器。

3、管理服务器接收到任务后，根据节点路由算法选举出执行服务器，节点路由算法具体包括以下步骤：

①线性归一化处理剩余内存Mf、剩余显存Gf、剩余磁盘空间Df，得到归一化后的剩余内存Mf′＝Mf/Mf_max、剩余显存Gf′＝Gf/Gf_max、剩余磁盘空间Df′＝Df/Df_max。

②非线性归一化处理任务响应时间R，得到归一化后的任务响应时间

其中k_scale为量化的时间间隔尺度，R_max为预定义的最大响应时间，常数K为

③按照既定权重，加权计算每个执行服务器的综合得分

Weight_i＝Mf_i′·W_Mf+Gf_i′·W_Gf+Df_i′·W_Df+(1-Cv)·W_Cv+(1-Gv)·W_Gv+(1-Mv)·W_Mv+R′·R_i，其中W_Mf、W_Gf、W_Df、W_Cv、W_Gv、W_Mv、R_i均为对应权重。

④强制校验各执行服务器CPU最高使用率Cv_max，内存的最高使用率Mv_max，显存最高使用率Gv_max，若其值超出设定阈值，则该执行服务器综合得分强制评为0。

⑤向得分最高的执行服务器分发任务。

4、执行服务器接收到任务，根据用户名称、业务名称、算法名称在文件服务器查找已训练完成的同用户同业务同算法下的历史模型；若有历史模型则下载该历史模型并校验其标注类型及顺序编号是否一致，若一致则基于该历史模型进行训练；若无历史模型或者标注类型及顺序编号不一致，则采用baseline模型进行训练。

若是同任务下的全量训练，则下载所有同任务历史相关数据并校验，具有相同标准的数据加入到当前指定的数据集中；若是同任务下的增量训练，则仅下载当前数据，并根据文件类型及其数据格式进行解析，转存至对应目录下。

考虑到现实中训练数据都有长尾分布现象，导致算法模型整体效果难以提升。为此，执行服务器会根据数据分布进行扩增，具体扩增策略为依句子长度对句子中的词/短语进行概率性同义替换、随机插入、随机删除和随机倒序等操作，使得数据分布更加平滑，同时完成训练集和测试集的划分。

训练任务时，执行服务器将训练进度及当期效果通过心跳方式同步到管理服务器，由管理服务器对外(web界面)提供查询接口。

训练过程每次迭代会进行一次模型效果评估，并将当前模型各标签的准确率、召回率、F1指标等指标详情以及总的效果和进度记录到内存中。

5、训练任务结束后，执行服务器将本次训练任务形成的训练文件进行打包上传至文件服务器，训练文件至少包含配置文件、词汇文件、标签文件、模型文件；与此同时，通知应用后台训练结束，并将结果异步通知给应用后台指定的url。

测试任务结束后，执行服务器统计各标签效果，将数据集中未正确预测的数据保存至对应目录下，打包上传到文件服务器，并通知应用后台测试结果。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种深度学习模型的自动化训练与测试系统，其特征在于，包括用户端、管理服务器、若干执行服务器和文件服务器；

所述文件服务器用于存储训练/测试用数据集，训练后生成的训练结果文件，以及测试后生成的测试结果文件；

2.根据权利要求1所述的深度学习模型的自动化训练与测试系统，其特征在于，数据集由用户提交至文件服务器，任务由用户根据用户名称、业务名称、算法名称在web界面进行创建。

3.根据权利要求1所述的深度学习模型的自动化训练与测试系统，其特征在于，执行服务器接收到任务，根据用户名称、业务名称、算法名称在文件服务器查找已训练完成的同用户同业务同算法下的历史模型；

若有历史模型则下载该历史模型并校验其标注类型及顺序编号是否一致，若一致则基于该历史模型进行优化训练；若无历史模型或者标注类型及顺序编号不一致，则采用baseline模型进行训练。

4.根据权利要求3所述的深度学习模型的自动化训练与测试系统，其特征在于，执行服务器从文件服务器下载数据集到本地进行解析及格式转换；

5.根据权利要求1所述的深度学习模型的自动化训练与测试系统，其特征在于，管理服务器接收到任务后，根据节点路由算法选举出执行服务器，节点路由算法具体操作为，归一化处理剩余内存、剩余显存、剩余磁盘空间及任务响应时间，按照既定权重，加权计算每个执行服务器的综合得分，向得分最高的执行服务器分发任务。

6.根据权利要求5所述的深度学习模型的自动化训练与测试系统，其特征在于，强制校验各执行服务器CPU最高使用率，内存的最高使用率，显存最高使用率，若其值超出设定阈值，则该执行服务器综合得分强制评为0。

7.根据权利要求1所述的深度学习模型的自动化训练与测试系统，其特征在于，训练任务结束后，执行服务器将本次训练任务形成的训练文件进行打包上传至文件服务器，训练文件至少包含配置文件、词汇文件、标签文件、模型文件；与此同时，通知应用后台训练结束，并将结果异步通知给应用后台指定的url。

8.根据权利要求1所述的深度学习模型的自动化训练与测试系统，其特征在于，测试任务结束后，执行服务器统计各标签效果，将数据集中未正确预测的数据保存至对应目录下，打包上传到文件服务器，并通知应用后台测试结果。