CN113780568A

CN113780568A - 自动模型训练框架、设备、存储介质

Info

Publication number: CN113780568A
Application number: CN202010519753.9A
Authority: CN
Inventors: 顾夏辉; 安涛
Original assignee: Zichang Technology Beijing Co ltd
Current assignee: Zichang Technology Beijing Co ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-12-10
Anticipated expiration: 2040-06-09
Also published as: CN113780568B

Abstract

一种自动模型训练框架、设备、存储介质，其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块；将模型训练的整个过程整体串联，从而实现了模型训练过程的自动化管理，提高了模型训练过程的效率；且对模型训练的质量进行了有效监控，提高模型训练质量，保证部署产品集群的新模型优于旧模型。

Description

自动模型训练框架、设备、存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种自动训练模型框架、设备、存储介质。

背景技术

如图1所示，为现有的模型训练框架，其进行模型训练任务的具体步骤如下：

1、应用科学家编写模型代码；

2、开发人员收集模型训练数据；

3、数据工程师整理模型训练数据，从而获得准确的模型训练数据；

4、数据工程师需要对数据进行人工标注操作，从而获得训练数据的标注结果；

5、模型训练数据标注结束后，相关负责人需要抽查数据标注结果，以保证标注结果准确性；

6、与此同时，科学家用模型训练框架对问题建模，以将问题数字化；

7、科学家拿到标注好的模型训练数据后，需要准备用于模型训练的机器集群，机器集群是一组高运算能力的主机，科学家将标注好的模型训练数据和模型训练代码输入机器集群进行训练；模型训练过程是随机选择模型训练数据中的数据，通过运行模型后获得结果，将获得的结果与该数据的标注结果进行比较，获得偏差，再进行反向传播调整模型参数，重复上述过程，从而逐步获得最小的偏差；

8、科学家监控模型训练过程，并对训练结果进行评估；模型训练的过程中会产生偏差并根据偏差自动调整参数，训练的过程是非常缓慢的，需要进行数以万计的迭代过程，只有执行大量的训练迭代才能获得较小的训练偏差；而在这个漫长的过程中，科学家需要监控训练过程是否顺利执行，并且查看训练偏差是否收敛；当训练结束后，需要通过对训练结果的评估才可以了解训练是否成功，训练结果评估是指使用单独的验证集的数据(验证集的数据用来验证模型在实际使用中的效果，不用于模型的训练过程)对训练结果进行比对，之所以需要单独的验证集的数据是为了保证模型的训练结果对于训练集(用于模型训练的数据集)以外的数据依然可信；

9、科学家将训练好的模型部署至产品集群中，而且部署过程不能影响产品集群的正常运行。

10、科学家根据产品集群中收集的数据对模型进行改进，重复步骤1-9。

现有的模型训练框架存在以下显著的问题：

1、所有步骤均需要人工协调干预完成；

2、通过抽查的方法对数据标注结果进行检查，一则效率低，二来无法保证数据标注准确性；

3、用于模型训练的机器集群无法被重复利用和/或用于模型训练的机器集群的计算能力超过了模型训练的实际需求，从而造成资源浪费；

4、改进前后的模型在产品集群上的运行效果没有自动的比较手段，判断效率低。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种自动模型训练框架、设备和存储介质，实现了模型训练过程的自动化管理，提高和保证了模型训练质量。

为实现上述目的，本发明采用了如下技术方案：

一种自动模型训练框架，其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块；

所述自动模型训练框架执行以下操作步骤：

步骤1a，所述模型定义模块获取待训练模型的模型训练数据和模型训练代码，并传输给模型训练流水线控制模块；

步骤2，所述模型训练流水线控制模块将模型训练数据生成数据标注任务并传输给数据标注任务管理模块，数据标注任务管理模块将模型训练数据正规化为可标注数据，并将数据标注任务拆分为多个可标注任务并分发给多位标注人员，标注人员完成可标注任务并向数据标注任务管理模块返回已标注数据；

步骤3，所述模型训练流水线控制模块将模型训练代码以及已标注数据传输给服务训练集群控制模块，服务训练集群控制模块试运行模型训练代码并得出待训练模型进行模型训练所需的硬件配置参数，依据硬件配置参数为待训练模型分配模型训练服务器；

步骤4，所述模型集群训练模块下载模型训练环境、模型训练代码和已标注数据至模型训练服务器；

步骤5，所述模型训练流水线控制模块启动模型训练服务器内的模型训练过程；所述模型集群训练模块监控模型训练过程，实时将模型训练过程的进度和偏差传输给模型训练流水线控制模块，模型集群训练模块实时依据F1 score指标和Accuracy指标对模型训练过程进行评估，若F1 score＞n₁，0.95≤n₁≤1，Accuracy＞n₂，0.95≤n₂≤1，则结束模型训练过程，模型集群训练模块将已训练模型文件和最终偏差传输给模型训练流水线控制模块；

步骤6，所述模型训练流水线控制模块将已训练模型文件和最终偏差传输给模型定义模块，模型部署模块依据已训练模型文件和最终偏差，更新模型定义模块内存储的模型数据信息并将已训练模型文件部署至与产品集群配置相同的影子集群中；

步骤7，所述模型监控模块实时监控影子集群上的已训练模型文件和产品集群上的当前模型文件的运行过程，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的部分产品中，已训练模型文件和当前模型文件同步在产品集群中运行；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤7；

步骤8，所述模型监控模块实时监控已训练模型文件和当前模型文件在产品集群中的运行过程，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的全部产品中；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤8。

进一步的，所述自动模型训练框架还包括模型训练触发器；在步骤1a和步骤2之间，所述自动模型训练框架还执行以下操作步骤：步骤1b，模型训练流水线控制模块接收模型训练触发器输出的触发信号后，启动模型训练任务。

进一步的，所述模型训练触发器能通过以下两种方式向模型训练流水线控制模块输出触发信号：

方式一，主动定时触发方式，模型训练触发器可以设定触发时间，到达触发时间后，自动向模型训练流水线控制模块输出触发信号；

方式二，被动提交触发方式，用户向模型训练触发器提交触发申请，然后模型训练触发器向模型训练流水线控制模块输出触发信号。

进一步的，在步骤1a中，用户通过模型定义模块的第一用户接口上传模型训练数据和模型训练代码；所述模型定义模块还存储有静态数据，包括模型名称、模型训练代码存储位置、模型训练数据存储位置。

进一步的，在步骤2中，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果。

进一步的，所述自动模型训练框架还包括数据标签前台，数据标注任务管理模块通过数据标签前台向标注人员分发可标注任务，标注人员在数据标签前台完成数据标注并将已标注数据返回给数据标注任务管理模块。

进一步的，在步骤3中，所述硬件配置参数包括CPU、GPU、内存、硬盘、操作系统、代码语言和模型框架参数，模型训练服务器是云服务器或者由多台本地主机组成。

进一步的，在步骤5中，所述模型集群训练模块在模型训练过程中，依据F1 score和Accuracy指标对训练中的模型进行评估，当F1 score＞0.99且Accuracy＞0.99时，结束模型训练过程；

其中，

precision代表准确率，recall代表召回率；

F1 score是模型的准确率和召回率的调和平均数；

P代表预测的正类，N代表预测的负类；

T代表真正的正类，F代表真正的负类。

进一步的，在步骤7中，所述影子集群运行已训练模型文件、产品集群运行当前模型文件，同步处理用户端请求，分别获得两组预测结果，比较两组预测结果获得改进结果数据；在步骤8中，所述已训练模型文件在产品集群的部分产品中运行、当前模型文件在产品集群的其余产品中运行，同步处理用户端请求，分别获得两组预测结果，比较两组预测结果获得改进结果数据。

进一步的，所述模型数据信息包括模型版本、模型存储位置和准确性。

进一步的，在步骤4中，与待训练模型文件对应的模型训练环境会保留在模型训练服务器上。

进一步的，RN(1…n)为已训练模型文件的n次预测结果，RO(1…n)是当前模型文件的n次预测结果，通过比较SUM[RN(1…n)]和SUM[RO(1…n)]，判断已训练模型文件是否符合结果预期；或者，计算(RN1)²-(RO1)²、(RN2)²-(RO2)²…(RNn-1)²-(ROn-1)²、(RNn)²-(ROn)²，平方差描点得到曲线，若曲线平滑且无较大变化，则代表已训练模型文件符合结果预期。

本发明还提供一种自动模型训练设备，包括一个或多个处理器以及一个或多个存储计算机程序的存储器，所述一个或多个处理器，用于执行所述计算机程序，以执行以下步骤：

步骤1a，获取待训练模型的模型训练数据和模型训练代码；

步骤2，将模型训练数据正规化为可标注数据，将可标注数据分发给多位标注人员，获取标注人员返回的已标注数据；

步骤3，试运行模型训练代码并得出待训练模型进行模型训练所需的硬件配置参数，依据硬件配置参数为待训练模型分配模型训练服务器；

步骤4，下载模型训练环境、模型训练代码和已标注数据至模型训练服务器；

步骤5，启动模型训练服务器内的模型训练过程且监控模型训练过程，实时依据F1score指标和Accuracy指标对模型训练过程进行评估，若F1score＞n₁，0.95≤n₁≤1，Accuracy＞n₂，0.95≤n₂≤1，则结束模型训练过程，得到训练模型文件；

步骤6，将已训练模型文件部署至与产品集群配置相同的影子集群中，以使影子集群的已训练模型文件和产品集群上的当前模型文件同步处理相同的客户端请求；

步骤7，获取影子集群上的已训练模型文件和产品集群上的当前模型文件同步处理相同的客户端请求的两组预测结果，比较两组预测结果获得改进结果数据，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的部分产品中，已训练模型文件和当前模型文件同步在产品集群中运行；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤7；

步骤8，获取已训练模型文件和当前模型文件在产品集群中的两组预测结果，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的全部产品中；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤8。

进一步的，在步骤2中，获取模型训练数据适配脚本，执行模型训练数据适配脚本将模型训练数据正规化为可标注数据；在步骤2中，将可标注数据重复性的拆分为多个可标注任务并分发给多位标注人员，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果,得到已标注数据。

进一步的，在步骤7和步骤8中，RN(1…n)为已训练模型文件的n次预测结果，RO(1…n)是当前模型文件的n次预测结果，通过比较SUM[RN(1…n)]和SUM[RO(1…n)]，判断已训练模型文件是否符合结果预期；或者，计算(RN1)²-(RO1)²、(RN2)²-(RO2)²…(RNn-1)²-(ROn-1)²、(RNn)²-(ROn)²，平方差描点得到曲线，若曲线平滑且无较大变化，则代表已训练模型文件符合结果预期。

本发明还提供一种存储有计算机程序的存储介质，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行本发明的所述自动模型训练框架中的步骤。

本发明自动模型训练框架，其模型训练流水线控制模块将模型训练的整个过程整体串联，从而实现了模型训练过程的自动化管理，提高了模型训练过程的效率；在步骤5、7、8中均对模型训练的质量进行了有效监控，提高模型训练质量，保证部署产品集群的新模型优于旧模型。

本发明的自动模型训练设备和存储有计算机程序的存储介质，被一个或多个处理器执行时，从而实现了模型训练过程的自动化管理，对模型训练的质量进行了有效监控，提高模型训练质量，保证部署产品集群的新模型优于旧模型。

附图说明

图1是本发明现有的模型训练框架的示意图；

图2是本发明自动模型训练框架的功能模块示意图；

图3是本发明自动模型训练框架的示意图；

图4是本发明自动模型训练框架的模型训练过程的流程图。

具体实施方式

以下结合附图2-4给出的实施例，进一步说明本发明的自动模型训练框架的具体实施方式。本发明的自动模型训练框架不限于以下实施例的描述。

本发明的自动模型训练框架，其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块；所述自动模型训练框架执行以下操作步骤：

步骤2，所述模型训练流水线控制模块将模型训练数据生成数据标注任务并传输给数据标注任务管理模块，数据标注任务管理模块将模型训练数据正规化为可标注数据，并将数据标注任务拆分为多个可标注任务并分发给多为标注人员，标注人员完成可标注任务并向数据标注任务管理模块返回已标注数据；

步骤3，所述模型训练流水线控制模块将模型训练代码以及已标注数据(已标注的模型训练数据)传输给服务训练集群控制模块，服务训练集群控制模块试运行模型训练代码并得出待训练模型进行模型训练所需的硬件配置参数，依据硬件配置参数为待训练模型分配模型训练服务器；

步骤6，所述模型训练流水线控制模块将已训练模型文件和最终偏差传输给模型部署模块，模型部署模块依据已训练模型文件和最终偏差，更新模型定义模块内存储的模型数据信息并将已训练模型文件部署至与产品集群配置相同的影子集群中；

步骤7，所述模型监控模块实时监控影子集群上的已训练模型文件和产品集群上的当前模型文件，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的部分产品中，已训练模型文件和当前模型文件同步在产品集群中运行；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤7；

步骤8，所述模型监控模块实时监控已训练模型文件和当前模型文件，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的全部产品中；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤8。

优选的，在步骤2中，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果。上述方法，保证了已标注数据的准确性，从而保证了训练数据的高度可信，有利于提高模型训练的质量。

优选的，在步骤4中，与待训练模型文件对应的模型训练环境会保留在模型训练服务器上。进一步的，所述模型训练环境包括执行的目录、执行的python版本、模型框架(Pytorch，Tensorflow，MXNet等)、模型训练文件目录。当同一模型被再次训练时，则可优先选择部署有模型训练环境的模型训练服务器，从而节省了时间和网络资源。

如图2-4所示，为本发明自动模型训练框架的一种实施方式。

如图2所示，本发明自动模型训练框架包括模型定义模块、模型训练触发器、模型训练流水线控制模块、数据标注任务管理模块、数据标签前台、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块。

如图3和4所示，所述自动模型训练框架执行以下操作步骤：

步骤1a，所述模型定义模块获取待训练模型的模型训练数据和模型训练代码，并传输给模型训练流水线控制模块。

优选的，在步骤1a中，用户通过模型定义模块的第一用户接口上传待训练模型的模型训练数据和模型训练代码；所述模型定义模块还存储有静态数据，包括模型代码、模型训练代码存储位置、模型训练数据存储位置。进一步的，所述模型训练数据来源于产品集群的历史记录或系统日志。

步骤1b，所述模型训练流水线控制模块接收模型训练触发器输出的触发信号后，启动模型训练任务。

优选的，所述模型训练触发器通过以下两种方式向模型训练流水线控制模块输出触发信号：方式一，主动定时触发方式，模型训练触发器可以设定触发时间，到达触发时间后，自动向模型训练流水线控制模块输出触发信号；方式二，被动提交触发方式，用户向模型训练触发器提交触发申请，然后模型训练触发器向模型训练流水线控制模块输出触发信号。

步骤2，所述模型训练流水线控制模块将模型训练数据生成数据标注任务并传输给数据标注任务管理模块，数据标注任务管理模块将模型训练数据正规化可标注数据，并将数据标注任务拆分为多个可标注任务，并分发给多位标注人员，标注人员完成可标注任务并向数据标注任务管理模块返回已标注数据。

优选的，如图2-4所示，本发明自动模型训练框架还包括数据标签前台，数据标注任务管理模块通过数据标签前台向标注人员分发可标注任务，标注人员在数据标签前台完成数据标注并将已标注数据返回给数据标注任务管理模块。

优选的，在步骤2中，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果。

需要指出的，所述权重投票方式指的是：每位标注人员均有其相应的标注等级并基于标注等级获得相应的投票权重，若同一条待标注数据出现多种不同的标注结果时，每一种标注结果均与至少一位标注人员对应，计算每一种标注结果所对应的标注人员的投票权重之和，则对应最大投标权重之和的标注结果最为该条待标注数据的标准结果。进一步的，当某一位标注人员的标注准确率在N₃次标注任务中，标注准确率均高于a，95％≤a≤100％，则升高该标注人员的标注等级N₄级，N₄为大于1的整数，并相应提高其投票权重，当该标注人员的标注等级达到N₅级时，20≤N₅≤25，则该标注人员晋升为专家标注人员，当该专家标注人员参加的可标注任务中某条待标注数据出现多种标注结果时，以该专家标注人员的标注结果作为标准结果。进一步的，每位标注人员依据其本身行业和技术领域从数据标签前台选取相应的可标注任务，以保证标注结果的准确率和标注效率。

需要指出的，所述“数据标注任务管理模块将模型训练数据正规化可标注数据”指的是，数据标注任务管理模块上加载有模型训练数据适配脚本，模型训练数据适配脚本将模型训练数据的格式转化为数据标注任务管理模块可运行格式。数据标注任务管理模块获取模型训练数据适配脚本，执行模型训练数据适配脚本将模型训练数据正规化为可标注数据，例如，所述模型训练数据适配脚本可以为Python语言编写，根据文件类型将模型训练数据的数据格式转换为数据标注任务管理模块可运行格式，数据标注任务管理模块可运行格式为Json格式，具体如下：

其中，

serviceVersion：为当前标注服务器的版本，用来兼容各个版本的标注数据；

requestId：为当前训练请求的Id，用来进行跟踪和查错；

annotationProjectList：里面是提交的标注项目列表；

annotationId用来识别每个标注项目；

annotationType用来指定当前标注项目的类型，比如是文本分类、文档中的实体标注、文本的情感分析等；

entities里面是要进行分类的实体，如果为实体标注等其他标注类型则改属性表示了可标注的内容；

description是标注的描述信息；

addDate为标注的时间；

annotationContents中为需要标注的具体内容。一个标注项目可以放多个标注内容。

步骤3，所述模型训练流水线控制模块将模型训练代码以及模型训练数据传输给服务训练集群控制模块，服务训练集群控制模块试运行模型训练代码并得出待训练模型进行模型训练所需的硬件配置参数，依据硬件配置参数为待训练模型分配模型训练服务器。

优选的，所述硬件配置参数包括CPU、GPU、内存、硬盘、操作系统、代码语言和模型框架参数；所述模型训练服务器是云服务器或由多台本地主机组成。具体的，所述代码语言参数包括Java、Python；所述模型框架参数包括Pytorch、TensorFlow、MXNet。

优选的，所述模型训练服务器有多台本地主机组成；在模型训练过程中，服务训练集群控制模块可随时增加或减少模型训练服务器中的主机数量。

步骤4，所述模型集群训练模块下载模型训练环境、模型训练代码和已标注数据至模型训练服务器。

优选的，在步骤4中，获取模型训练服务器的IP地址，以及用户名和密码；连接登录模型训练服务器，下载部署模型训练环境、模型训练代码和已标注数据。优选，与待训练模型文件对应的模型训练环境会保留在模型训练服务器上，便于再次使用。

步骤5，所述模型训练流水线控制模块启动模型训练服务器内的模型训练过程；所述模型集群训练模块监控模型训练过程，实时将模型训练过程的进度和偏差传输给模型训练流水线控制模块，模型集群训练模块实时依据F1 score指标和Accuracy指标对模型训练过程进行评估，若F1 score＞n₁，0.95≤n₁≤1，Accuracy＞n₂，0.95≤n₂≤1，则结束模型训练过程，模型集群训练模块将已训练模型文件和最终偏差传输给模型训练流水线控制模块。所述模型集群训练模块实时将模型训练过程的进度和偏差传输给模型训练流水线控制模块，模型训练流水线控制模块将进度和偏差保存便于用户随时查询，便于用户在长时间的模型训练过程中动态掌握模型训练的进度和当前效果。

以下为实时的偏差的一个计算示例：假设模型的训练迭代总次数是20，每次迭代的训练数据数量是10000，那么总体的训练步骤就是20x10000＝200000，如果当前运行到了第7次迭代中的第5000个训练数据，那么进度就是(6x10000+5000)/200000。

在模型训练过程中，实时的偏差则可以使用损失函数(例如但不限于：LogLoss对数损失函数、平方损失函数、指数损失函数、Hinge损失函数、0-1损失函数、绝对值损失函数)来计算，属于本领域的常规技术手段，在此不再赘述。

需要指出的，所述“最终偏差”指的是模型对于训练数据的标注结果与步骤2中得到的已标注数据的偏差结果，也就是模型跑了整个训练数据迭代后得到的偏差结果。

优选的，在步骤5中，所述模型集群训练模块在模型训练过程中，依据F1 score和Accuracy指标对训练中的模型进行评估，当F1 score＞0.99且Accuracy＞0.99时，结束模型训练过程；

其中，

precision代表准确率，recall代表召回率；

F1 score是模型的准确率和召回率的调和平均数；

P代表预测的正类，N代表预测的负类；

T代表真正的正类，F代表真正的负类。

需要指出的是，所述模型训练过程是通过下载至模型训练服务器的已标注数据和模型训练代码执行训练的迭代过程。进一步的，在迭代过程中，模型中神经网络的每个神经元的参数会自动进行调整，调整的方式为反向传播算法。进一步的，已训练模型文件不再是模型代码文件，模型代码可以理解为模型运行的流程，而已训练模型文件则是神经网络的数据库文件，已训练模型文件中各个神经元的参数更适合应用，从而获得更准确的预测结果。

步骤6，所述模型训练流水线控制模块将已训练模型文件和最终偏差传输给模型部署模块，模型部署模块依据已训练模型文件和最终偏差，更新模型定义模块内存储的模型数据信息并将已训练模型文件部署至与产品集群配置相同的影子集群中。使得所述影子集群的已训练模型文件和产品集群上的当前模型文件同步处理相同的客户端请求，但影子集群不会将处理结果返回客户端，而是反馈给模型监控模块。

优选的，所述模型数据信息包括模型版本、模型存储位置和准确性即最终偏差。

步骤7，所述模型监控模块实时监控影子集群上的已训练模型文件和产品集群上的当前模型文件的运行过程，获取影子集群上的已训练模型文件和产品集群上的当前模型文件处理同步处理相同的客户端请求的两组预测结果，比较两组预测结果获得改进结果数据，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的部分产品中，已训练模型文件和当前模型文件同步在产品集群中运行；若改进结果数据不符合结果预期，则依据改进结果数据修改已训练模型文件的代码，并重复步骤4-步骤7。

优选的，所述模型定义模块在数据流量最小的时段，将已训练模型文件部署至影子集群。进一步的，所述模型定义模块检测网路上的数据流量，当检测到数据流量最小时(也就是达到一天中数据流量的最低范围)，将已训练模型文件部署至影子集群。所述影子集群和产品集群是云服务器或由多台本地主机组成，根据客户的应用需求部署，可随时增加或减少模型训练服务器中的主机数量。

优选的，在步骤7中，所述影子集群运行已训练模型文件、产品集群运行当前模型文件，同步处理用户端请求，分别获得两组预测结果，比较两组预测结果获得改进结果数据。所述影子集群和产品集群分别将其处理用户端请求的预测结果存储到对应的日志文件，模型监控模块定期获取日志文件并比较两组预测结果获得改进结果数据。所述影子集群运行已训练模型文件时，会同步处理与当前模型文件处理的相同的客户端请求，但是因影子集群的已训练模型不会将处理结果返回客户端，从而在不影响产品集群正常运行的情况下，实现了影子集群中的已训练模型文件和产品集群中的当前模型文件的质量的对比。

优选的，在步骤8中，所述已训练模型文件在产品集群的部分产品中运行、当前模型文件在产品集群的其余产品中运行，同步处理用户端请求，分别获得两组预测结果，比较两组预测结果获得改进结果数据。

优选的，所述模型定义模块在数据流量最小的时段，将已训练模型文件部署至产品集群上。

具体的，在步骤8中，已训练模型文件和当前模型文件会在一段时间内同时处理大量的用户请求，二者会根据这些请求分别生成预测结果，并分别判断这些结果的准确性，然后对单次请求的预测结果求和或者求平方法，以判断总体的偏差是否向好的方向变化。例如RN(1…n)为已训练模型文件的n次预测结果，RO(1…n)是当前模型文件的n次预测结果，通过比较SUM[RN(1…n)]和SUM[RO(1…n)]，从而判断总体是否更加贴近真实结果，是否符合结果预期；或者，计算(RN1)²-(RO1)²、(RN2)²-(RO2)²…(RNn-1)²-(ROn-1)²、(RNn)²-(ROn)²，通过对于前述n个平方差描点得到曲线，若曲线平滑且无较大变化，则代表符合结果预期，已训练模型稳定，否则不稳定，可以基于曲线的斜率进行衡量，只要曲线斜率在预设范围内则认为训练模型稳定，否则为不稳定。

以下为本发明自动模型训练框架对推荐回复模型进行训练的一个具体实施例。

本发明自动模型训练框架包括模型定义模块、模型训练触发器、模型训练流水线控制模块、数据标注任务管理模块、数据标签前台、服务训练集群控制模块、模型集群训练模块、模型部署模块和模型监控模块，自动模型训练框架对推荐回复模型进行训练时，执行以下操作步骤：

步骤1a，用户从产品集群中获取历史记录或者系统日志中找到用户对话数据(即模型训练数据)并输入模型定义模块；用户将推荐回复模型的代码(待训练模型的模型训练代码)输入模型定义模块。

例如，用户从系统日志中获取以下十条用户请求：

1灯箱坏了怎么办？

2灯箱货号

3你好

4灯箱货号

5你好

6灯箱货号

7你好:

8你好

9昨天的订单怎么样

10我的维修申请

例如，用户设定请求的分类集以及与分类集对应的推荐回复作为推荐回复模型的分类；设定分类集为：货物查询请求、欢迎词、查询请求，用户能够根据不同分类集设定推荐回复模型的分类。进一步的，所述推荐回复模型会获取用户的请求内容、用户ID等参数作为输入，通过深度学习的神经网络输出分类结果。

步骤2，用户使用模型训练触发器启动模型训练任务，可以用户主动手动启动，也可以被动定期启动，通过模型训练触发器设置相应的启动时间和周期。所述模型训练流水线控制模块将模型训练数据生成数据标注任务并传输给数据标注任务管理模块；所述数据标注任务管理模块首先将用户对话数据正规化为数据标注任务管理模块可运行格式的可标注数据，然后将数据标注任务拆分为多个可标注任务并通过数据标签前台分发给多位标注人员，标注人员在数据标签前台完成可标注任务并向数据标注任务管理模块返回已标注数据。

具体的，在步骤2中，所述数据标注任务管理模块上加载有以Python语言编写的模型训练数据适配脚本，模型训练数据适配脚本首先将用户对话数据标注化为数据标注任务管理模块可运行的Json格式，Json格式如下：

其中，serviceVersion为当前标注服务器的版本，用来兼容各个版本的标注数据；requestId为当前训练请求的Id，用来进行跟踪和查错；annotationProjectList里面是提交的标注项目列表，annotationId用来识别每个标注项目；annotationType用来指定当前标注项目的类型，比如是文本分类、文档中的实体标注、文本的情感分析等；entities里面是要进行分类的实体，如果为实体标注等其他标注类型则改属性表示了可标注的内容；description是标注的描述信息；addDate为标注的时间,annotationContents中为需要标注的具体内容，一个标注项目可以放多个标注内容。

所述数据标注任务管理模块依据模型训练数据适配脚本将步骤1a中获取的10条用户对话随机打乱并拆分，生成4组可标注任务(可标注任务的数量依据数据的条数、标注人员的人数确定)：

组一：

1灯箱坏了怎么办？

3你好

4灯箱货号

5你好

6灯箱货号

8你好

9昨天的订单怎么样

10我的维修申请

组二：

2灯箱货号

3你好

4灯箱货号

5你好

6灯箱货号

7你好:

8你好

10我的维修申请

组三：

1灯箱坏了怎么办？

2灯箱货号

3你好

4灯箱货号

5你好

6灯箱货号

7你好:

9昨天的订单怎么样

组四：

1灯箱坏了怎么办？

2灯箱货号

4灯箱货号

5你好

7你好:

8你好

9昨天的订单怎么样

10我的维修申请

4位标注人员(数据工程师)在数据标签前台依据分类集(分类集是预先设定的类别的集合)分别对4组可标注任务中的数据进行标注，以下为数据标注结果：

标注完成后，数据标签任务管理模块依据权重法对上述数据标注结果进行自动检查，即10条用户请求中，每一条均被3位标注人员进行标注，如果出现不同的标注结果，则依据权重投票方法，确定该条用户请求的标准结果。

科学家对要解决的分类问题使用Pytorch编写代码建模。进一步的，所述“分类问题”指的是对用户请求的意图分类；pytorch编写代码建模即通过python程序结合深度学习神经网络。

科学家对于分类问题通过Python或≠tensorflow创建lstm模型，科学家根据实际情况进行分析编写。

步骤3，所述服务训练集群模块试运行推荐回复模型的模型代码，获得推荐回复模型的模型代码运行所需的硬件配置参数，硬件配置参数包括但不限于2核CPU、1000个GPU训练单元、16G内存和20G硬盘；所述服务训练集群模块依据硬件配置参数为推荐回复模型分配了位于北京的训练服务器A。

步骤4，所述模型集群训练模块下载模型训练环境、模型训练代码和已标注数据至训练服务器A。

步骤5，所述模型训练流水线控制模块启动训练服务器A内的模型训练过程；所述模型集群训练模块监控模型训练过程，实时将模型训练过程的进度和偏差传输给模型训练流水线控制模块，模型集群训练模块实时依据F1 score指标和Accuracy指标对模型训练过程进行评估，若F1 score＞0.99，Accuracy＞0.99则结束模型训练过程，模型集群训练模块将已训练模型文件和最终偏差传输给模型训练流水线控制模块。

步骤6，所述服务训练集群模块收回位于北京的训练服务器A，释放训练服务器A，以待其他模型训练任务使用，所述模型部署模块部署推荐回复模型的二进制文件至影子集群中，所述影子集群可以采用产品集群的部分产品(例如产品集群的10-20％的产品)，影子集群与产品集群同步处理相同的客户端请求，但影子集群不会将处理结果返回客户端，而是存储到日志文件中，反馈给模型监控模块。

步骤7，若已训练模型文件相对于当前模型文件的改进结果数据符合结果预期，则将已训练模型文件部署至产品集群的部分产品中，当改进结果数据符合结果预期时，将推荐回复模型的二进制文件部署至产品集群的全部产品中。

步骤8，所述模型监控模块监控推荐回复模型在产品集群中的运行过程，并利用F1score指标和Accracy指标对推荐回复模型进行评估，若两个指标优于产品集群之前运行的旧模型，则推荐回复模型训练成功。

步骤1a，获取待训练模型的模型训练数据和模型训练代码；

优选的，在步骤2中，获取模型训练数据适配脚本，执行模型训练数据适配脚本将模型训练数据正规化为可标注数据；在步骤2中，将可标注数据重复性的拆分为多个可标注任务并分发给多位标注人员，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果,得到已标注数据。

优选的，在步骤7和步骤8中，RN(1…n)为已训练模型文件的n次预测结果，RO(1…n)是当前模型文件的n次预测结果，通过比较SUM[RN(1…n)]和SUM[RO(1…n)]，判断已训练模型文件是否符合结果预期；或者，计算(RN1)²-(RO1)²、(RN2)²-(RO2)²…(RNn-1)²-(ROn-1)²、(RNn)²-(ROn)²，平方差描点得到曲线，若曲线平滑且无较大变化，则代表已训练模型文件符合结果预期。

进一步，本发明还提供一种存储有计算机程序的存储介质，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行本发明的所述自动模型训练框架中的步骤方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种自动模型训练框架，其特征在于，其包括模型定义模块、模型训练流水线控制模块、数据标注任务管理模块、服务训练集群控制模块、模型集群训练模块、模型部署模块以及模型监控模块；

所述自动模型训练框架执行以下操作步骤：

2.根据权利要求1所述的自动模型训练框架，其特征在于：所述自动模型训练框架还包括模型训练触发器；在步骤1a和步骤2之间，所述自动模型训练框架还执行以下操作步骤：步骤1b，模型训练流水线控制模块接收模型训练触发器输出的触发信号后，启动模型训练任务。

3.根据权利要求2所述的自动模型训练框架，其特征在于：所述模型训练触发器能通过以下两种方式向模型训练流水线控制模块输出触发信号：

4.根据权利要求1所述的自动模型训练框架，其特征在于：在步骤2中，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果。

5.根据权利要求1所述的自动模型训练框架，其特征在于：在步骤5中，所述模型集群训练模块在模型训练过程中，依据F1 score和Accuracy指标对训练中的模型进行评估，当F1score＞0.99且Accuracy＞0.99时，结束模型训练过程；

其中，

precision代表准确率，recall代表召回率；

F1 score是模型的准确率和召回率的调和平均数；

P代表预测的正类，N代表预测的负类；

T代表真正的正类，F代表真正的负类。

6.根据权利要求9所述的自动模型训练框架，其特征在于：RN(1…n)为已训练模型文件的n次预测结果，RO(1…n)是当前模型文件的n次预测结果，通过比较SUM[RN(1…n)]和SUM[RO(1…n)]，判断已训练模型文件是否符合结果预期；或者，计算(RN1)²-(RO1)²、(RN2)²-(RO2)²…(RNn-1)²-(ROn-1)²、(RNn)²-(ROn)²，平方差描点得到曲线，若曲线平滑且无较大变化，则代表已训练模型文件符合结果预期。

7.一种自动模型训练设备，其特征在于，包括一个或多个处理器以及一个或多个存储计算机程序的存储器，所述一个或多个处理器，用于执行所述计算机程序，以执行以下步骤：

步骤1a，获取待训练模型的模型训练数据和模型训练代码；

8.根据权利要求13所述的自动模型训练设备，其特征在于，在步骤2中，获取模型训练数据适配脚本，执行模型训练数据适配脚本将模型训练数据正规化为可标注数据；在步骤2中，将可标注数据重复性的拆分为多个可标注任务并分发给多位标注人员，每件可标注任务均包括N₀条待标注数据，N₀为≥2的整数；每条待标注数据在至少N₁件可标注任务中出现，N₁为≥2的整数，每件可标注任务被分配至N₂个标注人员，N₂为≥1的整数；当不同标注人员对于同一条待标注数据的标注结果不同时，通过权重投票方式确定该条待标注数据的标准结果,得到已标注数据。

9.根据权利要求13所述的自动模型训练设备，其特征在于，在步骤7和步骤8中，RN(1…n)为已训练模型文件的n次预测结果，RO(1…n)是当前模型文件的n次预测结果，通过比较SUM[RN(1…n)]和SUM[RO(1…n)]，判断已训练模型文件是否符合结果预期；或者，计算(RN1)²-(RO1)²、(RN2)²-(RO2)²…(RNn-1)²-(ROn-1)²、(RNn)²-(ROn)²，平方差描点得到曲线，若曲线平滑且无较大变化，则代表已训练模型文件符合结果预期。

10.一种存储有计算机程序的存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-12任一所述自动模型训练框架中的步骤。