CN114707667A

CN114707667A - 一种数据驱动的自动模型训练及应用系统

Info

Publication number: CN114707667A
Application number: CN202210475293.3A
Authority: CN
Inventors: 王羽; 葛唯益; 王菁; 荀智德; 刘亚军; 陆辰
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-05

Abstract

本发明公开了一种数据驱动的自动模型训练及应用系统，通过对异构标注数据如文本、图像类数据进行多种方式的数据变换，扩大标注数据量；基于神经网络架构搜索技术，针对增强过后的标注数据集设计出合理的计算网络以及超参值；最后针对部署端的软硬件情况以及数据特征进行模型蒸馏，发布至服务端进行部署。该系统解决目前深度学习领域的模型训练数据难以准备、参数难以调优以及训练后模型对硬件资源要求过高等现实问题，实现通过少量标准标注数据进行自动模型训练及模型发布服务应用的能力。

Description

一种数据驱动的自动模型训练及应用系统

技术领域

本发明涉及机器学习技术领域，更具体地，涉及一种数据驱动的自动模型训练及应用系统。

背景技术

以深度学习为代表的机器学习人工智能技术，其算力、算据(标注的数据)和算法是人工智能从概念到落地应用的三大核心要素。

算力的发展与科技界的硬件水平发展相关，目前各类硬件设备均在快速迭代，逐渐能够满足深度学习训练预测的需要。

算据方面，在大数据时代下，海量的原始数据为深度学习提供了批量的未标注处理数据，但却因标注能力的限制，难以对原始数据进行快速有效利用，现有垂直领域的标注数据规模和质量均无法满足高质量智能模型的生成，逐渐成为智能系统研制的瓶颈问题。如何依据少量已标注样本，形成自动标注模型，如何利用自动标注数据再次迭代训练模型，支持军事样本匮乏下的智能参谋业务模型生成，均是难点问题。

算法方面，各类智能算法开发门槛高，难以为普通的应用系统开发人员使用。首先，算法框架的选择大大依赖于开发人员经验，现有的智能框架(Spark、TensorFlow、Pytorch等)各有所长，缺乏统一的框架调度机制和算法构建环境。其次，智能领域目前有众多开源的软件包，如机器学习以及数据挖掘软件weka，机器学习工具包sklearn等提供各种复杂的学习算法和特征选择方法，虽然一定程度上降低了智能化方法使用的门槛，却也为研制人员带来选择算法包的困难。最后，将超参数设置为默认值时，难以得到最优的算法效果，为相关算法合理设置超参数尚缺乏显性的依据，仍以经验与多轮试探为主。如何构建一个数据集、选择一套算法、设置一系列超参，自动开展学习训练，得到性能良好的模型，成为智能化技术进行落地的实际需求。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种数据驱动的自动模型训练及应用系统。

技术方案：为了解决上述技术问题，本发明公开了一种数据驱动的自动模型训练及应用系统，包括数据增强层、模型自动学习训练层、模型蒸馏层、服务发布层；

所述数据增强层，用于接入标注数据，并对所述标注数据进行数据增强，获得增强后的标注数据；

所述模型自动学习训练层，用于对增强后的标注数据进行模型的训练，通过模型内部进行参数搜索后获得训练后的模型；

所述模型蒸馏层，用于将训练后的模型进行压缩蒸馏，获得压缩蒸馏后的模型；

所述服务发布层，用于将训练后的模型和/或压缩蒸馏后的模型封装成智能服务，并对已发布上线的模型服务进行管理。

进一步地，所述数据增强层中所述标注数据包括不同种类的异构数据：文本数据、图像数据以及格式化数据；文本数据增强包括配置针对标注文本的数据增强策略，基于数据增强策略进行变形转换，自动生成标注语料；

图像数据增强包括图像空间变换和图像像素变换，自动生成图像标注数据；

格式化数据增强包括对不同维度数据进行随机替换和词典替换，自动生成标注数据。上述数据增强方式节省了人工标注的工作量。

进一步地，所述对标注文本的数据增强策略包括文本的实体替换、同义词替换和回译，

所述文本的实体替换包括通过实体识别文本中的军事实体，通过知识图谱找到相似的词语进行替换；同义词替换包括将文本中的同义词根据同义词表进行替换；回译包括通过翻译引擎将中文译为英文，再从英文译为中文；

所述图像空间变换包括图像的旋转、翻转和裁剪，图像像素变换包括噪声和锐化。

进一步地，所述模型自动学习训练层，通过历史的模型训练效果信息以及算法研发人员经验知识进行结合，形成业务场景、模型训练算法以及模型训练算法实现所使用的框架之间的映射网络，所述映射网络能够将业务场景与模型训练算法关联起来，针对不同的业务场景，找到不同的模型训练算法候选集，其中相同的模型训练算法包括不同的框架进行实现；在用户选择任务需求以及标注数据时，自动根据映射网络选择匹配的模型训练算法和实现框架，所述匹配的模型训练算法包括两个以上的深度学习模型，一个深度学习模型对应一个实现框架；通过匹配的模型训练算法进行自动的模型网络参数选择以及调优，获得训练后的模型，从而减少大量算法开发人员调优的时间成本。

进一步地，所述通过匹配的模型训练算法进行自动的模型网络参数选择以及调优，获得训练后的模型包括：

将增强后的标注数据以及所述两个以上的深度学习模型的超参数和网络结构参数输入至模型自动学习训练层，通过NAS(Neural Architecture search，神经网络结构搜索)算法生成待搜索网络结构的候选集合，即搜索空间；

基于搜索策略在搜索空间中进行模型网络参数搜索，所述搜索策略包括穷举、基于连续空间和基于离散空间的搜索等方法；

通过模型训练对模型网络参数结果进行评价，获得网络性能评估指标以及训练后的模型。

进一步地，所述基于搜索策略在搜索空间中进行模型网络参数搜索包括：

将网络结构作嵌入到一个连续的空间，所述连续的空间中的每个点对应一个网络结构且能够定义准确率的预测函数；

以预测函数为目标函数进行基于梯度的优化，找到更优网络结构的嵌入表征；优化完成后，将嵌入表征映射回网络结构，获得参数推荐值，在搜索空间下找出满足要求的次优解。

搜索策略更具体的包括网格搜索、随机搜索、遗传算法、贝叶斯优化、进化方法、粒子群优化、强化学习、基于梯度的算法，基于强化学习和遗传算法本质上都仍是在离散空间中搜索，它们将目标函数看做黑盒。若是搜索空间连续，目标函数可微，那基于梯度信息能够更有效地搜索，因此本申请使用基于梯度的方式进行搜索，以满足要求的次优解。

进一步地，所述通过模型训练对模型网络参数结果进行评价，获得网络性能评估指标中网络性能评估指标包括准确率、召回率、F1值、ROC曲线(Receiver OperatingCharacteristic curve，接收者操作特征曲线)以及LOSS曲线(损失曲线)：评估过程包括根据搜索出的次优解进行模型训练，获取对应的评估指标；搜索与评估两个过程不断迭代，直到找到满足约束的解为止，从而获得训练后的模型。

进一步地，所述模型蒸馏层将训练后的模型作为教师模型，使用规模为教师模型10％以下的神经网络构建两个以上的学生模型，通过知识蒸馏将教师模型中包含的参数知识转移到学生模型中，最终通过模型集成将学生模型进行集成，获得压缩蒸馏后的模型。模型蒸馏层在控制模型的大小和提升运行效率的同时确保模型的准确率，能够将服务性能较好但是参数规模大加载速度慢的模型进行压缩蒸馏，提升模型的效能。

进一步地，所述服务发布层，能够根据用户请求以及对于服务的性能指标要求，自动选择训练后的模型或者压缩蒸馏后的模型封装成智能服务，进而满足定制化的能力需求。

针对用户对于效率的要求，对训练后的模型或者压缩蒸馏后的模型进行服务封装，保证系统的服务质量符合用户的定制要求；所述对已发布上线的模型服务进行管理包括：

根据用户请求，确定使用权限，启动相应的服务模块，接受用户的请求数据，执行用户的服务请求并返回系统的服务结果；

对多用户高动态的用户服务请求进行多任务的并发、调度，能够根据用户等级、业务类型、任务紧急程度和资源余量条件差异对计算资源进行合理的分配调度，提高计算资源的利用率；

监控模型训练过程，并对训练进度、损失函数、资源占用等指标、用户请求量QPS、系统资源余量、用户响应延时和系统故障频率指标以图表方式进行可视展现；

支撑用户对于服务的定制化需求，可以将模型服务导出进行独立部署使用。

进一步地，自动选择训练后的模型或者压缩蒸馏后的模型封装成智能服务后，服务调用人员执行业务应用任务或结合业务系统进行二次开发，包括：

服务调用人员基于已注册的模型，根据业务需求进行模型筛选；

调用依赖镜像创建容器，将模型封装成REST服务；

根据模型需求，提供智能服务运行所需的环境支撑和资源；

服务调用人员使用统一的接口执行业务应用任务或结合业务系统进行二次开发。

有益效果：

本发明通过对标注数据的增强、自动建模与参数调优技术、模型蒸馏及服务发布等相关技术，通过有限的标注数据训练出高质量的深度学习模型以及将模型快速按需发布成服务供应用调用，实现数据驱动的自动模型训练及应用，与现有技术相比，显著优点是：1)降低了数据标注的工作量，减少了繁琐重复的数据标注工作。2)降低了算法选择以及算法参数调优的技术门槛，使得能够快速迭代训练模型。3)在保持模型准确率的前提下，尽量降低了模型运行所需的资源空间以及运行时间，提升了模型效能。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明一种数据驱动的自动模型训练及应用系统的总体架构图。

图2为本发明一种数据驱动的自动模型训练及应用系统的自动训练环境搭建流程图。

图3为本发明一种数据驱动的自动模型训练及应用系统的模型蒸馏及服务调用应用流程图。

具体实施方式

下面将结合附图，对本发明的实施例进行描述。

本实施例提供的一种数据驱动的自动模型训练及应用系统，可以应用于数据更新迭代快，对于数据处理实时性要求高且缺乏算法研发人员的业务场景，例如对于社会舆情分析人员，社交网络信息更新传播速度快，亟需通过该系统实现实时信息的快速分析，辅助进行管控。

本申请实施例提供的一种数据驱动的自动模型训练及应用系统如图1所示，包括数据增强层、模型自动学习训练层、模型蒸馏层和服务发布层；

本实施例中，所述数据增强层中所述标注数据包括不同种类的异构数据：文本数据、图像数据以及格式化数据；

文本数据增强包括配置针对标注文本的数据增强策略，基于数据增强策略进行变形转换，自动生成标注语料；所述对标注文本的数据增强策略包括文本的实体替换、同义词替换和回译，所述文本的实体替换包括通过实体识别文本中的军事实体，通过知识图谱找到相似的词语进行替换；同义词替换包括将文本中的同义词根据同义词表进行替换；回译包括通过翻译引擎将中文译为英文，再从英文译为中文；

图像数据增强包括图像空间变换和图像像素变换，自动生成图像标注数据；所述图像空间变换包括图像的旋转、翻转和裁剪，图像像素变换包括噪声和锐化。

格式化数据增强包括对不同维度数据进行随机替换和词典替换，自动生成标注数据。

本实施例中，所述模型自动学习训练层，通过历史的模型训练效果信息以及算法研发人员经验知识进行结合，形成业务场景、模型训练算法以及模型训练算法实现所使用的框架之间的映射网络，所述映射网络能够将业务场景与模型训练算法关联起来，针对不同的业务场景，找到不同的模型训练算法候选集，其中相同的模型训练算法包括不同的框架进行实现，例如模型训练算法是长短期记忆网络LSTM(Long Short-Term Memory)，有的用TensorFlow框架实现，有的用Python机器学习库Pytorch实现；在用户选择任务需求以及标注数据时，自动根据映射网络选择匹配的模型训练算法和实现框架，所述匹配的模型训练算法包括两个以上的深度学习模型，一个深度学习模型对应一个实现框架；通过匹配的模型训练算法进行自动的模型网络参数选择以及调优，获得训练后的模型。

所述通过匹配的模型训练算法进行自动的模型网络参数选择以及调优，获得训练后的模型包括：

将增强后的标注数据以及所述两个以上的深度学习模型的超参数和网络结构参数输入至模型自动学习训练层，通过NAS算法生成待搜索网络结构的候选集合，即搜索空间；

基于搜索策略在搜索空间中进行模型网络参数搜索；

所述基于搜索策略在搜索空间中进行模型网络参数搜索包括：

所述通过模型训练对模型网络参数结果进行评价，获得网络性能评估指标中网络性能评估指标包括准确率、召回率、F1值、ROC曲线以及LOSS曲线：评估过程包括根据搜索出的次优解进行模型训练，获取对应的评估指标；搜索与评估两个过程不断迭代，直到找到满足约束的解为止，从而获得训练后的模型。

本实施例中，所述模型蒸馏层将训练后的模型作为教师模型，使用规模为教师模型10％以下的神经网络构建两个以上的学生模型，通过知识蒸馏将教师模型中包含的参数知识转移到学生模型中，最终通过模型集成将学生模型进行集成，获得压缩蒸馏后的模型。

本实施例中，所述服务发布层，能够根据用户请求以及对于服务的性能指标要求，自动选择训练后的模型或者压缩蒸馏后的模型封装成智能服务；所述对已发布上线的模型服务进行管理包括：

对多用户高动态的用户服务请求进行多任务的并发、调度，能够根据用户等级、业务类型、任务紧急程度和资源余量条件差异对计算资源进行合理的分配调度；

本实施例中，所述数据驱动的自动模型训练及应用系统执行步骤如下。

步骤1，标注数据集接入引接以及处理，根据数据的不同类型，配置数据增强策略参数，实现文本、图像、格式化数据增强能力，在保证数据分布不发生变化的同时提升数据量。

步骤2，根据业务需求自动选择确认深度学习模型算法，并对深度学习模型算法参数进行搜索确认，具体步骤如下；

步骤2.1，选择模型训练算法

针对不同的任务，算法纷繁复杂。仅以分类任务为例，目前常用的分类算法就有几十种，加之各种算法针对各种具体问题而设计的变体形式，面对一个分类任务时可供选择的分类算法就有成百上千种。将平台支撑的业务场景、模型以及使用的框架构建成一个映射网络，将业务与算法关联起来。针对不同的应用业务，找到不同的算法，算法也有不同的框架实现，在用户选择任务需求以及标注数据时，自动选择模型算法，新建容器创新训练环境，具体过程如图2所示。具体的，如进行图像目标识别的任务中，针对目标类型有不同的模型算法，如识别飞机型号、舰船型号或者是车辆类型等，候选的算法有目标检测算法YOLOv3、快速区域卷积神经网络Fast R-CNN、区域卷积神经网络R-CNN(Region-ConvolutionalNeural Network)等，需要根据具体业务需求进行算法模型的关联筛选。

步骤2.2，自动学习训练

自动学习训练通常包括搜索和评估两个过程。搜索过程中使用搜索器在巨大的搜索空间下找出可能满足要求的次优解，常用的搜索器一般有演化算法、蒙特卡洛搜索树、贝叶斯搜索器、强化学习等。评估过程则负责根据搜索出的备选方案进行模型训练，获取对应的评估指标。这一步通常耗时巨大，也催生了例如共享权重、指标预测等加速技术。搜索与评估两个过程不断迭代，直到算法的指标函数达到所需阈值或者是迭代空间达到最大值后为止。

具体实现上，本实施例通过使用基于PyTorch框架的Auto-PyTorch进行模型自动调参，主要有以下几个过程，首先通过增强后的标注数据进行切分、编码等预处理操作，使得其能够供模型训练算法的框架进行处理，并将数据进行十则交叉验证或者K折交叉验证(自动模型训练)；然后根据以往已有的模型或者是开源的通用模型制定初步的评估基线，使用固定超参配置以及性能较差的已有模型如sklearn.dummy进行迭代训练；随后制定每次迭代训练的消耗、最大的资源消耗值以及结束规则，让模型进行反复迭代；最后在模型达到收敛并形成集成模型后，查看模型的性能以及神经网络结构。

步骤3，能够对训练完成模型进行蒸馏，将一个通过模型自动学习训练出的性能好但参数量大的模型作为教师模型，使用较小规模的神经网络构建若干学生模型，通过知识蒸馏将教师模型中包含的参数知识转移到学生模型中，最终通过模型集成将学生模型进行集成。

步骤4，服务封装调用，服务封装主要是基于算法模型训练出来的模型进行服务化封装，该模块根据用户需求，确定所需的原始模型或者蒸馏模型，通过预置模块进行模型的服务化封装。该模块还提供REST服务的多副本部署和高负载调用，能够支持项目中的各项服务进行细粒度的安全共享以及对高性能计算资源的统筹调度和按需调整。服务封装调用的典型应用流程图3所示。该模块面向服务调用人员，基于算法建模人员生产的智能模型，进行服务的封装和发布，服务调用人员使用统一的接口执行业务应用任务或结合业务系统进行二次开发。具体流程包括：

①服务调用人员基于已注册的模型，根据业务需求进行模型筛选；

②调用依赖镜像创建容器，将模型封装成REST服务；

③根据模型需求，提供智能服务运行所需的环境支撑和资源；

④服务调用人员使用统一的接口执行业务应用任务或结合业务系统进行二次开发。

业务应用通过集成智能处理服务，减少业务处理流程中人工标注及模型训练干预的成分，提升业务应用与用户、与应用环境以及与其他应用交互的自动化程度，强化业务处理能力，并能够根据应用反馈不断迭代学习，提升模型能力。

本发明提供了一种数据驱动的自动模型训练及应用系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种数据驱动的自动模型训练及应用系统，其特征在于，包括数据增强层、模型自动学习训练层、模型蒸馏层和服务发布层；

2.根据权利要求1所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述数据增强层中所述标注数据包括不同种类的异构数据：文本数据、图像数据以及格式化数据；文本数据增强包括配置针对标注文本的数据增强策略，基于数据增强策略进行变形转换，自动生成标注语料；

3.根据权利要求2所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述对标注文本的数据增强策略包括文本的实体替换、同义词替换和回译，

4.根据权利要求3所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述模型自动学习训练层，通过历史的模型训练效果信息以及算法研发人员经验知识进行结合，形成业务场景、模型训练算法以及模型训练算法实现所使用的框架之间的映射网络，所述映射网络能够将业务场景与模型训练算法关联起来，针对不同的业务场景，找到不同的模型训练算法候选集，其中相同的模型训练算法包括不同的框架进行实现；在用户选择任务需求以及标注数据时，自动根据映射网络选择匹配的模型训练算法和实现框架，所述匹配的模型训练算法包括两个以上的深度学习模型，一个深度学习模型对应一个实现框架；通过匹配的模型训练算法进行自动的模型网络参数选择以及调优，获得训练后的模型。

5.根据权利要求4所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述通过匹配的模型训练算法进行自动的模型网络参数选择以及调优，获得训练后的模型包括：

基于搜索策略在搜索空间中进行模型网络参数搜索；

6.根据权利要求5所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述基于搜索策略在搜索空间中进行模型网络参数搜索包括：

7.根据权利要求6所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述通过模型训练对模型网络参数结果进行评价，获得网络性能评估指标中网络性能评估指标包括准确率、召回率、F1值、ROC曲线以及LOSS曲线：评估过程包括根据搜索出的次优解进行模型训练，获取对应的评估指标；搜索与评估两个过程不断迭代，直到找到满足约束的解为止，从而获得训练后的模型。

8.根据权利要求7所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述模型蒸馏层将训练后的模型作为教师模型，使用规模为教师模型10％以下的神经网络构建两个以上的学生模型，通过知识蒸馏将教师模型中包含的参数知识转移到学生模型中，最终通过模型集成将学生模型进行集成，获得压缩蒸馏后的模型。

9.根据权利要求8所述的一种数据驱动的自动模型训练及应用系统，其特征在于，所述服务发布层，能够根据用户请求以及对于服务的性能指标要求，自动选择训练后的模型或者压缩蒸馏后的模型封装成智能服务；所述对已发布上线的模型服务进行管理包括：

10.根据权利要求9所述的一种数据驱动的自动模型训练及应用系统，其特征在于，自动选择训练后的模型或者压缩蒸馏后的模型封装成智能服务后，服务调用人员执行业务应用任务或结合业务系统进行二次开发，包括：

调用依赖镜像创建容器，将模型封装成REST服务；

根据模型需求，提供智能服务运行所需的环境支撑和资源；