CN113706099A

CN113706099A - 一种数据标注、深度学习模型训练和服务发布系统

Info

Publication number: CN113706099A
Application number: CN202110967639.7A
Authority: CN
Inventors: 王羽; 王菁; 姜晓夏; 刘亚军; 王振宇; 徐建
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-26

Abstract

本发明公开了一种数据标注、深度学习模型训练和服务发布系统，解决目前领域研发存在数据标注不规范、算力资源未整合、模型未充分分享等问题。通过构建了数据标注及学习训练环境，其包含了智能技术从数据标注、学习训练以及服务发布的全流程。一种数据标注、深度学习模型训练和服务发布系统的主要能力是通过设置标注的多个阶段以及预标注功能实现了数据的高效标注；预置算法模型训练及评估加快了模型的开发进度。本发明的优点在于能够高效接入原始数据集并能够在机器辅助的情况下多人协同标注，标注后的数据进行模型训练，预测的结果再反馈生成预标注模型，可以实现标注越来越精细，模型预测效果越来越准确。

Description

一种数据标注、深度学习模型训练和服务发布系统

技术领域

本发明涉及机器学习技术领域，更具体地，涉及数据标注及模型学习训练环境的构建方法。

背景技术

目前领域内智能技术研发存在算力资源未整合、研究分散低效、模型未充分共享等问题，难以满足各种作战应用功能智能化的需求。按领域方向等分散独立研发功能模块，水平有待提高领域专业智能模型算法未充分共享使用，缺少统一的集数据标注、算法研发与训练、服务发布为一体的算法研发平台，通用算法的研究分散、低效算力资源分布不均衡，且尚未形成高效的聚合调度及访问共享机制，资源利用不充分。

目前，在民用领域，各类人工智能企业纷纷根据发布了定制化的学习训练平台，例如百度以及华为等人工智能企业分别发布了EasyDL以及ModelArts等定制化学习训练平台。例如为支撑内部业务研发并对外输出AI平台解决方案，百度2020年发布了AI中台，提供简单易用的算法开发工具以及大量的成熟AI能力模型。EasyDL平台提供了图像分类、图像分割、文本分类、文本实体抽取、语音识别、声音分类等较为通用的深度学习训练场景，通过标注数据，并使用平台内嵌的算法进行算法学习训练，最终发布成服务使用。

民用领域的数据标注场景以及模型训练功能可以借鉴到智能数据标注及学习训练环境中，但是数据存在需要、真实数据较稀缺且场景专业，需要保障标注数据的一致性以及高质量，才能够确训练出模型的可靠性，亟需结合领域的小样本性、非典型性等“算据问题”进行拓展，通过专业的标注，生成专业、全面、可靠的样本，为学习训练提供高质量“教材”，通过测试环境对模型进行评估。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种数据标注、深度学习模型训练和服务发布系统。

技术方案：为了解决上述技术问题，本发明公开了一种数据标注、深度学习模型训练和服务发布系统，包括基础资源层、数据资产层、数据处理层、模型训练层和服务发布层；

所述基础资源层，用于提供所述系统的硬件支撑环境，包含硬件资源管理、数据存储管理、镜像管理以及资源调度运行监控，能够提供深度学习模型运行时的资源调度运行监控、数据存储管理以及深度学习所需镜像管理功能；

所述数据资产层，用于管理原始数据资源，接入结构化数据以及非结构化数据，管理原始数据集、标注数据集，管理训练好的模型或者已有的预训练模型；

所述数据处理层，用于对接入数据进行清洗，保存成待处理数据集；对待处理数据集进行标注、审核和终审，形成标准格式的训练数据集；

所述模型训练层，用于深度学习模型的开发训练，所述深度学习模型包括预置深度学习模型和自定义深度学习模型。

所述服务发布层，用于将训练好的深度学习模型封装成智能服务，管理已发布上线的智能服务。

在一种实现方式中，所述数据资产层接入的结构化数据包括mysql或者oracle数据库保存的结构化数据；接入的非结构化数据包括图像和文本。

在一种实现方式中，所述数据处理层包括数据清洗模块、数据标注模块、标注审核模块和标注终审模块，

所述数据清洗模块，用于根据预设策略自动对接入的数据进行清洗，保存成待处理数据集；所述预设策略包括去除空格字符和去除html字符；

所述数据标注模块，用于定义标签体系、新建标注任务和数据标注；标注管理员进行标签体系的定义以及标签共享范围设置，新建标注任务包括确认标注使用的标签体系、分配标注员、指定标注审核人员和终审人员；

所述标注审核模块，用于审核标注员标注结果并提交终审；

所述标注终审模块，用于对标注审核模块输出的审核情况进行终审，形成标准格式的训练数据集。

在一种实现方式中，所述数据标注模块，针对同一数据，能够进行多个标注员分布式协同标注；所述标注审核模块能够对多个标注员标注结果进行合并，合并后再审核并提交终审。

由于标注人员的专业素质不一，且擅长的领域不一样，通过多人协同标注可以取长补短，让标注审核员能够充分审核数据内容，提高标注数据的质量。

在一种实现方式中，所述数据标注模块，在新建标注任务分配标注员时，数据标注模块能够根据标注员的标注速度、效率以及能力进行评估，自动推荐合适的标注员。

由于标注人员擅长标注的领域不一样，通过该模块能够实现“人尽其才”的目的，能够让标注项目的效率提升。

在一种实现方式中，所述数据标注模块，在进行数据标注时，能够使用服务发布层中发布的智能服务进行预标注，标注员只需要根据预标注的结果进行修改提交审核。

这样能够在标注任务巨大的情况下，实现辅助标注人员的目的，从而减轻标注人员以及审核人员负担。

在一种实现方式中，所述模型训练层包括预置算法模块、自定义算法模块、自动机器学习模块和可视化测试评估模块，

所述预置算法模块，用于存储预置深度学习算法，所述预置深度学习算法包括文本类实体识别、事件抽取、图像目标识别和分类算法；通过填写少量参数，能够对所述预置深度学习算法进行模型训练；

所述自定义算法模块，用于用户上传代码，构建自定义深度学习的网络结构，从而能够进行模型训练；用户可以在本地进行代码调试无误后进行上传，该系统提供运行环境；

所述自动机器学习模块，用于训练预置深度学习模型和/或自定义深度学习模型，训练过程中能够进行深度学习模型的网络结构和超参数的智能辅助调优，支撑各类深度学习算法的训练优化；针对相同数据集，对各类深度学习算法进行训练以及推断评价，输出最优深度学习算法进行训练；

所述可视化测试评估模块，用于通过最优深度学习模型自动对数据集进行训练以及通过测试集的分割在线进行测试评估，并对最优深度学习模型的训练进度、网络结构、数据分布、损失函数、准确率、迭代次数、PR(Precision and Recall，精准率和召回率)曲线以及资源占用指标以图表方式进行可视展现；针对训练好的最优深度学习模型进行模型注册。

通过可视化测试评估，能够更加全面以及直观地展现深度学习模型训练的指标情况，从而辅助算法建模人员选择最优的模型。

在一种实现方式中，所述自动机器学习模块在训练过程中进行深度学习模型的网络结构和超参数的智能辅助调优，与常见自动机器学习单一的优化手段不同，通过顺序流水线的方式，将特征工程、模型优选构建以及超参调优选择这三步骤整合成标准的处理流程，通过迭代循环这三个步骤的方式，实现自动机器学习。

特征工程、模型优选构建以及超参调优往往需要具备专业知识的数据科学家来完成，即便如此，也需要花费大量的精力来进行算法与模型的选择。通过自动机器学习，可以让尽可能多的工作也能够被自动化完成，进一步降低机器学习的门槛，让没有该领域专业知识的人也可以使用机器学习来完成相关的工作。

在一种实现方式中，所述服务发布层包括智能服务封装发布模块、智能服务运行支撑模块、计算资源调度管理模块、智能服务运行监控模块、智能处理结果采集模块和运行迭代学习管理模块，

所述智能服务封装发布模块，用于将训练好的一个以上的深度学习模型封装和发布成智能服务，所述智能服务能够对服务开发人员进行使用权限控制，能够根据接收到的调用请求数据自适应选择深度学习模型；

所述智能服务运行支撑模块，用于提供智能服务运行的环境支撑，环境能够根据调用请求，确定服务开发人员的使用权限，启动相应的服务，接收调用请求数据，执行调用服务请求并返回服务结果；

所述计算资源调度管理模块，用于对多用户高动态的用户服务请求进行多任务的并发、调度，能够根据用户等级、业务类型、任务紧急程度和资源余量条件差异对计算资源进行合理的分配调度，提高计算资源的利用率，保证系统的服务质量符合用户的定制要求；

所述智能服务运行监控模块，用于对用户请求量QPS、系统资源余量、用户响应延时和系统故障频率指标以图表方式进行可视展现；

所述智能处理结果采集模块，用于对智能服务返回的结果进行记录，后续用于可用性的分析优化；能够采集用户的输入以及输出，可以分析智能服务达到的效果。

所述运行迭代学习管理模块，用于收集用户对于智能服务返回结果的反馈，用于对应的深度学习模型迭代训练。

在一种实现方式中，所述服务发布层还包括智能服务运行评价模块，所述智能服务运行评价模块，用于分析智能服务运行时的响应时间以及资源占用率情况。通过采集智能服务运行时的硬件资源情况，从而能够实时了解硬件状态，可以及时进行并发量限制或者拓展硬件。

有益效果：

本发明的原理是：通过标注流程编排、预标注技术、自动建模技术、异构智能框架融合调度技术以及模型评估优选等相关技术，实现数据标注及模型学习训练环境的构建。本发明与现有技术相比，显著优点是：

1)降低了数据标注以及算法建模的技术门槛，使得一般的程序员也能够进行深度学习模型训练，预置算法模型训练及评估加快了模型的开发进度。

2)能够对深度学习模型进行自动参数调整，并将训练过程可视化展现。

3)能够从项目、角色、人员等不同细粒度的对数据模型资产以及智能服务的使用人员进行控制。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和或其他方面的优点将会变得更加清楚。

图1为本申请实施例一种数据标注、深度学习模型训练和服务发布系统的总体架构图。

图2为本申请实施例一种数据标注、深度学习模型训练和服务发布系统的数据处理层流程图。

图3为本申请实施例一种数据标注、深度学习模型训练和服务发布系统的深度学习模型训练测试的流程图。

图4为本申请实施例一种数据标注、深度学习模型训练和服务发布系统的模型训练层建模流程图。

图5为本申请实施例一种数据标注、深度学习模型训练和服务发布系统的服务调用应用流程图。

具体实施方式

下面将结合附图，对本发明的实施例进行描述。

本实施例提供的一种数据标注、深度学习模型训练和服务发布系统，可以应用于原始数据质量高、数据数量较少、知悉范围确定且准确率要求高的场景。如图1所示，包括基础资源层、数据资产层、数据处理层、模型训练层和服务发布层；

所述数据资产层，用于管理原始数据资源，接入结构化数据以及非结构化数据，管理原始数据集、标注数据集，管理训练好的模型或者已有的预训练模型；本实施例中，所述数据资产层接入的结构化数据包括mysql或者oracle数据库保存的结构化数据；接入的非结构化数据包括图像和文本；所述已有的预训练模型包括开源的如BERT(BidirectionalEncoder Representation from Transformers)等预训练模型。

本实施例中，所述数据处理层包括数据清洗模块、数据标注模块、标注审核模块和标注终审模块，

所述标注审核模块，用于审核标注员标注结果并提交终审；

本实施例中，所述数据标注模块，针对同一数据，能够进行多个标注员分布式协同标注；所述标注审核模块能够对多个标注员标注结果进行合并，合并后再审核并提交终审。

本实施例中，所述数据标注模块，在新建标注任务分配标注员时，数据标注模块能够根据标注员的标注速度、效率以及能力进行评估，自动推荐合适的标注员。

本实施例中，所述数据标注模块，在进行数据标注时，能够使用服务发布层中发布的智能服务进行预标注，标注员只需要根据预标注的结果进行修改提交审核。

本实施例中，所述模型训练层包括预置算法模块、自定义算法模块、自动机器学习模块和可视化测试评估模块，

所述自定义算法模块，用于用户上传代码，构建自定义深度学习模型，从而能够进行模型训练；

所述可视化测试评估模块，用于通过最优深度学习模型自动对数据集进行训练以及通过测试集的分割在线进行测试评估，并对最优深度学习模型的训练进度、网络结构、数据分布、损失函数、准确率、迭代次数、PR曲线以及资源占用指标以图表方式进行可视展现；针对训练好的最优深度学习模型进行模型注册。

本实施例中，所述自动机器学习模块在训练过程中进行深度学习模型的网络结构和超参数的智能辅助调优，通过顺序流水线的方式，将特征工程、模型优选构建以及超参调优选择这三步骤整合成标准的处理流程，通过迭代循环这三个步骤的方式，实现自动机器学习。

本实施例中，所述服务发布层包括智能服务封装发布模块、智能服务运行支撑模块、计算资源调度管理模块、智能服务运行监控模块、智能处理结果采集模块和运行迭代学习管理模块，

所述智能服务封装发布模块，用于将训练好的一个以上的深度学习模型封装和发布成智能服务，所述智能服务能够对服务开发人员进行使用权限控制，能够根据接收到的调用请求数据自适应选择深度学习模型，例如进行文本实体识别服务调用，如果输入为军事类文本，文本实体识别服务会自动调用军事类文本实体识别模型反馈识别结果；

所述计算资源调度管理模块，用于对多用户高动态的用户服务请求进行多任务的并发、调度，能够根据用户等级、业务类型、任务紧急程度和资源余量条件差异对计算资源进行合理的分配调度；

所述智能处理结果采集模块，用于对智能服务返回的结果进行记录，后续用于可用性的分析优化；

本实施例中，所述服务发布层还包括智能服务运行评价模块，所述智能服务运行评价模块，用于分析智能服务运行时的响应时间以及资源占用率情况。

结合附图1对本发明的整体过程进行说明，步骤如下：

步骤1、原始数据或者标注数据引接，通过上传或者配置数据库连接从而能够将数据引接到本系统中。

步骤2、对文本和图像等不同类别的原始数据进行多人分布式标注，具体步骤如下；

数据标注模块包含如图2所示8个步骤：数据源接入、数据清洗转换、标签体系管理、新建标注任务、数据标注、标注审核、标注终审以及标注数据生成。首先项目的资产管理员配置接入数据源，进行对结构化以及非结构化的数据进行清洗标准化转换后形成原始数据集。然后，标注管理员进行标签体系的定义以及标签共享范围设置，根据需求以及人员标注能力情况新建标注任务，确认标注使用的标注体系、分配标注、审核人员。标注员进行多人分布式标注，审核员进行多人标注结果的合并、审核并提交终审，最终标注管理员将标注的结果导出到资产库中以供深度学习模型训练使用。

步骤3、对深度学习模型训练测试，具体的流程如图3和图4所示，主要包含以下几个步骤：

①算法建模人员建立深度学习模型算法开发任务，自定义深度学习模型的网络结构以及从标准格式的数据集中选择场景需要的样本集，并划分测试和验证样本集；

②算法建模人员利用测试和验证样本集以及算法模型的评估算子，对整体网络结构进行超参数的调优，所述评估算子包括准确率、召回率和F1值等；

③算法建模人员构建一个交互式的训练过程查看环境，将模型训练过程中的各种汇总数据展示出来，包括模型网络结构、数据分布、损失函数、准确率、迭代次数以及PR曲线等衡量模型训练效果的曲线，使得算法开发人员户能够直观地理解、调试和优化设计的网络模型。

④算法建模人员针对训练完成的模型进行综合评估，对满足业务需求的模型进行模型注册。例如，可以依据PR(Precision and Recall，精准率和召回率)曲线对比两种算法的优劣。如果其中一个算法的PR曲线A完全包住另一个算法B的PR曲线，则可判定A的性能优于B。

步骤4、服务封装调用，服务封装主要是基于步骤3训练出来的模型进行服务化封装，服务发布层提供Rest服务的多副本部署和高负载调用，能够支持各服务进行细粒度的安全共享以及对高性能计算资源的统筹调度和按需调整。服务封装调用的典型应用流程图5所示。服务发布层面向服务开发人员，基于算法建模人员生产的智能模型，进行服务的封装和发布；服务开发人员使用统一的接口执行业务应用任务或结合业务系统进行二次开发。具体流程包括：

①服务开发人员基于已注册的模型进行智能服务的封装发布；

②根据业务应用需求提供智能服务运行的环境支撑和资源管控；

③服务开发人员使用统一的接口执行业务应用任务或结合业务系统进行二次开发。

遵循服务支撑提供的运行框架和运行规范，建模训练完成后的模型可以进行服务化封装形成智能处理服务。智能处理服务是智能处理支撑分系统面向业务的主要服务形式。业务应用通过集成智能处理服务，减少业务处理流程中人工干预的成分，提升业务应用与用户、与应用环境以及与其他应用交互的自动化程度，强化业务处理能力。根据智能服务运行反馈，积累实际的业务数据，通过对智能处理模型迭代学习，提高模型的泛化能力和服务质量。

本发明提供了一种数据标注、深度学习模型训练和服务发布系统的思路，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种数据标注、深度学习模型训练和服务发布系统，其特征在于，包括基础资源层、数据资产层、数据处理层、模型训练层和服务发布层；

所述模型训练层，用于深度学习模型的开发训练，所述深度学习模型包括预置深度学习模型和自定义深度学习模型；

2.根据权利要求1所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述数据资产层接入的结构化数据包括mysql或者oracle数据库保存的结构化数据；接入的非结构化数据包括图像、文本和语音。

3.根据权利要求1所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述数据处理层包括数据清洗模块、数据标注模块、标注审核模块和标注终审模块，

所述标注审核模块，用于审核标注员标注结果并提交终审；

4.根据权利要求3所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述数据标注模块，针对同一数据，能够进行两个以上标注员分布式协同标注；所述标注审核模块能够对两个以上标注员标注结果进行合并，合并后再审核并提交终审。

5.根据权利要求3所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述数据标注模块，在新建标注任务分配标注员时，数据标注模块能够根据标注员的标注速度、效率以及能力进行评估，自动推荐合适的标注员。

6.根据权利要求3所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述数据标注模块，在进行数据标注时，能够使用服务发布层中发布的智能服务进行预标注，标注员只需要根据预标注的结果进行修改提交审核。

7.根据权利要求1所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述模型训练层包括预置算法模块、自定义算法模块、自动机器学习模块和可视化测试评估模块，

所述自定义算法模块，用于用户上传代码，构建自定义深度学习的网络结构，从而能够进行模型训练；

8.根据权利要求4所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述自动机器学习模块在训练过程中进行深度学习模型的网络结构和超参数的智能辅助调优，通过顺序流水线的方式，将特征工程、模型优选构建以及超参调优选择这三步骤整合成标准的处理流程，通过迭代循环这三个步骤的方式，实现自动机器学习。

9.根据权利要求1所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述服务发布层包括智能服务封装发布模块、智能服务运行支撑模块、计算资源调度管理模块、智能服务运行监控模块、智能处理结果采集模块和运行迭代学习管理模块，

10.根据权利要求9所述的一种数据标注、深度学习模型训练和服务发布系统，其特征在于，所述服务发布层还包括智能服务运行评价模块，所述智能服务运行评价模块，用于分析智能服务运行时的响应时间以及资源占用率情况。