CN114780110B

CN114780110B - 一种算法链路的优化方法及优化系统

Info

Publication number: CN114780110B
Application number: CN202210701290.7A
Authority: CN
Inventors: 向君; 廖力; 秦浪; 成望
Original assignee: Shandong Jivisual Angle Technology Co ltd
Current assignee: Shandong Jijian Technology Co.,Ltd.
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-09
Anticipated expiration: 2042-06-21
Also published as: CN114780110A

Abstract

本申请公开了一种算法链路的优化方法及优化系统，用于提高迭代修复训练模型的算法的效率。本申请方法包括：生成训练镜像文件；生成测试镜像文件；获取运维人员发送的溯源指令，并根据溯源指令溯源训练镜像文件及测试镜像文件；根据训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上；基于生产训练数据集训练第一模型，生成第二模型；评估第一模型，获取第一算法精度分数，并评估第二模型，获取第二算法精度分数；根据第一算法精度分数及第二算法精度分数确定目标模型；向算法推理平台推送目标模型；将算法推理平台上的第一模型替换为目标模型。

Description

一种算法链路的优化方法及优化系统

技术领域

本申请涉及计算机科学与技术领域，尤其涉及一种算法链路的优化方法及优化系统。

背景技术

AI算法生产过程中测试模型精度往往很高，然而到了客户生产环境中，算法落地精度准确率效果并不好，这是由于算法在开发阶段便采用较为通用场景数据作为训练集，算法精度能到达预期，然而实际环境却存在因为拍摄角度、光线强弱、目标在移动等因素，导致算法安装到客户环境后实际落地效果并不好，因此需要对算法模型进行迭代修复。

计算机视觉算法的企业级生产迭代链路一般包括10个环节：数据标注，编码开发，模型训练，模型评估，模型部署、SDK封装，流媒体封装，算法测试，算法上架，算法升级，一般而言，定制开发修复一个算法全链路生产周期为6至12周，周期时间过长，程序繁杂，无法达到快速迭代修复的要求。

如何降低训练模型迭代修复的难度，使得运维人员通过简单的操作就可以简便地迭代修复训练模型的算法，是需要解决的问题。

发明内容

本申请提供了一种算法链路的优化方法及优化系统，用于提高迭代修复训练模型的算法的效率。

本申请第一方面提供了一种算法链路的优化方法，所述优化方法应用于算法链路的优化系统，其特征在于，所述优化系统包括：机器学习平台、算法管理平台、自训练快修平台及算法推理平台，所述优化方法包括：

所述机器学习平台生成训练镜像文件，所述训练镜像文件包括第一模型、通用训练数据集及所述第一模型的训练源代码；

所述机器学习平台生成测试镜像文件，所述测试镜像文件包括所述第一模型、通用测试数据集及所述第一模型的测试源代码；

所述算法管理平台获取运维人员发送的溯源指令，并根据所述溯源指令溯源所述训练镜像文件及所述测试镜像文件；

运维人员通过所述算法管理平台根据所述训练镜像文件、所述测试镜像文件及部署脚本将所述第一模型部署至所述自训练快修平台上；

所述自训练快修平台基于生产训练数据集训练所述第一模型，生成第二模型；

所述自训练快修平台评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数；

所述自训练快修平台根据所述第一算法精度分数及所述第二算法精度分数确定目标模型，所述目标模型为所述第二模型及所述第一模型中算法精度分数高的模型；

所述自训练快修平台向所述算法推理平台推送所述目标模型；

所述算法推理平台将所述算法推理平台上的第一模型替换为所述目标模型。

可选地，所述优化系统还包括数据标注平台，在所述自训练快修平台基于生产训练数据集训练所述第一模型之前，所述优化方法还包括：

所述自训练快修平台调用清洗脚本并清洗生产数据集；

所述自训练快修平台将清洗后的生产数据集发送至数据标注平台；

所述数据标注平台标注所述生产数据集，并将标注后的所述生产数据集发送至自训练快修平台；

所述自训练快修平台按照预设比例将所述生产数据集拆分为生产训练数据集及生产测试数据集。

可选地，在所述自训练快修平台调用清洗脚本清洗生产数据集之前，所述方法还包括：

所述自训练快修平台通过控制指令控制设置于生产环境的摄像头拍摄实际生产环境图片，获取生产数据集。

可选地，所述自训练快修平台评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数包括：

所述自训练快修平台基于所述第一模型、所述测试镜像文件及生产测试数据集，发起第一测试评估，获取第一算法精度分数；

所述自训练快修平台基于所述第二模型、所述测试镜像文件及所述生产测试数据集，发起第二测试评估，获取第二算法精度分数；

所述自训练快修平台根据所述第一算法精度分数及所述第二算法精度分数确定目标模型包括：

所述自训练快修平台比较所述第一算法精度分数及所述第二算法精度分数，获取第一比较结果；

所述自训练快修平台根据所述第一比较结果确定目标模型，所述目标模型为所述第二模型及所述第一模型中算法精度分数高的模型。

可选地，所述机器学习平台生成训练镜像文件包括：

所述机器学习平台创建第一容器；

所述机器学习平台拉取训练源代码、通用训练数据集、目标预训练模型及第一模型至所述第一容器内，所述第一模型为基于所述通用训练数据集训练所述目标预训练模型所获取的模型；

所述机器学习平台清洗所述第一容器内的所述通用训练数据集，并混淆加密所述第一容器内的所述训练源代码；

所述机器学习平台将所述第一容器内混淆加密后的训练源代码、清洗后的通用训练数据集、目标预训练模型及第一模型压缩，生成训练镜像文件。

可选地，所述机器学习平台生成所述测试镜像文件包括：

所述机器学习平台创建第二容器；

所述机器学习平台拉取测试源代码、通用测试数据集及所述第一模型至所述第二容器内；

所述机器学习平台清洗所述第二容器内的通用测试数据集，并混淆加密所述第二容器内的所述测试源代码；

所述机器学习平台将所述第二容器内混淆加密后的测试源代码、清洗后的通用测试数据集及所述第一模型压缩，生成测试镜像文件。

可选地，在所述机器学习平台生成测试镜像文件之后，所述优化方法还包括：

所述机器学习平台导出所述训练镜像文件及所述测试镜像文件；

所述机器学习平台将导出的所述训练镜像文件及所述测试镜像文件上传至minio平台，并获取所述训练镜像文件的第一下载地址及所述测试镜像文件的第二下载地址；

所述算法管理平台根据所述溯源指令溯源所述训练镜像文件及所述测试镜像文件包括：

所述算法管理平台向所述机器学习平台发送所述溯源指令；

所述机器学习平台根据所述溯源指令向所述算法管理平台发送所述第一下载地址及所述第二下载地址，以使得所述算法管理平台通过所述第一下载地址溯源所述训练镜像文件或通过所述第二下载地址溯源所述测试镜像文件。

可选地，运维人员通过所述算法管理平台根据所述训练镜像文件、所述测试镜像文件及部署脚本将所述第一模型部署至所述自训练快修平台上包括：

运维人员通过所述算法管理平台运行部署脚本导入所述训练镜像文件，获取所述第一模型、所述通用训练数据集及所述第一模型的训练源代码；

运维人员通过所述算法管理平台运行所述部署脚本导入所述测试镜像文件，获取所述通用测试数据集及所述第一模型的测试源代码；

运维人员通过所述算法管理平台运行所述部署脚本，根据所述第一模型的训练镜像文件在所述自训练快修平台上配置所述第一模型的训练环境；

运维人员通过所述算法管理平台运行所述部署脚本，根据所述第一模型的测试镜像文件在所述自训练快修平台上配置所述第一模型的测试环境；

运维人员通过所述算法管理平台根据所述训练环境及所述测试环境将所述第一模型部署至所述自训练快修平台上，并向所述自训练快修平台发送所述通用训练数据集及所述通用测试数据集。

可选地，在所述算法管理平台获取运维人员发送的溯源指令之后，所述优化方法包括:

所述算法管理平台根据所述溯源指令所携带的所述运维人员的身份信息确定所述运维人员的权限信息；

所述算法管理平台根据所述权限信息及所述溯源指令溯源训练镜像文件及测试镜像文件。

本申请第二方面提供了一种算法链路的优化系统，所述优化系统包括：机器学习平台、算法管理平台、自训练快修平台及算法推理平台；

所述机器学习平台用于生成训练镜像文件，所述训练镜像文件包括第一模型、通用训练数据集及所述第一模型的训练源代码；

所述机器学习平台还用于生成测试镜像文件，所述测试镜像文件包括所述第一模型、通用测试数据集及所述第一模型的测试源代码；

所述算法管理平台用于获取运维人员发送的溯源指令，并根据所述溯源指令溯源所述训练镜像文件及所述测试镜像文件；

所述算法管理平台还用于根据所述训练镜像文件、所述测试镜像文件及部署脚本将所述第一模型部署至所述自训练快修平台上；

所述自训练快修平台用于基于生产训练数据集训练所述第一模型，生成第二模型；

所述自训练快修平台还用于评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数；

所述自训练快修平台还用于根据所述第一算法精度分数及所述第二算法精度分数确定目标模型，所述目标模型为所述第二模型及所述第一模型中算法精度分数高的模型；

所述自训练快修平台还用于向所述算法推理平台推送所述目标模型；

所述算法推理平台用于将所述算法推理平台上的第一模型替换为所述目标模型。

可选地，所述优化系统还包括：数据标注平台；

所述自训练快修平台还用于调用清洗脚本并根据通用训练数据集清洗生产数据集；

所述自训练快修平台还用于将清洗后的生产数据集发送至所述数据标注平台；

所述数据标注平台用于标注所述生产数据集，并将标注后的所述生产数据集发送至自训练快修平台；

所述自训练快修平台用于按照预设比例将所述生产数据集拆分为生产训练数据集及生产测试数据集。

可选地，所述算法推理平台还用于通过控制指令控制设置于生产环境的摄像头拍摄实际生产环境图片，获取生产数据集；

所述算法推理平台还用于向所述自训练快修平台发送所述生产数据集。

可选地，所述自训练快修平台具体用于评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数包括：

基于所述第一模型、所述测试镜像文件及生产测试数据集，发起第一测试评估，获取第一算法精度分数；

基于所述第二模型、所述测试镜像文件及所述生产测试数据集，发起第二测试评估，获取第二算法精度分数；

根据所述第一算法精度分数及所述第二算法精度分数确定目标模型包括：

比较所述第一算法精度分数及所述第二算法精度分数，获取第一比较结果；

根据所述第一比较结果确定目标模型，所述目标模型为所述第二模型及所述第一模型中算法精度分数高的模型。

可选地，所述机器学习平台具体用于：

创建第一容器；

拉取训练源代码、通用训练数据集、目标预训练模型及第一模型至所述第一容器内，所述第一模型为基于所述通用训练数据集训练所述目标预训练模型所获取的模型；

清洗所述第一容器内的所述通用训练数据集，并混淆加密所述第一容器内的所述训练源代码；

将所述第一容器内混淆加密后的训练源代码、清洗后的通用训练数据集、目标预训练模型及第一模型压缩，生成训练镜像文件。

可选地，所述机器学习平台具体用于：

创建第二容器；

拉取测试源代码、通用测试数据集及所述第一模型至所述第二容器内；

清洗所述第二容器内的通用测试数据集，并混淆加密所述第二容器内的所述测试源代码；

将所述第二容器内混淆加密后的测试源代码、清洗后的通用测试数据集及所述第一模型压缩，生成测试镜像文件。

可选地，所述机器学习平台还用于导出所述训练镜像文件及所述测试镜像文件；

所述机器学习平台还用于将导出的所述训练镜像文件及所述测试镜像文件上传至minio平台，并获取所述训练镜像文件的第一下载地址及所述测试镜像文件的第二下载地址；

所述算法管理平台还用于根据所述溯源指令溯源所述训练镜像文件及所述测试镜像文件包括：

所述算法管理平台还用于向所述机器学习平台发送所述溯源指令；

所述机器学习平台还用于根据所述溯源指令向所述算法管理平台发送所述第一下载地址及所述第二下载地址，以使得所述算法管理平台通过所述第一下载地址溯源所述训练镜像文件或通过所述第二下载地址溯源所述测试镜像文件。

可选地述算法管理平台具体用于：运行部署脚本导入所述训练镜像文件，获取所述第一模型、所述通用训练数据集及所述第一模型的训练源代码；

运行所述部署脚本导入所述测试镜像文件，获取所述通用测试数据集及所述第一模型的测试源代码；

运行所述部署脚本，根据所述第一模型的训练镜像文件在所述自训练快修平台上配置所述第一模型的训练环境；

运行所述部署脚本，根据所述第一模型的测试镜像文件在所述自训练快修平台上配置所述第一模型的测试环境；

根据所述训练环境及所述测试环境将所述第一模型部署至所述自训练快修平台上，并向所述自训练快修平台发送所述通用训练数据集及所述通用测试数据集。

可选地，所述算法管理平台还用于根据所述溯源指令所携带的所述运维人员的身份信息确定所述运维人员的权限信息；

所述算法管理平台具体用于根据所述权限信息及所述溯源指令溯源训练镜像文件及测试镜像文件。

本申请第三方面提供了一种算法链路的优化系统，所述优化系统包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的一种算法链路的优化方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的一种算法链路的优化方法方法。

从以上技术方案可以看出，本申请具有以下优点：本申请提出了一种算法链路的优化方法，该优化方法包括：在本申请修复方法中，运维人员只需要在算法管理平台上发送溯源指令便可以获取训练镜像文件及测试镜像文件，通过上述步骤，完成算法溯源流程；并通过训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上，再由自训练快修平台基于生产训练数据集训练第一模型，生成第二模型；通过上述步骤，完成模型训练流程；自训练快修平台通过评估第一模型获取第一算法精度分数，并评估第二模型，获取第二算法精度分数，自训练快修平台通过第一算法精度分数及第二算法精度分数确定目标模型；通过上述步骤，完成模型评估流程；自训练快修平台向算法推理平台推送目标模型，算法推理平台将算法推理平台上的第一模型替换为目标模型；通过上述步骤，完成模型部署流程。

通过本申请的优化方法，算法生产迭代修复的链路优化为：溯源算法、模型训练、模型评估及模型部署，大大简化了算法生产迭代修复的链路，从而降低了模型的算法迭代修复的难度，使得运维人员通过简单的操作就可以简便且快速地迭代修复训练模型的算法，提高了迭代修复训练模型的算法的效率。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种算法链路的优化方法一个实施例流程示意图；

图2为本申请提供的一种算法链路的优化方法另一个实施例流程示意图；

图3为本申请提供的一种算法链路的优化系统一个实施例结构示意图；

图4为本申请提供的一种算法链路的优化系统另一个实施例结构示意图；

图5为本申请提供的一种算法链路的优化系统一个实施例结构示意图；

图6为现有算法生产迭代修复的链路；

图7为本申请方案优化后的算法生产迭代修复链路。

具体实施方式

本申请提供了一种算法链路的优化方法，用于提高迭代修复训练模型的算法的效率。

为方便阐述，本申请中以算法链路的优化系统为执行主体进行举例说明。

请参阅图1，图1为本申请提供的一种算法链路的优化方法的一个实施例，该优化方法应用于算法链路的优化系统，该优化系统包括：机器学习平台、算法管理平台、自训练快修平台及算法推理平台，该优化方法包括：

101、机器学习平台生成训练镜像文件，该训练镜像文件包括第一模型、通用训练数据集及第一模型的训练源代码；

在本实施例中，机器学习平台基于通用训练数据集训练预训练模型获取第一模型，通用训练数据集为：通用场景图片集中的用于训练的通用场景图片。

102、机器学习平台生成测试镜像文件，该测试镜像文件包括第一模型、通用测试数据集及第一模型的测试源代码；

在本实施例中，通用测试数据集为：通用场景图片集中的用于测试的通用场景图片，通用测试数据集和通用训练数据集是根据标注后的通用场景图片集按照一定比例拆分而成的数据集，例如，通用训练数据集和通用测试数据集的比例为70/30，若通用场景图片集中的图片数量为100张，按比例拆分通用场景图片集，获取70张通用训练数据集，30张通用测试数据集。

103、算法管理平台获取运维人员发送的溯源指令，并根据该溯源指令溯源训练镜像文件及测试镜像文件；

在本实施例中，运维人员根据业务需求通过终端向算法管理平台发送溯源指令或者运维人员根据业务需求直接在算法管理平台上输入溯源指令，算法管理平台获取运维人员发送的溯源指令，算法管理平台根据溯源指令查找并获取训练镜像文件及测试镜像文件。

104、算法管理平台根据训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上；

在本实施例中，算法管理平台运行部署脚本导入训练镜像文件及测试镜像文件，并根据导入的训练镜像文件及测试镜像文件将第一模型部署安装至自训练快修平台上，具体的部署过程将在下一个实施例中进行详细描述。

105、自训练快修平台基于生产训练数据集训练第一模型，生成第二模型；

在本实施例中，生产训练数据集为实际生产场景图片集中的用于训练的实际生产场景图片。自训练快修平台基于生产训练数据集训练第一模型至第一模型的损失函数输出的损失值小于预设损失值，生成第二模型。

106、自训练快修平台评估第一模型，获取第一算法精度分数，并评估第二模型，获取第二算法精度分数；

在本实施例中，自训练快修平台基于通用测试数据集及生产测试数据集评估第一模型，获取第一算法精度分数，并基于通用测试数据集及生产测试数据集评估第二模型，获取第二算法精度分数，其中，生产测试数据集为实际生产场景图片集中的用于测试的实际生产场景图片。算法精度分数用于表示模型的识别准确性，算法精度分数越高，模型的识别准确性越高。

107、自训练快修平台根据第一算法精度分数及第二算法精度分数确定目标模型，目标模型为第二模型及第一模型中算法精度分数高的模型；

在本实施例中，自训练快修平台比较第一模型的第一算法精度分数及第二模型的第二算法精度分数，若第一算法精度分数大于第二算法精度分数，则自训练快修平台确定第一模型为目标模型；若第一算法精度分数小于第二算法精度分数，则自训练快修平台确定第二模型为目标模型。

108、自训练快修平台向算法推理平台推送目标模型；

在本实施例中，当自训练快修平台根据算法精度分数确定目标模型后，自训练快修平台向算法推理平台推送目标模型。例如，若确定目标模型为第二模型，则自训练快修平台向算法推理平台推送第二模型。

109、算法推理平台将算法推理平台上的第一模型替换为目标模型。

在本实施例中，例如，若算法推理平台接收到自训练快修平台推送的目标模型为第二模型，则算法推理平台将算法推理平台上的第一模型替换为第二模型。因为目标模型为第一模型和第二模型中算法精度分数高的模型，即目标模型对实际生产场景图片及通用场景图片的识别精度更高，因此算法推理平台将第一模型替换为目标模型，从而使得运维人员可以调用识别精度高的目标模型识别实际生产场景图片。

本申请实施例提出了一种算法链路的优化方法，该优化方法包括：在本申请修复方法中，运维人员只需要在算法管理平台上发送溯源指令便可以获取训练镜像文件及测试镜像文件，通过上述步骤，完成算法溯源流程；并通过训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上，再由自训练快修平台基于生产训练数据集训练第一模型，生成第二模型；通过上述步骤，完成模型训练流程；自训练快修平台通过评估第一模型获取第一算法精度分数，并评估第二模型，获取第二算法精度分数，自训练快修平台通过第一算法精度分数及第二算法精度分数确定目标模型；通过上述步骤，完成模型评估流程；自训练快修平台向算法推理平台推送目标模型，算法推理平台将算法推理平台上的第一模型替换为目标模型；通过上述步骤，完成模型部署流程。

通过本申请的优化方法，算法生产迭代修复的链路优化为：溯源算法、模型训练、模型评估及模型部署，大大简化了算法生产迭代修复的链路，从而降低了模型的算法迭代修复的难度，使得运维人员通过简单的操作就可以简便且快速地迭代修复训练模型的算法，提高了迭代修复训练模型的算法的效率。并且，在现有的迭代修复训练模型的过程中需要算法工程师、项目经理及软件实施人员共同配合进行整个迭代修复的过程，对使用者必须具备一定的编码开发经验，通过本申请的优化方法，运维人员只需要进行简单的操作即可完成迭代修复训练算法的流程，不需要运维人员具备编码开发常识，降低了迭代修复训练算法的难度。

并且，本申请方法的算法生产迭代链路大大减少了参与人员，可以由完全不懂代码的现场实施人员自助完成整个算法的迭代优化过程，大大降低了人力成本。比如：整个算法的迭代优化过程由原来的最少4人参与，可以缩减为1人参与，人力成本缩减75%以上，全程无需算法工程师参与，可以由完全由不懂代码的现场实施人员自助完成整个算法迭代优化过程，大大降低了人力成本。

为使本申请提供的一种算法链路的优化方法更加的明显易懂，下面对本申请提供的一种算法链路的优化方法进行详细说明：

请参阅图2，图2为本申请提供的一种算法链路的优化方法另一个实施例，该优化方法包括：

201、机器学习平台生成训练镜像文件，该训练镜像文件包括第一模型、通用训练数据集及第一模型的训练源代码；

在本实施例中，机器学习平台生成训练镜像文件包括：机器学习平台创建第一容器；机器学习平台拉取训练源代码、通用训练数据集、目标预训练模型及第一模型至第一容器内，第一模型为基于通用训练数据集训练目标预训练模型所获取的模型；机器学习平台清洗第一容器内的通用训练数据集，并混淆加密第一容器内的训练源代码；机器学习平台将第一容器内混淆加密后的训练源代码、通用训练数据集、目标预训练模型及第一模型压缩，生成训练镜像文件。

在本实施例中，机器学习平台基于算法编码环境pod快照，创建第一容器。机器学习平台清洗第一容器内的通用训练数据集，去除通用训练数据集中相似度超过预设相似度的相似图片。对于训练源代码，根据行业通用的框架等资料，有可能逆向复现出完整的训练源代码，大大降低了安全性。通过混淆加密训练源代码，使得混淆加密后的训练源代码虽然具有与原始训练源代码等价的功能，但是在形式上很难被复现，从而提高了安全性。其中混淆加密可以通过如下形式实现：对训练源代码中的一部分代码进行常规混淆操作，包括移除注释、注入其他代码、重命名函数、类、变量等方法降低代码的可读性，提高破解门槛。同时，对训练源代码中的至少一处计算过程进行修改，配合修改第一模型的参数与该计算过程中的相应参数，以使得混淆后的训练源代码的运行结果与混淆前的训练源代码的运行结果一致。由于在混淆过程中配合了对第一模型参数的修改调整，因此，他人难以定位发生混淆的具体位置，进一步提高了复现原始训练源代码的难度，实现了对训练源代码的保护。机器学习平台将第一容器打成第一tar压缩包，生成训练镜像文件，减小了训练镜像文件所占用的存储空间。

202、机器学习平台生成测试镜像文件，测试镜像文件包括第一模型、通用测试数据集及第一模型的测试源代码；

在本实施例中，机器学习平台生成测试镜像文件包括：机器学习平台创建第二容器，机器学习平台拉取测试源代码、通用测试数据集及第一模型至第二容器内；机器学习平台清洗第二容器内的通用测试数据集，并混淆加密第二容器内的测试源代码；机器学习平台将第二容器内混淆加密后的测试源代码、清洗后的通用测试数据集及第一模型压缩，生成测试镜像文件。

在本实施例中，机器学习平台基于算法编码环境pod快照，创建第二容器。机器学习平台清洗第二容器内的通用训练数据集，去除通用测试数据集中相似度超过预设相似度的图片。机器学习平台将第二容器打成第二tar压缩包，生成测试镜像文件，减小了测试镜像文件所占用的存储空间。

203、机器学习平台导出训练镜像文件及测试镜像文件；

在本实施例中，机器学习平台将压缩后的训练镜像文件及压缩后的测试镜像文件导出。

204、机器学习平台将导出的训练镜像文件及测试镜像文件上传至minio平台，并获取训练镜像文件的第一下载地址及测试镜像文件的第二下载地址；

在本实施例中，机器学习平台将导出的训练镜像文件及测试镜像文件上传至minio平台，minio平台是一套基于Apache License V2.0协议的轻量级、高性能开源对象存储框架，适用于图片、视频、镜像等海量非结构化数据存储。minio采用Golang实现，客户端支持Java、Python、JavaScript、Golang语言，兼容亚马逊S3云存储服务接口，方便与其他应用结合。对象存储的出现是为解决了存储海量大数据的问题，如存储海量的视频、图片，并进行数据归档、数据备份、大数据分析等操作。对象存储一般采用key-object的扁平化存储架构，使用方便，调用API就可进行数据的多样化读写。其大容量、动态扩展、数据灾备等性能，是传统文件存储和NAS无法比拟的。minio平台生成训练镜像文件的第一下载地址及测试镜像文件的第二下载地址，并向机器学习平台发送第一下载地址及第二下载地址，以使得机器学习平台通过第一下载地址溯源训练镜像文件，通过第二下载地址溯源第二镜像文件。

205、算法管理平台获取运维人员发送的溯源指令，根据溯源指令所携带的运维人员的身份信息确定运维人员的权限信息，并根据权限信息及溯源指令溯源训练镜像文件及测试镜像文件；

在本实施例中，运维人员发送的溯源指令中包含callback_id，算法管理平台根据callback_id所携带的运维人员身份信息确定运维人员的权限信息，并根据运维人员权限信息确定运维人员是否有获取训练镜像文件及测试镜像文件的权限，若运维人员有获取训练镜像文件及测试镜像的权限，则算法管理平台执行步骤206；若运维人员没有获取训练镜像文件及测试镜像文件的权限，则算法管理平台终止流程。

206、算法管理平台向机器学习平台发送溯源指令；

在本实施例中，算法管理平台向机器学习平台发送溯源指令，以使得机器学习平台根据溯源指令中包含的project_id和instance_id溯源训练镜像文件及测试镜像文件。其中，project_id为项目id, instance_id为业务id。

207、机器学习平台根据溯源指令向算法管理平台发送第一下载地址及第二下载地址，以使得算法管理平台通过第一下载地址溯源训练镜像文件或通过第二下载地址溯源测试镜像文件；

在本实施例中，机器学习平台根据溯源指令查找并确定训练镜像文件的第一下载地址及测试镜像文件的第二下载地址，并向算法管理平台发送第一下载地址及第二下载地址，以使得算法管理平台通过第一下载地址下载训练镜像文件或通过第二下载地址下载测试镜像文件。

208、运维人员通过算法管理平台根据训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上；

在本实施例中，运维人员通过算法管理平台运行部署脚本导入训练镜像文件，获取第一模型、通用训练数据集及第一模型的训练源代码；运维人员通过算法管理平台运行部署脚本导入测试镜像文件，获取通用测试数据集及第一模型的测试源代码；运维人员通过算法管理平台运行部署脚本，根据第一模型的训练镜像文件在自训练快修平台上配置第一模型的训练环境；运维人员通过算法管理平台运行部署脚本，根据第一模型的测试镜像文件在自训练快修平台上配置第一模型的测试环境；运维人员通过算法管理平台根据训练环境及测试环境将第一模型部署至自训练快修平台上，并向自训练快修平台发送通用训练数据集及通用测试数据集。

在本实施例中，运维人员通过算法管理平台运行部署脚本，根据第一模型的训练镜像文件在自训练快修平台上配置第一模型的训练环境，以使得自训练快修平台可以运行并训练第一模型；算法管理平台运行部署脚本，根据测试镜像文件在自训练快修平台上配置第一模型的测试环境，以使得自训练快修平台可以运行并测试第一模型。

209、自训练快修平台通过控制指令控制设置于生产环境的摄像头拍摄实际生产环境图片，获取生产数据集；

在本实施例中，设置于生产环境的若干摄像头与自训练快修平台通信连接，当自训练快修平台需要获取实际生产环境图片时，即可通过控制指令控制若干摄像头拍摄不同角度或携带移动目标的实际生产环境图片，获取生产数据集。在本实施例中，算法管理平台部署在云端，自训练快修平台部署在公司内网或公司现场，进一步增强了生产数据集的保密性。

可选地，本实施例中的自训练快修平台还可以安装于自训练快修机上，该自训练快修机具有可便携移动性，可将该自训练快修机携带至生产现场，并且在生产现场进行模型优化时无法连接外网，保障了生产环境数据的安全隐私。

可选地，自训练快修平台对生产数据集统一进行预处理，该预处理为均值消减的归一化处理。算法推理平台对生产数据集做均值消减的归一化处理，其中，均值消减的归一化处理的公式如下：

其中，公式一为归一化过程，x为输入值，μ为输入值的均值，σ^2为输入值的方差，∈为输入值的偏移量。公式二为仿射过程，其中γ和β统称为仿射系数。

对于图片均值消减的归一化处理来说，其输入是四维张量：

，这四个维度分别是样本数目（N）,样本数据的高度（H），样本数据的宽度（W）以及样本的通道数（C）。设X_nhwc为输入X中的一个具体元素，均值消减的归一化的具体计算过程如下：

首先在输入的N、H、W这三个维度上计算均值和方差：

通过下标可以看出，均值和方差都是大小为与输入通道数（C）相同的向量。将公式三及公式四带入到公式一中，对输入的每一个元素进行归一化：

同时仿射系数都是大小为C的向量，即：γ，β∈R^C,将它们带入公式二中，得到：

其中，A_nhwc是输出中的具体的一个元素。

计算关于γ_c、β_c：

通过公式五、公式六及公式七得到γ_c和β_c，从而根据γ_c和β_c对生产数据集中的实际生产场景图片进行归一化处理。在本实施例中，通过均值消减的归一化处理对生产数据集中的实际生产环境图片的各个通道进行去中心化处理。均值消减的归一化处理的目的是为了移除实际生产环境图片的平均亮度值。在本实施例中的图片分类识别的情况下，对图像的亮度并不感兴趣，对每个数据点移除像素均值便可以弱化图像亮度之间的差别，从而使得自训练快修平台能够更快地提取出生产数据集的高层次特征，从而提高训练效率。

210、自训练快修平台调用清洗脚本清洗生产数据集；

在本实施例中，自训练快修平台调用清洗脚本清洗生产数据集，去除生产数据集中相似度超过预设相似度的两张图片中任一一张图片。从而避免自训练快修平台重复学习相似度较高的两张图片的特征，从而提高了训练效率。

211、自训练快修平台将清洗后的生产数据集发送至数据标注平台；

在本实施例中，自训练快修平台将清洗后的生产数据集发送至数据标注平台，以使得数据标注平台标注生产数据集。

212、数据标注平台标注生产数据集，并将标注后的生产数据集发送至自训练快修平台；

在本实施例中，数据标注平台接收到自训练快修平台发送的生产数据集后，数据标注平台为生产数据集中图片打上该图片对应的真实标签，完成标注，并将标注后的生产数据集发送至自训练快修平台。

213、自训练快修平台按照预设比例将生产数据集拆分为生产训练数据集及生产测试数据集；

在本实施例中，自训练快修平台按照预设比例将生产数据集拆分为生产训练数据集及生产测试数据集，生产训练数据集为生产数据集中用于训练的数据集，生产测试数据集为生产数据集中用于测试的数据集。例如：生产训练数据集比生产测试数据集的预设比例为80:20，生产数据集中包含100张实际生产场景图片，则将生产数据集中80张实际生产场景图片作为生产训练数据集，将生产数据集中20张实际生产场景图片作为生产测试数据集。

214、自训练快修平台基于生产训练数据集训练第一模型，生成第二模型；

在本实施例中，自训练快修平台基于生产训练数据集训练第一模型，并根据第一模型的损失函数计算第一模型的损失值，若第一模型的损失值小于预设损失值，则自训练快修平台确定当前的第一模型为第二模型。

215、自训练快修平台评估第一模型，获取第一算法精度分数，并评估第二模型，获取第二算法精度分数；

在本实施例中，自训练快修平台基于第一模型、测试镜像文件及生产测试数据集，发起第一测试评估，获取第一算法精度分数；自训练快修平台基于第二模型、测试镜像文件及生产测试数据集，发起第二测试评估，获取第二算法精度分数；自训练快修平台比较第一算法精度分数及第二算法精度分数，获取第一比较结果；自训练快修平台根据第一比较结果确定目标模型，目标模型为第二模型及第一模型中算法精度分数高的模型。

在本实施例中，第一算法精度分数及第二算法精度分数的计算公式如下：

Precision=(2*x*y)/(x+y)；

其中，x=正确预测框的个数/需预测框的总数；y=正确预测框的个数/标注检测框的个数，自训练快修平台根据第一算法精度分数的计算公式发起第一测试评估，获取第一算法精度分数；根据第二算法精度分数的计算公式发起第二测试评估，获取第二算法精度分数。

216、自训练快修平台根据第一算法精度分数及第二算法精度分数确定目标模型，目标模型为第二模型及第一模型中算法精度分数高的模型；

217、自训练快修平台向算法推理平台推送目标模型；

218、算法推理平台将算法推理平台上的第一模型替换为目标模型；

本实施例中的步骤216至218与前述图1实施例中的步骤107至109类似，具体此处不再赘述。在本实施例中，通过上述算法链路优化方法，新的迭代流程缩减为5个：溯源算法，数据标注，模型训练，模型评估，模型部署，简化省略掉了算法生产链路中的编码开发、SDK封装、流媒体封装、算法测试、算法上架、算法升级6个环节，增加了1个环节：溯源算法；由于算法迭代流程的缩减，有效缩减了算法迭代周期，使得算法迭代效率效率大幅提升。比如：原始算法迭代周期为六周，通过本申请的算法链路优化方法可以缩减为一周，时间缩短85%，从而大幅提高了效率。

上述对本申请提供的一种算法链路的优化方法进行了说明，下面对本申请提供的一种算法链路的优化系统进行说明：

请参阅图3，图3为本申请提供的一种算法链路的优化系统一个实施例，该优化系统包括：

机器学习平台301、算法管理平台302、自训练快修平台303及算法推理平台304；

机器学习平台301用于生成训练镜像文件，训练镜像文件包括第一模型、通用训练数据集及第一模型的训练源代码；

机器学习平台301还用于生成测试镜像文件，测试镜像文件包括第一模型、通用测试数据集及第一模型的测试源代码；

算法管理平台302用于获取运维人员发送的溯源指令，并根据溯源指令溯源训练镜像文件及测试镜像文件；

运维人员通过算法管理平台302根据训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上；

自训练快修平台303用于基于生产训练数据集训练第一模型，生成第二模型；

自训练快修平台303还用于评估第一模型，获取第一算法精度分数，并评估第二模型，获取第二算法精度分数；

自训练快修平台303还用于根据第一算法精度分数及第二算法精度分数确定目标模型，目标模型为第二模型及第一模型中算法精度分数高的模型；

自训练快修平台303还用于向算法推理平台推送目标模型；

算法推理平台304用于将算法推理平台上的第一模型替换为目标模型。

本实施例系统中，各单元所执行的功能与前述图1所示方法实施例中的步骤对应，具体此处不再赘述。

下面对本申请提供的一种算法链路的优化系统进行详细说明，请参阅图4，图4为本申请提供的一种算法链路的优化系统另一个实施例，该优化系统包括：

本申请第二方面提供了一种算法链路的优化系统，所述优化系统包括：机器学习平台401、算法管理平台402、自训练快修平台403、算法推理平台404及数据标注平台405；

机器学习平台401用于生成训练镜像文件，训练镜像文件包括第一模型、通用训练数据集及第一模型的训练源代码；

机器学习平台401还用于生成测试镜像文件，测试镜像文件包括第一模型、通用测试数据集及第一模型的测试源代码；

算法管理平台402用于获取运维人员发送的溯源指令，并根据溯源指令溯源训练镜像文件及测试镜像文件；

算法管理平台402还用于根据训练镜像文件、测试镜像文件及部署脚本将第一模型部署至自训练快修平台上；

自训练快修平台403用于基于生产训练数据集训练第一模型，生成第二模型；

自训练快修平台403还用于评估第一模型，获取第一算法精度分数，并评估第二模型，获取第二算法精度分数；

自训练快修平台403还用于根据第一算法精度分数及第二算法精度分数确定目标模型，目标模型为第二模型及第一模型中算法精度分数高的模型；

自训练快修平台403还用于向算法推理平台推送目标模型；

算法推理平台404用于将算法推理平台上的第一模型替换为目标模型。

可选地，优化系统还包括：数据标注平台405；

自训练快修平台403还用于调用清洗脚本并根据通用训练数据集清洗生产数据集；

自训练快修平台403还用于将清洗后的生产数据集发送至数据标注平台405；

数据标注平台405用于标注生产数据集，并将标注后的生产数据集发送至自训练快修平台403；

自训练快修平台403用于按照预设比例将生产数据集拆分为生产训练数据集及生产测试数据集。

可选地，算法推理平台404还用于通过控制指令控制设置于生产环境的摄像头拍摄实际生产环境图片，获取生产数据集；

算法推理平台404还用于向自训练快修平台发送生产数据集。

可选地，自训练快修平台403具体用于评估第一模型，获取第一算法精度分数，并评估第二模型，获取第二算法精度分数包括：

基于第一模型、测试镜像文件及生产测试数据集，发起第一测试评估，获取第一算法精度分数；

基于第二模型、测试镜像文件及生产测试数据集，发起第二测试评估，获取第二算法精度分数；

根据第一算法精度分数及第二算法精度分数确定目标模型包括：

比较第一算法精度分数及第二算法精度分数，获取第一比较结果；

根据第一比较结果确定目标模型，目标模型为第二模型及第一模型中算法精度分数高的模型。

可选地，机器学习平台401具体用于：

创建第一容器；

拉取训练源代码、通用训练数据集、目标预训练模型及第一模型至第一容器内，第一模型为基于通用训练数据集训练目标预训练模型所获取的模型；

清洗第一容器内的通用训练数据集，并混淆加密第一容器内的训练源代码；

将第一容器内混淆加密后的训练源代码、清洗后的通用训练数据集、目标预训练模型及第一模型压缩，生成训练镜像文件。

可选地，机器学习平台401具体用于：

创建第二容器；

拉取测试源代码、通用测试数据集及第一模型至第二容器内；

清洗第二容器内的通用测试数据集，并混淆加密第二容器内的测试源代码；

将第二容器内混淆加密后的测试源代码、清洗后的通用测试数据集及第一模型压缩，生成测试镜像文件。

可选地，机器学习平台401还用于导出训练镜像文件及测试镜像文件；

机器学习平台401还用于将导出的训练镜像文件及测试镜像文件上传至minio平台，并获取训练镜像文件的第一下载地址及测试镜像文件的第二下载地址；

算法管理平台402还用于根据溯源指令溯源训练镜像文件及测试镜像文件包括：

算法管理平台402还用于向机器学习平台发送溯源指令；

机器学习平台401还用于根据溯源指令向算法管理平台发送第一下载地址及第二下载地址，以使得算法管理平台通过第一下载地址溯源训练镜像文件或通过第二下载地址溯源测试镜像文件。

可选地述算法管理平台402具体用于：运行部署脚本导入训练镜像文件，获取第一模型、通用训练数据集及第一模型的训练源代码；

运行部署脚本导入测试镜像文件，获取通用测试数据集及第一模型的测试源代码；

运行部署脚本，根据第一模型的训练镜像文件在自训练快修平台上配置第一模型的训练环境；

运行部署脚本，根据第一模型的测试镜像文件在自训练快修平台上配置第一模型的测试环境；

根据训练环境及测试环境将第一模型部署至自训练快修平台上，并向自训练快修平台发送通用训练数据集及通用测试数据集。

可选地，算法管理平台402还用于根据溯源指令所携带的运维人员的身份信息确定运维人员的权限信息；

算法管理平台402具体用于根据权限信息及溯源指令溯源训练镜像文件及测试镜像文件。

本实施例系统中，各单元所执行的功能与前述图2所示方法实施例中的步骤对应，具体此处不再赘述。

本申请还提供了一种算法链路的优化系统，请参阅图5，图5为本申请提供的一种算法链路的优化系统的一个实施例，该优化系统包括：

处理器501、存储器502、输入输出单元503、总线504；

处理器501与存储器502、输入输出单元503以及总线504相连；

存储器502保存有程序，处理器501调用程序以执行如上任一一种算法链路的优化方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，当程序在计算机上运行时，使得计算机执行如上任一一种算法链路的优化方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，read-only memory）、随机存取存储器（RAM，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种算法链路的优化方法，所述优化方法应用于算法链路的优化系统，其特征在于，所述优化系统包括：机器学习平台、算法管理平台、自训练快修平台及算法推理平台，所述优化方法包括：

所述运维人员通过所述算法管理平台根据所述训练镜像文件、所述测试镜像文件及部署脚本将所述第一模型部署至所述自训练快修平台上，所述自训练快修平台部署在公司内网或公司现场或安装于自训练快修机上，所述自训练快修机具有可便携移动性，当需要进行模型优化时，将所述自训练快修机携带至生产现场，并且在进行模型优化时不连接外网；

所述自训练快修平台通过控制指令控制设置于生产环境的摄像头拍摄实际生产环境图片，获取生产数据集；

所述自训练快修平台调用清洗脚本并清洗生产数据集；

所述自训练快修平台对所述生产数据集统一进行预处理，所述预处理的公式如下：

其中，x为输入值，μ为输入值的均值，σ^2为输入值的方差，∈为输入值的偏移量；对于生产数据集的图片而言，其输入是四维张量：

，这四个维度分别是样本数目N,样本数据的高度H，样本数据的宽度W以及样本的通道数C，设X_nhwc为输入X中的一个具体元素，生产数据集的图片预处理计算过程如下：

将公式三及公式四带入到公式一中，对输入的每一个元素进行预处理包括：

γ，β∈R^C,将它们带入公式二中，得到：

其中，A_nhwc是输出中的具体的一个元素；

计算关于γ_c、β_c：

通过公式五、公式六及公式七得到γ_c和β_c，从而根据γ_c和β_c对所述生产数据集进行预处理；

所述自训练快修平台按照预设比例将预处理后的生产数据集拆分为生产训练数据集及生产测试数据集；

所述自训练快修平台基于所述生产训练数据集训练所述第一模型，生成第二模型；

所述自训练快修平台评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数，评估公式为：Precision=(2*x*y)/(x+y)，其中，x=正确预测框的个数/需预测框的总数；y=正确预测框的个数/标注检测框的个数；

2.根据权利要求1所述的优化方法，其特征在于，所述自训练快修平台评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数包括：

3.根据权利要求1所述的优化方法，其特征在于，所述机器学习平台生成训练镜像文件包括：

所述机器学习平台创建第一容器；

4.根据权利要求1所述的优化方法，其特征在于，所述机器学习平台生成所述测试镜像文件包括：

所述机器学习平台创建第二容器；

5.根据权利要求1至4中任一项所述的优化方法，其特征在于，在所述机器学习平台生成镜像文件之后，所述优化方法还包括：

所述算法管理平台向所述机器学习平台发送所述溯源指令；

6.根据权利要求5所述的优化方法，其特征在于，所述运维人员通过所述算法管理平台根据所述训练镜像文件、所述测试镜像文件及部署脚本将所述第一模型部署至所述自训练快修平台上包括：

所述运维人员通过所述算法管理平台运行所述部署脚本导入所述测试镜像文件，获取所述通用测试数据集及所述第一模型的测试源代码；

所述运维人员通过所述算法管理平台运行所述部署脚本，根据所述第一模型的训练镜像文件在所述自训练快修平台上配置所述第一模型的训练环境；

所述运维人员通过所述算法管理平台运行所述部署脚本，根据所述第一模型的测试镜像文件在所述自训练快修平台上配置所述第一模型的测试环境；

所述运维人员通过所述算法管理平台根据所述训练环境及所述测试环境将所述第一模型部署至所述自训练快修平台上，并向所述自训练快修平台发送所述通用训练数据集及所述通用测试数据集。

7.根据权利要求1至4中任一项所述的优化方法，其特征在于，在所述算法管理平台获取运维人员发送的溯源指令之后，所述优化方法包括:

8.一种算法链路的优化系统，其特征在于，所述优化系统包括：

机器学习平台、算法管理平台、自训练快修平台及算法推理平台；

所述机器学习平台用于生成测试镜像文件，所述测试镜像文件包括所述第一模型、通用测试数据集及所述第一模型的测试源代码；

所述算法管理平台还用于根据所述训练镜像文件、所述测试镜像文件及部署脚本将所述第一模型部署至所述自训练快修平台上，所述自训练快修平台部署在公司内网或公司现场或安装于自训练快修机上，所述自训练快修机具有可便携移动性，当需要进行模型优化时，将所述自训练快修机携带至生产现场，并且在生产现场进行模型优化时不连接外网；

所述自训练快修平台调用清洗脚本并清洗生产数据集；

γ，β∈R^C,将它们带入公式二中，得到：

其中，A_nhwc是输出中的具体的一个元素；

计算关于γ_c、β_c：

所述自训练快修平台用于基于所述生产训练数据集训练所述第一模型，生成第二模型；

所述自训练快修平台还用于评估所述第一模型，获取第一算法精度分数，并评估所述第二模型，获取第二算法精度分数，评估公式为：Precision=(2*x*y)/(x+y)，其中，x=正确预测框的个数/需预测框的总数；y=正确预测框的个数/标注检测框的个数；