CN114154406A

CN114154406A - 基于黑盒优化器的ai模型自动建模系统

Info

Publication number: CN114154406A
Application number: CN202111389645.5A
Authority: CN
Inventors: 王金淋; 吴承霖
Original assignee: Xiamen Shenfuzhi Technology Co ltd
Current assignee: Xiamen Shenfuzhi Technology Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-08

Abstract

本发明涉及元学习和自动机器学习技术领域，公开了基于黑盒优化器的AI模型自动建模系统，包括自动建模系统，数据管理模块主要用于数据集的多源接入和可视化，推理服务管理主要基于训练好的模型部署的API服务启停等管理，而训练项目管理作为其中的核心模块，包含了AI模型的自动建模功能，当用户提交建模实验时，优化方法会利用历史实验结果进行实验搜索空间的初始化以及在每次试验时，自动选择可能会带来更好效果的算子，减少了用户在不同场景数据下手动去尝试寻找最好模型的时间成本，提升了整体了建模效率，此外，该系统可以应用到包括表格、图像、文本、视频、音频全模态的所有任务中，具有很强的落地应用性。

Description

基于黑盒优化器的AI模型自动建模系统

技术领域

本发明涉及元学习和自动机器学习技术领域，特别涉及基于黑盒优化器的AI模型自动建模系统。

背景技术

AI模型自动建模系统主要是算法研发人员用于AI建模时使用，一般包含数据管理、训练项目管理和推理服务管理三个模块。早期，算法研发人员在针对一个场景具体建模时，需要在自己的服务器上进行数据的处理分析，根据分析结果判断适合该场景数据的模型。在模型的训练过程中，还需要根据实时的模型训练曲线和指标情况不断的调整超参并最终达到期望的模型指标效果。在此过程中，如果选择的模型效果不好，又得重新进行不断的调参。后期，出现了一些搭载例如HyperOpt的超参优化自动建模系统，该系统对模型内需要调参的参数值设置参数范围，通过贝叶斯优化等优化算法来进行优化，从而在较短的调整次数内即可达到一个最优的指标结果。

当前的自动建模系统的缺点在于：当前的自动建模系统一般是根据用户自己的场景需求来手动选择一个模型进行建模，并通过一些超参优化方法进行模型的超参调整。该流程中，由于客户的场景是五花八门的，手动选择的模型很难保证是能够在该场景数据上取得可靠的模型指标结果。此外，超参的优化一般都是随机开始的，对于一个新场景来说，每次随机初始化优化意味着花费更多的时间去确定一个最终稳定的参数集合值。一般来说，如果根据不同的场景数据自适应选择不同模型以及通过历史建模结果进行超参数的预选择，能更快的提升建模效率和效果。总而言之，当前的自动建模系统对于算法研发人员的建模效率还有较大的提升空间。

针对以上问题，对现有装置进行了改进，提出了基于黑盒优化器的AI模型自动建模系统。

发明内容

本发明的目的在于提供基于黑盒优化器的AI模型自动建模系统，数据管理模块主要用于数据集的多源接入和可视化，推理服务管理主要基于训练好的模型部署的API服务启停等管理，而训练项目管理作为其中的核心模块，包含了AI模型的自动建模功能，用户能够在不同的场景中自适应选择模型，降低建模模型选择成本，同时，基于历史的建模结果数据，缩小模型超参参数空间的范围，达到模型更快更好收敛速度的AI模型自动建模系统，相对于对单个模型进行调优的优化方法，该系统更具效率和普适性，数据拼接模块用于将收集到的数据碎片拼接成完整的数据链，数据融合模块用于将拼接的数据进行融合处理，方案创建模块用于将数据的整合链进行整理，得出完整方案，数据拼接模块、数据融合模块和方案创建模块同时进行数据的管理工作，用于提高整体的连贯性，提升容错率，解决了背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：基于黑盒优化器的AI模型自动建模系统，包括自动建模系统，自动建模系统包括数据管理、训练项目管理和推理服务管理，数据管理模块主要用于数据集的多源接入和可视化，推理服务管理主要基于训练好的模型部署的API服务启停等管理，而训练项目管理作为其中的核心模块，包含了AI模型的自动建模功能。

进一步地，自动建模系统与算子库无线连接，算子库，包括但不局限于骨干网络、优化器、损失函数、数据增强算法等在内的各种算子集合。

进一步地，训练项目管理包括训练请求客户端和黑盒优化器服务，黑盒优化器服务对接算子库和元特征访问服务。

进一步地，算子库与黑盒优化器服务无线连接。

进一步地，元特征访问服务包括数据集元特征和模型训练结果元特征，数据集元特征，用来区分表示不同数据集间的差异性；模型训练结果元特征，用于表示模型训练结果指标及所使用的超参。

进一步地，黑盒优化器服务包括算子配置模板、优化器配置模板、模型效果评估模块和试验控制模块，算子配置模板，用于配置可用于训练的算子子集，默认使用全部算子；优化器配置模板，用于优化器方法的配置；模型效果评估模块，用于数据集在不同超参下的指标结果及性能；试验控制模块，用于控制一个数据集完整实验中所有试验的执行，用户选择待建模的数据集和目标建模的任务，点击一键训练后，创建一个实验，由训练请求客户端将实验提交到黑盒优化器服务，开始实验自动建模，容错率高。

进一步地，元特征访问服务与黑盒优化器服务无线连接，元特征访问服务本身存储大量数据集的元特征及历史实验训练结果元特征，优化器在第一次推荐搜索空间值时，会先计算实验数据集的元特征，并请求元特征访问服务，元特征访问服务执行数据集元特征近似计算，得到与实验数据集相似的已有数据集，并得到与其对应的历史实验训练结果元特征(包含搜索空间值和指标结果)，历史搜索空间值会加入到优化器推荐出的初始搜索空间值中，形成最终推荐搜索空间值，后续的推荐中，将不会加入历史搜索空间值。

进一步地，黑盒优化器内包含的优化器有：GP(遗传编程)、TPE、SMAC、MCTS(基于蒙特卡洛树搜索)，通过优化器配置面板进行选择及设置对应的参数。

进一步地，数据管理模块包括数据拼接模块、数据融合模块和方案创建模块，数据拼接模块用于将收集到的数据碎片拼接成完整的数据链，数据融合模块用于将拼接的数据进行融合处理，方案创建模块用于将数据的整合链进行整理，得出完整方案，数据拼接模块、数据融合模块和方案创建模块同时进行数据的管理工作，用于提高整体的连贯性，提升容错率。

进一步地，数据管理模块进行待训练数据集的接入和可视化操作，包括查看数据集统计信息和单个样本详情等，接入方式目前包括本地上传、数据库接入、HDFS接入多种方式。

与现有技术相比，本发明的有益效果是：

1、本发明提出的基于黑盒优化器的AI模型自动建模系统，用户在使用不同场景建模时，可以通过平台化进行建模操作，避免了命令行建模的过程，同时，该系统内置了包含几百个常见及当前效果最优的模型的算子库，当用户提交建模实验时，优化方法会利用历史实验结果进行实验搜索空间的初始化以及在每次试验时，自动选择可能会带来更好效果的算子，减少了用户在不同场景数据下手动去尝试寻找最好模型的时间成本，提升了整体了建模效率，此外，该系统可以应用到包括表格、图像、文本、视频、音频全模态的所有任务中，具有很强的落地应用性。

2、本发明提出的基于黑盒优化器的AI模型自动建模系统，元特征访问服务包括数据集元特征和模型训练结果元特征，数据集元特征，用来区分表示不同数据集间的差异性；模型训练结果元特征，用于表示模型训练结果指标及所使用的超参，元特征访问服务与黑盒优化器服务无线连接，元特征访问服务本身存储大量数据集的元特征及历史实验训练结果元特征，优化器在第一次推荐搜索空间值时，会先计算实验数据集的元特征，并请求元特征访问服务，元特征访问服务执行数据集元特征近似计算，得到与实验数据集相似的已有数据集，并得到与其对应的历史实验训练结果元特征(包含搜索空间值和指标结果)，历史搜索空间值会加入到优化器推荐出的初始搜索空间值中，形成最终推荐搜索空间值，后续的推荐中，将不会加入历史搜索空间值。

3、本发明提出的基于黑盒优化器的AI模型自动建模系统，黑盒优化器服务包括算子配置模板、优化器配置模板、模型效果评估模块和试验控制模块，算子配置模板，用于配置可用于训练的算子子集，默认使用全部算子；优化器配置模板，用于优化器方法的配置；模型效果评估模块，用于数据集在不同超参下的指标结果及性能；试验控制模块，用于控制一个数据集完整实验中所有试验的执行，用户选择待建模的数据集和目标建模的任务，点击一键训练后，创建一个实验，由训练请求客户端将实验提交到黑盒优化器服务，开始实验自动建模，容错率高，黑盒优化器服务根据得到的搜索空间值，实例化一个试验，该试验会在资源隔离的容器内进行一次完整的训练，并输出对应的建模主指标和辅助指标，黑盒优化器服务根据得到的训练主指标反馈，优化器会再推荐出一组搜索空间值，并重复上一步的流程，直到达到试验次数或者主指标收敛，当用户提交建模实验时，优化方法会利用历史实验结果进行实验搜索空间的初始化以及在每次试验时，自动选择可能会带来更好效果的算子，减少了用户在不同场景数据下手动去尝试寻找最好模型的时间成本，提升了整体了建模效率，此外，该系统可以应用到包括表格、图像、文本、视频、音频全模态的所有任务中，具有很强的落地应用性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明基于黑盒优化器的AI模型自动建模系统的整体工作判定图；

图2为本发明基于黑盒优化器的AI模型自动建模系统的整体系统框图；

图3为本发明基于黑盒优化器的AI模型自动建模系统的数据管理模块系统框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参阅图1和图2，基于黑盒优化器的AI模型自动建模系统，包括自动建模系统，自动建模系统包括数据管理、训练项目管理和推理服务管理，数据管理模块主要用于数据集的多源接入和可视化，推理服务管理主要基于训练好的模型部署的API服务启停等管理，而训练项目管理作为其中的核心模块，包含了AI模型的自动建模功能，自动建模系统与算子库无线连接，算子库，包括但不局限于骨干网络、优化器、损失函数、数据增强算法等在内的各种算子集合，训练项目管理包括训练请求客户端和黑盒优化器服务，黑盒优化器服务对接算子库和元特征访问服务，算子库与黑盒优化器服务无线连接，开始自动建模后，实验将包含算子库的搜索空间注册到优化器内进行初始化，优化器推荐出一组搜索空间值。

元特征访问服务包括数据集元特征和模型训练结果元特征，数据集元特征，用来区分表示不同数据集间的差异性；模型训练结果元特征，用于表示模型训练结果指标及所使用的超参，元特征访问服务与黑盒优化器服务无线连接，元特征访问服务本身存储大量数据集的元特征及历史实验训练结果元特征，优化器在第一次推荐搜索空间值时，会先计算实验数据集的元特征，并请求元特征访问服务，元特征访问服务执行数据集元特征近似计算，得到与实验数据集相似的已有数据集，并得到与其对应的历史实验训练结果元特征(包含搜索空间值和指标结果)，历史搜索空间值会加入到优化器推荐出的初始搜索空间值中，形成最终推荐搜索空间值，后续的推荐中，将不会加入历史搜索空间值。

黑盒优化器服务包括算子配置模板、优化器配置模板、模型效果评估模块和试验控制模块，算子配置模板，用于配置可用于训练的算子子集，默认使用全部算子；优化器配置模板，用于优化器方法的配置；模型效果评估模块，用于数据集在不同超参下的指标结果及性能；试验控制模块，用于控制一个数据集完整实验中所有试验的执行，用户选择待建模的数据集和目标建模的任务，点击一键训练后，创建一个实验，由训练请求客户端将实验提交到黑盒优化器服务，开始实验自动建模，容错率高。

本发明的黑盒优化器内包含的优化器有：GP(遗传编程)、TPE、SMAC、MCTS(基于蒙特卡洛树搜索)，用户通过优化器配置面板进行选择及设置对应的参数，黑盒优化器服务根据得到的搜索空间值，实例化一个试验，该试验会在资源隔离的容器内进行一次完整的训练，并输出对应的建模主指标和辅助指标，黑盒优化器服务根据得到的训练主指标反馈，优化器会再推荐出一组搜索空间值，并重复上一步的流程，直到达到试验次数或者主指标收敛，当用户提交建模实验时，优化方法会利用历史实验结果进行实验搜索空间的初始化以及在每次试验时，自动选择可能会带来更好效果的算子，减少了用户在不同场景数据下手动去尝试寻找最好模型的时间成本，提升了整体了建模效率，此外，该系统可以应用到包括表格、图像、文本、视频、音频全模态的所有任务中，具有很强的落地应用性，其中建模主指标和辅助指标(分为辅助效果指标和辅助性能指标)根据不同的模态任务(表格、文本、图像、视频、音频)会有所不同，典型的，AUC为模态分类任务的主指标，F1、ACC、LogLoss为辅助效果指标，FPS(每秒处理样本数)、FLOPs(浮点运算次数)、MaxMem(最大内存使用量)为辅助性能指标。

参阅图1-3，数据管理模块包括数据拼接模块、数据融合模块和方案创建模块，数据拼接模块用于将收集到的数据碎片拼接成完整的数据链，数据融合模块用于将拼接的数据进行融合处理，方案创建模块用于将数据的整合链进行整理，得出完整方案，数据拼接模块、数据融合模块和方案创建模块同时进行数据的管理工作，用于提高整体的连贯性，提升容错率，涵盖范围广，数据管理模块进行待训练数据集的接入和可视化操作，包括查看数据集统计信息和单个样本详情等，接入方式目前包括本地上传、数据库接入、HDFS接入多种方式，用户选择待建模的数据集和目标建模的任务，点击一键训练后，创建一个实验，由训练请求客户端将实验提交到黑盒优化器服务，开始实验自动建模，容错率高。

综上所述：本发明提供的基于黑盒优化器的AI模型自动建模系统，首先通过数据管理模块，进行待训练数据集的接入和可视化操作，包括查看数据集统计信息和单个样本详情等，接入方式目前包括本地上传、数据库接入、HDFS接入多种方式，其次用户选择待建模的数据集和目标建模的任务，点击一键训练后，创建一个实验，由训练请求客户端将实验提交到黑盒优化器服务，开始实验自动建模，容错率高，开始自动建模后，实验将包含算子库的搜索空间注册到优化器内进行初始化，优化器推荐出一组搜索空间值，元特征访问服务本身存储大量数据集的元特征及历史实验训练结果元特征，优化器在第一次推荐搜索空间值时，会先计算实验数据集的元特征，并请求元特征访问服务，元特征访问服务执行数据集元特征近似计算，得到与实验数据集相似的已有数据集，并得到与其对应的历史实验训练结果元特征(包含搜索空间值和指标结果)，历史搜索空间值会加入到优化器推荐出的初始搜索空间值中，形成最终推荐搜索空间值，后续的推荐中，将不会加入历史搜索空间值，且黑盒优化器服务根据得到的搜索空间值，实例化一个试验，该试验会在资源隔离的容器内进行一次完整的训练，并输出对应的建模主指标和辅助指标，黑盒优化器服务根据得到的训练主指标反馈，优化器会再推荐出一组搜索空间值，并重复黑盒优化器服务实例化试验的流程，直到达到试验次数或者主指标收敛，用户在使用不同场景建模时，可以通过平台化进行建模操作，避免了命令行建模的过程，同时，该系统内置了包含几百个常见及当前效果最优的模型的算子库，当用户提交建模实验时，优化方法会利用历史实验结果进行实验搜索空间的初始化以及在每次试验时，自动选择可能会带来更好效果的算子，减少了用户在不同场景数据下手动去尝试寻找最好模型的时间成本，提升了整体了建模效率，此外，该系统可以应用到包括表格、图像、文本、视频、音频全模态的所有任务中，具有很强的落地应用性。

本发明的搜索空间内的超参类型包含13种：choice，组合中选择一个值；bool，布尔类型；cholind，线性等分整形数组中选择一个值；cholinf，线性等分小数数组中选择一个值；randint，整形闭合区间内选择一个值；uniform，均匀分布范围内选择一个值；quniform，离散均匀分布范围内选择一个值；qloguniform，连续对数均匀分布范围内选择一个值；qloguniform，离散连续对数均匀分布范围内选择一个值；normal，正态分布范围内选择一个值；qnormal，离散正态分布范围内选择一个值；lognormal，对数正态分布范围内选择一个值；qlognormal，离散对数正态分布范围内选择一个值。

本发明的黑盒优化器内包含的优化器有：GP(遗传编程)、TPE、SMAC、MCTS(基于蒙特卡洛树搜索)，用户通过优化器配置面板进行选择及设置对应的参数。

本发明中建模主指标和辅助指标(分为辅助效果指标和辅助性能指标)根据不同的模态任务(表格、文本、图像、视频、音频)会有所不同，典型的，AUC为模态分类任务的主指标，F1、ACC、LogLoss为辅助效果指标，FPS(每秒处理样本数)、FLOPs(浮点运算次数)、MaxMem(最大内存使用量)为辅助性能指标。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于黑盒优化器的AI模型自动建模系统，包括自动建模系统，其特征在于：自动建模系统包括数据管理、训练项目管理和推理服务管理，数据管理模块主要用于数据集的多源接入和可视化，推理服务管理主要基于训练好的模型部署的API服务启停等管理，而训练项目管理作为其中的核心模块，包含了AI模型的自动建模功能。

2.如权利要求1所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：自动建模系统与算子库无线连接，算子库，包括但不局限于骨干网络、优化器、损失函数、数据增强算法等在内的各种算子集合。

3.如权利要求2所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：训练项目管理包括训练请求客户端和黑盒优化器服务，黑盒优化器服务对接算子库和元特征访问服务。

4.如权利要求3所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：算子库与黑盒优化器服务无线连接。

5.如权利要求3所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：元特征访问服务包括数据集元特征和模型训练结果元特征，数据集元特征，用来区分表示不同数据集间的差异性；模型训练结果元特征，用于表示模型训练结果指标及所使用的超参。

6.如权利要求4所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：黑盒优化器服务包括算子配置模板、优化器配置模板、模型效果评估模块和试验控制模块，算子配置模板，用于配置可用于训练的算子子集，默认使用全部算子；优化器配置模板，用于优化器方法的配置；模型效果评估模块，用于数据集在不同超参下的指标结果及性能；试验控制模块，用于控制一个数据集完整实验中所有试验的执行，用户选择待建模的数据集和目标建模的任务，点击一键训练后，创建一个实验，由训练请求客户端将实验提交到黑盒优化器服务，开始实验自动建模，容错率高。

7.如权利要求6所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：元特征访问服务与黑盒优化器服务无线连接，元特征访问服务本身存储大量数据集的元特征及历史实验训练结果元特征，优化器在第一次推荐搜索空间值时，会先计算实验数据集的元特征，并请求元特征访问服务，元特征访问服务执行数据集元特征近似计算，得到与实验数据集相似的已有数据集，并得到与其对应的历史实验训练结果元特征(包含搜索空间值和指标结果)，历史搜索空间值会加入到优化器推荐出的初始搜索空间值中，形成最终推荐搜索空间值，后续的推荐中，将不会加入历史搜索空间值。

8.如权利要求7所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：黑盒优化器内包含的优化器有：GP(遗传编程)、TPE、SMAC、MCTS(基于蒙特卡洛树搜索)，通过优化器配置面板进行选择及设置对应的参数。

9.如权利要求1所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：数据管理模块包括数据拼接模块、数据融合模块和方案创建模块，数据拼接模块用于将收集到的数据碎片拼接成完整的数据链，数据融合模块用于将拼接的数据进行融合处理，方案创建模块用于将数据的整合链进行整理，得出完整方案，数据拼接模块、数据融合模块和方案创建模块同时进行数据的管理工作，用于提高整体的连贯性，提升容错率。

10.如权利要求9所述的基于黑盒优化器的AI模型自动建模系统，其特征在于：数据管理模块进行待训练数据集的接入和可视化操作，包括查看数据集统计信息和单个样本详情等，接入方式目前包括本地上传、数据库接入、HDFS接入多种方式。