CN113408601A

CN113408601A - 模型生成方法、电子设备及存储介质

Info

Publication number: CN113408601A
Application number: CN202110651173.XA
Authority: CN
Inventors: 周颖婕; 豆泽阳; 赵丛
Original assignee: Gongdadi Innovation Technology Shenzhen Co ltd
Current assignee: Gongdadi Innovation Technology Shenzhen Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-17
Anticipated expiration: 2041-06-10
Also published as: CN113408601B

Abstract

本申请涉及机器学习技术领域，尤其涉及一种模型生成方法、电子设备及存储介质，所述方法包括：获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个目标算法；从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法；根据所述目标算法确定计算框架；基于所述计算框架利用所述数据集进行模型训练，得到目标模型。由此可以根据用户提供的数据集进行定制化设计计算框架，使得在此计算框架下进行训练能够提高模型的训练效率，并使得生成的目标模型具有较高的准确性。

Description

模型生成方法、电子设备及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种模型的生成方法、电子设备及存储介质。

背景技术

机器学习与深度学习已经广泛用于各行各业，并展现出了巨大的经济价值和商业价值。自动化机器学习是一种新兴技术，这种技术通过让计算机自己根据数据分布来构建机器学习模型，构建的模型表现可以达到甚至超过算法专家的水平。

当前的自动化机器学习技术仅仅针对的是质量较高、分布较为标准的用户数据来构建的算法。现实中用户数据以及其场景千变万化，不同的用户数据有着不同的特点，现阶段自动化机器学习技术对特点各异的数据缺少对应的处理办法，导致训练得到的模型的实际效果并不理想。

发明内容

本申请实施例提供一种模型的生成方法、电子设备及存储介质，旨在解决目前模型训练中模型训练效率较低，生成的目标模型的准确性不高的问题。

第一方面，本申请提供了一种模型生成方法，所述方法包括：获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个目标算法；从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法；根据所述目标算法确定计算框架；基于所述计算框架利用所述数据集进行模型训练，得到目标模型。

第二方面，本申请实施例提供了一种电子设备，包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现本申请实施例提供任一项所述的模型生成方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供任一项所述模型生成方法。

本申请实施例提供的模型生成练方法、电子设备和存储介质，通过对数据集进行分析，确定对应的抽象场景，从而确定对应的计算框架并基于该计算框架进行模型训练，降低了空间复杂度，由此可以根据用户提供的数据集进行计算框架的自动化设计，进而降低空间复杂度，使得数据集在设计好的计算框架下进行模型训练，有助于提高模型的训练效率，并使得生成的目标模型具有较高的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请实施例的公开内容。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种模型生成方法的场景示意图；

图2是本申请实施例提供的一种AI平台的系统界面示意图；

图3是本申请实施例提供的一种模型生成方法的示意流程图；

图4是本申请实施例提供的一种确定所述数据集对应的至少一个抽象场景的示意流程图；

图5是本申请实施例提供的一种生成数据集补充信息的场景示意图；

图6是本申请实施例提供的一种模型生成装置的示意性框图；

图7是本申请一实施例提供的一种电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

目前，机器学习与深度学习已经广泛用于各行各业，并展现出了巨大的经济价值和商业价值。自动化机器学习是一种新兴技术，这种技术通过让计算机自己根据数据分布来构建机器学习模型，构建的模型表现可以达到甚至超过算法专家的水平。

然而，当前的自动化机器学习技术仅仅针对的是质量较高、分布较为标准的用户数据来构建的算法。但是现实中用户数据以及其场景千变万化，不同的用户数据有着不同的特点，比如在实际的工业场景中，不同的数据对应不同的分布，需要算法专家给予专家诊断，判断应该选择的解决方案、训练技巧、优化策略、数据处理方式等，基于上述专家诊断，使用Automl技术中的网络结构搜索(NAS)、超参数优化等才能发挥最优效果。因此现阶段自动化机器学习技术对特点各异的数据还没有对应的处理办法，导致训练得到的模型的实际效果并不理想。

为此，本申请提供了一种模型生成方法、电子设备及存储介质，以解决上述问题。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，本申请实施例提供的模型生成方法，可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120，其中，终端设备110可以通过网络与服务器120进行通信。终端设备110向服务器120发送指令，以触发服务器120进行模型生成。其中，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

示例性的，用户可以通过终端设备选择数据集，服务器可以从终端设备获取数据集，并能够根据所述数据集确定对应的抽象场景，并从所述抽象场景对应的算法列表中确定算法，并根据该算法确定对应计算框架，最后基于所述计算框架利用所述数据集进行模型训练，得到目标模型，然后可以将生成的目标模型发送给待部署模型的终端或边缘侧设备，以便执行该目标模型。

在一些实施例中，若服务器判断需要补充数据集，服务器会生成数据集选择页面，终端设备显示该数据集选择页面，并提示从哪些场景方向补充数据集，此时用户可以通过终端设备在数据集选择页面上补充相关数据集并确认，从而使补充的数据集发送服务器。

在一些实施例中，若服务器判断需要补充数据集，服务器会将多个数据优化策略发送给终端设备，以使终端设备显示多个数据优化策略，此时用户可以通过终端设备选择对应数据优化策略并确认，从而使服务器执行对应的数据优化策略以更新或补充数据集。

请参阅图2，图2示出了本申请实施例提供的一种AI平台的系统界面示意图。

该AI平台包括服务端和客户端，服务端运行在服务器中，客户端运行在终端设备，示例性地，所述客户端包括但不限于数据选择界面、数据分析界面、芯片选择界面、任务设置界面以及训练界面，具体可以在终端设备显示，其中，所述AI平台可以为Automl系统平台等能够实现自动机器学习的平台。

示例性地，模型训练准备阶段均可以在所述AI平台上运行，其中，模型训练准备阶段指的是开始进行AI模型训练之前可能涉及到的多个方向的准备阶段，如下以所述AI平台包括数据选择界面、数据分析界面、芯片选择界面、任务设置界面以及训练界面为例，简单介绍一下本申请实施例提供的AI平台。

如图2所示，图2的上方示出了任务栏，此时任务栏可能包括但不限于数据选择、数据分析、芯片选择、任务设置以及训练模块。用户可在AI平台的客户端上显示的数据选择界面中选择待训练的数据集，当用户在数据选择界面上确定待训练的数据集后，AI平台的服务端就会对该数据集进行分析，分析完成后便跳转至数据分析界面。

如图2所示，图2的AI平台的客户端界面示意图处于数据分析界面，其中，具体的分析过程由AI平台的服务端进行。图2的右边示出了多个抽象场景的评估结果，可以直观地得到该数据集与多个抽象场景的评估结果比如对于图片数据量的抽象场景，该数据集对于图片数据量这个抽象场景的评估结果为100％。而响应于用户对于某个抽象场景的查看操作，图2的左边示出了关于类别可区分性的的分析结论，可以直观得到关于类别可区分性的评估结果为4.8％，并在该页面显示不符合该抽象场景的图片比如图2中的几张熊猫的图片，用户可以快速对不符合该抽象场景的图片进行查看，并输出对应的分析结论以及对应的数据优化建议以供用户更新或优化数据集，最后AI平台的服务端会根据评估结果确定该数据集对应的抽象场景，从而确定对应的计算框架。

确定完计算框架后，AI平台的服务端便跳转至芯片选择界面，并在客户端上显示，用户可以在芯片选择界面上选择芯片，以使训练的模型在对应的芯片上执行使用。芯片选择完成后，AI平台的服务端便跳转至任务设置界面，并在客户端上显示，用户可以在此界面自定义设置模型参数比如模型运行速率(FPS)、I/O带宽限制和DDR大小限制等等。最后AI平台的服务端跳转至训练设置界面，用户可以在此界面选择多卡训练或多机训练，最后基于前面所确定的计算框架、芯片选择结果、任务设置以及训练设置对该数据集进行自动机器学习，并得到目标模型，从而将目标模型输出到客户端，以便用户在AI平台的客户端进行模型测试或部署等操作。

上述即是AI平台的基本介绍，本申请实施例提供模型生成方法可以应用在AI平台的数据分析部分，由此可以在此基础上介绍本申请实施例提供的模型生成方法。

请参阅图3，图3是本申请实施例提供的一种模型生成方法的示意流程图。该模型生成方法可以基于上述的AI平台实现，具体可以应用在服务器上，由此可以根据用户提供的数据集进行计算框架的自动化设计，进而降低空间复杂度，使得数据集在设计好的计算框架下进行模型训练，有助于提高模型的训练效率，并使得生成的目标模型具有较高的准确性。

如图3所示，本申请实施例的模型生成方法包括步骤S101至步骤S104。

S101、获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个算法。

在一些实施例中，用户可以在终端设备的显示装置显示的需求获取界面选择输入待训练的数据集，从而使AI平台获取到用户上传的数据集。其中，所述数据集可以是图片集、文本集等。获取到完数据集后，确定所述数据集对应的至少一个抽象场景。其中，所述抽象场景包括但不限于相似场景、多尺度场景、过曝光场景和欠曝光场景等。

可以理解的是，所述数据集对应的抽象场景可以为一个，也可以为多个，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个算法。

具体地，算法列表可以为增强算法列表，算法可以为场景提升相关算法，其中，所述场景提升算法能够提高数据集中原数据的数量及质量，从而降低空间复杂度，比如提高模型的准确率、精准率以及召回率。

在一些实施例中，确定所述数据集对应的至少一个抽象场景，具体地，将所述数据集与预设场景数据库的各个预设的抽象场景逐个进行比较，当与某一预设的抽象场景比较时，确定所述数据集对应的场景指标是否符合指标阈值，若所述数据集对应的抽象场景的场景指标符合指标阈值，则将该预设的抽象场景作为所述数据集对应的抽象场景，并获取对应的评估结果；若所述数据集对应的场景指标不符合指标阈值，则该预设的抽象场景并不能作为该数据集对应的抽象场景。

其中，所述预设场景数据库包括多个预设的抽象场景，服务器在获取到数据集后，会对数据集进行分析，具体地，针对不同的预设的抽象场景，对数据集的场景指标进行检测，并确定数据集的场景指标是否符合该预设的抽象场景对应的指标阈值，需要说明的是，所述指标阈值可以为任意数值，在此不做具体限定。

具体地，如图4所示，服务器在获取到数据集后，会对数据集进行分析，从预设场景库中挑选出抽象场景。所述抽象场景可以包括小目标场景、相似场景、多尺度场景和过曝光场景。其中，所述小目标场景是目标尺寸小于或等于预设目标尺寸的抽象场景，所述多尺度场景是指场景丰富度大于预设场景丰富度的抽象场景，所述相似场景是指待检测物的类间相似度超过预设类间相似度阈值的抽象场景，所述过曝光场景是指灰度分布直方图的偏锋值大于预设偏锋值的抽象场景。其中预设尺寸、预设场景丰富度、预设偏锋值可以为任意数值，具体由用户自行设定或是根据大数据自动生成，且不限于小目标场景，也可以为大目标场景，在此不做具体限定。

需要说明的是，对于小目标场景，目标尺寸为场景指标，预设目标尺寸为指标阈值；对于多尺度场景，场景丰富度为场景指标，预设场景丰富度为指标阈值；对于相似场景，类间相似度为场景指标，预设类间相似度为指标阈值；对于过曝光场景，偏锋值为场景指标，预设偏锋值为指标阈值。同时，抽象场景不仅仅包括本申请实施例提出的抽象场景，可以为任意场景，且任意场景下均对应有算法列表。

示例性地，假设数据集为图片集，且预设场景数据库包括四种场景：小目标场景、相似场景、多尺度场景和过曝光场景。首先确定小目标场景的场景指标是否满足指标阈值，即确定图片集中的图片目标尺寸是否小于预设尺寸，若所述数据集在该预设的抽象场景的场景指标符合指标阈值，则将该预设的抽象场景作为所述数据集对应的抽象场景，并获取对应的评估结果。具体地，假设指标阈值为面积16cm*16cm的像素点，确定图片集中的图片目标尺寸是否小于面积16cm*16cm的像素点，若图片集中的图片目标尺寸小于面积16cm*16cm的像素点，则获取对应的评估结果。同理，再分别对相似场景、多尺度场景和过曝光场景进行检测，将符合对应指标阈值的抽象场景作为所述数据集对应的抽象场景，并获取对应抽象场景的评估结果。

在一些实施例中，在确定所述数据集对应的至少一个抽象场景之后，获取至少一个抽象场景对应的评估结果；判断所述至少一个抽象场景对应的评估结果是否符合对应抽象场景的评估指标；在所述至少一个抽象场景对应的评估结果不符合对应抽象场景的评估指标时，生成数据集补充信息。其中，所述评估结果为数据集中满足该抽象场景的数据比例，所述评估指标为预设标准指标，即预设的满足该抽象场景的标准数据比例。由此可以根据评估结果与评估指标生成对应的数据集补充信息。

示例性地，假设数据集为图片集，且抽象场景包括小目标场景和过曝光场景，首先获取小目标场景对应的评估结果，并确定所述评估结果是否符合评估指标。具体地，假设评估指标为数据集中有85％的数据满足小目标场景，若此时评估结果为数据集中有88％的数据满足小目标场景，则不生成数据集补充信息；若此时评估结果为数据集中有80％的数据满足小目标场景，则认为评估结果不符合小目标场景对应的评估指标，并生成对应的数据集补充信息。同理，再对过曝光场景进行检测，并为不符合评估结果的抽象场景生成数据集补充信息。

在一些实施例中，显示数据分析界面，所述数据分析界面包括所述数据集对应的至少一个抽象场景；响应于用户在所述数据分析界面对于其中一个抽象场景的选择操作，在所述数据分析界面显示该抽象场景对应的分析结论，所述分析结论包括该抽象场景对应的分析结果和该抽象场景对应的异常数据。其中，所述异常数据为不符合该抽象场景对应的数据。

具体地，用户可以对不符合评估指标的抽象场景的分析结论进行查看，此时数据分析界面显示分析结论，所述分析结论包括该抽象场景对应的评估结果以及不符合该抽象场景对应的数据，用户可以在该界面查看这些不符合该抽象场景对应的数据，使得用户可以直观的了解到不符合该抽象场景的数据，从而快速补充或删除对应的数据。

示例性地，可以在客户端显示数据分析界面，所述数据集对应的抽象场景，比如包括小目标场景、相似场景等，响应于用户在所述数据分析界面对小目标场景的选择操作，在所述数据分析界面显示小目标场景对应的分析结论，具体包括小目标场景对应的分析结果和小目标场景对应的异常数据。

在一些实施例中，请参阅图5，在所述至少一个抽象场景对应的评估结果不符合对应抽象场景的评估指标时，生成数据集补充信息并输出对应的提示信息，以提示用户补充不符合所述评估指标对应的抽象场景的数据。如图5所示，该数据集满足小目标场景的评估结果为80％，对应的评估指标为85％，可输出对应的数据优化建议，比如跳转至数据集选择界面以使用户补充数据集，或提供扩充公有数据策略和数据平衡策略等数据优化策略，从而提升整个数据集对小目标场景的适配度。

其中，所述提示信息的方式具体可以包括但不限于应用程序(APP)或以Email、短信、聊天工具例如微信、qq等手段。

可以理解的是，用户可以自己设置提醒方式，例如可以设置为应用程序(APP)提醒和微信提醒，则会通过这两种提醒方式把提示信息发送给用户。

在一些实施例中，判断所述至少一个抽象场景对应的评估结果是否符合对应抽象场景的评估指标之后，生成数据集选择页面，使得用户通过所述数据集选择页面补充数据集或根据数据优化策略对所述数据集进行优化，以补充数据集。由此可以通过数据集选择页面让用户自己补充数据集，或通过数据优化策略智能补充数据集。

示例性地，生成数据集选择页面，所述数据集选择页面可以让用户在此界面上补充或删减对应的数据集，以提升整个数据集对该抽象场景的适配度。

示例性地，根据数据优化策略对所述数据集进行优化，其中，所述数据优化策略包括扩充公有数据策略或数据平衡策略。

具体地，扩充公有数据策略可以通过在公有数据库中搜寻符合该抽象场景且与训练标相符的数据并加入该数据集，从而提升整个数据集对该抽象场景的适配度；而数据平衡策略可以为数据重采样策略，比如过采样策略，能够增加符合样本类别的复制样本，又比如欠采样策略，能够删除一些不符合样本类别的数据，数据平衡策略还可以为生成人造数据等策略，从而提升整个数据集对该抽象场景的适配度。其中，公有数据库包括符合不同抽象场景的公有数据，所述公有数据由不同用户上传或网上搜索得到，所述与训练标相符的数据为与目标模型作用相关的数据，比如训练的模型的作用是头盔检测，则补充数据也与头盔检测相关联。

在一些实施例中，如果采用唯一的场景指标判断数据集是否满足对应的抽象场景，可能会出现单一的场景指标判断不准确的情况。因此，可在确定所述数据集对应的至少一个抽象场景之后，获取所确定的抽象场景对应的备用场景指标，并通过所述备用场景指标检测所述数据集是否符合所确定的抽象场景，若所述数据集不符合所确定的抽象场景，则重新确定所述数据集对应的抽象场景，由此可以提高确定数据集对应的抽象场景的准确性。其中，所述备用场景指标是根据抽象场景的不同分析维度得到的不同的场景指标。

示例性地，在某些抽象场景比如过曝光场景，其中，过曝光场景是指灰度分布直方图的偏锋值大于预设偏锋值的抽象场景。此时是使用灰度分布直方图对数据集进行分析，但还可以通过色阶分布图的曝光量等方法对该数据集进行检测，从而检验该数据集对应的抽象场景，此时备用场景指标为色阶分布图的曝光量。

在一些实施例中，确定所述数据集对应的至少一个抽象场景之后，分析所述数据集，得到至少一个数据特征；将所述至少一个数据特征在预设场景数据库中进行比对，得到至少一个预设目标场景；将所述至少一个预设目标场景与所述至少一个抽象场景做相似度比对，得到相似率，根据所述相似率确定所述至少一个抽象场景的准确性。其中，所述数据特征可以为数据类型、应用场景等，由此可以根据相似率判断所确定的抽象场景是否准确。

具体地，可以通过分类变量特征提取、文字特征提取、通过像素值提取特征等方法对所述数据即进行特征提取，从而得到至少一个数据特征。

示例性地，若数据集为图片集，且确定所述数据集对应的抽象场景为小目标场景，可以通过图片识别技术分析所述图片集的所有图片，得到目标面积或目标占比等数据特征，将所述数据特征在预设场景数据库中进行比对，从而确定至少一个预设目标场景比如为微小目标场景，并将微小目标场景与所述小目标场景做相似度比对，得到相似率为95％，假设预设的相似率阈值为90％，则确定小目标场景的准确性为准确，假设预设的相似率阈值为98％，则确定小目标场景的准确性为不准确，此时可以发送所述数据集对应的抽象场景不准确的提示信息给客户端以便用户补充数据集，从而准确确定对应的抽象场景。

在一些实施例中，确定所述数据集对应的至少一个抽象场景之前，分析所述数据集，得到所述数据集的数据质量反馈；根据所述数据质量反馈对所述数据集的数据进行筛选，得到筛选后的数据集。

由此可以通过对数据集的数据进行分析，对不符合质量要求的数据进行筛选，提高了通过数据集确定抽象场景的准确性。其中，所述数据质量反馈可以包括图片模糊度、图片质量等数据反馈。

示例性地，若所述数据集为图片集，分析所述图片集，得到所述图片集中的每张图片的图片模糊度、图片质量的数据反馈，对不符合上述质量要求的数据进行筛选，得到筛选后的数据集。

具体地，检测每张图片的图片模糊度是否超过预设图片模糊度，若存在图片的图片模糊度超过预设图片模糊度，则将该图片筛选出来。检测每张图片是否已损坏，若存在图片已损坏，则将该图片筛选出来。需要说明的是，预设图片模糊度可以为60％等任意数值，在此不做具体限定。

需要说明的是，为了保持数据集的一致性，实际上训练得到模型与数据集的数据质量并不一定成正比，即并不一定是数据的质量越高，训练得到模型越准确。

S102、从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法。

其中，所述目标算法可以为场景提升算法等各种算法，所述算法列表是由一个或多个场景提升算法而形成的增强算法列表。

需要说明的是，一个抽象场景在算法列表中确定的目标算法可以为一个，也可以为多个。

其中，小目标场景对应的场景提升算法可以包括stitcher算法、cut-and-paste等算法；低光照场景对应的场景提升算法可以包括调整图片亮度、调整图片对比度、调整图片直方图分布等算法；相似场景对应的场景提升算法可以包括使用特定loss(如带Margin的loss)等算法；小样本场景对应的场景提升法可以包括应用few-shot等算法；数据不均衡场景对应的场景提升算法可以包括数据重采样，loss权重调整，使用特定loss等算法；目标不完整场景对应的场景提升算法可以包括cutout\cutmix等数据增强算法。

在一些实施例中，利用测试集对所述算法列表中的每个所述算法进行测试，得到每个所述算法的准确率；根据所述准确率对每个所述算法进行排序，得到所述算法的排序结果；基于所述排序结果确定目标算法。由此可以通过对每个算法进行测试，从而在算法列表中确定最优的目标算法。

具体地，将所述算法列表中的每个算法分别配置在模型中；利用测试集对每个模型进行测试，得到每个模型的准确率；根据所述准确率对每个模型进行排序，得到每个模型的排序结果；基于所述排序结果确定目标算法。

其中，所述测试集用于评估模型的泛化误差，理论上测试集越大，则模型泛化误差评估越准确，从而在算法列表中确定最优的目标算法。示例性地，可以利用测试集对模型的预测能力进行评估，从而得到模型的泛化能力，并将最小泛化误差的模型作为最优模型。示例性地，还可以利用验证集对模型的超参数进行调整和对模型的能力进行初步评估。

示例性地，以小目标场景为例，小目标场景对应的场景提升算法包括stitcher算法和cut-and-paste算法，将stitcher算法和cut-and-paste算法分别配置在两个其它配置相同的模型中，并利用小目标识别等测试集对这两个模型进行测试，得到两个模型的准确率，根据所述准确率对两个模型进行由高到低的排序，得到小目标场景对应的场景提升算法的排序结果；并基于所述排序结果选取排序最高的算法作为目标算法。

示例性地，以相似场景为例，相似场景对应的场景提升算法可以包括使用特定loss(如带Margin的loss)等算法，将相似场景对应的场景提升算法分别配置在不同的模型中，并利用场景识别等测试集对这些模型进行测试，得到各个模型的准确率，根据所述准确率对各个模型进行由高到低的排序，得到相似场景对应的场景提升算法的排序结果；并基于所述排序结果选取排序最高的算法作为目标算法。

示例性地，以过曝光场景为例，过曝光场景对应的场景提升算法可以包括调整图片亮度、调整图片对比度、调整图片直方图分布等算法，将过曝光场景对应的场景提升算法分别配置在不同的模型中，并利用场景亮度识别等测试集对这些模型进行测试，得到各个模型的准确率，根据所述准确率对各个模型进行由高到低的排序，得到相似场景对应的场景提升算法的排序结果；并基于所述排序结果选取排序最高的算法作为目标算法。

需要说明的是，这里可以基于排序结果选取一个或多个目标算法，具体可以由用户设定。

在一些实施例中，若进行多种测试评估，可以先按照测试重要程度对准确率权重占比进行分配，如重要程度高的准确率占比为60％，重要程度低的准确率占比为40％，最后得出综合准确率。

示例性地，若第一模型为配置了stitcher算法的模型，第二模型为配置了cut-and-paste算法的模型，且均对两个模型进行小目标识别测试和微小目标识别测试，小目标识别准确率占比为60％，微小目标识别准确率占比为40％，若第一模型小目标识别准确率为100％，微小目标识别准确率为90％，则第一模型的综合准确率为96％；若第二模型小目标识别准确率为90％，微小目标识别准确率为100％，则第二模型的综合准确率为94％，因此第一模型的排序顺位较第二模型的排序顺位要高。

S103、根据所述目标算法确定计算框架。

其中，所述目标算法可以为场景提升算法等各种算法，且所述目标算法可以为一个，也可以为多个，当所述目标算法为一个时，则根据该目标算法确定计算框架，比如可以直接将目标算法作为计算框架，或者设置该目标算法的权重值后作为计算框架。所述计算框架可以理解为目标算法能够具体实现的一个集合，能够为后续的模型训练提供训练基础，并且能够有效提升模型表现。

需要说明的是，所述计算框架不止包括目标算法，还可以包括计算框架所实现的协议、计算框架所支持的数据类型和运算操作以及计算框架所应用的运算场景或算力需求等。所述计算框架是一种或多种目标算法的具体实现的编程环境，也可以理解成是多种算法具体实现的集合，能够将一种或多种算法糅合起来并以最优的方式进行模型训练。

在一些实施例中，当确定所述目标算法为多个时，多个所述目标算法的算法连接策略，所述算法连接策略包括所述目标算法的连接顺序，和/或，所述目标算法的权重比例；根据所述算法连接策略对多个所述目标算法进行组合连接，得到计算框架。由此可以通过算法连接策略对多个目标算法进行组合连接，从而确定最优的计算框架，使训练得到的模型表现最好。

示例性地，当确定所述目标算法为多个时，可以获取预存的算法连接策略，所述算法连接策略包括预存的算法连接顺序以及所述对应的目标算法的权重比例，并根据所述算法连接策略对多个所述目标算法进行组合连接，从而得到计算框架。其中，预存的算法连接顺序以及所述对应的目标算法的权重比例可以由用户自行确定，或者由AI平台自动生成的算法连接顺序以及对应的算法的权重比例。

具体地，假如确定所述目标算法为stitcher算法、数据重采样算法和调整图片亮度算法时，可以根据用户预设的算法连接顺序：先连接stitcher算法和数据重采样算法，后连接数据重采样和调整图片亮度算法，以及stitcher算法对应的权重比例为40％、数据重采样算法对应的权重比例为30％和调整图片亮度算法对应的权重比例为30％。

示例性地，可以根据对应的算法的重要程度或适配度计算得到的多个目标算法的权重比例，并根据多个目标算法的权重比例确定算法连接顺序，并根据所述算法连接顺序以及算法权重比例对多个所述目标算法进行组合连接，从而得到计算框架。由此可以将重要性较高或适配度较高的算法优先连接，提高模型训练效果。

具体地，当确定所述目标算法为stitcher算法、数据重采样算法和调整图片亮度算法，若stitcher算法重要性最高，数据重采样算法次之，调整图片亮度算法最低，则确定stitcher算法对应的权重比例为60％、数据重采样算法对应的权重比例为30％和调整图片亮度算法对应的权重比例为10％，并根据所述权重比例确定算法连接顺序为：先连接stitcher算法和数据重采样算法，后连接数据重采样和调整图片亮度算法。

在一些实施例中，当确定所述目标算法为多个时，获取所述目标算法对应的多个抽象场景的侧重比；根据所述多个抽象场景的侧重比，将所述多个抽象场景分别对应的目标算法进行组合连接，得到计算框架。由此可以通过多个抽象场景的侧重比对多个目标算法进行组合连接，得到对应的计算框架，从而使训练得到的模型在侧重比较高的场景表现更好。

示例性地，若确定所述目标算法为stitcher算法、数据重采样算法和调整图片亮度算法，且分别对应的抽象场景为小目标场景、数据不均衡场景以及低光照场景，可以通过获取用户预设的侧重比或通过各场景的评估结果确定多个抽象场景的侧重比，假设小目标场景的侧重比为60％、数据不均衡场景的侧重比为30％以及低光照场景的侧重比为10％，将stitcher算法、数据重采样算法和调整图片亮度算法依次连接并配置对应的权重比例，得到计算框架。

在一些实施例中，获取所述目标算法对应的多个抽象场景的侧重比并确定侧重比最高的抽象场景，将所述侧重比最高的抽象场景对应的目标算法作为第一目标算法；将多个所述目标算法中的其它目标算法与所述第一目标算法进行连接，得到多个目标算法组合；设置每个所述目标算法组合中的每个目标算法的权重比例，得到多个计算框架。由此可以设置不同的连接组合以及权重比例，得到多个计算框架，并从中确定最优的计算框架。

示例性地，若确定所述目标算法为stitcher算法、数据重采样算法和调整图片亮度算法，且分别对应的抽象场景为小目标场景、数据不均衡场景以及低光照场景，假设小目标场景的侧重比为60％、数据不均衡场景的侧重比为30％以及低光照场景的侧重比为10％，由此可以确定侧重比最高的抽象场景为小目标场景，因此第一目标算法为stitcher算法。将数据重采样算法和调整图片亮度算法分别与所述第一目标算法进行连接，得到两种目标算法组合，设置stitcher算法、数据重采样算法和调整图片亮度算法的权重比例，从而得到两个计算框架。最后分别基于两种计算框架利用所述数据集进行模型训练，得到两个目标模型，通过对两个目标模型进行性能测试等，从而确定最优的计算框架。

在一些实施例中，在所述根据至少一个所述目标算法确定计算框架之后，保存所述计算框架与所述抽象场景的映射关系至场景框架表；在后续的模型训练时，确定待训练数据集对应的抽象场景；检测所述待训练数据集对应的抽象场景是否包括与所述场景框架表中相同的抽象场景；若所述待训练数据集对应的抽象场景包括与所述场景框架表中相同的抽象场景，从所述场景框架表获取对应的计算框架。由此可以在后续的模型训练时快速确定类似的计算框架，从而确定对应的计算框架，提高了模型生成效率。

其中，所述待训练数据集对应的抽象场景是否包括与所述场景框架表中相同的抽象场景，可以为完全包括，也可以为部分包括。

示例性地，确定完计算框架之后，假设待训练的数据集对应的抽象场景为小目标场景、数据不均衡场景以及低光照场景，且对应的计算框架包括stitcher算法、数据重采样算法和调整图片亮度算法以及对应的连接顺序和权重比例，将上述映射关系保存至场景框架表。

在下一次模型训练时，若检测下次模型训练的数据集对应的抽象场景也为小目标场景、数据不均衡场景以及低光照场景时，则从所述场景框架表获取对应的计算框架。

在下一次模型训练时，若检测下次模型训练的数据集对应的抽象场景为小目标场景和数据不均衡场景时，则从所述场景框架表获取对应的计算框架，并在该计算框架中删除低光照场景对应的算法，如调整图片亮度算法，从而快速确定新的计算框架。

在下一次模型训练时，若检测下次模型训练的数据集对应的抽象场景为小目标场景、数据不均衡场景、低光照场景和目标不完整场景时，则从所述场景框架表获取对应的计算框架，并在该计算框架中增加与目标不完整场景对应的算法，如cutout\cutmix等算法，从而快速确定新的计算框架。

在下一次模型训练时，若检测下次模型训练的数据集对应的抽象场景为小目标场景、数据不均衡场景和目标不完整场景时，由于下次模型训练的数据集对应的抽象场景对应包括了与场景框架表不相同的抽象场景，此时不会从场景框架表中获取计算框架。

S104、基于所述计算框架利用所述数据集进行模型训练，得到目标模型。

具体地，确定完计算框架后，利用AI平台选择对应的芯片并设置对应的任务，从而基于计算框架利用所述数据集进行模型训练，得到目标模型。

在一些实施例中，基于所述计算框架和容器编排调度工具利用所述数据集进行自动机器学习，得到目标模型。所述AI平台可以包括容器编排调度工具，容器编排调度工具包括K8S(Kubernetes)工具、Swarm工具或Mesos工具中的任一种。

示例性地，以使用K8S(Kubernetes)工具为例，基于该计算框架并根据所述数据集进行自动机器学习训练，具体可以基于所述K8S工具，加载数据集并调度相应的计算资源，利用所述计算框架和数据集进行自动机器学习训练，得到目标模型，并将生成的目标模型发送给终端设备，以便终端设备进行模型测试或部署等操作。

在一些实施例中，获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个目标算法；从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法；根据所述目标算法确定计算框架；基于所述计算框架利用所述数据集进行模型训练，得到目标模型。由此可以根据用户提供的数据集针对性的制定适合该数据集的数据特点的计算框架，使模型发挥最大效果，从而提升模型表现。

示例性地，获取的数据集可以为图片集，确定该图片集对应的至少一个抽象场景比如小目标场景、相似场景等，其中，小目标场景、相似场景都分别对应有算法增强列表，所述算法增强列表包括至少一个场景表现提升算法比如stitcher算法、cut-and-paste算法等。

从所述至少一个抽象场景比如小目标场景对应的所述算法列表中，确定小目标场景对应的目标算法比如stitcher算法，低光照场景对应的目标算法比如调整图片亮度算法，并根据stitcher算法和调整图片亮度算法确定两个算法的连接顺序以及权重比例，从而得到计算框架，最后基于所述计算框架利用所述数据集进行模型训练，得到目标模型。

请参阅图6，图6是本申请一实施例提供的一种模型生成装置的示意性框图，该模型生成装置可以配置于服务器中，用于执行前述的模型生成方法。

如图6所示，该模型生成装置200包括：数据获取模块201、算法确定模块202、框架确定模块203和模型训练模块204。

数据获取模块201，用于获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个目标算法；

算法确定模块202，用于从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法；

框架确定模块203，用于根据所述目标算法确定计算框架；

模型训练模块204，用于基于所述计算框架利用所述数据集进行模型训练，得到目标模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

请参阅图7，图7是本申请实施例提供的一种电子设备300的示意图。该电子设备可以是服务器或终端。

如图7所示，该电子设备300包括通过系统总线连接的处理器302、存储器301，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种模型生成方法。

处理器用于提供计算和控制能力，支撑整个电子设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种模型生成方法。

本领域技术人员可以理解，该电子设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表包括至少一个目标算法；从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法；根据所述目标算法确定计算框架；基于所述计算框架利用所述数据集进行模型训练，得到目标模型。

在一些可选的实施例中，所述根据所述目标算法确定计算框架，包括：确定多个所述目标算法的算法连接策略，所述算法连接策略包括所述目标算法的连接顺序，和/或，所述目标算法的权重比例；根据所述算法连接策略对多个所述目标算法进行组合连接，得到计算框架。

在一些可选的实施例中，所述根据所述目标算法确定计算框架，包括：获取所述目标算法对应的多个抽象场景的侧重比；根据所述多个抽象场景的侧重比，将所述多个抽象场景分别对应的目标算法进行组合连接，得到计算框架。

在一些可选的实施例中，所述从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法，包括：利用测试集对所述算法列表中的每个所述目标算法进行测试，得到每个所述目标算法的准确率；根据所述准确率对每个所述目标算法进行排序，得到所述目标算法的排序结果；基于所述排序结果确定目标算法。

在一些可选的实施例中，所述确定所述数据集对应的至少一个抽象场景，包括：获取至少一个抽象场景对应的评估结果；判断所述至少一个抽象场景对应的评估结果是否符合对应抽象场景的评估指标；在所述至少一个抽象场景对应的评估结果不符合对应抽象场景的评估指标时，生成数据集补充信息。

在一些可选的实施例中，所述生成数据集补充信息，所述方法还包括：生成数据集选择页面，使得用户通过所述数据集选择页面补充数据集；或者，根据数据优化策略对所述数据集进行优化，以补充数据集。

在一些可选的实施例中，在所述根据至少一个所述目标算法确定计算框架之后，所述方法还包括：保存所述计算框架与所述抽象场景的映射关系至场景框架表。在模型训练时，确定待训练的数据集对应的抽象场景；检测所述待训练的数据集对应的抽象场景与所述场景框架表中的抽象场景是否相同；若所述待训练的数据集对应的抽象场景与所述场景框架表中的抽象场景相同时，从所述场景框架表获取对应的计算框架。

在一些可选的实施例中，所述确定所述数据集对应的至少一个抽象场景之前，所述方法还包括：分析所述数据集，得到所述数据集的数据质量反馈；根据所述数据质量反馈对所述数据集的数据进行筛选，得到筛选后的数据集。

在一些可选的实施例中，所述确定所述数据集对应的至少一个抽象场景之后，所述方法还包括：显示数据分析界面，所述数据分析界面包括所述数据集对应的至少一个抽象场景；响应于用户在所述数据分析界面对于所述抽象场景的选择操作，在所述数据分析界面显示所述抽象场景对应的分析结论，所述分析结论包括所述抽象场景对应的分析结果和所述抽象场景对应的异常数据。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现本申请实施例提供的任一种模型生成方法。

其中，所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元，例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

获取数据集，确定所述数据集对应的至少一个抽象场景，其中，所述至少一个抽象场景中的每个抽象场景对应有算法列表，所述算法列表中包括至少一个算法；

从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法；

根据所述目标算法确定计算框架；

基于所述计算框架利用所述数据集进行模型训练，得到目标模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标算法确定计算框架，包括：

确定多个所述目标算法的算法连接策略，所述算法连接策略包括所述目标算法的连接顺序，和/或，所述目标算法的权重比例；

根据所述算法连接策略对多个所述目标算法进行组合连接，得到计算框架。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标算法确定计算框架，包括：

获取所述目标算法对应的多个抽象场景的侧重比；

根据所述多个抽象场景的侧重比，将所述多个抽象场景分别对应的目标算法进行组合连接，得到计算框架。

4.根据权利要求1所述的方法，其特征在于，所述从所述至少一个抽象场景对应的所述算法列表中，确定所述至少一个抽象场景对应的目标算法，包括：

利用测试集对所述算法列表中的每个算法进行测试，得到每个算法的准确率；

根据所述准确率对每个所述算法进行排序，得到所述算法的排序结果；

基于所述排序结果确定所述目标算法。

5.根据权利要求1所述的方法，其特征在于，所述确定所述数据集对应的至少一个抽象场景之后，所述方法还包括：

获取至少一个抽象场景对应的评估结果；

判断所述至少一个抽象场景对应的评估结果是否符合对应抽象场景的评估指标；

在所述至少一个抽象场景对应的评估结果不符合对应抽象场景的评估指标时，生成数据集补充信息。

6.根据权利要求5所述的方法，其特征在于，所述判断所述至少一个抽象场景对应的评估结果是否符合对应抽象场景的评估指标之后，包括：

生成数据集选择页面，使得用户通过所述数据集选择页面补充数据集；或者，

根据数据优化策略对所述数据集进行优化，以更新或补充数据集。

7.根据权利要求1所述的方法，其特征在于，在所述根据至少一个所述目标算法确定计算框架之后，所述方法还包括：

保存所述计算框架与所述抽象场景的映射关系至场景框架表；

所述基于所述计算框架利用所述数据集进行模型训练，得到目标模型之后，所述方法还包括：

在模型训练时，确定待训练的数据集对应的抽象场景；

检测所述待训练数据集对应的抽象场景是否包括与所述场景框架表中相同的抽象场景；

若所述待训练数据集对应的抽象场景包括与所述场景框架表中相同的抽象场景，从所述场景框架表获取对应的计算框架。

8.根据权利要求1所述的方法，其特征在于，所述确定所述数据集对应的至少一个抽象场景之前，所述方法还包括：

分析所述数据集，得到所述数据集的数据质量反馈；

根据所述数据质量反馈对所述数据集的数据进行筛选，得到筛选后的数据集。

9.根据权利要求1所述的方法，其特征在于，所述确定所述数据集对应的至少一个抽象场景之后，所述方法还包括：

显示数据分析界面，所述数据分析界面包括所述数据集对应的至少一个抽象场景；

响应于用户在所述数据分析界面对于所述抽象场景的选择操作，在所述数据分析界面显示所述抽象场景对应的分析结论，所述分析结论包括所述抽象场景对应的分析结果和所述抽象场景对应的异常数据。

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现：

如权利要求1-9任一项所述的模型生成方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1-9任一项所述的模型生成方法。