CN115081613A - 生成深度学习模型的方法、装置、电子设备及存储介质 - Google Patents
生成深度学习模型的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115081613A CN115081613A CN202210563774.XA CN202210563774A CN115081613A CN 115081613 A CN115081613 A CN 115081613A CN 202210563774 A CN202210563774 A CN 202210563774A CN 115081613 A CN115081613 A CN 115081613A
- Authority
- CN
- China
- Prior art keywords
- model
- deep learning
- initial
- demand
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种生成深度学习模型的方法、装置、电子设备及存储介质,涉及计算机技术领域,方法包括:获取模型需求信息,该模型需求信息至少包括模型需求算力和模型任务;基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数;基于模型任务和N个深度学习模型架构,获得N个初始深度学习模型;基于N个初始深度学习模型,获得目标深度学习模型。本申请提高了深度学习模型的生成效率,便于高效地将深度学习模型投入线上使用。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种生成深度学习模型的方法、装置、电子设备及存储介质。
背景技术
深度学习是一种基于神经网络模型的机器学习方法,广泛应用于智能辅助驾驶、智能机器人以及智能安防等领域。其中,目标检测、图像分类、行为识别等任务都是视觉任务的关键方向,而这些任务当前主要的开发工作是生成深度学习模型。
为了能够生成具有较优效果的深度学习模型,需要具有丰富经验的算法工程师构建模型结构,然后反复调整模型结构,这过程中需要耗费较长的时间。因此,深度学习模型的生成效率较低,不利于模型的线上使用。
发明内容
本申请实施例提供一种生成深度学习模型的方法、装置、电子设备及存储介质,用于提高深度学习模型的生成效率,高效地将深度学习模型投入线上使用。
一方面,本申请实施例提供一种生成深度学习模型的方法,包括:
获取模型需求信息,所述模型需求信息至少包括模型需求算力和模型任务;
基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
基于模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
基于N个所述初始深度学习模型,获得目标深度学习模型。
可选的,所述基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,包括:
执行多次模型构建操作,获得多个初始模型架构,其中,所述模型构建操作包括:基于所述模型组件库,执行至少一次组件筛选操作,基于所述至少一次组件筛选操作选择出的模型组件获得一个所述初始模型架构;
从多个所述初始模型架构中,选择与所述模型需求算力匹配的N个初始模型架构,作为N个所述深度学习模型架构。
可选的,所述执行多次模型构建操作,获得多个初始模型架构之前,还包括:
基于所述模型需求算力确定组件筛选要求,所述组件筛选要求包括筛选的模型组件的数量范围;
所述基于所述模型组件库,执行至少一次组件筛选操作,包括:
基于所述组件筛选要求,针对所述模型组件库执行至少一次组件筛选操作。
可选的,从多个所述初始模型架构中,选择与所述模型需求算力匹配的N个初始模型架构,包括:
分别确定多个所述初始模型架构各自的模型算力;
从多个所述初始模型架构中,选择模型算力满足设定算力要求的N个初始模型架构,所述设定算力要求由所述模型需求算力确定。
可选的,所述分别确定多个所述初始模型架构各自的模型算力,包括:
针对每个所述初始模型架构,执行以下操作:
确定每个所述初始模型架构包含的各个模型组件的输入维度和输出维度;
基于每个模型组件的输入维度和输出维度,确定每个模型组件的算力;
基于每个所述初始模型架构包含的各个模型组件的算力,确定每个所述初始模型架构的模型算力。
可选的,基于所述至少一次组件筛选操作选择出的模型组件获得一个所述初始模型架构,包括:
按照所述至少一次组件筛选操作的操作顺序,将所述至少一次组件筛选操作选择出的各个模型组件依次串联,得到一个所述初始模型架构。
可选的,所述基于所述模型任务和所述N个深度学习模型架构,获得N个初始深度学习模型,包括:
获取所述模型任务对应的输入网络和输出网络;
针对每个所述深度学习模型架构,将每个所述深度学习模型架构与所述输入网络、所述输出网络进行组合,获得一个所述初始深度学习模型。
可选的,所述模型需求信息还包括样本数据集;
所述基于N个所述初始深度学习模型,获得目标深度学习模型,包括:
基于所述样本数据集分别对N个所述初始深度学习模型进行训练,获得训练后的N个候选深度学习模型;
基于所述样本数据集分别对N个所述候选深度学习模型进行测试,获得N个候选深度学习模型各自的测试结果;
基于N个所述候选深度学习模型各自的测试结果,从N个所述候选深度学习模型中选择目标深度学习模型。
可选的,所述测试结果包括所述模型任务对应的模型评估指标;
所述基于N个所述候选深度学习模型各自的测试结果,从N个所述候选深度学习模型中选择目标深度学习模型,包括:
从N个所述候选深度学习模型中,选择模型评估指标满足设定指标条件的一个候选深度学习模型,作为所述目标深度学习模型。
可选的,每个模型组件包含N个卷积层,每个卷积层包含多个输入通道和多个输出通道;
所述基于N个所述初始深度学习模型,获得目标深度学习模型之后,还包括:
针对所述目标深度学习模型包含的每个模型组件,若确定所述模型组件的至少一个卷积层满足模型剪枝条件,则分别调整所述至少一个卷积层各自的输入通道数和输出通道数。
可选的,所述方法应用于终端,
所述获取模型需求信息,包括:
响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
所述基于N个所述初始深度学习模型,获得目标深度学习模型之后,还包括:
通过第二界面展示所述目标深度学习模型。
可选的,所述方法应用于服务端,所述获取模型需求信息,包括:
接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
所述基于N个所述初始深度学习模型进行训练,获得目标深度学习模型之后,还包括:
将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
一方面,本申请实施例提供一种生成深度学习模型的方法,包括:
响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
基于N个所述初始深度学习模型,获得目标深度学习模型;
通过第二界面展示所述目标深度学习模型。
一方面,本申请实施例提供一种生成深度学习模型的方法,包括:
接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
基于N个所述初始深度学习模型,获得目标深度学习模型;
将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
一方面,本申请实施例提供一种生成深度学习模型的装置,包括:
需求获取模块,用于获取模型需求信息,所述模型需求信息至少包括模型需求算力和模型任务;
构建模块,用于基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
模型获取模块,用于基于所述模型任务和所述N个深度学习模型架构,获得N个初始深度学习模型;
选择模块,用于基于所述N个初始深度学习模型,获得目标深度学习模型。
可选的,所述构建模块还用于:
执行多次模型构建操作,获得多个初始模型架构,其中,所述模型构建操作包括:基于所述模型组件库,执行至少一次组件筛选操作,基于所述至少一次组件筛选操作选择出的模型组件获得一个所述初始模型架构;
从多个所述初始模型架构中,选择与所述模型需求算力匹配的N个初始模型架构,作为N个所述深度学习模型架构。
可选的,所述装置还包括筛选要求确定模块,用于:
基于所述模型需求算力确定组件筛选要求,所述组件筛选要求包括筛选的模型组件的数量范围;
所述构建模块还用于:
基于所述组件筛选要求,针对所述模型组件库执行至少一次组件筛选操作。
可选的,所述从多个所述初始模型架构中,选择与所述模型需求算力匹配的N个初始模型架构时,所述构建模块还用于:
分别确定多个所述初始模型架构各自的模型算力;
从多个所述初始模型架构中,选择模型算力满足设定算力要求的N个初始模型架构,所述设定算力要求由所述模型需求算力确定。
可选的,所述分别确定多个所述初始模型架构各自的模型算力时,所述构建模块还用于:
针对每个所述初始模型架构,执行以下操作:
确定每个所述初始模型架构包含的各个模型组件的输入维度和输出维度;
基于每个模型组件的输入维度和输出维度,确定每个模型组件的算力;
基于每个所述初始模型架构包含的各个模型组件的算力,确定每个所述初始模型架构的模型算力。
可选的,所述基于所述至少一次组件筛选操作选择出的模型组件获得一个所述初始模型架构时,所述构建模块还用于:
按照所述至少一次组件筛选操作的操作顺序,将所述至少一次组件筛选操作选择出的各个模型组件依次串联,得到一个所述初始模型架构。
可选的,所述模型获取模块还用于:
获取所述模型任务对应的输入网络和输出网络;
针对每个所述深度学习模型架构,将每个所述深度学习模型架构与所述输入网络、所述输出网络进行组合,获得一个所述初始深度学习模型。
可选的,所述模型需求信息还包括样本数据集;
所述选择模块还用于:
基于所述样本数据集分别对N个所述初始深度学习模型进行训练,获得训练后的N个候选深度学习模型;
基于所述样本数据集分别对N个所述候选深度学习模型进行测试,获得N个所述候选深度学习模型各自的测试结果;
基于N个所述候选深度学习模型各自的测试结果,从N个所述候选深度学习模型中选择目标深度学习模型。
可选的,所述测试结果包括所述模型任务对应的模型评估指标;
所述基于N个所述候选深度学习模型各自的测试结果,从N个所述候选深度学习模型中选择目标深度学习模型时,所述选择模块还用于:
从所述多个候选深度学习模型中,选择模型评估指标满足设定指标条件的一个候选深度学习模型;
将选择的一个候选深度学习模型作为所述目标深度学习模型。
可选的,每个模型组件包含至少一个卷积层,每个卷积层包含多个输入通道和多个输出通道;
所述装置还包括调整模块,用于:
针对所述目标深度学习模型包含的每个模型组件,若确定所述模型组件的至少一个卷积层满足模型剪枝条件,则分别调整所述至少一个卷积层各自的输入通道数和输出通道数。
可选的,所述装置用于终端,所述需求获取模块还用于:
响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
所述装置还包括展示模块,用于:
通过第二界面展示所述目标深度学习模型。
可选的,所述装置应用于服务端,所述需求获取模块还用于:
接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
所述装置还包括模型发送模块,用于:
将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
一方面,本申请实施例提供一种生成深度学习模型的装置,包括:
需求获取模块,用于响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
构建模块,用于基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
模型获取模块,用于基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
选择模块,用于基于N个所述初始深度学习模型,获得目标深度学习模型;
展示模块,用于通过第二界面展示所述目标深度学习模型。
一方面,本申请实施例提供一种生成深度学习模型的装置,包括:
需求获取模块,用于接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
构建模块,用于基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
模型获取模块,用于基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
选择模块,用于基于N个所述初始深度学习模型,获得目标深度学习模型,并将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
一方面,本申请实施例提供一种电子设备,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任一种生成深度学习模型的方法的步骤。
一方面,本申请实施例提供一种计算机存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任一种生成深度学习模型的方法的步骤。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
本申请实施例的方案中,根据用户模型需求算力和模型任务,基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,进而根据模型任务和N个深度学习模型架构,获得N个初始深度学习模型;基于N个初始深度学习模型,获得最终的目标深度学习模型;这样,无需经验丰富的算法工程师在构建深度学习模型时,反复调整模型结构,节约了模型构建的时间,提高了深度学习模型的生成效率,便于高效地将深度学习模型投入线上使用。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种生成深度学习模型的方法的信令交互图;
图2为本申请实施例提供的一种第一界面的示意图;
图3为本申请实施例提供的一种生成深度学习模型的方法流程图;
图4为本申请实施例提供的一种第二界面的示意图;
图5A为本申请实施例提供的一种生成深度学习模型的实施流程图;
图5B为本申请实施例提供的另一种生成深度学习模型的实施流程图;
图6为本申请实施例提供的一种终端侧的生成深度学习模型的方法流程图;
图7为本申请实施例提供的一种服务端的生成深度学习模型的方法流程图;
图8为本申请实施例提供的一种生成深度学习模型的装置的结构框图;
图9为本申请实施例提供的另一种生成深度学习模型的装置的结构框图;
图10为本申请实施例提供的另一种生成深度学习模型的装置的结构框图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
相关技术中,目标检测、图像分类、行为识别等任务的主要开发工作是生成深度学习模型。为了能够生成具有较优效果的深度学习模型,需要具有丰富经验的算法工程师构建模型结构,然后反复调整模型结构,这过程中需要耗费较长的时间。因此,深度学习模型的生成效率较低,不利于模型的线上使用。
为了能够高效的生成深度学习模型,提升各种任务的开发效率,减少对算法工程师的依赖,可以自动化构建深度学习模型,进而生成所需的深度学习模型。有鉴于此,本申请实施例提供一种生成深度学习模型的方法、装置、电子设备及存储介质,根据用户模型需求算力和模型任务,基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,进而根据模型任务和N个深度学习模型架构,获得N个初始深度学习模型;基于N个初始深度学习模型,获得最终的目标深度学习模型,提高了深度学习模型的生成效率,便于高效地将深度学习模型投入线上使用。
本申请实施例的生成深度学习模型的方法可以应用于任何任务开发场景,例如,任务开发场景为智能辅助驾驶、智能机器人以及智能安防等领域的视觉任务开发场景,其中,视觉任务包括但不限于目标检测、图像分类、行为识别等等。
下面结合附图对本申请实施例生成深度学习模型的方法的具体实施方式进行介绍。
本申请实施例的方法可以由终端或者服务端单独执行,也可以由终端和服务端配合执行,其中,终端包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备。
下面以终端和服务端配合执行为例进行说明。图1示出了本申请实施例提供的一种生成深度学习模型的方法的信令交互图。
如图1所示,本申请实施例的生成深度学习模型的方法可以包括如下步骤S101-S107:
步骤S101,终端展示第一界面,该第一界面包括模型需求信息的输入项,模型需求信息至少包括模型需求算力和模型任务。
在构建深度学习模型之前,用户需要输入模型需求信息,以便构建出的深度学习模型满足用户需求。具体的,用户可以在终端上执行第一界面的触发操作,使终端展示第一界面。其中,模型需求信息中的模型需求算力是指机器在运行深度学习模型时所需的算力,具体可以是最大算力;模型任务是指深度学习模型执行的任务,包括但不限于上述视觉任务:图像分类、目标检测、行为识别等。
示例性的,如图2所示,在模型需求信息的第一界面中,展示有模型需求算力的输入项和模型任务的输入项;用户可以输入需要生成的深度学习模型的需求算力,具体可以是任务部署所能给予的最大算力,比如10T;还可以输入具体的模型任务,比如目标检测、图像分类、行为识别等。此外,还可以输入样本数据集,以便后续对构建的深度学习模型进行训练。
步骤S102,终端响应于用户通过第一界面触发的需求指示操作,将需求指示操作指示的模型需求算力和模型任务,确定为模型需求信息。
例如,用户在上述第一界面中输入模型需求算力和模型任务后,可以提交输入的模型需求算力和模型任务,即触发需求指示操作,终端将获取到的模型需求算力和模型任务作为模型需求信息。
步骤S103,终端将包含模型需求信息的模型生成指令发送给服务端。
步骤S104,服务端获取到模型需求信息,基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数。
其中,模型组件库可以预先构建获得,包含已有的各种模型组件,每种模型组件可以看作模型的最小单元结构。例如,残差网络(Residual Network,ResNet)由多个残差模块Res block构成,Res block可以作为一个模型组件,基于Res block,可以组成不同算力的残差网络,如ResNet 18(18个Res block)、ResNet 36(36个Res block)、ResNet 50(50个Res block)以及ResNet 101(101个Res block)等。又例如,稠密卷积网络(DenseConvolutional Network,DenseNet)由多个稠密模块Dense block构成,Dense block可以作为一个模型组件。
上述模型组件还可以是其它任何构成深度学习模型的最小单元结构,在此不作限定。模型组件库中的各个模型组件之间可以任意组合,并且,同一个模型组件自身也可以叠加组合。
可选的,上述步骤S104中基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构时,可以包括以下步骤A1-A2:
步骤A1、执行多次模型构建操作,获得多个初始模型架构,其中,模型构建操作包括:基于模型组件库,执行至少一次组件筛选操作,基于至少一次组件筛选操作选择出的模型组件获得一个初始模型架构。
其中,模型构建操作的执行次数可以根据需要设置,在此不作限定。为了使获得的初始模型架构的种类更加丰富,可以设置执行次数为较大的值。
由于模型组件库中的各个模型组件之间可以任意组合,因此,在每次执行模型构建操作时,可以从模型组件库中任意获取至少一个模型组件,即执行至少一次组价筛选操作,基于筛选出的至少一个模型组件获得一个初始模型架构。
为了使得构建的初始模型架构的模型算力与模型需求算力更加接近,可选的,在执行上述步骤A之前,还可以执行以下步骤:
基于模型需求算力确定组件筛选要求,组件筛选要求包括筛选的模型组件的数量范围。
具体的,可以预先设置模型需求算力与模型组件的数量范围的对应关系,根据该对应关系,可以基于模型需求算力对应的模型组件的数量范围,例如:模型需求算力为10T,对应的模型组件的数量范围为5~7个。
进一步地,在执行上述步骤A时,可以基于组件筛选要求,针对模型组件库执行至少一次组件筛选操作。
假设组件筛选要求为:模型组件的数量范围为5~7个,则执行组件筛选操作的次数为5~7次。需要说明的是,同一模型组件可以选择一次或多次,在此不作限定。
可选的,上述步骤A中基于至少一次组件筛选操作选择出的模型组件获得一个初始模型架构,包括:
按照至少一次组件筛选操作的操作顺序,将至少一次组件筛选操作选择出的各个模型组件依次串联,得到一个初始模型架构。
例如,5次组件筛选操作依次筛选出模型组件1、模型组件2、模型组件3、模型组件4、模型组件5,则将这5个模型组件按照上述顺序依次串联组合,获得一个初始模型架构,即模型组件1+模型组件+模型组件3+模型组件4+模型组件5。
步骤A2、从多个初始模型架构中,选择与模型需求算力匹配的N个初始模型架构,作为N个深度学习模型架构。
在获得多个初始模型架构后,可以确定每个初始模型架构的模型算力,然后从多个初始模型架构中选择模型算力与模型需求算力最接近的N个初始模型架构;其中,N的数值可以根据需要设置,在此不作限定。
需要说明的是,除了上述步骤A1-A2的实施方式,还可以每当执行一次模型构建操作,获得一个初始模型架构,判断该初始模型架构的模型算力是否与模型需求算力,如果是,输出该初始模型架构,否则丢弃该初始模型架构,继续执行下一次模型构建操作,直至输出N个与模型需求算力匹配的初始模型架构。
可选的,上述步骤A2可以包括以下步骤A21-A22:
步骤A21、分别确定多个初始模型架构各自的模型算力。
每个初始模型架构的模型算力,由该初始模型架构所包含的各个模型组件的算力确定,而每个模型组件的算力根据其输入维度和输出维度确定。
可选的,每个初始模型架构的模型算力,可以通过以下操作a-c获得:
a、确定每个初始模型架构包含的各个模型组件的输入维度和输出维度。
在每个初始模型架构中,每个模型组件的输入维度与该模型组件的前一个模型组件的输出维度相同,每个模型组件的输出维度可以根据需要设置。具体的,初始模型架构中的第一个模型组件的输入维度由输入网络的输出维度确定,输入网络的输出维度即输入图像的特征维度,第一个模型组件的输出维度可以在纬度范围内设置,例如维度范围为128-192;第二个模型组件的输入维度与第一个模型组件1的输出维度相同,输出维度也可以在维度范围内设置,以此类推,可以确定各个模型组件的输入维度和输出维度。
需要说明的是,各个模型组件的输出维度对应的维度范围可以相同,也可以不同,具体可以根据需要设置。
b、基于每个模型组件的输入维度和输出维度,确定每个模型组件的算力。
对于一个模型组件,在输入维度和输出维度已知的情况下,将输入维度变为输出维度的算力也可以确定。示例性的,假设模型组件为Res block,当输入维度为3,输出维度为192时,将3维度的图像特征变为192维度的图像特征,所需要的算力为1T。
c、基于每个初始模型架构包含的各个模型组件的算力,确定每个初始模型架构的模型算力。
具体的,可以将每个初始模型架构包含的各个模型组件的算力进行加和,获得该初始模型架构的算力。例如:初始模型架构包含模型组件1、模型组件2、模型组件3模型组件4、模型组件5,它们的算力分别为0.5T、1T、0.5T、1T、0.5T,则该初始模型架构的算力为3.5T。
步骤A22、从多个初始模型架构中,选择模型算力满足设定算力要求的N个初始模型架构,设定算力要求由模型需求算力确定。
其中,设定算力要求可以是模型序需求算力所处的算力范围,例如,用户输入的模型需求算力为10T,设定算力要求可以为10T-0.5~10T+0.5,具体可以根据需要设置。具体的,可以将多个初始模型架构按照模型算力的大小进行排序,从满足设定算力要求的初始模型架构中选择与模型需求算力最接近的N个初始模型架构。
步骤S105,服务端基于模型任务和N个深度学习模型架构,获得N个初始深度学习模型。
不同的模型任务可以采用相同的深度学习模型架构,但是不同的模型任务的输入和输出不同,例如,对于目标检测任务和图像分类任务来说,目标检测任务需要输入整张图片,输出目标检测框,而图像分类任务可以输入一张图片中的目标所在的区域,输出目标的类别。
因此,对于同一深度学习模型架构,通过设置不同的输入网络和输出网络,可以实现不同的模型任务,也就是说,每个模型任务对应的输入网络和输出网络可以预先设置。
可选的,上述步骤S105可以包括以下步骤B1-B2:
步骤B1、获取模型任务对应的输入网络和输出网络。
具体的,预先设置不同的模型任务分别对应的输入网络和输出网络,在获取到用户输入的模型任务后,可以获取该模型任务对应的输入网络和输出网络。例如:目标检测任务对应的输入网络用于对整张图片进行处理,输出网络包含检测子网络和分类子网络,图像分类任务对应的输入网络用于对一张图片中的目标所在的区域进行处理,输出网络为分类网络。
步骤B2、针对每个深度学习模型架构,将每个深度学习模型架构与输入网络、输出网络进行组合,获得一个初始深度学习模型。
这里,将输入网络、深度学习模型架构、输出网络依次进行组合,获得初始深度学习模型。例如:模型任务为目标检测任务,则构成的初始深度学习模型为目标检测模型,模型任务为图像分类任务,则构成的初始深度学习模型为图像分类模型。
步骤S106,服务端基于N个初始深度学习模型,获得目标深度学习模型。
该步骤中,基于样本数据集分别对N个初始深度学习模型进行训练,该样本数据集可以是用户在上述模型需求信息的第一界面中输入的。在完成对N个初始深度学习模型的训练后,通过对训练后的N个深度学习模型进行测试,可以选择最优的一个深度学习模型作为目标深度学习模型。
可选的,如图3所示,上述步骤S106中可以包括以下步骤S1061-S1063:
步骤S1061、基于样本数据集分别对N个初始深度学习模型进行训练,获得训练后的N个候选深度学习模型。
具体的,假设初始深度学习模型为目标检测模型,对于每个目标检测模型,采用样本数据集对该初始深度学习模型进行多轮迭代训练,直到满足预设的收敛条件为止,其中,预设的收敛条件可以是迭代次数达到预设次数,也可以是损失值达到预设损失值;在一轮迭代训练过程中,可以执行以下操作:将从样本数据集中获取的样本数据,输入初始深度学习模型,获得样本数据对应的预测结果,根据预测结果和样本数据对应的实际结果,获得相应的损失值;基于损失值,对初始深度学习模型进行参数调整。
步骤S1062、基于样本数据集分别对N个候选深度学习模型进行测试,获得N个候选深度学习模型各自的测试结果。
其中,可以从样本数据集中的选择部分样本数据分别对多个候选深度学习模型进行测试。测试结果可以包括模型任务对应的模型评估指标,不同的模型任务对应的模型评估指标可能相同,也可能不同。
例如:对于目标检测任务来说,深度学习模型具体为目标检测模型,需要确定图像中目标的位置信息以及对目标进行分类,其模型评估指标可以包括损失值、均值平均精度(mean Average Precision,MAP)等,还可以包含其它指标,在此不一一列举;其中,MAP可以通过如下方式计算:MAP=所有类别的平均精度之和/总的类别数。具体的,假定有20个类别,首先确定每个类别的平均精度,具体方式为:对于一个类别来说,假设用于测试的样本数据包含100个图片,可以确定每个图片对该类别的检测精度,这样,可以获得该类别的平均精度,进而获得20个类别的平均精度之和。
步骤S1063、基于N个候选深度学习模型各自的测试结果,从N个候选深度学习模型中选择目标深度学习模型。
由前述可知,测试结果包括模型任务对应的模型评估指标,可选的,步骤S1053可以包括:从N个候选深度学习模型中,选择模型评估指标满足设定指标条件的N个候选深度学习模型,作为目标深度学习模型。
其中,设定指标条件可以根据需要设置,例如,当模型评估指标包括一个指标时,可以选择该指标最优的一个候选深度学习模型;当模型评估指标包括多个指标时,可以兼顾多个指标,根据多个指标的重要程度,选择效果最优的一个候选深度学习模型。
需要说明的是,上述服务端可以为服务端集群,通过服务端集群中的各个服务端分别对多个候选深度学习模型进行训练以及测试,这样,可以并行进行模型训练及测试,大大提高模型训练以及测试的效率。
步骤S107,服务端将目标深度学习模型发送给终端。
步骤S108,终端通过第二界面展示目标深度学习模型。
具体的,可以在第二界面中展示目标深度学习模型的结构,包括输入网络的结构、深度学习模型架构和输出网络的结构,此外,还可以显示该目标深度学习模型的模型需求算力。
需要说明的是,第二界面与上述第一界面可以相同,也可以不同,下面对第二界面展示的目标深度学习模型进行示例性介绍。
示例性的,如图4所示,在第二界面中展示有目标深度学习模型(例如为图像分类模型),其输入网络用于输入32*32*1的图像;深度学习模型架构包括第一模型组件:包含5×5的6通道卷积和2×2的池化;第二模型组件:包含5×5的16通道卷积和2×2的池化;第三模型组件:包含5×5的120通道卷积;输出网络包括第一全连接层、第二全连接层和Softmax函数,第一全连接层的输出神经元的个数是64,第二全连接层的输出神经元个数是分类标签的类别数,然后使用Softmax函数即可计算出每个类别的预测概率。
本申请实施例可以自动化构建N个初始深度学习模型,基于这些初始深度学习模型获得最终的目标深度学习模型;这样,无需经验丰富的算法工程师在构建深度学习模型时,反复调整模型结构,节约了模型构建的时间,提高了深度学习模型的生成效率,便于高效地将深度学习模型投入线上使用。
需要说明的是,在另一些实施例中,上述步骤S104-步骤S106也可以由终端执行,此时,在上述步骤S103中,终端不需要将包含模型需求信息的模型生成指令发送给服务端,而是直接响应于用户通过第一界面触发的需求指示操作,执行上述步骤S104-步骤S106以及步骤108。
基于本申请上述实施例,在获得目标深度学习模型后,为了进一步减小该模型所需的算力,还可以对目标深度学习模型进行微调整。
具体的,每个模型组件包含N个卷积层,每个卷积层包含多个输入通道和多个输出通道;例如,对于图像分类任务来说,输入的每个图像特征可以包括多个维度,每个维度对应一个输入通道,将图像特征进行卷积操作后,可以输出更多维度的特征,每个维度对应一个输出通道。
在上述步骤S107服务端将目标深度学习模型发送给终端之前,还可以执行如下步骤:
针对目标深度学习模型包含的每个模型组件,若确定模型组件的N个卷积层满足模型剪枝条件,则分别调整N个卷积层各自的输入通道数和输出通道数。
具体的,可以采用模型剪枝方法对目标深度学习模型进行微调,例如:针对目标深度学习模型中的每个模型组件,采用模型剪枝方法对其包含的每个卷积层的多个输入通道和多个输出通道进行评价,获得每个输入通道的评价值和每个输出通道的评价值,基于评价值可以确定对应的输入通道或者输出通道,是否满足模型剪枝条件。
例如:如果一个输入通道的评价值小于预设值,确定该输入通道满足模型剪枝条件,可以删除,从而减小目标深度学习模型所需的算力。通常地,在目标深度学习模型中,一个模型组件输入的维度数发生变化,其它模型组件输入的维度数也会发生变化,因此,需要调整各个模型组件输入的维度数。
本申请实施例中,通过对选择的最优深度学习模型进行微调整,使得最终生成的深度学习模型不仅具有较优的效果,同时其模型需求算力也符合任务部署要求。
下面结合图5A和图5B对本申请实施例的生成深度学习模型的具体实施流程进行示例性说明。
本申请实施例提供的一种生成深度学习模型的实施流程,可以由终端执行,也可以由服务端执行,如图5A所示,具体可以包括以下五个流程,:
步骤S501,构建模型组件库。
具体的,将构成深度学习模型的最小单元结构作为模型组件,构建具有丰富模型组件的模型组件库。
步骤S502,构建初始深度学习模型。
该步骤中,首先根据用户输入的模型需求算力,基于模型组件库中的各个模型组件,分别构建N个不同的深度学习模型架构,如图5B所示,具体可以执行以下步骤:
步骤S5021,构建初始模型架构。
具体的,可以执行多次模型构建操作,获得多个初始模型架构,每次模型构建操作包括:从模型组件库中任意获取至少一个模型组件,基于至少一个模型组件组合成一个初始模型架构。
步骤S5022,判断初始模型架构的模型算力是否符合设定算力要求,如果是,则执行步骤S5023,否则丢弃该初始模型架构。
其中,设定算力要求由模型需求算力确定。
步骤S5023,输出初始模型架构,作为深度学习模型架构。
进一步地,基于用户输入的模型任务,确定输入网络和输出网络,将输入网络、输出网络和每个深度学习模型架构进行组合,获得N个不同的初始深度学习模型。
步骤S503,训练初始深度学习模型。
对上述步骤S502构建的N个初始深度学习模型进行并行训练。
步骤S504,对训练后的深度学习模型进行测试以及选择最优的深度学习模型。
该最优的深度学习模型即本申请上述实施例中的目标深度学习模型。
步骤S505,对选择的最优深度学习模型进行微调并输出。
具体的,采用模型剪枝算法对最优深度学习模型进行结构微调整,输出符合模型需求算力需求且效果较优的深度学习模型。
本申请实施例提供出一种生成深度学习模型的方法,无需算法人员构建模型,只需输入样本数据集、确认模型任务和任务部署所能给予的最大算力,即可自动化的完成模型构建以及训练,并输出可部署的深度学习模型。
下面对终端单独执行生成深度学习模型的方法的流程进行介绍。
如图6所示,本申请实施例提供的一种生成深度学习模型的方法,可以由者终端单独执行以下步骤S601-S605:
步骤S601、响应于用户通过第一界面触发的需求指示操作,将需求指示操作指示的模型需求算力和模型任务,确定为模型需求信息。
步骤S602、基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数。
步骤S603、基于模型任务和N个深度学习模型架构,获得N个初始深度学习模型。
步骤S604、基于N个初始深度学习模型,获得目标深度学习模型。
步骤S605、通过第二界面展示目标深度学习模型。
该步骤S601-S605的具体实施方式参见上述步骤S101-S108,在此不再赘述。
下面对服务端单独执行生成深度学习模型的方法的流程进行介绍。
如图7所示,本申请实施例提供的一种生成深度学习模型的方法,可以由者终端单独执行以下步骤S701-S704:
步骤S701、接收终端发送的模型需求信息;模型需求信息是终端响应于用户通过第一界面触发的需求指示操作时,基于需求指示操作指示的模型需求算力和模型任务确定的。
步骤S702、基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数。
步骤S703、基于模型任务和N个深度学习模型架构,获得N个初始深度学习模型。
步骤S704、基于N个初始深度学习模型,获得目标深度学习模型;
步骤S705、将目标深度学习模型发送给终端,以使终端通过第二界面展示目标深度学习模型。
该步骤S701-S705的具体实施方式参见上述步骤S101-S108,在此不再赘述。
基于相同的发明构思,本申请实施例还提供了一种生成深度学习模型的装置,由于该装置解决问题的原理与上述实施例中的方法相似,因此该装置的实施可以参见方法的实施例,重复之处不再赘述。
如图8所示,本申请实施例提供一种生成深度学习模型的装置,可以应用于终端,也可以应用于服务端,该装置包括需求获取模块81、构建模块82、模型获取模块83和选择模块84。
需求获取模块81,用于获取模型需求信息,模型需求信息至少包括模型需求算力和模型任务;
构建模块82,用于基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数;
模型获取模块83,用于基于用户模型任务和N个深度学习模型架构,获得N个初始深度学习模型;
选择模块84,用于基于N个初始深度学习模型,获得目标深度学习模型。
本申请实施例可以自动化构建N个初始深度学习模型,基于这些初始深度学习模型获得最终的目标深度学习模型;这样,无需经验丰富的算法工程师在构建深度学习模型时,反复调整模型结构,节约了模型构建的时间,提高了深度学习模型的生成效率,便于高效地将深度学习模型投入线上使用。
可选的,构建模块82还用于:
执行多次模型构建操作,获得多个初始模型架构,其中,模型构建操作包括:基于模型组件库,执行至少一次组件筛选操作,基于至少一次组件筛选操作选择出的模型组件获得一个初始模型架构;
从多个初始模型架构中,选择与模型需求算力匹配的N个初始模型架构,作为N个深度学习模型架构。
可选的,装置还包括筛选要求确定模块,用于:
基于模型需求算力确定组件筛选要求,组件筛选要求包括筛选的模型组件的数量范围;
构建模块82还用于:
基于组件筛选要求,针对模型组件库执行至少一次组件筛选操作。
可选的,从多个初始模型架构中,选择与模型需求算力匹配的N个初始模型架构时,构建模块还用于:
分别确定多个初始模型架构各自的模型算力;
从多个初始模型架构中,选择模型算力满足设定算力要求的N个初始模型架构,设定算力要求由模型需求算力确定。
可选的,分别确定多个初始模型架构各自的模型算力时,构建模块82还用于:
针对每个初始模型架构,执行以下操作:
确定每个初始模型架构包含的各个模型组件的输入维度和输出维度;
基于每个模型组件的输入维度和输出维度,确定每个模型组件的算力;
基于每个初始模型架构包含的各个模型组件的算力,确定每个初始模型架构的模型算力。
可选的,基于至少一次组件筛选操作选择出的模型组件获得一个初始模型架构时,构建模块82还用于:
按照至少一次组件筛选操作的操作顺序,将至少一次组件筛选操作选择出的各个模型组件依次串联,得到一个初始模型架构。
可选的,模型获取模块83还用于:
获取模型任务对应的输入网络和输出网络;
针对每个深度学习模型架构,将每个深度学习模型架构与输入网络、输出网络进行组合,获得一个初始深度学习模型。
可选的,模型需求信息还包括样本数据集;
选择模块84还用于:
基于样本数据集分别对N个初始深度学习模型进行训练,获得训练后的N个候选深度学习模型;
基于样本数据集分别对N个候选深度学习模型进行测试,获得N个候选深度学习模型各自的测试结果;
基于N个候选深度学习模型各自的测试结果,从N个候选深度学习模型中选择目标深度学习模型。
可选的,测试结果包括模型任务对应的模型评估指标;
基于N个候选深度学习模型各自的测试结果,从N个候选深度学习模型中选择目标深度学习模型时,选择模块84还用于:
从N个候选深度学习模型中,选择模型评估指标满足设定指标条件的一个候选深度学习模型,作为目标深度学习模型。
可选的,每个模型组件包含N个卷积层,每个卷积层包含多个输入通道和多个输出通道;
装置还包括调整模块,用于:
针对目标深度学习模型包含的每个模型组件,若确定模型组件的N个卷积层满足模型剪枝条件,则分别调整N个卷积层各自的输入通道数和输出通道数。
可选的,装置用于终端,需求获取模块81还用于:
响应于用户通过第一界面触发的需求指示操作,将需求指示操作指示的模型需求算力和模型任务,确定为模型需求信息;
装置还包括展示模块,用于:
通过第二界面展示目标深度学习模型。
可选的,装置应用于服务端,需求获取模块81还用于:
接收终端发送的模型需求信息;模型需求信息是终端响应于用户通过第一界面触发的需求指示操作时,基于需求指示操作指示的模型需求算力和模型任务确定的;
装置还包括模型发送模块,用于:
将目标深度学习模型发送给终端,以使终端通过第二界面展示目标深度学习模型。
基于相同的发明构思,本申请实施例提供一种生成深度学习模型的装置,如图9所示,包括:
需求获取模块81,用于响应于用户通过第一界面触发的需求指示操作,将需求指示操作指示的模型需求算力和模型任务,确定为模型需求信息;
构建模块82,用于基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数;
模型获取模块83,用于基于模型任务和N个深度学习模型架构,获得N个初始深度学习模型;
选择模块84,用于基于N个初始深度学习模型,获得目标深度学习模型;
展示模块85,用于通过第二界面展示目标深度学习模型。
基于相同的发明构思,本申请实施例提供一种生成深度学习模型的装置,如图10所示,包括:
需求获取模块81,用于接收终端发送的模型需求信息;模型需求信息是终端响应于用户通过第一界面触发的需求指示操作时,基于需求指示操作指示的模型需求算力和模型任务确定的;
构建模块82,用于基于模型组件库中的多个模型组件,构建与模型需求算力匹配的N个深度学习模型架构,每个深度学习模型框架包括至少一个模型组件,N为大于0的整数;
模型获取模块83,用于基于模型任务和N个深度学习模型架构,获得N个初始深度学习模型;
选择模块84,用于基于N个初始深度学习模型,获得目标深度学习模型;
发送模块86,将目标深度学习模型发送给终端,以使终端通过第二界面展示目标深度学习模型。
基于相同的发明构思,本申请实施例还提供了一种电子设备,由于该电子设备即是本申请实施例中的方法中的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实施例,重复之处不再赘述。
如图11所示,该电子设备包括处理器1100、存储器1101和通信接口1102,其中,处理器1100与通信接口1102、存储器1101通过通信总线1103完成相互间的通信;存储器1101用于存储处理器1100可执行的程序,处理1100用于读取存储器1101中的程序并执行上述实施例中的任一生成深度学习模型的方法的步骤。
上述电子设备提到的通信总线1103可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口1102用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如N个磁盘存储器。可选地,存储器还可以是N个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
基于相同的发明构思,本申请实施例还提供了一种计算机存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行上述实施例中任一生成深度学习模型的方法的步骤。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD)等。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,该计算机程序产品在被电子设备调用执行时,可使电子设备执行上述实施例中任一生成深度学习模型的方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (19)
1.一种生成深度学习模型的方法,其特征在于,包括:
获取模型需求信息,所述模型需求信息至少包括模型需求算力和模型任务;
基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
基于N个所述初始深度学习模型,获得目标深度学习模型。
2.根据权利要求1所述的方法,其特征在于,所述基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,包括:
执行多次模型构建操作,获得多个初始模型架构,其中,所述模型构建操作包括:基于所述模型组件库,执行至少一次组件筛选操作,基于所述至少一次组件筛选操作选择出的模型组件获得一个所述初始模型架构;
从多个所述初始模型架构中,选择与所述模型需求算力匹配的N个初始模型架构,作为N个所述深度学习模型架构。
3.根据权利要求2所述的方法,其特征在于,所述执行多次模型构建操作,获得多个初始模型架构之前,还包括:
基于所述模型需求算力确定组件筛选要求,所述组件筛选要求包括筛选的模型组件的数量范围;
所述基于所述模型组件库,执行至少一次组件筛选操作,包括:
基于所述组件筛选要求,针对所述模型组件库执行至少一次组件筛选操作。
4.根据权利要求2所述的方法,其特征在于,从多个所述初始模型架构中,选择与所述模型需求算力匹配的N个初始模型架构,包括:
分别确定多个所述初始模型架构各自的模型算力;
从多个所述初始模型架构中,选择模型算力满足设定算力要求的N个初始模型架构,所述设定算力要求由所述模型需求算力确定。
5.根据权利要求4所述的方法,其特征在于,所述分别确定多个所述初始模型架构各自的模型算力,包括:
针对每个所述初始模型架构,执行以下操作:
确定每个所述初始模型架构包含的各个模型组件的输入维度和输出维度;
基于每个模型组件的输入维度和输出维度,确定每个模型组件的算力;
基于每个所述初始模型架构包含的各个模型组件的算力,确定每个所述初始模型架构的模型算力。
6.根据权利要求3所述的方法,其特征在于,基于所述至少一次组件筛选操作选择出的模型组件获得一个所述初始模型架构,包括:
按照所述至少一次组件筛选操作的操作顺序,将所述至少一次组件筛选操作选择出的各个模型组件依次串联,得到一个所述初始模型架构。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型,包括:
获取所述模型任务对应的输入网络和输出网络;
针对每个所述深度学习模型架构,将每个所述深度学习模型架构与所述输入网络、所述输出网络进行组合,获得一个所述初始深度学习模型。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述模型需求信息还包括样本数据集;
所述基于N个所述初始深度学习模型,获得目标深度学习模型,包括:
基于所述样本数据集分别对N个所述初始深度学习模型进行训练,获得训练后的N个候选深度学习模型;
基于所述样本数据集分别对N个所述候选深度学习模型进行测试,获得N个所述候选深度学习模型各自的测试结果;
基于N个所述候选深度学习模型各自的测试结果,从N个所述候选深度学习模型中选择目标深度学习模型。
9.根据权利要求8所述的方法,其特征在于,所述测试结果包括所述模型任务对应的模型评估指标;
所述基于多个候选深度学习模型各自的测试结果,从所述多个候选深度学习模型中选择目标深度学习模型,包括:
从所述多个候选深度学习模型中,选择模型评估指标满足设定指标条件的一个候选深度学习模型,作为所述目标深度学习模型。
10.根据权利要求1-6任一项所述的方法,其特征在于,每个模型组件包含N个卷积层,每个卷积层包含多个输入通道和多个输出通道;
所述基于N个所述初始深度学习模型,获得目标深度学习模型之后,还包括:
针对所述目标深度学习模型包含的每个模型组件,若确定所述模型组件的至少一个卷积层满足模型剪枝条件,则分别调整所述至少一个卷积层各自的输入通道数和输出通道数。
11.根据权利要求1-6任一项所述的方法,其特征在于,应用于终端,
所述获取模型需求信息,包括:
响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
所述基于N个所述初始深度学习模型,获得目标深度学习模型之后,还包括:
通过第二界面展示所述目标深度学习模型。
12.根据权利要求1-6任一项所述的方法,其特征在于,应用于服务端,
所述获取模型需求信息,包括:
接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
所述基于N个所述初始深度学习模型进行训练,获得目标深度学习模型之后,还包括:
将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
13.一种生成深度学习模型的方法,其特征在于,包括:
响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
基于N个所述初始深度学习模型,获得目标深度学习模型;
通过第二界面展示所述目标深度学习模型。
14.一种生成深度学习模型的方法,其特征在于,包括:
接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
基于N个所述初始深度学习模型,获得目标深度学习模型;
将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
15.一种生成深度学习模型的装置,其特征在于,包括:
需求获取模块,用于获取模型需求信息,所述模型需求信息是用户在第一界面中输入的,至少包括模型需求算力和模型任务;
构建模块,用于基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
模型获取模块,用于基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
选择模块,用于基于N个所述初始深度学习模型,获得目标深度学习模型。
16.一种生成深度学习模型的装置,其特征在于,包括:
需求获取模块,用于响应于用户通过第一界面触发的需求指示操作,将所述需求指示操作指示的模型需求算力和模型任务,确定为所述模型需求信息;
构建模块,用于基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
模型获取模块,用于基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
选择模块,用于基于N个所述初始深度学习模型,获得目标深度学习模型;
展示模块,用于通过第二界面展示所述目标深度学习模型。
17.一种生成深度学习模型的装置,其特征在于,包括:
需求获取模块,用于接收终端发送的模型需求信息;所述模型需求信息是所述终端响应于用户通过第一界面触发的需求指示操作时,基于所述需求指示操作指示的模型需求算力和模型任务确定的;
构建模块,用于基于模型组件库中的多个模型组件,构建与所述模型需求算力匹配的N个深度学习模型架构,每个所述深度学习模型框架包括至少一个所述模型组件,所述N为大于0的整数;
模型获取模块,用于基于所述模型任务和N个所述深度学习模型架构,获得N个初始深度学习模型;
选择模块,用于基于N个所述初始深度学习模型,获得目标深度学习模型,并将所述目标深度学习模型发送给所述终端,以使所述终端通过第二界面展示所述目标深度学习模型。
18.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~14中任一所述方法的步骤。
19.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~14中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563774.XA CN115081613A (zh) | 2022-05-23 | 2022-05-23 | 生成深度学习模型的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563774.XA CN115081613A (zh) | 2022-05-23 | 2022-05-23 | 生成深度学习模型的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115081613A true CN115081613A (zh) | 2022-09-20 |
Family
ID=83249191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210563774.XA Pending CN115081613A (zh) | 2022-05-23 | 2022-05-23 | 生成深度学习模型的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081613A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660064A (zh) * | 2022-11-10 | 2023-01-31 | 北京百度网讯科技有限公司 | 基于深度学习平台的模型训练方法、数据处理方法和装置 |
CN116820776A (zh) * | 2023-07-12 | 2023-09-29 | 上海盛迭信息科技有限公司 | 一种兼容多种算法模型和行业特征库的人工智能算力设备 |
CN117370809A (zh) * | 2023-11-02 | 2024-01-09 | 快朵儿(广州)云科技有限公司 | 一种基于深度学习的人工智能模型构建方法、系统及存储介质 |
-
2022
- 2022-05-23 CN CN202210563774.XA patent/CN115081613A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660064A (zh) * | 2022-11-10 | 2023-01-31 | 北京百度网讯科技有限公司 | 基于深度学习平台的模型训练方法、数据处理方法和装置 |
CN115660064B (zh) * | 2022-11-10 | 2023-09-29 | 北京百度网讯科技有限公司 | 基于深度学习平台的模型训练方法、数据处理方法和装置 |
CN116820776A (zh) * | 2023-07-12 | 2023-09-29 | 上海盛迭信息科技有限公司 | 一种兼容多种算法模型和行业特征库的人工智能算力设备 |
CN116820776B (zh) * | 2023-07-12 | 2024-08-27 | 上海盛迭信息科技有限公司 | 一种兼容多种算法模型和行业特征库的人工智能算力设备 |
CN117370809A (zh) * | 2023-11-02 | 2024-01-09 | 快朵儿(广州)云科技有限公司 | 一种基于深度学习的人工智能模型构建方法、系统及存储介质 |
CN117370809B (zh) * | 2023-11-02 | 2024-04-12 | 快朵儿(广州)云科技有限公司 | 一种基于深度学习的人工智能模型构建方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376615B (zh) | 用于提升深度学习网络预测性能的方法、装置及存储介质 | |
CN115081613A (zh) | 生成深度学习模型的方法、装置、电子设备及存储介质 | |
EP3574453A1 (en) | Optimizing neural network architectures | |
CN110348562A (zh) | 神经网络的量化策略确定方法、图像识别方法和装置 | |
CN105446988B (zh) | 预测类别的方法和装置 | |
CN103927550B (zh) | 一种手写体数字识别方法及系统 | |
CN112785005B (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN112766402A (zh) | 算法选择方法、装置和电子设备 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
US10733499B2 (en) | Systems and methods for enhancing computer assisted high throughput screening processes | |
CN117540915A (zh) | 基于大数据技术的选型方案生成方法、装置、设备和介质 | |
CN113010687B (zh) | 一种习题标签预测方法、装置、存储介质以及计算机设备 | |
CN115454787A (zh) | 告警分类方法、装置、电子设备及存储介质 | |
CN115345257A (zh) | 飞行轨迹分类模型训练方法、分类方法、装置及存储介质 | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
CN112528500B (zh) | 一种场景图构造模型的评估方法及评估设备 | |
CN115375965A (zh) | 一种目标场景识别的预处理方法、目标场景识别方法 | |
CN114519520A (zh) | 模型评估方法、装置及存储介质 | |
JP2007018530A (ja) | 忘却型ヒストグラム計算装置及びそれを用いた外れ値度計算装置 | |
CN114116456A (zh) | 测试用例生成方法、系统及计算机可读存储介质 | |
CN113159100B (zh) | 电路故障诊断方法、装置、电子设备和存储介质 | |
CN112825143A (zh) | 深度卷积神经网络压缩方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |