CN112348188B - 模型生成方法及装置、电子设备和存储介质 - Google Patents

模型生成方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112348188B
CN112348188B CN202011273240.0A CN202011273240A CN112348188B CN 112348188 B CN112348188 B CN 112348188B CN 202011273240 A CN202011273240 A CN 202011273240A CN 112348188 B CN112348188 B CN 112348188B
Authority
CN
China
Prior art keywords
search space
sampling modules
network model
network
candidate sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011273240.0A
Other languages
English (en)
Other versions
CN112348188A (zh
Inventor
次元政
林宸
欧阳万里
孙明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202011273240.0A priority Critical patent/CN112348188B/zh
Publication of CN112348188A publication Critical patent/CN112348188A/zh
Application granted granted Critical
Publication of CN112348188B publication Critical patent/CN112348188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供一种模型生成方法及装置、电子设备和存储介质,其中,所述方法包括:获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型,能够提升网络模型确定时的便捷性。

Description

模型生成方法及装置、电子设备和存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种模型生成方法及装置、电子设备和存储介质。
背景技术
深度神经网络是图像分类、检测、分割等实际应用的核心组件,自动化网络设计是提高生产效率及减少人工作量的关键。最近出现了一些为目标任务设计专用的搜索空间来优化网络结构。在这种简化的范式下,结果的性能易于优化,但会受到所设计的搜索空间自身质量的限制。就其他特定任务和资源限制而言,需要人为干预以提出一个更合适的空间。
在以往的网络结构设计中,设计一个基本模块并在网络各尺度复用是最为简洁直观的设计方式,因此许多网络结构搜索算法是基于模块的。通常需要不断采样结构并对每个样本进行充分地训练以衡量其性能,导致很难直接在大数据集上直接搜索最适于该任务的结构,使得获取网络模型时的便捷性较低。
发明内容
本申请实施例提供一种模型生成方法及装置、电子设备和存储介质,能够提升网络模型确定时的便捷性。
本申请实施例的第一方面提供了一种模型生成方法,所述方法包括:
获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;
对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型。
结合第二方面,在一个可能的实现方式中,所述获取第二搜索空间,包括:
对所述第一搜索空间进行超网训练,以得到N个第一参考网络模型;
根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,M为小于或等于N的正整数;
获取所述M个满足所述预设性能的第一参考网络模型的采样模块;
从所述搜索空间池中获取第一数量的候选采样模块;
将所述第一数量的候选采样模块和所述M个满足所述预设性能的第一参考网络模型的采样模块的并集确定为第二搜索空间,所述第二搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块。
结合第二方面,在一个可能的实现方式中,所述根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,包括:
根据所述预设性能参数,确定帕累托边界;
将所述N个第一参考网络模型中性能参数在所述帕累托边界上的M个第一参考网络模型,确定为满足所述预设性能的第一参考网络模型。
结合第一方面,在一个可能的实现方式中,对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型,包括:
从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块;
对所述m层的每一层的A个候选采样模块进行组合,以得到N个第二参考网络模型的采样模块,A的m次幂大于或等于N;
获取超网权重值;
根据所述超网权重值对所述N个第二参考网络模型的采样模块进行训练,以得到所述N个第二参考网络模型。
结合第一方面,在一个可能的实现方式中,所述获取超网权重值,包括:
获取所述第一网络模型的交叉熵损失函数;
根据所述交叉熵损失函数和预设参数化网络,获取所述超网权重值。
结合第一方面,在一个可能的实现方式中,所述从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块,包括:
获取所述K个候选采样模块中的每个候选采样模块的选取概率;
根据所述选取概率从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块。
结合第一方面,在一个可能的实现方式中,所述获取第一网络模型的第一搜索空间,包括:
从搜索空间池中随机采样获取包括所述第一网络模型的m层的每一层的K个候选采样模块,以得到所述第一搜索空间。
结合第一方面,在一个可能的实现方式中,所述性能参数至少包括模型大小和训练时间中的一种。
本申请实施例的第二方面提供了一种目标检测方法,该方法包括:
获取待检测数据;
基于如上述第一方面任一项所述的第一网络模型对所述待检测数据进行目标检测,得到目标检测结果。
本申请实施例的第三方面提供了一种模型生成装置,所述装置包括:
第一获取单元,用于获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
第二获取单元,用于获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;
训练单元,用于对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
确定单元,用于根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型。
结合第三方面,在一个可能的实现方式中,所述第二获取单元用于:
对所述第一搜索空间进行超网训练,以得到N个第一参考网络模型;
根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,M为小于或等于N的正整数;
获取所述M个满足所述预设性能的第一参考网络模型的采样模块;
从所述搜索空间池中获取第一数量的候选采样模块;
将所述第一数量的候选采样模块和所述M个满足所述预设性能的第一参考网络模型的采样模块的并集确定为第二搜索空间,所述第二搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块。
结合第三方面,在一个可能的实现方式中,在所述根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型方面,所述第二获取单元用于:
根据所述预设性能参数,确定帕累托边界;
将所述N个第一参考网络模型中性能参数在所述帕累托边界上的M个第一参考网络模型,确定为满足所述预设性能的第一参考网络模型。
结合第三方面,在一个可能的实现方式中,所述训练单元用于:
从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块;
对所述m层的每一层的A个候选采样模块进行组合,以得到N个第二参考网络模型的采样模块,A的m次幂大于或等于N;
获取超网权重值;
根据所述超网权重值对所述N个第二参考网络模型的采样模块进行训练,以得到所述N个第二参考网络模型。
结合第三方面,在一个可能的实现方式中,在所述获取超网权重值方面,所述训练单元具体用于:
获取所述第一网络模型的交叉熵损失函数;
根据所述交叉熵损失函数和预设参数化网络,获取所述超网权重值。
结合第三方面,在一个可能的实现方式中,在所述从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块方面,所述训练单元用于:
获取所述K个候选采样模块中的每个候选采样模块的选取概率;
根据所述选取概率从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块。
结合第三方面,在一个可能的实现方式中,其特征在于,第一获取单元用于:
从搜索空间池中随机采样获取包括所述第一网络模型的m层的每一层的K个候选采样模块,以得到所述第一搜索空间。
结合第三方面,在一个可能的实现方式中,所述性能参数至少包括模型大小和训练时间中的一种。
本申请实施例的第四方面提供一种目标检测装置,该装置用于:
获取待检测数据;
基于如第三方面任一项所述的第一网络模型对所述待检测数据进行目标检测,得到目标检测结果。
本申请实施例的第五方面提供一种电子设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面或第二方面中的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面或第二方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面或第二方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,至少具有如下有益效果:
获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块,获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同,对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型,根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型,因此,相对于现有方案中需要充分的对采样模块进行训练后,得到网络模型,能够从对第一搜索空间中的多个候选采样模块,进行超网训练,并根据性能参数从N个参考网络模型中确定出第一网络模型,提升了第一网络模型获取时的便捷性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例提供了一种模型生成方法的流程示意图;
图1B为本申请实施例提供了一种获取第二搜索空间的示意图;
图1C为本申请实施例提供了另一种获取第二搜索空间的示意图;
图2为本申请实施例提供了另一种模型生成方法的流程示意图;
图3为本申请实施例提供的一种电子设备的结构示意图;
图4为本申请实施例提供了一种模型生成装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
请参阅图1A,图1A为本申请实施例提供了一种模型生成方法的流程示意图。如图1A所示,该方法包括:
101、获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块。
第一网络模型可以是用于进行目标检测等的网络模型等,例如,对人物进行检测、车辆检测等,第一网络模型还可以是分类模型等,例如,对图像进行分类处理的模型等。
第一搜索空间可以是从搜索空间池中随机采样得到的搜索空间,该空间包括有第一网络模型的m层中的每一层的K个候选采样模块。搜索空间池可以是预先存储有多个采样模块的搜索空间,该空间可以是无限量的空间,具体可以理解为该空间中的采样模块的数量可以是无限大,例如,该空间中的采样模块可以被无限扩充等。
候选采样模块可以包括无降采样模块和有降采样模块。在进行获取搜多空间之前,可以将网络模型需要搜索的采样模块进行分类,得到无降采样模块和有降采样模块,再进行搜索空间的获取。
102、获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同。
第二搜索空间的规格与第一搜索空间的规格相同可以理解为:第二搜索空间中候选采样模块的个数与第一搜索空间中候选采样模块的个数相同,具体可以理解为第二搜索空间中包括第一网络模型的m层的每一层的候选采样模块的个数也是K个。
预设条件可以是预设性能,预设性能包括有预设性能参数,该预设性能参数至少可以包括模型大小和训练时间中的一种或多种。
103、对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型。
可以对第二搜索空间中的候选采样模块进行组合,得到多个参考网络模型的采样模块,并根据超网权重对多个参考网络模型的采样模块进行训练,以得到参考网络模型。
对候选采样模块进行组合的方式可以是随机组合的方式进行组合,例如,从m层中的每一层中选取至少一个候选采样模块进行组合,以得到参考网络模型的采样模块。
104、根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型。
性能参数至少包括模型大小和训练时间中的一种,当然还可以包括有其它的性能参数,例如,训练成本信息等。
本示例中,获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块,获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同,对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型,根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型,因此,相对于现有方案中需要充分的对采样模块进行训练后,得到网络模型,能够从对第一搜索空间中的多个候选采样模块,进行超网训练,并根据性能参数从N个参考网络模型中确定出第一网络模型,提升了第一网络模型获取时的便捷性。
在一个可能的实现方式中,一种可能的获取第二搜索空间的方法包括:
A1、对所述第一搜索空间进行超网训练,以得到N个第一参考网络模型;
A2、根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,M为小于或等于N的正整数;
A3、获取所述M个满足所述预设性能的第一参考网络模型的采样模块;
A4、从所述搜索空间池中获取第一数量的候选采样模块;
A5、将所述第一数量的候选采样模块和所述M个满足所述预设性能的第一参考网络模型的采样模块的并集确定为第二搜索空间,所述第二搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块。
可以将性能参数优于预设性能参数的第一参考网络模型,确定为满足预设性能的第一参考网络模型,具体例如,以性能参数为训练时间为例,训练时间低于预设训练时间,则确定为满足预设性能,以模型大小为例,模型大小小于预设模型大小,则确定为满足预设性能,当然,也可以是同时满足训练时间和模型大小的性能,即,训练时间低于预设训练时间和模型大小小于预设模型大小等。
在对第一搜索空间进行超网训练后,对于不满足预设性能参数的搜索空间的进行第二数量的修剪,得到修剪后的搜索空间。也即第二数量等于第一数量。
满足预设性能的第一参考网络模型的采样模块,可以通过获取第一参考网络模型的每一层的候选采样模块,将该候选采样模块确定为第一参考网络的采样模块。
可以是从搜索空间池中随机获取第一数量的候选采样模块,第一数量的候选采样模块与满足预设性能的第一参考网络模型的采样模块在每一层的数目之和为K个,具体例如,满足预设性能的第一参考网络模型在第一层中包括有1个候选采样模块,则获取的候选采样模块在第一层中的数量为K-1个,以此进行获取,其它层采用相同的方式获取候选采样模块,从而得到第一数量的候选采样模块,从而得到第二搜索空间。第二搜索空间的包括第一网络模型的m层每一层的K个候选采样模块。
可以将第二搜索空间确定为第一搜索空间,因此,可以通过上述方式对第一搜索空间进行更新,以使得第一搜索空间中的候选采样模块更加适用于第一网络模型,更适用于目标任务的模型。
图1B示出了一种获取第二搜索空间的示意图。如图1B所示,在获取到第一搜索空间后,可以从第一搜索空间中选取出满足预设条件的候选采样模块,并将该候选采样模块,作为第二搜索空间中的一部分,第二搜索空间再从搜索空间池中获取第一数量的候选采样模块,使得第二搜索空间的规格与第一搜索空间的规格相同。图中示出了多个第二搜索空间,每个搜索空间包括上一轮搜索空间中满足预设条件的候选采样模块,因此,可以对第二搜索空间进行多次的迭代更新,提升第二搜索空间的准确性。
在确定第一数量的候选采样模块时,该第一数量的候选采样模块为搜索空间池中除第一搜索空间中包括的候选采样模块以外的候选采样模块,当然,第一数量的候选采样模块也可以是从搜索空间池中随机选取的候选采样模块。
在一个可能的实现方式中,一种可能的根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型的方法包括:
B1、根据所述预设性能参数,确定帕累托边界;
B2、将所述N个第一参考网络模型中性能参数在所述帕累托边界上的M个第一参考网络模型,确定为满足所述预设性能的第一参考网络模型。
可以采用现有方案中,设定帕累托边界的方式,通过预设性能参数来设定帕累托边界。
本示例中,将帕累托边界上的M个第一参考网络模型确定为满足预设性能的第一参考网络模型,可以提升确定第一参考网络模型时的准确性,进而提升对搜索空间进行更新时的准确性。
图1C示出了另一种获取第二搜索空间的示意图。如图1C所示,获取第一网络模型包括:
S1:获取第一搜索空间。
S2:对第一搜索空间进行超网训练,得到多个第一参考网络模型。
S3:选取性能处于帕累托边界上的第一参考网络模型,进行架构聚合,得到多个候选采样模块。
S4:通过聚合得到的多个候选采样模块,对第一搜索空间进行更新,得到第二搜索空间。
上述步骤S1-S2可以参照前述实施例中的步骤101和103,此处不再赘述。
上述步骤S4可以参照前述实施例中步骤A4-A5所示的方法,此处不再赘述。
选取性能处于帕累托边界上的第一参考网络模型,进行架构聚合,得到多个候选采样模块的方法可以为:将性能处于帕累托边界上的第一参考网络模型的候选采样模块进行提取,以得到多个候选采样模块。
在一个可能的实现方式中,一种可能的对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型的方法包括:
C1、从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块;
C2、对所述m层的每一层的A个候选采样模块进行组合,以得到N个第二参考网络模型的采样模块,A的m次幂大于或等于N;
C3、获取超网权重值;
C4、根据所述超网权重值对所述N个第二参考网络模型的采样模块进行训练,以得到所述N个第二参考网络模型。
可以根据预设参数化网络的概率分布,从K个候选采样模块中获取A个候选采样模块。预设参数化网络可以是预先设定的与目标检测等相关的参数化网络。
其中,A的m次幂大于或等于N,可以理解为,m层的每一层的A个候选采样模块进行组合后,最多会出现A的m次幂个参考网络模型,因此,定义N为小于或等于A的m次幂的数值。
对m层中的每一层的A个候选采样模块进行组合的方法可以为,从每一层中的A个候选模块中选取至少一个候选采样模块,进行组合,以得到第二参考网络模型的采样模块,具体可以为,例如,第二参考网络模型包括3层,每一层包括有4个候选采样模块,则第二参考网络模型的采样模块的组合可以为:第一层有2个候选采样模块、第二层有1个候选采样模块,第三层有4个候选采样模块;还可以是第一层有3个候选采样模块、第二层有2个候选采样模块,第三层有4个候选采样模块;也可以是第一层有1个候选采样模块,第二层有0个候选采样模块,第三层有1个候选采样模块等。其进行组合的方法可以是随机组合的方式,此处仅为举例说明,不作具体限定。
可以根据第一网络模型的交叉熵损失函数来确定超网权重值。超网权重值适用于上述N个第二参考网络模型,即上述N个第二参考网络模型的采样模块通过相同的超网权重值进行训练,得到N个第二参考网络模型。
本示例中,从每一层的K个候选采样模块中获取A个候选采样模块并进行组合,得到第二参考网络模型的采样模块,并根据超网权重值对采样模块进行训练,得到第二参考网络模型,通过超网的方式训练得到多个第一网络模型,可以整体评价多个第一网络模型的性能,提升第一网络模型确定时的准确性。
在一个可能的实现方式中,一种可能的获取超网权重值的方法包括:
D1、获取所述第一网络模型的交叉熵损失函数;
D2、根据所述交叉熵损失函数和预设参数化网络,获取所述超网权重值。
交叉熵损失函数可以是通过预先设定的,也可以是通过其它获取到的,例如,通过交叉熵损失函数计算公式等获取到的。
可以通过如下公式所示的方法,根据交叉熵损失函数和预设参数化网络获取超网权重值:
Figure BDA0002778332570000121
其中,LCE()为交叉熵损失函数,N()为参数化网络,a为第一搜索空间中的元素,Ua为a的均匀分布,WA为超网权重值。
本示例中,通过交叉熵损失函数和预设参数化网络来确定超网权重值,可以提升超网权重值获取时的准确性。
在一个可能的实现方式中,一种可能的从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块的方法包括:
E1、获取所述K个候选采样模块中的每个候选采样模块的选取概率;
E2、根据所述选取概率从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块。
其中,预设重要参数可以是预先设定的参数,例如,伯努利函数中的一个参数θ。概率分布可以通过如下公式所示的方法进行获取:
Figure BDA0002778332570000122
其中,
Figure BDA0002778332570000123
为第l层的第nl个候选采样模块的选取概率,
Figure BDA0002778332570000124
为第l层的第nl个候选采样模块的预设重要参数。
可以根据选取概率从K个候选采样模块中获取A个候选采样模块,选取概率的初始值可以是0.5等。
在一个可能的方法中,预设重要参数的初始值可以为0,还可以对预设重要参数进行更新,具体可以通过如下公式所示的方法进行更新:
Figure BDA0002778332570000125
其中,θ*为更新后的预设重要参数,θ为更新前的预设重要参数,Pa(θ)为参数化网络中预设重要参数的概率分布,WA(a)为超网权重值。
不同预设重要参数,具有不同选取概率。
本示例中,通过获取每个候选采样模块的选取概率,从K个候选采样模块中获取A个候选采样模块,可以提升候选采样模块获取时的准确性。
本申请实施例中,还可以提供多分支的超网训练,具体可以是,第一搜索空间或第二搜索空间对应多分支超网时,可以分别对每个分支的超网进行训练,并选取出每个分支中均满足性能的网络模型,并根据该网络模型进行候选采样模块的提取,并根据提取的候选采样模块对搜索空间进行更新等。
在一个可能的实现方式中,本申请实施例还提供一种目标检测方法,该方法包括:
F1、获取待检测数据;
F2、基于第一网络模型对所述待检测数据进行目标检测,得到目标检测结果。
待检测数据可以理解为,需要进行目标检测的数据,具体可以是待检测图像等。第一网络模型可以是前述实施例中获取到的第一网络模型,此处不再赘述第一网络模型的特征。
请参阅图2,图2为本申请实施例提供了另一种模型生成方法的流程示意图。如图2所示,该方法包括:
201、获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
202、对所述第一搜索空间进行超网训练,以得到N个第一参考网络模型;
203、根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,M为小于或等于N的正整数;
204、获取所述M个满足所述预设性能的第一参考网络模型的采样模块;
205、从所述搜索空间池中获取第一数量的候选采样模块;
206、将所述第一数量的候选采样模块和所述M个满足所述预设性能的第一参考网络模型的采样模块的并集确定为第二搜索空间,所述第二搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
207、对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
208、根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型。
本示例中,从对更新后得到的第二搜索空间进行超网训练,得到多个第二参考网络模型,并将满足预设性能参数的模型确定为第一网络模型,通过超网的方式训练得到多个第一网络模型,可以整体评价多个第一网络模型的性能,提升第一网络模型确定时的准确性。
与上述实施例一致的,请参阅图3,图3为本申请实施例提供的一种电子设备的结构示意图,如图所示,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,上述程序包括用于执行以下步骤的指令;
获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;
对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致的,请参阅图4,图4为本申请实施例提供了一种模型生成装置的结构示意图。如图4所示,该装置包括:
第一获取单元401,用于获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
第二获取单元402,用于获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;
训练单元403,用于对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
确定单元404,用于根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型。
在一个可能的实现方式中,所述第二获取单元402用于:
对所述第一搜索空间进行超网训练,以得到N个第一参考网络模型;
根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,M为小于或等于N的正整数;
获取所述M个满足所述预设性能的第一参考网络模型的采样模块;
从所述搜索空间池中获取第一数量的候选采样模块;
将所述第一数量的候选采样模块和所述M个满足所述预设性能的第一参考网络模型的采样模块的并集确定为第二搜索空间,所述第二搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块。
在一个可能的实现方式中,在所述根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型方面,所述第二获取单元502用于:
根据所述预设性能参数,确定帕累托边界;
将所述N个第一参考网络模型中性能参数在所述帕累托边界上的M个第一参考网络模型,确定为满足所述预设性能的第一参考网络模型。
在一个可能的实现方式中,所述训练单元403用于:
从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块;
对所述m层的每一层的A个候选采样模块进行组合,以得到N个第二参考网络模型的采样模块,A的m次幂大于或等于N;
获取超网权重值;
根据所述超网权重值对所述N个第二参考网络模型的采样模块进行训练,以得到所述N个第二参考网络模型。
在一个可能的实现方式中,在所述获取超网权重值方面,所述训练单元403具体用于:
获取所述第一网络模型的交叉熵损失函数;
根据所述交叉熵损失函数和预设参数化网络,获取所述超网权重值。
在一个可能的实现方式中,在所述从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块方面,所述训练单元403用于:
获取所述K个候选采样模块中的每个候选采样模块的选取概率;
根据所述选取概率从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块。
在一个可能的实现方式中,其特征在于,第一获取单元401用于:
从搜索空间池中随机采样获取包括所述第一网络模型的m层的每一层的K个候选采样模块,以得到所述第一搜索空间。
在一个可能的实现方式中,所述性能参数至少包括模型大小和训练时间中的一种。
本申请实施例还提供一种目标检测装置,该装置用于:
获取待检测数据;
基于前述实施例中所述的第一网络模型对所述待检测数据进行目标检测,得到目标检测结果。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型生成方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型生成方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种目标检测方法,其特征在于,所述方法包括:
获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;
对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型;所述第一网络模型为对人物进行检测的网络模型;
获取对人物进行检测的待检测图像;
基于所述第一网络模型对所述待检测图像进行目标检测,得到目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取第二搜索空间,包括:
对所述第一搜索空间进行超网训练,以得到N个第一参考网络模型;
根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,M为小于或等于N的正整数;
获取所述M个满足所述预设性能的第一参考网络模型的采样模块;
从所述搜索空间池中获取第一数量的候选采样模块;
将所述第一数量的候选采样模块和所述M个满足所述预设性能的第一参考网络模型的采样模块的并集确定为第二搜索空间,所述第二搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块。
3.根据权利要求2所述的方法,其特征在于,所述根据所述N个第一参考网络模型的性能参数和预设性能参数,从所述N个第一参考网络模型中确定出M个满足所述预设性能的第一参考网络模型,包括:
根据所述预设性能参数,确定帕累托边界;
将所述N个第一参考网络模型中性能参数在所述帕累托边界上的M个第一参考网络模型,确定为满足所述预设性能的第一参考网络模型。
4.根据权利要求1或2所述的方法,其特征在于,对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型,包括:
从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块;
对所述m层的每一层的A个候选采样模块进行组合,以得到N个第二参考网络模型的采样模块,A的m次幂大于或等于N;
获取超网权重值;
根据所述超网权重值对所述N个第二参考网络模型的采样模块进行训练,以得到所述N个第二参考网络模型。
5.根据权利要求4所述的方法,其特征在于,所述获取超网权重值,包括:
获取所述第一网络模型的交叉熵损失函数;
根据所述交叉熵损失函数和预设参数化网络,获取所述超网权重值。
6.根据权利要求5所述的方法,其特征在于,所述从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块,包括:
获取所述K个候选采样模块中的每个候选采样模块的选取概率;
根据所述选取概率从所述第一网络模型的m层的每一层的K个候选采样模块中获取A个候选采样模块。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述获取第一网络模型的第一搜索空间,包括:
从搜索空间池中随机采样获取包括所述第一网络模型的m层的每一层的K个候选采样模块,以得到所述第一搜索空间。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述性能参数至少包括模型大小和训练时间中的一种。
9.一种目标检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一网络模型的第一搜索空间,所述第一搜索空间包括所述第一网络模型的m层的每一层的K个候选采样模块;
第二获取单元,用于获取第二搜索空间,所述第二搜索空间包括所述第一搜索空间中满足预设条件的候选采样模块,所述第二搜索空间的规格与所述第一搜索空间的规格相同;
训练单元,用于对所述第二搜索空间进行超网训练,以得到N个第二参考网络模型;
确定单元,用于根据所述N个第二参考网络模型的性能参数和预设性能参数,从所述N个第二参考网络模型中确定出所述第一网络模型;所述第一网络模型为对人物进行检测的网络模型;
所述装置还用于:
获取对人物进行检测的待检测图像;
基于所述第一网络模型对所述待检测图像进行目标检测,得到目标检测结果。
10.一种电子设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。
CN202011273240.0A 2020-11-13 2020-11-13 模型生成方法及装置、电子设备和存储介质 Active CN112348188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011273240.0A CN112348188B (zh) 2020-11-13 2020-11-13 模型生成方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011273240.0A CN112348188B (zh) 2020-11-13 2020-11-13 模型生成方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112348188A CN112348188A (zh) 2021-02-09
CN112348188B true CN112348188B (zh) 2023-04-07

Family

ID=74363816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011273240.0A Active CN112348188B (zh) 2020-11-13 2020-11-13 模型生成方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112348188B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115291919B (zh) * 2022-10-10 2023-03-24 荣耀终端有限公司 一种搜包方法及相关装置
CN115631388B (zh) * 2022-12-21 2023-03-17 第六镜科技(成都)有限公司 图像分类方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633797A (zh) * 2019-09-11 2019-12-31 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3129731A1 (en) * 2019-03-13 2020-09-17 Elliot Meyerson System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633797A (zh) * 2019-09-11 2019-12-31 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
User-Guided Deep Anime Line Art Colorization with Conditional Adversarial Networks;Yuanzheng Ci et al.;《arXiv》;全文 *
神经网络搜索综述;李涛;《电脑知识与技术》(第17期);全文 *

Also Published As

Publication number Publication date
CN112348188A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112434721B (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
CN110163234B (zh) 一种模型训练方法、装置和存储介质
CN110297935A (zh) 图像检索方法、装置、介质及电子设备
CN113570029A (zh) 获取神经网络模型的方法、图像处理方法及装置
CN112348188B (zh) 模型生成方法及装置、电子设备和存储介质
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN111222005B (zh) 声纹数据重排序方法、装置、电子设备及存储介质
CN109241392A (zh) 目标词的识别方法、装置、系统及存储介质
CN111104954A (zh) 一种对象分类的方法与装置
CN110609952B (zh) 数据采集方法、系统和计算机设备
CN113010778A (zh) 一种基于用户历史兴趣的知识图谱推荐方法和系统
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN112766288B (zh) 图像处理模型构建方法、装置、电子设备和可读存储介质
CN113961765B (zh) 基于神经网络模型的搜索方法、装置、设备和介质
CN110502659A (zh) 图像特征提取及网络的训练方法、装置和设备
CN115454466A (zh) 机器学习模型自动更新的方法、装置、设备和介质
CN113849679A (zh) 图像检索方法、装置、电子设备及存储介质
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN112733724A (zh) 基于判别样本元挖掘器的亲属关系验证方法和装置
CN116304155A (zh) 基于二维图片的三维构件检索方法、装置、设备及介质
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN114118411A (zh) 图像识别网络的训练方法、图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant