CN113159188A - 一种模型生成方法、装置、设备及存储介质 - Google Patents

一种模型生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113159188A
CN113159188A CN202110444362.XA CN202110444362A CN113159188A CN 113159188 A CN113159188 A CN 113159188A CN 202110444362 A CN202110444362 A CN 202110444362A CN 113159188 A CN113159188 A CN 113159188A
Authority
CN
China
Prior art keywords
model
edge
initial
node
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110444362.XA
Other languages
English (en)
Other versions
CN113159188B (zh
Inventor
刘理
许明恺
杨超
刘凌志
王东
冯乾泰
许柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Jiaotong University
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University, Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Jiaotong University
Priority to CN202110444362.XA priority Critical patent/CN113159188B/zh
Publication of CN113159188A publication Critical patent/CN113159188A/zh
Application granted granted Critical
Publication of CN113159188B publication Critical patent/CN113159188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种模型生成方法、装置、设备及存储介质,涉及计算机技术领域,可以在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型。该模型生成方法包括:基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型;初始模型中的第一节点与第二节点之间通过初始边连接;初始边用于表示第一节点与第二节点之间执行的候选操作;初始边对应一个边权重;基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型;若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则对第一模型中的目标边进行裁剪,以得到目标模型。

Description

一种模型生成方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种模型生成方法、装置、设备及存储介质。
背景技术
深度学习的发展使得深度神经网络越来越多地被应用到如图像识别、目标检测及目标跟踪等计算机视觉任务中,且神经网络模型越来越多地趋向于往更宽更深的方向设计。深度学习的成功很大程度上依赖于神经网络模型大量的参数以及具有强大性能的计算设备。但是,由于深度神经网络巨大的内存需求和计算消耗使其较难部署到低存储、低功耗的硬件平台上(如移动设备),这极大地限制了其应用。
因此,如何在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型是目前亟需解决的问题。
发明内容
本公开提供一种模型生成方法、装置、设备及存储介质,可以在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型。
本公开实施例的技术方案如下:
根据本公开实施例的第一方面,提供一种模型生成方法,该方法可以应用于电子设备。该方法可以包括:
基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型;初始模型中的第一节点与第二节点之间通过初始边连接;初始边用于表示第一节点与第二节点之间执行的候选操作;初始边对应一个边权重;第一节点为初始模型中的输入节点或者中间节点;第二节点为与第一节点不同的中间节点;
基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型;
若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则对第一模型中的目标边进行裁剪,以得到目标模型。
可选地,上述预设条件为:
目标边的边权重小于预设边权重阈值;
或者,目标边的边权重位于排序结果的预设范围内;排序结果为将第一模型中的所有边的边权重,按照大小顺序进行排序后的结果。
可选地,上述基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型的方法具体包括:
将样本数据输入到初始模型中,对初始模型执行预设次数的训练操作;
在执行训练操作的过程中,基于第一学习率,调整初始模型的模型参数,以及基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型;第一学习率与第二学习率不同;第一模型包括调整后的模型参数和目标边的边权重。
可选地,上述基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型的方法具体包括:
基于第二学习率,调整初始模型中的初始边的边权重,以得到第一边权重;
若第一边权重大于预设的边权重调整范围的最大值,则将预设的边权重调整范围的最大值确定为第一模型中的目标边的边权重;
若第一边权重小于预设的边权重调整范围的最小值,则将预设的边权重调整范围的最小值确定为第一模型中的目标边的边权重;
若第一边权重大于或者等于预设的边权重调整范围的最小值,且小于或者等于预设的边权重调整范围的最大值,则将第一边权重确定为第一模型中的目标边的边权重。
可选地,上述模型生成方法还包括:
获取候选操作的重要性参数;
若重要性参数大于预设阈值,则确定初始边的边权重为预设的边权重调整范围的最大值。
可选地,上述目标模型的模型参数与第一模型的模型参数相同。
可选地,上述对第一模型中的目标边进行裁剪,以得到目标模型之后,还包括:
基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型。
可选地,上述模型生成方法还包括:
获取待分类图像数据;
将待分类图像数据输入到恢复精度的模型中,以得到输出值;输出值用于表示待分类图像数据的分类结果。根据本公开实施例的第二方面,提供一种模型生成装置,可以应用于电子设备。该装置可以包括:获取单元、训练单元和处理单元;
获取单元,用于基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型;初始模型中的第一节点与第二节点之间通过初始边连接;初始边用于表示第一节点与第二节点之间执行的候选操作;初始边对应一个边权重;第一节点为初始模型中的输入节点或者中间节点;第二节点为与第一节点不同的中间节点;
训练单元,用于基于样本数据,对获取单元获取到的初始模型执行预设次数的训练操作,以得到第一模型;
处理单元,用于若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则对训练单元训练得到的第一模型中的目标边进行裁剪,以得到目标模型。
可选地,上述预设条件为:
目标边的边权重小于预设边权重阈值;
或者,目标边的边权重位于排序结果的预设范围内;排序结果为将第一模型中的所有边的边权重,按照大小顺序进行排序后的结果。
可选地,训练单元,具体用于:
将样本数据输入到初始模型中,对初始模型执行预设次数的训练操作;
在执行训练操作的过程中,基于第一学习率,调整初始模型的模型参数,以及基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型;第一学习率与第二学习率不同;第一模型包括调整后的模型参数和目标边的边权重。
可选地,训练单元,具体用于:
基于第二学习率,调整初始模型中的初始边的边权重,以得到第一边权重;
若第一边权重大于预设的边权重调整范围的最大值,则将预设的边权重调整范围的最大值确定为第一模型中的目标边的边权重;
若第一边权重小于预设的边权重调整范围的最小值,则将预设的边权重调整范围的最小值确定为第一模型中的目标边的边权重;
若第一边权重大于或者等于预设的边权重调整范围的最小值,且小于或者等于预设的边权重调整范围的最大值,则将第一边权重确定为第一模型中的目标边的边权重。
可选地,获取单元,还用于获取候选操作的重要性参数;
处理单元,还用于若重要性参数大于预设阈值,则确定初始边的边权重为预设的边权重调整范围的最大值。
可选地,目标模型的模型参数与第一模型的模型参数相同。
可选地,训练单元,还用于基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型。
可选地,获取单元,还用于获取待分类图像数据;
处理单元,还用于将待分类图像数据输入到恢复精度的模型中,以得到输出值;输出值用于表示待分类图像数据的分类结果。
根据本公开实施例的第三方面,提供一种电子设备,可以包括:处理器和用于存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地模型生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述第一方面中任一种可选地模型生成方法。
根据本公开实施例的第十方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如第一方面中任一种可选地实现方式所述的模型生成方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本公开的实施例提供的技术方案至少带来以下有益效果:
基于上述任一方面,本公开中,基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型后,电子设备可以基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型。由于初始模型中的目标边对应一个边权重,因此,在得到第一模型后,若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则对第一模型中的目标边进行裁剪,以得到目标模型。由于目标边的边权重满足预设剪枝率,说明目标边对应的候选操作的重要性较低,因此,电子设备可以将目标边进行裁剪。这样一来,电子设备可以在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型,以减小目标模型的内存需求。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出了本公开实施例提供的一种模型生成方法的流程示意图;
图2示出了本公开实施例提供的又一种模型生成方法的流程示意图;
图3示出了本公开实施例提供的又一种模型生成方法的流程示意图;
图4示出了本公开实施例提供的又一种模型生成方法的流程示意图;
图5示出了本公开实施例提供的又一种模型生成方法的流程示意图;
图6示出了本公开实施例提供的又一种模型生成方法的流程示意图;
图7示出了本公开实施例提供的又一种模型生成装置的结构示意图;
图8示出了本公开实施例提供的一种终端的结构示意图;
图9示出了本公开实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。
如背景技术中所描述,深度学习的发展使得深度神经网络越来越多地被应用到如图像识别、目标检测及目标跟踪等计算机视觉任务中,且神经网络模型越来越多地趋向于往更宽更深的方向设计。深度学习的成功很大程度上依赖于神经网络模型大量的参数以及具有强大性能的计算设备。但是,由于深度神经网络巨大的内存需求和计算消耗使其较难部署到低存储、低功耗的硬件平台上(如移动设备),这极大地限制了其应用。
因此,如何在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型是目前亟需解决的问题。
基于此,本公开实施例提供一种模型生成方法,基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型后,电子设备可以基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型。由于初始模型中的目标边对应一个边权重,因此,在得到第一模型后,若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设剪枝率,则对第一模型中的目标边进行裁剪,以得到目标模型。由于目标边的边权重满足预设条件,说明目标边对应的候选操作的重要性较低,因此,电子设备可以将目标边进行裁剪。这样一来,电子设备可以在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型,以减小目标模型的内存需求。
以下对本公开实施例提供的模型生成方法进行示例性说明:
本公开提供的模型生成方法可以应用于电子设备。
一些实施例中,电子设备可以是服务器,也可以是终端,还可以是其他用于进行模型生成的电子设备,本公开对此不作限定。
其中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
终端可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等可以安装并使用内容社区应用(如快手)的设备,本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
下面结合附图对本申请实施例提供的性能预测方法进行详细介绍。
如图1所示,当模型生成方法应用于电子设备时,该模型生成方法可以包括:
S101、电子设备基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型。
其中,初始模型中的第一节点与第二节点之间通过初始边连接;初始边用于表示第一节点与第二节点之间执行的候选操作;初始边对应一个边权重;第一节点为初始模型中的输入节点或者中间节点;第二节点为与第一节点不同的中间节点。
可选的,初始边的边权重可以是人为设定的,边权重的数值可以是0-1之间的任意数值。
具体的,电子设备基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取到的初始模型由输入节点,中间节点,输出节点,边四部分构成。
可选的,在卷积网络模型中,输入节点为前一层(layers)模型的输出。在循环网络(Recurrent)模型中,输入节点是当前模型的输入和前一层的状态。
中间节点由它的前继通过边再求和得来。
输出节点由每一个中间节点串联(concat)起来。
在神经网络架构搜索算法中,边用于表示八种候选操作,分别为:3*3最大池化操作(max_pool_3*3)、3*3平均池化操作(max)、跳连操作(skip_connect)、四个卷积序列的3*3卷积操作(sep_conv_3*3)、四个卷积序列的5*5卷积操作(sep_conv_5*5)、两个卷积序列的3*3卷积操作(dil_conv_3*3)、两个卷积序列的5*5卷积操作(dil_conv_5*5)、无操作(none)。
S102、电子设备基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型。
具体的,在获取初始模型后,电子设备可以基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型。
其中,样本数据可以是开源数据集(例如cifar10)。预设次数可以是人为设定的次数(例如1000次)。
S103、若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则电子设备对第一模型中的目标边进行裁剪,以得到目标模型。
具体的,在得到第一模型后,相应的可以确定第一模型中,与初始模型中的初始边对应的目标边的边权重。若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则电子设备对第一模型中的目标边进行裁剪,以得到目标模型。
其中,预设条件为:目标边的边权重小于预设边权重阈值;或者,目标边的边权重位于排序结果的预设范围内;上述排序结果为将第一模型中的所有边的边权重,按照大小顺序进行排序后的结果。
可选的,当预设条件为“目标边的边权重位于排序结果的预设范围内”时,预设范围可以由预设剪枝率确定。
其中,预设剪枝率可以是人为设定的,例如20%。
示例性的,以预设剪枝率为20%为例。电子设备判断目标边的边权重是否满足预设条件时,可以将第一模型中的所有边的边权重,按照从小到大的顺序依次排序,以得到排序结果。由于预设剪枝率为20%,因此,电子设备可以将预设范围确定为与预设剪枝率相同的数值,即20%。在这种情况下,电子设备将排序结果中的前20%的边权重组成的数值范围,确定为预设范围。当第一模型中的某个边的边权重位于预设范围内时,则确定该边为满足预设条件的边。由于所有边中的前20%的边的边权重较小,因此,这些边对应的候选操作的重要性较低。因此,电子设备可以将这些边进行裁剪,以减小模型的内存需求。
相应的,当目标边的边权重位于排序结果的预设范围内时,则电子设备对第一模型中的目标边进行裁剪。需要说明的是,由于电子设备仅对第一模型中的目标边进行裁剪,并不修改第一模型中的模型参数,因此,目标模型的模型参数与第一模型的模型参数相同。在这种情况下,由于第一模型的模型参数为经过调整后的模型参数,因此,目标模型的模型参数也是经过调整后的模型参数,即目标模型的性能可以与第一模型的性能相同。
上述实施例提供的技术方案至少带来以下有益效果:由S101-S103可知,基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型后,电子设备可以基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型。由于初始模型中的目标边对应一个边权重,因此,在得到第一模型后,若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则对第一模型中的目标边进行裁剪,以得到目标模型。由于目标边的边权重满足预设条件,说明目标边对应的候选操作的重要性较低,因此,电子设备可以将目标边进行裁剪。这样一来,电子设备可以在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型,以减小目标模型的内存需求。
在一种实施例中,结合图1,如图2所示,上述S102中,电子设备基于样本数据,对初始模型执行预设次数的训练操作,以得到第一模型的方法具体包括S201-S202。
S201、电子设备将样本数据输入到初始模型中,对初始模型执行预设次数的训练操作。
具体的,电子设备在训练初始模型时,可以将样本数据输入到初始模型中,并对初始模型执行预设次数的训练操作。
可选的,在每次执行完训练操作后,电子设备还可以将样本数据作为验证模型的验证数据,以验证模型的准确度。
S202、电子设备在执行训练操作的过程中,基于第一学习率,调整初始模型的模型参数,以及基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型。
其中,第一学习率与第二学习率不同,第一模型包括调整后的模型参数和目标边的边权重。
具体的,电子设备在执行训练操作的过程中,由于边权重和模型参数之间的量级大小是明显的,因此,电子设备可以以不同的学习率,调整初始模型中的模型参数和边权重。
可选的,电子设备在执行训练操作的过程中,基于第一学习率,调整初始模型的模型参数,以及基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型时,满足下述公式(1)-公式(5):
Figure BDA0003036280690000091
Figure BDA0003036280690000092
s.t.w*(α)=argminwLtrain(w,α) 公式(3)
Figure BDA0003036280690000093
Figure BDA0003036280690000094
公式(1)中,x(i)表示电子设备在执行训练操作的过程中,第一节点的特征图,x(j)表示电子设备在执行训练操作的过程中,第二节点的特征图,α*(i,j)表示第一节点(i)与第二节点(j)之间的目标边的边权重,f(i,j)表示第一节点与第二节点之间的边对应的候选操作。由于初始模型中的每个节点有两个前继操作,因此,
Figure BDA0003036280690000095
用于表示对第一节点和第二节点的两个前继操作进行求和。
公式(2)中,w*表示调整后的模型参数的权重,α表示目标边的边权重,
Figure BDA0003036280690000096
表示将边权重的目标设为最小化,Ltrain表示在train训练集上的损失函数。
公式(3)中,s.t.表示使得w*(α)满足argminwLtrain(w,α)。
公式(4)中,wt表示电子设备执行的第t次训练操作时的模型参数,wt+1表示电子设备执行的第t+1次训练操作时的模型参数,ξw表示第一学习率,
Figure BDA0003036280690000097
表示损失函数对模型参数的权重和边权重的梯度,
Figure BDA0003036280690000098
表示将
Figure BDA0003036280690000099
得到的值赋予wt+1
公式(5)中,αt表示电子设备执行的第t次训练操作时的初始边的边权重,αt+1表示电子设备执行的第t+1次训练操作时的初始边的边权重,ξα表示第二学习率,
Figure BDA00030362806900000910
表示损失函数对模型参数的权重和边权重的梯度,
Figure BDA00030362806900000911
表示将
Figure BDA00030362806900000912
得到的值赋予αt+1
上述实施例提供的技术方案至少带来以下有益效果:由S201-S202可知,电子设备在执行训练操作的过程中,可以基于不同的学习率,调整初始模型的模型参数和初始边的边权重,这样一来,电子设备可以分别确定出目标模型的模型参数和目标边的边权重。
在一种实施例中,结合图2,如图3所示,上述S202中,电子设备基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型的方法具体包括S301-S304。
S301、电子设备基于第二学习率,调整初始模型中的初始边的边权重,以得到第一边权重。
具体的,电子设备基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型后,电子设备可以获取到调整完成的初始边的边权重,即第一边权重。
但是,由于第一边权重的数值可能变化较大,因此,电子设备可以将第一边权重进行标准化处理,以得到目标边的边权重。
S302、若第一边权重大于预设的边权重调整范围的最大值,则电子设备将预设的边权重调整范围的最大值确定为第一模型中的目标边的边权重。
S303、若第一边权重小于预设的边权重调整范围的最小值,则电子设备将预设的边权重调整范围的最小值确定为第一模型中的目标边的边权重。
S304、若第一边权重大于或者等于预设的边权重调整范围的最小值,且小于或者等于预设的边权重调整范围的最大值,则电子设备将第一边权重确定为第一模型中的目标边的边权重。
示例性的,以预设的边权重调整范围为0到1为例,第一边权重α和目标边权重满足下述公式:
Figure BDA0003036280690000101
上述实施例提供的技术方案至少带来以下有益效果:由S301-S304可知,电子设备在基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型后,可以将第一边权重进行标准化处理,以使得电子设备可以快速、准确的确定目标边是否满足预设条件。
在一种实施例中,如图4所示,本公开实施例提供的模型生成方法还包括:S401-S402。
S401、电子设备获取候选操作的重要性参数。
具体的,电子设备在确定初始边的边权重时,可以获取候选操作的重要性参数。
示例性的,重要性参数可以为0-1之间的任意数值。当候选操作的重要性较高时,可以获取到该候选操作的重要性参数较高(例如0.9)。相应的,当候选操作的重要性较低时,可以获取到该候选操作的重要性参数较低(例如0.1)。
S402、若重要性参数大于预设阈值,则电子设备确定初始边的边权重为预设的边权重调整范围的最大值。
示例性的,预设阈值为0.7。当初始边用于表示第一节点与第二节点之间执行的跳连操作时,由于跳连操作重要性程度较高,因此,电子设备获取用于表示第一节点与第二节点之间执行的跳连操作的重要性参数为0.9,大于预设阈值的0.7。在这种情况下,电子设备确定跳连操作对应的初始边的边权重为预设的边权重调整范围的最大值。这样一来,在模型训练过程中,初始边的边权重会保持不变,即目标边的边权重也是预设的边权重调整范围的最大值。在这种情况下,目标边不满足预设条件。相应的,电子设备也不会将目标边进行裁剪。
上述实施例提供的技术方案至少带来以下有益效果:由S401-S402可知,电子设备可以获取候选操作的重要性参数,并在重要性参数大于预设阈值的情况下,确定初始边的边权重为预设的边权重调整范围的最大值。这样一来,在模型训练过程中,初始边的边权重会保持不变,即目标边的边权重也是预设的边权重调整范围的最大值。在这种情况下,目标边不满足预设条件。相应的,电子设备也不会将目标边进行裁剪。
在一种实施例中,结合图1,如图5所示,电子设备在对第一模型中的目标边进行裁剪,以得到目标模型之后,还包括:S501。
S501、电子设备基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型。
具体的,在得到目标模型之后,为了恢复目标模型的精度,电子设备基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型。
需要说明的是,电子设备基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型时,不需要为目标边添加边权重。
可选的,电子设备基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型时,可以在剪枝完成后进行训练来直到精度恢复,也可以通过剪枝和训练交替进行直到精度恢复,本公开对此不作限定。
上述实施例提供的技术方案至少带来以下有益效果:由S501可知,电子设备在对第一模型中的目标边进行裁剪,以得到目标模型之后,还可以基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型。这样一来,电子设备可以获取到恢复精度的模型,提高了模型的精度。
在一种实施例中,如图6所示,本公开实施例提供的模型生成方法还包括:S601-S602。
S601、电子设备获取待分类图像数据。
S602、电子设备将待分类图像数据输入到恢复精度的模型中,以得到输出值;输出值用于表示待分类图像数据的分类结果。
示例性的,电子设备获取到的待分类图像数据为一只猫的图像。接着,电子设备将待分类图像数据输入到恢复精度的模型中,以得到输出值为:猫类(98)。该输出值表示待分类图像数据为猫类的得分为98分(满分100分)。在这种情况下,电子设备确定待分类图像为猫类。
上述实施例提供的技术方案至少带来以下有益效果:由S601-S602可知,电子设备在得到恢复精度的模型后,可以对待分类图像数据进行分类。这样一来,由于恢复精度的模型占用内存较小,且精度较高,因此,电子设备可以快速、准确的对待分类图像数据进行分类,并在保证现有神经网络模型性能不变的情况下,有效压缩神经网络模型,以减小目标模型的内存需求。
可以理解的,在实际实施时,本公开实施例所述的终端/服务器可以包含有用于实现前述对应模型生成方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
基于这样的理解,本公开实施例还对应提供一种模型生成装置,可以应用于电子设备。图7示出了本公开实施例提供的模型生成装置的结构示意图。如图7所示,该模型生成装置可以包括:获取单元701、训练单元702和处理单元703。
获取单元701,用于基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型;初始模型中的第一节点与第二节点之间通过初始边连接;初始边用于表示第一节点与第二节点之间执行的候选操作;初始边对应一个边权重;第一节点为初始模型中的输入节点或者中间节点;第二节点为与第一节点不同的中间节点。示例性的,结合图1,获取单元701用于执行S101。
训练单元702,用于基于样本数据,对获取单元701获取到的初始模型执行预设次数的训练操作,以得到第一模型。示例性的,结合图1,训练单元702用于执行S102。
处理单元703,用于若第一模型中,与初始模型中的初始边对应的目标边的边权重满足预设条件,则对训练单元702训练得到的第一模型中的目标边进行裁剪,以得到目标模型。示例性的,结合图1,处理单元703用于执行S103。
可选地,上述预设条件为:
目标边的边权重小于预设边权重阈值;
或者,目标边的边权重位于排序结果的预设范围内;排序结果为将第一模型中的所有边的边权重,按照大小顺序进行排序后的结果。
可选地,训练单元702,具体用于:
将样本数据输入到初始模型中,对初始模型执行预设次数的训练操作。示例性的,结合图2,训练单元702用于执行S201。
在执行训练操作的过程中,基于第一学习率,调整初始模型的模型参数,以及基于第二学习率和预设的边权重调整范围,调整初始模型中的初始边的边权重,以得到第一模型;第一学习率与第二学习率不同;第一模型包括调整后的模型参数和目标边的边权重。示例性的,结合图2,训练单元702用于执行S202。
可选地,训练单元702,具体用于:
基于第二学习率,调整初始模型中的初始边的边权重,以得到第一边权重。示例性的,结合图3,训练单元702用于执行S301。
若第一边权重大于预设的边权重调整范围的最大值,则将预设的边权重调整范围的最大值确定为第一模型中的目标边的边权重。示例性的,结合图3,训练单元702用于执行S302。
若第一边权重小于预设的边权重调整范围的最小值,则将预设的边权重调整范围的最小值确定为第一模型中的目标边的边权重。示例性的,结合图3,训练单元702用于执行S303。
若第一边权重大于或者等于预设的边权重调整范围的最小值,且小于或者等于预设的边权重调整范围的最大值,则将第一边权重确定为第一模型中的目标边的边权重。示例性的,结合图3,训练单元702用于执行S304。
可选地,获取单元701,还用于获取候选操作的重要性参数。示例性的,结合图4,获取单元701用于执行S401。
处理单元703,还用于若重要性参数大于预设阈值,则确定初始边的边权重为预设的边权重调整范围的最大值。示例性的,结合图4,处理单元703用于执行S402。
可选地,目标模型的模型参数与第一模型的模型参数相同。
可选地,训练单元702,还用于基于样本数据,对目标模型执行精度恢复训练操作,以得到恢复精度的模型。示例性的,结合图5,训练单元702用于执行S501。
可选地,获取单元701,还用于获取待分类图像数据。示例性的,结合图6,获取单元701用于执行S601。
处理单元703,还用于将待分类图像数据输入到恢复精度的模型中,以得到输出值;输出值用于表示待分类图像数据的分类结果。示例性的,结合图6,处理单元703用于执行S602。
如上所述,本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
关于上述实施例中的模型生成装置,其中各个模块执行操作的具体方式、以及具备的有益效果,均已经在前述方法实施例中进行了详细描述,此处不再赘述。
本公开实施例还提供一种终端,终端可以是手机、电脑等用户终端。图8示出了本公开实施例提供的终端的结构示意图。该终端可以是模型生成装置可以包括至少一个处理器61,通信总线62,存储器63以及至少一个通信接口64。
处理器61可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线62可包括一通路,在上述组件之间传送信息。
通信接口64,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如服务器、以太网,无线接入网(radio access network,RAN),无线局域网(wireless localarea networks,WLAN)等。
存储器63可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器63用于存储执行本公开方案的应用程序代码,并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码,从而实现本公开方法中的功能。
在具体实现中,作为一种实施例,处理器61可以包括一个或多个CPU,例如图8中的CPU0和CPU1。
在具体实现中,作为一种实施例,终端可以包括多个处理器,例如图8中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信,可以以多种方式接受用户的输入。例如,输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信,可以以多种方式来显示信息。例如,输出设备61可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备等。
本领域技术人员可以理解,图8中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本公开实施例还提供一种服务器。图9示出了本公开实施例提供的服务器的结构示意图。该服务器可以是模型生成装置。该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中,存储器72中存储有至少一条指令,至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的模型生成方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本公开还提供了一种包括指令的计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由计算机设备的处理器执行时,使得计算机能够执行上述所示实施例提供的模型生成方法。例如,计算机可读存储介质可以为包括指令的存储器63,上述指令可由终端的处理器61执行以完成上述方法。又例如,计算机可读存储介质可以为包括指令的存储器72,上述指令可由服务器的处理器71执行以完成上述方法。可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述图1-图6任一附图所示的模型生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种模型生成方法,其特征在于,包括:
基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型;所述初始模型中的第一节点与第二节点之间通过初始边连接;所述初始边用于表示所述第一节点与所述第二节点之间执行的候选操作;所述初始边对应一个边权重;所述第一节点为所述初始模型中的输入节点或者中间节点;所述第二节点为与所述第一节点不同的中间节点;
基于所述样本数据,对所述初始模型执行预设次数的训练操作,以得到第一模型;
若所述第一模型中,与所述初始模型中的所述初始边对应的目标边的边权重满足预设条件,则对所述第一模型中的所述目标边进行裁剪,以得到目标模型。
2.根据权利要求1所述的模型生成方法,其特征在于,所述预设条件为:
所述目标边的边权重小于预设边权重阈值;
或者,所述目标边的边权重位于排序结果的预设范围内;所述排序结果为将所述第一模型中的所有边的边权重,按照大小顺序进行排序后的结果。
3.根据权利要求1所述的模型生成方法,其特征在于,所述基于所述样本数据,对所述初始模型执行预设次数的训练操作,以得到第一模型,包括:
将所述样本数据输入到所述初始模型中,对所述初始模型执行所述预设次数的训练操作;
在执行所述训练操作的过程中,基于第一学习率,调整所述初始模型的模型参数,以及基于第二学习率和预设的边权重调整范围,调整所述初始模型中的所述初始边的边权重,以得到所述第一模型;所述第一学习率与所述第二学习率不同;所述第一模型包括调整后的模型参数和所述目标边的边权重。
4.根据权利要求3所述的模型生成方法,其特征在于,所述基于第二学习率和预设的边权重调整范围,调整所述初始模型中的所述初始边的边权重,以得到所述第一模型,包括:
基于所述第二学习率,调整所述初始模型中的所述初始边的边权重,以得到第一边权重;
若所述第一边权重大于所述预设的边权重调整范围的最大值,则将所述预设的边权重调整范围的最大值确定为所述第一模型中的所述目标边的边权重;
若所述第一边权重小于所述预设的边权重调整范围的最小值,则将所述预设的边权重调整范围的最小值确定为所述第一模型中的所述目标边的边权重;
若所述第一边权重大于或者等于所述预设的边权重调整范围的最小值,且小于或者等于所述预设的边权重调整范围的最大值,则将所述第一边权重确定为所述第一模型中的所述目标边的边权重。
5.根据权利要求1-4任一项所述的模型生成方法,其特征在于,所述对所述第一模型中的所述目标边进行裁剪,以得到目标模型之后,还包括:
基于所述样本数据,对所述目标模型执行精度恢复训练操作,以得到恢复精度的模型。
6.根据权利要求5所述的模型生成方法,其特征在于,还包括:
获取待分类图像数据;
将所述待分类图像数据输入到所述恢复精度的模型中,以得到输出值;所述输出值用于表示所述待分类图像数据的分类结果。
7.一种模型生成装置,其特征在于,包括:获取单元、训练单元和处理单元;
所述获取单元,用于基于神经网络架构搜索算法,从与样本数据对应的搜索空间中获取初始模型;所述初始模型中的第一节点与第二节点之间通过初始边连接;所述初始边用于表示所述第一节点与所述第二节点之间执行的候选操作;所述初始边对应一个边权重;所述第一节点为所述初始模型中的输入节点或者中间节点;所述第二节点为与所述第一节点不同的中间节点;
所述训练单元,用于基于所述样本数据,对所述获取单元获取到的所述初始模型执行预设次数的训练操作,以得到第一模型;
所述处理单元,用于若所述第一模型中,与所述初始模型中的所述初始边对应的目标边的边权重满足预设条件,则对所述训练单元训练得到的所述第一模型中的所述目标边进行裁剪,以得到目标模型。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-6中任一项所述的模型生成方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的模型生成方法。
10.一种计算机程序产品,包括指令,其特征在于,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1-6中任一项所述的模型生成方法。
CN202110444362.XA 2021-04-23 2021-04-23 用于图像分类的模型生成方法、装置、设备及存储介质 Active CN113159188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444362.XA CN113159188B (zh) 2021-04-23 2021-04-23 用于图像分类的模型生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444362.XA CN113159188B (zh) 2021-04-23 2021-04-23 用于图像分类的模型生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113159188A true CN113159188A (zh) 2021-07-23
CN113159188B CN113159188B (zh) 2024-03-12

Family

ID=76870160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444362.XA Active CN113159188B (zh) 2021-04-23 2021-04-23 用于图像分类的模型生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113159188B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置
WO2023071766A1 (zh) * 2021-10-28 2023-05-04 中兴通讯股份有限公司 模型压缩方法、模型压缩系统、服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553480A (zh) * 2020-07-10 2020-08-18 腾讯科技(深圳)有限公司 神经网络搜索方法、装置、计算机可读介质及电子设备
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553480A (zh) * 2020-07-10 2020-08-18 腾讯科技(深圳)有限公司 神经网络搜索方法、装置、计算机可读介质及电子设备
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071766A1 (zh) * 2021-10-28 2023-05-04 中兴通讯股份有限公司 模型压缩方法、模型压缩系统、服务器及存储介质
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置

Also Published As

Publication number Publication date
CN113159188B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
EP3853764A1 (en) Training neural networks for vehicle re-identification
JP2021504844A (ja) 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索
EP3796235A1 (en) Generating numeric embeddings of images
US20240070500A1 (en) Method and apparatus for simulating quantum circuit
CN113159188B (zh) 用于图像分类的模型生成方法、装置、设备及存储介质
CN113705775A (zh) 一种神经网络的剪枝方法、装置、设备及存储介质
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN112508126A (zh) 深度学习模型训练方法、装置、电子设备及可读存储介质
CN114861910A (zh) 神经网络模型的压缩方法及装置、设备和介质
CN114091589B (zh) 模型训练方法、装置、电子设备及介质
WO2019150158A1 (en) Automated selection of priors for training of detection convolutional neural networks
CN112966592A (zh) 手部关键点检测方法、装置、设备和介质
US20230153612A1 (en) Pruning complex deep learning models based on parent pruning information
CN115238837B (zh) 一种数据处理方法、装置、电子设备及存储介质
EP4113387A2 (en) Search method and apparatus based on neural network model, device, and medium
CN113159318B (zh) 一种神经网络的量化方法、装置、电子设备及存储介质
CN115910062A (zh) 音频识别方法、装置、设备及存储介质
CN115600646A (zh) 语言模型的训练方法、装置、介质及设备
US20220383121A1 (en) Dynamic activation sparsity in neural networks
CN114611609A (zh) 一种图网络模型节点分类方法、装置、设备及存储介质
CN114332529A (zh) 图像分类模型的训练方法、装置、电子设备及存储介质
CN112749707A (zh) 利用神经网络进行目标分割的方法、设备和介质
CN113553407B (zh) 事件追溯方法、装置、电子设备及存储介质
US12038989B2 (en) Methods for community search, method for training community search model, and electronic device
US20230140148A1 (en) Methods for community search, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant