CN114139696A - 基于算法集成平台的模型处理方法、装置和计算机设备 - Google Patents
基于算法集成平台的模型处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN114139696A CN114139696A CN202010915750.7A CN202010915750A CN114139696A CN 114139696 A CN114139696 A CN 114139696A CN 202010915750 A CN202010915750 A CN 202010915750A CN 114139696 A CN114139696 A CN 114139696A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- training
- algorithm
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 193
- 230000010354 integration Effects 0.000 title claims abstract description 116
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 243
- 238000012549 training Methods 0.000 claims abstract description 162
- 238000000547 structure data Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000012795 verification Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 25
- 238000013139 quantization Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 description 45
- 238000007635 classification algorithm Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于算法集成平台的模型处理方法、装置和计算机设备。所述方法包括:获取目标算法的配置文件;从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。采用本方法能够提高神经神经网络模型的训练效率。
Description
技术领域
本申请涉及深度学习技术领域,特别是涉及一种基于算法集成平台的模型处理方法、装置和计算机设备。
背景技术
目标检测的目的是检测中图像中的物体,包括物体的位置以及物体的类别,但是因为物体的大小不一、背景复杂、形状多变、堆叠等因素的影响,导致目标检测是一个比较难的领域,也有很多研究学者们贡献了很多优秀的算法,其中基于深度学习的目标检测算法近几年有了很重要的进展。目标识别也是深度学习的一块重要的内容,主要目的是区分该张图片所属的类别,给图片一个标签。通常检测算法和分类算法会同时使用,比如人脸识别需要先通过人脸检测标注出人脸所在位置,在通过人脸识别进行人脸的特征提取。
然而,目前在根据检测算法对特征检测模型进行训练,以及识别算法对特征识别模型进行训练时,只能单独获取算法对对应的检测模型进行训练导致神经网络模型训练效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高神经网络模型训练效率的基于算法集成平台的模型处理方法、装置、计算机设备和存储介质。
一种基于算法集成平台的模型处理方法,所述方法包括:
获取目标算法的配置文件;
从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;
基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。
在其中一个实施例中,所述基于算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型,包括:
根据所述网络结构数据和训练超参数数据从所述算法集成平台中确定对应的特征提取网络和结果输出网络;
根据所述特征提取网络和结果输出网络生成待训练的神经网络模型。
在其中一个实施例中,所述解析结果包括样本数据集路径信息;所述根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型,包括:
根据所述样本数据集路径信息获取样本数据集;所述样本数据集包括训练数据集和验证数据集;
通过所述训练数据集对所述神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率;以及
通过所述验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
在其中一个实施例中,在所述通过所述训练数据集对所述神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率之前,所述方法还包括:
获取所述样本数据集的数据格式;
当所述数据格式不为所述神经网络模型支持的预设数据格式时,从所述算法集成平台中调用格式转换脚本,将所述样本数据集的数据格式转换为预设数据格式;执行所述通过所述训练数据集对所述神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率步骤。
在其中一个实施例中,所述方法还包括:
获取所述目标神经网络模型中每个卷积神经网络之后的批量归一化层的权重值,得到权重值集;
从算法集成平台中调用模型裁剪脚本,根据所述权重值集和裁剪比例对所述目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型;
根据获取的样本数据集对所述裁剪后的目标神经网络模型进行训练,得到最优神经网络模型。
在其中一个实施例中,所述根据所述权重值集和裁剪比例对所述目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型,包括:
对所述权重值集中的权重值按照从大到小的顺序进行排序,根据所述裁剪比例从排序的权重值集中确定权重阈值;
根据所述权重阈值对所述目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
在其中一个实施例中,所述方法还包括:
从算法集成平台中调用模型量化脚本对所述目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
一种基于算法集成平台的模型处理装置,所述装置包括:
配置模块,用于获取目标算法的配置文件;
解析模块,用于从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;
生成模块,用于基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;
训练模块,用于根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标算法的配置文件;
从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;
基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标算法的配置文件;
从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;
基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。
上述基于算法集成平台的模型处理方法、装置和计算机设备和存储介质,根据获取的目标算法的配置文件,调用算法集成平台中的训练脚本对配置文件进行解析,可以得到目标算法的网络结构数据和超参数数据;根据确定的网络结构数据和超参数数据即可确定待生成的神经网络模型;根据获取的样本数据即可完成神经网络模型的训练,得到训练好的目标神经网络模型。算法集成平台中集成现有的各种检测算法和分类算法,基于算法集成平台可生成任意指定的待训练的神经网络模型,以及对神经网络模型的训练,不需要对目标算法进行单独配置和训练神经网络模型,提高了神经网络模型的训练效率。
附图说明
图1为一个实施例中基于算法集成平台的模型处理方法的流程示意图;
图2为一个实施例中基于算法集成平台的神经网络模型训练方法的流程示意图;
图3为另一个实施例中基于算法集成平台的模型处理方法的流程示意图;
图4为一个实施例中算法集成平台的示意图;
图5为一个实施例中基于算法集成平台的模型处理装置的结构框图;
图6为另一个实施例中基于算法集成平台的模型处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于算法集成平台的模型处理方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取目标算法的配置文件。
其中,配置文件集成在算法集成平台中,配置文件中包括目标算法的样本数据的路径信息、网络结构数据、训练超参数数据和模型的保存路径信息等信息。网络结构数据是算法的网络结构数据,例如,检测算法yolov3和retinanet算法的网络结构包括backbone和head。训练超参数数据是指训练前或者训练中人为地进行调整的参数,超参数包括神经学习率策略、迭代次数、优化器等等。
算法集成平台是通过对现有的通用算法模块化处理和算法所需的接口标准化处理,将现有的通用算法的配置文件集成在一个算法平台中得到算的;基于算法集成平台的标准化接口可以对算法进行不断积累。通用算法包括检测算法和分类算法,分类算法可以包括但不仅限于fixed size classifier、adaptive size classifier等分类算法,检测算法可以包括但不仅限于是yolo、retinanet、ssd等检测算法。例如,将单阶段目标检测算法标准化为三个接口:
feature_extractor(self,img)
forward_train(img,gt_bbox,gt_label)
forward_test(img)
目标算法根据实际应用场景确定,应用场景包括物流快件面单检测、物流包裹检测、装卸口车辆状态检测;例如,在物流包裹检测场景中,需要对物流包裹进行检测和分类,基于物流包裹检测的准确性,从算法集成平台中获取yolov3检测算法的配置文件和efficientnet-b3分类算法的配置文件。
具体地,根据实际应用场景从集成算法平台中获取目标算法的配置文件。
步骤104,从算法集成平台中调用训练脚本对配置文件进行解析,得到解析结果;解析结果包括网络结构数据和训练超参数数据。
具体地,从算法集成平台中调用训练脚本train.py,通过train.py训练脚本对配置文件进行解析,得到配置文件中配置的网络结构数据、训练超参数数据、样本数据集路径信息和模型的保存路径信息等信息。算法集成平台中还包括用来测试指标的测试脚本test.py、测试图像的测试脚本demo.py和格式转换脚本等。
步骤106,基于算法集成平台,根据网络结构数据和训练超参数数据生成待训练的神经网络模型。
具体地,根据解析得到的网络结构数据和训练超参数数据,从算法集成平台中确定对应的特征提取网络和结果输出网络;根据特征提取网络和结果输出网络生成待训练的神经网络模型。其中,特征提取网络可以复用到检测算法和识别算法中,特征提取网络包括通用的resnet(残差网络)、resnext、efficientnet、shufflenet、mobilenetv2、darknet53、squeezenet等网络,例如特征提取网络resnet101和mobilenetv2可以同时复用在分类算法和检测算法中;结果输出网络可以是检测网络,也可以是分类网络,检测网络可包括retinanet、centernet、efficientdet、yolov3、ssd、faster rcnn等检测网络,分类网络包括fixed size classifier和adaptive size classifier等分类网络。在检测包裹破损的应用场景中,确定目标算法为检测算法,对检测算法的配置文件进行解析,得到对应的网络结构数据和训练超参数数据,根据网络结构数据从算法集成平台中确定检测算法所需的特征提取网络darknet53和检测网络yolov3。
可选地,基于算法集成平台,根据解析得到的网络结构数据和训练超参数数据,从算法集成平台中确定对应的特征提取网络和结果输出网络,根据特征提取网络和结果输出网络组合可以得到轻量级的神经网络模型,例如,mobilenetv2的特征网络组合yolov3就可以得到轻量级的检测网络yolov3模型,或者mobilenetv2搭配retinanet就可以获得轻量级的检测网络retinanet模型,采用轻量级的神经网络模型可以提高目标检测效率。
步骤108,根据获取的样本数据集对神经网络模型进行训练,得到训练好的目标神经网络模型。
具体地,对配置文件进行解析得到样本数据的路径信息,根据路径信息从服务器的数据库中获取训练神经网络模型所需的样本数据集,样本数据集中包括训练数据集和验证数据集,根据通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率;以及通过验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
在一个实施例中,获取目标检测算法和目标识别算法的配置文件,从算法集成平台中调用训练脚本分别对目标检测算法的配置文件和目标识别算法的配置文件进行解析,得到目标检测算法的网络结构数据和训练超参数数据和目标识别算法的网络结构数据和训练超参数数据,基于算法集成平台,分别生成目标检测算法待训练的第一神经网络模型和和目标识别算法的第二神经网络模型,根据获取的样本数据集分别对对应第一神经网络模型和第二神经网络模型进行训练,得到训练好的目标第一神经网络模型和第二神经网络模型。
上述基于算法集成平台的模型处理方法中,通过获取的目标算法的配置文件,调用算法集成平台中的训练脚本对配置文件进行解析,可以得到目标算法的网络结构数据和超参数数据;根据确定的网络结构数据和超参数数据即可确定待生成的神经网络模型;根据获取的样本数据即可完成神经网络模型的训练,得到训练好的目标神经网络模型。算法集成平台中集成现有的各种算法,基于算法集成平台可生成任意指定的待训练的神经网络模型,以及对神经网络模型的训练,不需要对目标算法进行单独配置和训练神经网络模型,提高了神经网络模型的训练效率。
在一个实施例中,如图2所示,提供了一种基于算法集成平台的神经网络模型训练方法,本实施例以该方法应用于服务器进行举例说明。本实施例中,该方法包括以下步骤:
步骤202,根据样本数据集路径信息获取样本数据集。
其中,样本数据集包括训练数据集和验证数据集。
步骤204,获取样本数据集的数据格式。
其中,不同的样本数据集的数据格式不同,例如,检测算法的样本数据集的数据集格式可以是coco格式的数据集、voc格式的数据集,分类算法的数据集格式可以是jpg格式的图片集和txt格式的标注。
步骤206,当数据格式不为神经网络模型支持的预设数据格式时,从算法集成平台中调用格式转换脚本,将样本数据集的数据格式转换为预设数据格式。
步骤208,通过样本数据集中的训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率。
具体地,基于训练超参数数据中的迭代次数和优化器,根据样本数据集中的训练数据集对神经网络模型进行迭代训练,通过优化器进行损失回传,更新神经网络模型的权重和学习率,得到更新权重和学习率后的神经网络模型。
步骤210,通过样本数据集中的验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
具体地,通过样本数据集中的验证数据集对训练的神经网络模型进行验证,计算神将网络的损失值和评测指标值,当计算的损失值和评测指标值在设定范围内时,结束神经网络模型的训练,得到训练好的目标神经网络模型。
上述基于算法集成平台的神经网络模型训练方法中,根据配置文件中的样本数据集路径信息获取样本数据集,通过对样本数据集的数据格式进行检测,当样本数据集的数据格式不为神经网络模型支持的预设数据格式时,从算法集成平台中调用格式转换脚本,将样本数据集的数据格式转换为预设数据格式;通过将样本数据集的数据格式转化为预设数据格式,便于提高神经网络模型训练的效率以及准确性;基于算法集成平台,通过训练数据集和验证数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率以及对训练的神经网络模型进行验证,完成神经网络模型的训练,提高神经网络模型的准确性。
在另一个实施例中,如图3所示,提供了一种基于算法集成平台的模型处理方法,本实施例以该方法应用于服务器进行举例说明,本实施例中,该方法包括以下步骤:
步骤302,获取目标算法的配置文件。
步骤304,从算法集成平台中调用训练脚本对配置文件进行解析,得到解析结果;解析结果包括网络结构数据和训练超参数数据。
步骤306,基于算法集成平台,根据网络结构数据和训练超参数数据生成待训练的神经网络模型。
具体地,根据网络结构数据和训练超参数数据从算法集成平台中确定对应的特征提取网络和结果输出网络;根据特征提取网络和结果输出网络生成待训练的神经网络模型。
步骤308,根据获取的样本数据集对神经网络模型进行训练,得到训练好的目标神经网络模型。
具体地,根据样本数据集路径信息获取样本数据集,样本数据集包括训练数据集和验证数据集;获取样本数据集的数据格式;当数据格式不为神经网络模型支持的预设数据格式时,从算法集成平台中调用格式转换脚本,将样本数据集的数据格式转换为预设数据格式;通过样本数据集中的训练数据集对神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率,以及通过样本数据集中的验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
可选地,基于算法集成平台,根据目标算法的配置文件确定的待训练神经网络模型,根据样本数据集对神经网络模型中检测网络(例如,yolov3)的归一化层的权重的梯度进行稀疏训练,保存平均精度均值(mean Average Precision,mAP)最高的模型,得到训练效果最好的神经网络模型,将该神经网络模型作为基础的大模型。
步骤310,获取目标神经网络模型中卷积神经网络的批归一化层的权重值,得到权重值集。
步骤312,从算法集成平台中调用模型裁剪脚本,根据权重值集和裁剪比例对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
其中,裁剪比例是预先设置好的,裁剪比例可以但不仅限于是0.9或0.5。
具体地,对权重值集中的权重值按照从大到小的顺序进行排序,根据裁剪比例从排序的权重值集中确定权重阈值;根据权重阈值对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。例如,裁剪比例设置为0.9,对权重值集中的权重值按照从大到小的顺序进行排序,选择权重排序在前十分之一处权重值作为权重阈值,根据权重阈值对每一个归一化层(batch norm)的权重进行选择,选择大于该权重阈值的权重值,则裁剪小于该权重阈值的权重值;如果大于该权重阈值的权重总和比batch norm层的权重总和的十分之一少,则裁剪大于该权重阈值的权重值,否则裁剪小于该阈值的权重值。
步骤314,根据获取的样本数据集对裁剪后的目标神经网络模型进行训练,得到最优神经网络模型。
可选地,在一个实施例中,从算法集成平台中调用模型量化脚本对目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
具体地,从算法集成平台中调用模型量化脚本对目标神经网络模型对经网络模型的参数所占的字符长度进行量化处理,得到量化后的目标神经网络模型。通过量化处理降低神经网络模型参数精度,减少模型运行时间,减少显存占用,都是为了减少硬件成本。
上述基于算法集成平台的模型处理方法中,基于算法集成平台,通过获取的目标算法的配置文件,调用算法集成平台中的训练脚本对配置文件进行解析,可以得到目标算法的网络结构数据和超参数数据;根据确定的网络结构数据和超参数数据即可确定待生成的神经网络模型;通过对样本数据集的数据格式进行检测,通过调用格式转换脚本将样本数据集的数据格式转换为神经网络模型支持的预设数据格式;通过样本数据集中的训练数据集和验证数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率以及对训练的神经网络模型进行验证,完成神经网络模型的训练,提高神经网络模型的准确性。
在一个实施例中,如图4所示,提供了一种算法集成平台,本实施例以该算法集成平台应用于服务器进行举例说明,该算法集成平台中包括配置文件模组、检测模组、工具模组、模型压缩模组和模型量化模组,其中,检测模组中包括数据子模组、网络子模组和训练子模组,其中:
配置文件模组,用于配置目标算法的配置文件。
检测模组中包括数据子模组用于检测样本数据集的数据格式,当样本数据集的格式不为神经网络模型支持的预设数据格式时,调用格式转换脚本将样本数据集的数据格式转换为预设数据格式。
网络子模组,用于完成目标算法(例如,检测算法和分类算法)的网络搭建,其中网络包括复用的特征提取网络和结果输出网络。特征提取网络和结果输出网络是通过对算法对目标检测部分和结果输出部分进行解耦得到的。目标检测部分就是通过卷积神经网络获得图片的特征,以pytorch的tensor格式输出,结果输出部分,比如,分类就输出类别(例如,一张图片是猫或者狗的类别),检测就输出框内物体的类别以及框的坐标。
训练子模组,用于根据样本数据集路径信息获取样本数据集;样本数据集包括训练数据集和验证数据集;通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率;以及通过验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
模型压缩模组,用于获取目标神经网络模型中每层归一化层的权重值,得到权重值集;从算法集成平台中调用模型裁剪脚本,对权重值集中的权重值按照从大到小的顺序进行排序,根据裁剪比例从排序的权重值集中确定权重阈值;根据权重阈值对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
模型量化模组,用于从算法集成平台中调用模型量化脚本对目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
上述算法集成平台中,通过将通用的检测算法、分类算法、模型压缩以及模型量化于一体的算法平台中,基于算法集成平台中的配置文件模组可以配置目标算法的配置文件,提高了模块的复用性,减少冗余代码编写;通过检测模组中包括数据子模组对样本数据集的数据格式进行检测,以及网络子模组完成目标算法的网络搭建,得到待训练的神经网络模型;通过训练子模组利用样本数据集对待训练的神经网络模型进行训练,得到训练好的神经网络模型,通过模型压缩模组对神经网络模型进行压缩,减小模型参数量,减少模型运行时间,;模型量化模组对神经网络模型进行量化,减少模型运行时间,减少显存占用,降低硬件成本。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于算法集成平台的模型处理装置,包括:获取模块502、解析模块504、生成模块506和训练模块508,其中:
获取模块502,用于获取目标算法的配置文件。
解析模块504,用于从算法集成平台中调用训练脚本对配置文件进行解析,得到解析结果;解析结果包括网络结构数据和训练超参数数据。
生成模块506,用于基于算法集成平台,根据网络结构数据和训练超参数数据生成待训练的神经网络模型。
训练模块508,用于根据获取的样本数据集对神经网络模型进行训练,得到训练好的目标神经网络模型。
上述基于算法集成平台的模型处理装置中,通过获取的目标算法的配置文件,调用算法集成平台中的训练脚本对配置文件进行解析,可以得到目标算法的网络结构数据和超参数数据;根据确定的网络结构数据和超参数数据即可确定待生成的神经网络模型;根据获取的样本数据即可完成神经网络模型的训练,得到训练好的目标神经网络模型。算法集成平台中集成现有的各种算法,基于算法集成平台可生成任意指定的待训练的神经网络模型,以及对神经网络模型的训练,不需要对目标算法进行单独配置和训练神经网络模型,提高了神经网络模型的训练效率。
在另一个实施例中,如图6所示,提供了一种基于算法集成平台的模型处理装置,除包括获取模块502、解析模块504、生成模块506和训练模块508之外,还包括:格式转化模块510、裁剪模块512、确定模块514和量化处理模块516,其中:
获取模块502还用于获取样本数据集的数据格式。
生成模块506还用于根据网络结构数据和训练超参数数据从算法集成平台中确定对应的特征提取网络和结果输出网络;根据特征提取网络和结果输出网络生成待训练的神经网络模型。
获取模块502还用于根据样本数据集路径信息获取样本数据集;样本数据集包括训练数据集和验证数据集。
训练模块508还用于通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率;以及通过验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
训练模块508还用于根据获取的样本数据集对裁剪后的目标神经网络模型进行训练,得到最优神经网络模型。
格式转化模块510,用于当数据格式不为神经网络模型支持的预设数据格式时,从算法集成平台中调用格式转换脚本,将样本数据集的数据格式转换为预设数据格式;执行通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率步骤。
获取模块502还用于获取目标神经网络模型中每层归一化层的权重值,得到权重值集。
裁剪模块512,用于从算法集成平台中调用模型裁剪脚本,根据权重值集和裁剪比例对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
裁剪模块512还用于根据权重阈值对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
确定模块514,用于对权重值集中的权重值按照从大到小的顺序进行排序,根据裁剪比例从排序的权重值集中确定权重阈值。
量化处理模块516,用于从算法集成平台中调用模型量化脚本对目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
在一个实施例中,通过获取目标算法的配置文件,从算法集成平台中调用训练脚本对配置文件进行解析,得到解析结果;解析结果包括网络结构数据和训练超参数数据;基于算法集成平台,根据网络结构数据和训练超参数数据生成待训练的神经网络模型;根据获取的样本数据集对神经网络模型进行训练,得到训练好的目标神经网络模型,获取目标神经网络模型中每层归一化层的权重值,得到权重值集,从算法集成平台中调用模型裁剪脚本,根据权重值集和裁剪比例对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。基于集成通用的检测算法、分类算法、模型压缩以及模型量化于一体的算法平台,和目标算法的配置文件,完成神经网络模型的训练,提高神经网络模型的准确性。
关于基于算法集成平台的模型处理装置的具体限定可以参见上文中对于基于算法集成平台的模型处理方法的限定,在此不再赘述。上述基于算法集成平台的模型处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置文件数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于算法集成平台的模型处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标算法的配置文件;
从算法集成平台中调用训练脚本对配置文件进行解析,得到解析结果;解析结果包括网络结构数据和训练超参数数据;
基于算法集成平台,根据网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对神经网络模型进行训练,得到训练好的目标神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据网络结构数据和训练超参数数据从算法集成平台中确定对应的特征提取网络和结果输出网络;
根据特征提取网络和结果输出网络生成待训练的神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据样本数据集路径信息获取样本数据集;样本数据集包括训练数据集和验证数据集;
通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率;以及
通过验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取样本数据集的数据格式;
当数据格式不为神经网络模型支持的预设数据格式时,从算法集成平台中调用格式转换脚本,将样本数据集的数据格式转换为预设数据格式;执行通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率步骤。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取目标神经网络模型中每层归一化层的权重值,得到权重值集;
从算法集成平台中调用模型裁剪脚本,根据权重值集和裁剪比例对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型;
根据获取的样本数据集对裁剪后的目标神经网络模型进行训练,得到最优神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对权重值集中的权重值按照从大到小的顺序进行排序,根据裁剪比例从排序的权重值集中确定权重阈值;
根据权重阈值对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从算法集成平台中调用模型量化脚本对目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标算法的配置文件;
从算法集成平台中调用训练脚本对配置文件进行解析,得到解析结果;解析结果包括网络结构数据和训练超参数数据;
基于算法集成平台,根据网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对神经网络模型进行训练,得到训练好的目标神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据网络结构数据和训练超参数数据从算法集成平台中确定对应的特征提取网络和结果输出网络;
根据特征提取网络和结果输出网络生成待训练的神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据样本数据集路径信息获取样本数据集;样本数据集包括训练数据集和验证数据集;
通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率;以及
通过验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取样本数据集的数据格式;
当数据格式不为神经网络模型支持的预设数据格式时,从算法集成平台中调用格式转换脚本,将样本数据集的数据格式转换为预设数据格式;执行通过训练数据集对神经网络模型进行迭代训练,更新神经网络模型的权重和学习率步骤。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取目标神经网络模型中每层归一化层的权重值,得到权重值集;
从算法集成平台中调用模型裁剪脚本,根据权重值集和裁剪比例对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型;
根据获取的样本数据集对裁剪后的目标神经网络模型进行训练,得到最优神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对权重值集中的权重值按照从大到小的顺序进行排序,根据裁剪比例从排序的权重值集中确定权重阈值;
根据权重阈值对目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从算法集成平台中调用模型量化脚本对目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于算法集成平台的模型处理方法,其特征在于,所述方法包括:
获取目标算法的配置文件;
从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;
基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述基于算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型,包括:
根据所述网络结构数据和训练超参数数据从所述算法集成平台中确定对应的特征提取网络和结果输出网络;
根据所述特征提取网络和结果输出网络生成待训练的神经网络模型。
3.根据权利要求1所述的方法,其特征在于,所述解析结果包括样本数据集路径信息;所述根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型,包括:
根据所述样本数据集路径信息获取样本数据集;所述样本数据集包括训练数据集和验证数据集;
通过所述训练数据集对所述神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率;以及
通过所述验证数据集对训练的神经网络模型进行验证,根据验证结果确定训练好的目标神经网络模型。
4.根据权利要求3所述的方法,其特征在于,在所述通过所述训练数据集对所述神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率之前,所述方法还包括:
获取所述样本数据集的数据格式;
当所述数据格式不为所述神经网络模型支持的预设数据格式时,从所述算法集成平台中调用格式转换脚本,将所述样本数据集的数据格式转换为预设数据格式;执行所述通过所述训练数据集对所述神经网络模型进行迭代训练,更新所述神经网络模型的权重和学习率步骤。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标神经网络模型中每个卷积层之后的批量归一化层的权重值,得到权重值集;
从算法集成平台中调用模型裁剪脚本,根据所述权重值集和裁剪比例对所述目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型;
根据获取的样本数据集对所述裁剪后的目标神经网络模型进行训练,得到最优神经网络模型。
6.根据权利要求5所述的方法,其特征在于,根据所述权重值集和裁剪比例对所述目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型,包括:
对所述权重值集中的权重值按照从大到小的顺序进行排序,根据所述裁剪比例从排序的权重值集中确定权重阈值;
根据所述权重阈值对所述目标神经网络模型进行裁剪,得到裁剪后的目标神经网络模型。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
从算法集成平台中调用模型量化脚本对所述目标神经网络模型进行量化处理,得到量化后的目标神经网络模型。
8.一种基于算法集成平台的模型处理装置,其特征在于,所述装置包括:
配置文件模块,用于获取目标算法的配置文件;
从算法集成平台中调用训练脚本对所述配置文件进行解析,得到解析结果;所述解析结果包括网络结构数据和训练超参数数据;
基于所述算法集成平台,根据所述网络结构数据和训练超参数数据生成待训练的神经网络模型;
根据获取的样本数据集对所述神经网络模型进行训练,得到训练好的目标神经网络模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010915750.7A CN114139696A (zh) | 2020-09-03 | 2020-09-03 | 基于算法集成平台的模型处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010915750.7A CN114139696A (zh) | 2020-09-03 | 2020-09-03 | 基于算法集成平台的模型处理方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114139696A true CN114139696A (zh) | 2022-03-04 |
Family
ID=80438143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010915750.7A Pending CN114139696A (zh) | 2020-09-03 | 2020-09-03 | 基于算法集成平台的模型处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139696A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385825A (zh) * | 2023-03-22 | 2023-07-04 | 小米汽车科技有限公司 | 模型联合训练方法、装置及车辆 |
CN117787444A (zh) * | 2024-02-27 | 2024-03-29 | 西安羚控电子科技有限公司 | 一种面向集群对抗场景的智能算法快速集成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038546A (zh) * | 2017-12-29 | 2018-05-15 | 百度在线网络技术(北京)有限公司 | 用于压缩神经网络的方法和装置 |
CN109376615A (zh) * | 2018-09-29 | 2019-02-22 | 苏州科达科技股份有限公司 | 用于提升深度学习网络预测性能的方法、装置及存储介质 |
CN110119271A (zh) * | 2018-12-19 | 2019-08-13 | 厦门渊亭信息科技有限公司 | 一种跨机器学习平台的模型定义协议及适配系统 |
CN110942090A (zh) * | 2019-11-11 | 2020-03-31 | 北京迈格威科技有限公司 | 模型训练、图像处理方法、装置、电子设备及存储介质 |
CN111079892A (zh) * | 2019-10-30 | 2020-04-28 | 华为技术有限公司 | 深度学习模型的训练方法、装置及系统 |
CN111428869A (zh) * | 2020-03-19 | 2020-07-17 | 北京源清慧虹信息科技有限公司 | 模型生成的方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-03 CN CN202010915750.7A patent/CN114139696A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038546A (zh) * | 2017-12-29 | 2018-05-15 | 百度在线网络技术(北京)有限公司 | 用于压缩神经网络的方法和装置 |
CN109376615A (zh) * | 2018-09-29 | 2019-02-22 | 苏州科达科技股份有限公司 | 用于提升深度学习网络预测性能的方法、装置及存储介质 |
CN110119271A (zh) * | 2018-12-19 | 2019-08-13 | 厦门渊亭信息科技有限公司 | 一种跨机器学习平台的模型定义协议及适配系统 |
CN111079892A (zh) * | 2019-10-30 | 2020-04-28 | 华为技术有限公司 | 深度学习模型的训练方法、装置及系统 |
CN110942090A (zh) * | 2019-11-11 | 2020-03-31 | 北京迈格威科技有限公司 | 模型训练、图像处理方法、装置、电子设备及存储介质 |
CN111428869A (zh) * | 2020-03-19 | 2020-07-17 | 北京源清慧虹信息科技有限公司 | 模型生成的方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
杨建;傅明驹;徐国强;: "人工智能基础软硬件架构的关键技术研究", 信息技术与网络安全, no. 03, 10 March 2020 (2020-03-10) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385825A (zh) * | 2023-03-22 | 2023-07-04 | 小米汽车科技有限公司 | 模型联合训练方法、装置及车辆 |
CN116385825B (zh) * | 2023-03-22 | 2024-04-30 | 小米汽车科技有限公司 | 模型联合训练方法、装置及车辆 |
CN117787444A (zh) * | 2024-02-27 | 2024-03-29 | 西安羚控电子科技有限公司 | 一种面向集群对抗场景的智能算法快速集成方法及装置 |
CN117787444B (zh) * | 2024-02-27 | 2024-05-17 | 西安羚控电子科技有限公司 | 一种面向集群对抗场景的智能算法快速集成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163261B (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN109271958B (zh) | 人脸年龄识别方法及装置 | |
CN111507370A (zh) | 获得自动标注图像中检查标签的样本图像的方法和装置 | |
CN111325342A (zh) | 模型的压缩方法、装置、目标检测设备和存储介质 | |
CN112016674A (zh) | 一种基于知识蒸馏的卷积神经网络的量化方法 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN114139696A (zh) | 基于算法集成平台的模型处理方法、装置和计算机设备 | |
CN110298394B (zh) | 一种图像识别方法和相关装置 | |
US20230131518A1 (en) | Model Generation Method and Apparatus, Object Detection Method and Apparatus, Device, and Storage Medium | |
CN111666848A (zh) | 运输车辆到站检测方法、装置、设备及存储介质 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
CN110928848A (zh) | 一种文件碎片分类方法及系统 | |
CN115081580B (zh) | 一种对预训练的神经网络模型进行剪枝的方法 | |
CN114329022A (zh) | 一种色情分类模型的训练、图像检测方法及相关装置 | |
KR20210111677A (ko) | 뉴럴 네트워크의 클리핑 방법, 뉴럴 네트워크의 컨벌루션 계산 방법 및 그 방법을 수행하기 위한 전자 장치 | |
CN113255927A (zh) | 逻辑回归模型训练方法、装置、计算机设备和存储介质 | |
CN113066528A (zh) | 基于主动半监督图神经网络的蛋白质分类方法 | |
CN110674342B (zh) | 查询目标图像的方法和装置 | |
CN116167336A (zh) | 基于云计算的传感器数据加工方法、云服务器及介质 | |
CN114494441B (zh) | 基于深度学习的葡萄及其采摘点同步识别定位方法、装置 | |
CN115565115A (zh) | 一种舾装件智能识别方法、计算机设备 | |
CN111291821A (zh) | 车辆重识别方法、装置、计算机设备和存储介质 | |
CN117669364B (zh) | 车道保持辅助系统测试场景的提取方法、服务器及介质 | |
CN117131920B (zh) | 一种基于网络结构搜索的模型剪枝方法 | |
CN113743447B (zh) | 半导体瑕疵识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |