CN116911361A - 基于深度学习框架网络训练网络模型的方法、装置和设备 - Google Patents
基于深度学习框架网络训练网络模型的方法、装置和设备 Download PDFInfo
- Publication number
- CN116911361A CN116911361A CN202310936007.3A CN202310936007A CN116911361A CN 116911361 A CN116911361 A CN 116911361A CN 202310936007 A CN202310936007 A CN 202310936007A CN 116911361 A CN116911361 A CN 116911361A
- Authority
- CN
- China
- Prior art keywords
- training
- network model
- network
- model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 345
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 88
- 238000005457 optimization Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于深度学习框架网络训练网络模型的方法、装置和设备,通过根据获取的待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集输入已训练好的多模态大型神经网络中,使其根据第一训练目标以及训练数据集对网络模型中参数进行调整直至网络模型达到第一训练目标,则得到初步训练好的网络模型,或者对网络模型进行训练,得到初步训练好的网络模型,再对初步训练好的网络模型进行压缩,得到压缩后的网络模型,再次利用多模态大型神经网络对压缩后的网络模型中参数进行调整直至网络模型达到第二训练目标,则得到训练好的网络模型,采用本方法可得到结构更为简单,其性能更为优良的网络模型。
Description
技术领域
本申请涉及神经网络模型训练技术领域,特别是涉及一种基于深度学习框架网络训练网络模型的方法、装置和设备。
背景技术
随着人工智能的发展,各种深度神经网络模型不断发展,并且广泛的在网络中传播并发展,深度神经网络展现了其强大的能力,并在各个领域取得了卓越的效果。然而,随着深度神经网络的发展,其获得模型训练时需要的庞大计算资源和存储开销亦备受关注。
因此,如何高效的复用已训练好的深度神经网络模型亦成为一项极其有意义的工作。传统复用深度神经网络的迁移学习方法,常直接利用已训练好的模型直接在目标数据集下进行训练;抑或选择采用已训练好的模型的同任务的损失函数在待训练数据集下,指导目标模型的训练。但在处理较为复杂的数据集有无标签混合场景及不同任务下训练好的模型场景下无法进行较好的复用。
发明内容
基于此,有必要针对上述技术问题,提供一种能够利用大型模型对小型模型进行训练的基于深度学习框架网络训练网络模型的方法、装置和设备。
一种基于深度学习框架网络训练网络模型的训练方法,所述方法包括:
获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
在其中一实施例中,所述训练方法应用于与视觉图像相关的训练任务,所述训练数据集中包括多张具有标签的图像数据。
在其中一实施例中,所述通过所述多模态大型神经网络根据所述第一训练目标或第二训练目标,以及训练数据集对所述网络模型或压缩后的网络模型中参数进行调整直至所述网络模型达到所述第一训练目标或第二训练目标包括:
根据所述网络模型或压缩后的网络模型的结构以及参数进行分析,以得到所述网络模型或压缩后的网络模型的局限性以及改进的空间信息;
根据所述第一训练目标或第二训练目标构建所述网络模型或压缩后的网络模型的优化目标;
根据对应的所述局限性、改进的空间信息以及优化目标对所述网络模型或压缩后的网络模型的参数进行优化直至使其达到所述第一训练目标或第二训练目标,则完成对应阶段的训练。
在其中一实施例中,所述对所述初步训练好的网络模型进行压缩的方式包括数据转换、模型剪枝。
在其中一实施例中,在通过所述多模态大型神经网络对网络模型进行训练时,所述训练数据集中的训练数据可由多模态大型神经网络根据训练任务生成。
在其中一实施例中,再采用所述多模态大型神经网络对网络模型进行训练之前,还针对训练任务进行优化。
在其中一实施例中,在针对训练任务对所述多模态大型神经网络进行优化时:
在所述多模态大型神经网络中插入统一模型,利用所述统一模型对所述多模态大型神经网络的隐藏状态进行调整。
在其中一实施例中,所述统一模型包括依次连接的输入层、低秩矩阵层以及输出层;
所述输入层接收所述多模态大型神经网络的隐藏状态;
所述低秩矩阵层包括全连接层以及非线性激活函数,根据所述训练任务对所述隐藏状态进行调整;
所述输出层将调整后的隐藏状态输出。
一种基于深度学习框架网络训练网络模型的训练装置,所述装置包括:
训练数据获取模块,用于获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
初步训练模块,用于将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
模型压缩模块,用于对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
最终训练模块,用于将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
上述基于深度学习框架网络训练网络模型的方法、装置和设备,通过根据获取的待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集输入已训练好的多模态大型神经网络中,使其根据第一训练目标以及训练数据集对网络模型中参数进行调整直至网络模型达到第一训练目标,则得到初步训练好的网络模型,或者对网络模型进行训练,得到初步训练好的网络模型,再对初步训练好的网络模型进行压缩,得到压缩后的网络模型,再次将压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入已训练好的多模态大型神经网络中,再次利用多模态大型神经网络对压缩后的网络模型中参数进行调整直至网络模型达到第二训练目标,则得到训练好的网络模型,采用本方法可得到结构更为简单,其性能更为优良的网络模型。
附图说明
图1为一个实施例中基于深度学习框架网络训练网络模型的训练方法的流程示意图;
图2为一个实施例中基于深度学习框架网络训练网络模型的训练装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种基于深度学习框架网络训练网络模型的训练方法,包括以下步骤:
步骤S100,获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
步骤S110,将网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过多模态大型神经网络根据第一训练目标以及训练数据集对网络模型中参数进行调整直至网络模型达到第一训练目标,则得到初步训练好的网络模型;
或,根据第一训练目标以及训练数据集对网络模型进行训练,得到初步训练好的网络模型;
步骤S120,对初步训练好的网络模型进行压缩,得到压缩后的网络模型;
步骤S130,将压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过多模态大型神经网络根据第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至网络模型达到第二训练目标,则得到训练好的网络模型。
在本实施例中,通过一个已训练好的多模态大模型全程负责对网络模型也就是小模型进行训练调优,在这个过程中,首先可以利用多模态大型神经网络对小模型进行初步训练,也可以直接采用已经经过预训练的小模型,对训练后的小模型进行压缩,去除掉其中一些结构后,使其更为轻量化后,再利用多模态大型神经网络对其进行训练,最终得到训练好的网络模型。采用该方法使得目标模型的训练及开发更为简单,并且最终得到的模型其结构更为精简的同时,同样具备完成目标任务的良好性能,实际上,也就是使得待进行训练的小模型最终在完成目标任务时具备与多模态大型神经网络处理相同目标任务时一样的出色性能,同时又具备更为简单的结构。
在本实施例中,该方法实际上可以应用于对图像、语言或数据进行不同目标任务的网络模型的训练。例如,训练视觉图像相关的训练任务,更进一步的,对图像中的目标进行识别的网络模型。这样相应的,在步骤S100中,所获取的训练数据集种包含的多张图像数据,且各图像数据中的目标均被标识出来。
而在待进行训练的网络模型,可以是现有的对视觉图像进行目标识别的网络模型,也可以是新构建的网络模型构架。
在步骤S100中,实际上需要确定的是待进行训练的网络模型,并提取其中的结构及初始化的参数,包括网络模型的层数、节点数、卷积核大小等结构信息,以及其中各个参数的初始值等。
同时,还需要根据训练任务准备相应的训练数据集,而其中的训练数据是在网络模型上进行推理时能够产生有意义的输出,例如,在图像检测任务中,可以使用标记的图像数据集。
其中,第一训练目标和第二训练目标分别是在本方法中两次对网络模型进行训练时所需要达到的要求,也就是需要明确告知大模型训练的具体要求和性能指标,例如,待训练的小模型为图像检测模型时,可告知大模型需要优化的目标是提高检测准确率或减少误差率等。其中,具有要求还可以是需要优化的目标和约束条件,例如,可要求大模型在对小模型进行训练时,在保持小模型结构大小不变或一定的计算资源限制下及进行优化。
在本实施例中,第一训练目标和第二训练目标在不同的训练场景及需求下,可以是相同的,或者是不相同的,根据训练策略的不同,第一训练目标和第二训练目标相同时,也就是说每次训练的目标都是最终目标,而有时,可将第二训练目标作为最终的训练目标,而将第一训练目标设置为稍低于第二训练目标,这样在整个训练过程中,进行训练的网络模型会在第一训练的过程中很快达到目标后,再进行第二次,这样的策略则可以更为高效的达成训练目的。
在本实施例中,待进行训练的网络模型是相对于多模态大型神经网络具备较小的体积和计算开销网络模型,例如,基于卷积神经网络的图像检测模型或分类模型等。
接下来在步骤S110中,有两种训练方式,第一种训练方式就是采用已训练好的多模态大型神经网络对小模型进行训练,也就是将上述的数据输入至多模态大型神经网络中,让大模型根据输入的数据对其进行训练。实际上,该训练过程与步骤S130中,利用已训练好的多模态大型神经网络对压缩好的网络模型进行训练的过程是相同的。
由于,在大模型对小模型进行训练的过程实际上是不可解释的,但大致包括的步骤为:根据网络模型或压缩后的网络模型的结构以及参数进行分析,以得到网络模型或压缩后的网络模型的局限性以及改进的空间信息,根据第一训练目标或第二训练目标构建网络模型或压缩后的网络模型的优化目标,根据对应的局限性、改进的空间信息以及优化目标对所述网络模型或压缩后的网络模型的参数进行优化直至使其达到第一训练目标或第二训练目标,则完成对应阶段的训练。
具体的,大模型首先对小模型进行分析,包括小模型的结构、参数以及在目标任务上的性能。通过对小模型的分析,大模型可以获得关于小模型的局限性和改进空间的信息。根据训练任务的需求,定义小模型的优化目标。例如,最小化损失函数、最大化准确率或最小化推理时间等。
在大模型对小模型的参数进行优化时,以使小模型逐渐逼近大模型的性能。这可以通过梯度下降等优化算法实现,其中大模型的输出作为损失函数的目标,通过最小化损失函数来调整小模型的参数。再大模型根据优化结果将调整后的参数传递给小模型,更新小模型的参数。这可以通过直接替换小模型的参数值或者通过参数微调的方式进行。
最后,在大模型对小模型经过参数优化和更新后,对小模型进行验证和评估,以确认性能的提升。如果需要进一步改进,可以迭代执行参数优化,再进行验证,直至达到训练目标。
通过上述训练,大模型可以对小模型的参数进行内部优化,以提升小模型在目标任务上的性能。大模型通过分析小模型、设定优化目标、参数优化和传递更新的过程,对小模型进行改进和优化,使其更适应特定的任务需求。这样可以充分利用大模型的能力和优势,提高小模型的性能和表现。
而在步骤S110中,还可以对网络模型即小模型根据数据训练集以及第一训练目标进行常规训练,并采用与训练任务适配的损失函数,得到初步训练好的网络模型。
在本实施例中,通过多模态大型神经网络对网络模型进行训练时,训练数据集中的训练数据可由多模态大型神经网络根据训练任务生成。
在步骤S120中,对初步训练好的网络模型进行压缩的方式包括数据转换、模型剪枝,或者模型剪枝等,由大模型对小模型的准确度进行逐层分析,寻求在精度损失可接受范围内完成对模型大小的压缩,提高运行的速度。
在步骤S130中,再采用与步骤S110中类似的手段利用多模态大型神经网络对压缩后的模型再次进行训练,通过大模型的数量级优势,可以部分解决AI的黑盒子问题,通过多个训练数据的比对,对小模型特定关键参数进行调整,完成对小型模型进行微调和优化,以进一步提升其在目标任务上的性能。定义优化目标。同时根据特定任务的要求,定义小型模型的优化目标(可以理解为第二训练目标),例如最小化交叉熵损失或最大化检测准确率。
在本实施例中,已训练的多模态大型神经网络可采用现有神经网络,例如GPT-4。
在本实施例中,为了使得多模态大型神经网络训练出来的网络模型更适配于应用场景,再采用多模态大型神经网络对网络模型进行训练之前,还针对训练任务进行优化。
具体的,在针对训练任务对多模态大型神经网络进行优化时:在多模态大型神经网络中插入统一模型,利用统一模型对多模态大型神经网络的隐藏状态进行调整。
在本实施例中,统一模型包输入模块、参数模块、其他功能模块以及输出模块。其中,输入模块用于接收不同类型的输入,包括文本、图像、音频等,以满足各种任务需求。参数模块作为多模态大型神经网络的插件之一,负责对多模态大型神经网络的隐藏状态进行个性化调整,实现定制化需求。其他功能模块用于根据具体任务需求,可以引入其他功能模块,如图像处理模块、音频处理模块等,以扩展功能和满足多样化的任务需求。输出模块用于生成符合任务要求的结果,可以是文本、图像、音频等形式。
具体的,参数模块由一个低秩矩阵表示,而对多模态大型神经网络进行优化的过程可表示为:
W=a*W0+b*BA (1)
在公式(1)中,W0表示初始多模态大型神经网络的参数,BA表示统一模型的参数,a、b表示可自定义的权重参数,W表示被统一模型优化后的最终多模态大型神经网络的参数。
对初始多模态大型神经网络进行优化的过程实际上可以看作是将统一模型与大型语言模型叠加在一起,从而得到一个具有全新效果和个性化定制的模型。
统一模型参数的思想是通过对低秩矩阵进行训练和调整,来影响大型模型的生成结果。通过仅训练一个较小规模的低秩矩阵,统一模型可以在资源消耗更小的情况下实现对大型模型的个性化定制。
在本实施例中,以GPT-4为例,其结构包括输入层、Transformer编码器层以及输出层,其中,输入层以单个文本序列作为输入,Transformer编码器层由多个Transformer编码器组成,用于对输入序列进行表示学习和特征提取,输出层根据任务需要,可以是语言模型、文本生成。
当采用统一模型对其进行优化时,统一模型的结构包括依次连接的输入层、低秩矩阵层以及输出层,其中,输入层接收多模态大型神经网络的隐藏状态,低秩矩阵层包括全连接层以及非线性激活函数,根据训练任务对所述隐藏状态进行调整,输出层将调整后的隐藏状态输出。
具体的,假设GPT模型的隐藏状态的维度为D时,低秩矩阵层中的全连接层的输入维度为D,输出维度可以是小于等于D的较低秩值。而非线性激活函数可采用ReLU、Sigmoid等激活函数。
在本实施例中,在对同一模型进行训练时,为统一模型的训练准备合适的数据集,包括原始GPT模型的隐藏状态和目标任务的标注数据。对于图像任务,可以使用图像数据集,提取特征作为GPT模型的输入,然后将隐藏状态作为统一模型模块的输入。并通过定义适当的损失函数,衡量统一模型模块对目标任务的生成效果。对于图像任务,可以使用常见的损失函数,如均方误差损失或交叉熵损失。并通过梯度下降等优化算法,对同一模型的全连接层参数进行优化,使其能够更好地调整隐藏状态。
上述基于深度学习框架网络训练网络模型的训练方法中,通过多模态大模型全程负责对小模型的训练调优,同时可以通过AIGC的方式增广数据集提高训练效果,同时对模型进行压缩可以采用量化的方式降低网络数据量,提高运算效率。在对模型进行优化时,通过AI的方式解决AI问题,实现AI黑盒子问题的部分解决,可以准确定位对检测有利的关键参数位置并进行优化。在本方法中,大型AI模型通常能够处理多种输入类型,例如文本、图像、语音等。通过将小型模型作为输入与大型模型结合,可以充分利用大型模型对多模态输入的处理能力,从而提高小型模型在多模态任务上的性能。提供更丰富的训练数据:大型模型具有更大的模型容量和学习能力,可以通过大量的训练数据进行训练。通过将小型模型与大型模型结合,可以借助大型模型生成额外的训练数据,以增加小型模型的训练样本量,提高模型的泛化能力和性能。本方法通过对小型模型进行模型压缩,可以减小模型的体积和计算开销,提高模型的推理速度。这可以通过量化、剪枝等技术实现,由大型模型指导压缩过程,确保在精度损失可接受的范围内完成模型压缩。通过大型模型的数量级优势和多个训练数据的比对,可以对小型模型的特定关键参数进行微调和优化。这样可以提高小型模型在目标任务上的性能,并根据具体的优化目标进行参数调整,例如最小化损失或最大化准确率。全流程无需人为干预,均由大模型负责自训练端到优化完成对小模型的演进。在现有的模型蒸馏技术中,需要一个已有的较优的大模型作为教师模型给学生模型提供关键数据,但在本方法中,大模型可以本身为一个语言类模型,单纯拥有获取小模型参数的能力。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于深度学习框架网络训练网络模型的训练装置,包括:训练数据获取模块200、初步训练模块210、模型压缩模块220和最终训练模块230,其中:
训练数据获取模块200,用于获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
初步训练模块210,用于将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
模型压缩模块220,用于对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
最终训练模块230,用于将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
关于基于深度学习框架网络训练网络模型的训练装置的具体限定可以参见上文中对于基于深度学习框架网络训练网络模型的训练方法的限定,在此不再赘述。上述基于深度学习框架网络训练网络模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习框架网络训练网络模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于深度学习框架网络训练网络模型的训练方法,其特征在于,所述方法包括:
获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
2.根据权利要求1所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,所述训练方法应用于与视觉图像相关的训练任务,所述训练数据集中包括多张具有标签的图像数据。
3.根据权利要求2所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,所述通过所述多模态大型神经网络根据所述第一训练目标或第二训练目标,以及训练数据集对所述网络模型或压缩后的网络模型中参数进行调整直至所述网络模型达到所述第一训练目标或第二训练目标包括:
根据所述网络模型或压缩后的网络模型的结构以及参数进行分析,以得到所述网络模型或压缩后的网络模型的局限性以及改进的空间信息;
根据所述第一训练目标或第二训练目标构建所述网络模型或压缩后的网络模型的优化目标;
根据对应的所述局限性、改进的空间信息以及优化目标对所述网络模型或压缩后的网络模型的参数进行优化直至使其达到所述第一训练目标或第二训练目标,则完成对应阶段的训练。
4.根据权利要求3所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,所述对所述初步训练好的网络模型进行压缩的方式包括数据转换、模型剪枝。
5.根据权利要求4所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,在通过所述多模态大型神经网络对网络模型进行训练时,所述训练数据集中的训练数据可由多模态大型神经网络根据训练任务生成。
6.根据权利要求1-5任一项所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,再采用所述多模态大型神经网络对网络模型进行训练之前,还针对训练任务进行优化。
7.根据权利要求6所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,在针对训练任务对所述多模态大型神经网络进行优化时:
在所述多模态大型神经网络中插入统一模型,利用所述统一模型对所述多模态大型神经网络的隐藏状态进行调整。
8.根据权利要求7所述的基于深度学习框架网络训练网络模型的训练方法,其特征在于,所述统一模型包括依次连接的输入层、低秩矩阵层以及输出层;
所述输入层接收所述多模态大型神经网络的隐藏状态;
所述低秩矩阵层包括全连接层以及非线性激活函数,根据所述训练任务对所述隐藏状态进行调整;
所述输出层将调整后的隐藏状态输出。
9.一种基于深度学习框架网络训练网络模型的训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取待进行训练的网络模型结构及参数、第一训练目标、第二训练目标以及训练数据集;
初步训练模块,用于将所述网络模型结构及参数、第一训练目标以及训练数据集输入已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第一训练目标以及训练数据集对所述网络模型中参数进行调整直至所述网络模型达到所述第一训练目标,则得到初步训练好的网络模型;
或,根据所述第一训练目标以及训练数据集对所述网络模型进行训练,得到初步训练好的网络模型;
模型压缩模块,用于对所述初步训练好的网络模型进行压缩,得到压缩后的网络模型;
最终训练模块,用于将所述压缩后的网络模型结构及参数、第二训练目标以及训练数据集输入所述已训练好的多模态大型神经网络中,通过所述多模态大型神经网络根据所述第二训练目标以及训练数据集对所述压缩后的网络模型中参数进行调整直至所述网络模型达到所述第二训练目标,则得到训练好的网络模型。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310936007.3A CN116911361A (zh) | 2023-07-27 | 2023-07-27 | 基于深度学习框架网络训练网络模型的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310936007.3A CN116911361A (zh) | 2023-07-27 | 2023-07-27 | 基于深度学习框架网络训练网络模型的方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116911361A true CN116911361A (zh) | 2023-10-20 |
Family
ID=88360061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310936007.3A Pending CN116911361A (zh) | 2023-07-27 | 2023-07-27 | 基于深度学习框架网络训练网络模型的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911361A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407754A (zh) * | 2023-10-27 | 2024-01-16 | 北京中科闻歌科技股份有限公司 | 一种多模态大模型训练策略确定方法、电子设备及介质 |
-
2023
- 2023-07-27 CN CN202310936007.3A patent/CN116911361A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407754A (zh) * | 2023-10-27 | 2024-01-16 | 北京中科闻歌科技股份有限公司 | 一种多模态大模型训练策略确定方法、电子设备及介质 |
CN117407754B (zh) * | 2023-10-27 | 2024-04-19 | 北京中科闻歌科技股份有限公司 | 一种多模态大模型训练策略确定方法、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200104640A1 (en) | Committed information rate variational autoencoders | |
CN108563782B (zh) | 商品信息格式处理方法、装置、计算机设备和存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113593611B (zh) | 语音分类网络训练方法、装置、计算设备及存储介质 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN110750523A (zh) | 数据标注方法、系统、计算机设备和存储介质 | |
CN116702835A (zh) | 神经网络推理加速方法、目标检测方法、设备及存储介质 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN113610232A (zh) | 网络模型量化方法、装置、计算机设备以及存储介质 | |
CN116911361A (zh) | 基于深度学习框架网络训练网络模型的方法、装置和设备 | |
Evermann et al. | XES tensorflow-Process prediction using the tensorflow deep-learning framework | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN116737895A (zh) | 一种数据处理方法及相关设备 | |
CN113762503B (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN113850012B (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
CN118537908A (zh) | 基于大模型的多模态多粒度特征融合表情包情感识别方法 | |
Xu et al. | Label distribution changing learning with sample space expanding | |
US20230410465A1 (en) | Real time salient object detection in images and videos | |
US20230362416A1 (en) | Video processing method and apparatus, device, and storage medium | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN113743448B (zh) | 模型训练数据获取方法、模型训练方法和装置 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN116882471A (zh) | 参数高效训练方法、装置及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115116470A (zh) | 音频处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |