CN117034090A - 模型参数调整、模型应用方法、装置、设备及介质 - Google Patents
模型参数调整、模型应用方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117034090A CN117034090A CN202311146690.7A CN202311146690A CN117034090A CN 117034090 A CN117034090 A CN 117034090A CN 202311146690 A CN202311146690 A CN 202311146690A CN 117034090 A CN117034090 A CN 117034090A
- Authority
- CN
- China
- Prior art keywords
- model
- parameter
- parameters
- matrix
- fine tuning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 239000011159 matrix material Substances 0.000 claims description 179
- 238000012549 training Methods 0.000 claims description 54
- 238000000354 decomposition reaction Methods 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 32
- 238000009966 trimming Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012821 model calculation Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000013215 result calculation Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 26
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000013145 classification model Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种模型参数调整、模型应用方法、装置、设备及介质,涉及数据处理领域,具体涉及人工智能、深度学习和计算机视觉领域。具体实现方案为:获取预先训练的模型;固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;获取模型使用场景的样本数据;将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
Description
技术领域
本公开涉及数据处理领域,具体涉及人工智能、深度学习和计算机视觉领域,尤其涉及一种模型参数调整、模型应用方法、装置、设备及介质。
背景技术
随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力。
基于数据驱动的深度学习通常采用模型预训练和模型微调方式在工业界领域进行应用,具体是模型先在一个超大规模数据集进行预训练得到预训练模型,然后在根据实际应用场景的具体任务进行下游任务模型微调。复用相同超大规模数据集训练得到预训练模型,可以减少训练样本的收集复杂性和占用存储资源,节省存储资源,同时避免通过单独收集大量的具体任务相关的样本数据训练模型,提高训练效率,可以快速全面提高预训练模型的预测准确性,再结合具体任务微调模型,可以提高模型精度,兼顾提高模型的泛化能力。
发明内容
本公开提供了一种模型参数调整、模型应用方法、装置、设备及介质。
根据本公开的一方面,提供了一种模型参数调整方法,包括:
获取预先训练的模型;
固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
获取模型使用场景的样本数据;
将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
根据本公开的一方面,提供了一种模型应用方法,包括:
将待处理数据发送至目标模型中,得到所述目标模型的预测结果;
其中,所述目标模型通过如本公开任一实施例所述的模型参数调整方法对预先训练的模型进行参数微调得到。
根据本公开的一方面,提供了一种模型参数调整装置,包括:
预先训练模型获取模块,用于获取预先训练的模型;
参数项添加模块,用于固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
样本数据获取模块,用于获取模型使用场景的样本数据;
参数微调模块,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
根据本公开的一方面,提供了一种模型应用装置,包括:
模型计算模块,用于将待处理数据发送至目标模型中,得到所述目标模型的预测结果;其中,所述目标模型通过如本公开任一实施例所述的模型参数调整方法对预先训练的模型进行参数微调得到。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的模型参数调整方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的模型参数调整方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的模型参数调整方法。
本公开实施例可以实现微调模型参数,同时提高模型预测效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例公开的一种模型参数调整方法的流程图;
图2是根据本公开实施例公开的另一种模型参数调整方法的流程图;
图3是根据本公开实施例公开的另一种模型参数调整方法的流程图;
图4是根据本公开实施例公开的一种模型应用方法的流程图;
图5是根据本公开实施例公开的模型参数调整装置的结构示意图;
图6是根据本公开实施例公开的模型应用装置的结构示意图;
图7是根据本公开实施例公开的模型参数调整方法或模型应用方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例公开的一种模型参数调整方法的流程图,本实施例可以适用于对预训练的模型进行参数微调继续训练的情况。本实施例方法可以由模型参数调整装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S101、获取预先训练的模型。
预先训练的模型可以是指经过训练的模型,例如,可以是预测准确率大于等于预设准确率阈值的模型,例如,图像分类模型的分类准确率大于等于85%。预先训练的模型可以是文本处理模型、图像处理模型、音频处理模型或者视频处理模型等。预先训练的模型还可以是大语言模型。示例性的,文本处理模型可以是文本摘要生成模型、问答模型或文本翻译模型等。图像处理模型可以是图像分类模型、目标检测模型或图像识别模型等。音频处理模型可以是语音识别模型或语音生成模型等。视频处理模型可以是运动检测模型或活体检测模型等。
在一个具体的例子中,获取预先训练的模型是预先训练的图像分类模型,例如,采用预训练的标注有分类的类型的图像作为样本,对初始模型进行训练,在图像分类模型的图像分类的准确率大于等于90%,得到预先训练的图像分类模型。
S102、固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型。
微调参数可以是参数值可以发生变化的参数。微调模型的模型结果和预先训练的模型的模型结构相同,二者的参数的数量相同,二者的参数的参数值不同。固定预先训练的模型的参数可以是指,参数不发生改变,具体可以包括:参数的参数值、类型和数量不变。在固定的参数上累加微调参数可以是指,将微调参数与固定的参数进行累加计算,得到结果,并将结果替代原来的固定的参数,形成微调模型。此处的累加可以理解为融合,或者添加,不具体限定加和计算。其中,累加计算可以是,计算微调参数与固定的参数之间的加权和,计算微调参数与固定的参数之和,或计算微调参数与固定的参数之间的均值等。此外,还有其他累加方式,具体不限定。
在一个具体的例子中,如前例,预先训练的图像分类模型可以包括卷积神经网络或者转换器模型。预先训练的图像分类模型的参数,可以包括:图像分类模型包括的各卷积层的卷积核中参数,和/或全连接网络的参数等。固定图像分类模型的参数,并在固定的参数上累加微调参数,替换到图像分类模型的参数,形成微调模型。其中,微调模型同样是用于图像分类。微调模型的结构与预先训练的图像分类模型的结构相同,但参数的数值不同。预先训练的图像分类模型的参数为前述固定的参数,微调模型的参数为前述固定的参数与微调参数的融合结果。示例性的,预先训练的图像分类模型包括2个卷积核,第一卷积核为2*2矩阵,第二卷积核为1*1矩阵,图像分类模型中需要固定的参数包括2*2矩阵中元素和1*1矩阵中元素,具体是2*2+1*1=5个参数。微调参数的数量为5个,针对这5个参数分别累加相应微调参数,得到5个新的参数,这5个新的参数替换原来5个固定的参数,替换后的图像分类模型,确定为微调参数。
可选的,所述在固定的参数上累加微调参数,得到微调模型,包括:计算所述固定的参数与所述微调参数之和,得到参数融合结果;将所述参数融合结果替换所述预先训练的模型的参数,形成微调模型。
参数融合结果可以是指固定的参数与微调参数的融合结果,具体为二者之和。将参数融合结果替代预先训练的模型中原来的固定的参数,将替换后的预先训练的模型,确定为微调模型。
通过对固定的参数和微调参数进行求和计算,替换固定的参数,形成微调模型,可以简化微调模型的生成操作,对固定的参数和微调参数之和进行调整,实现在固定的参数的数值不变的基础上的微调操作,兼顾调整的细粒度和范围覆盖率,从而提高微调模型的模型预测准确性。
S103、获取模型使用场景的样本数据。
实际上,微调模型的训练目标可以是针对具体的任务进行预测。示例性的,预先训练的模型的分类用于区分动物和背景,微调模型的训练目标用于区分猫。模型使用场景根据执行的任务或实现功能确定。例如,模型使用场景为检测当前车辆周围的障碍物,样本数据可以是当前车辆周围的图像以及该图像中标注有障碍物的检测框。
在一个具体的例子中,如前例,微调模型为图像分类模型。预先训练的图像分类模型的训练样本可以是对动物和静物进行分类,微调模型的模型使用场景的样本数据可以是对动物进行细分,例如,对猫、狗和人等进行分类,对人和车进行分类等,还可以是对静物进行分类,例如,对路标进行分类。又如,预先训练的图像分类模型的训练样本可以是对动物和静物进行分类,微调模型的模型使用场景的样本数据可以是对动物和静物进行分类。又如,预先训练的图像分类模型的训练样本可以是对图像的颜色进行分类,区分彩色图像和黑白图像,微调模型的模型使用场景的样本数据可以是对彩色图像进行细分,例如,红色图像、黄色图像或蓝色图像等。
S104、将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
微调模型的参数由两部分组成,一部分是预先训练的模型的参数,另一部分是微调参数。样本输数据输入到微调模型中,对微调模型的微调参数进行调整,预先训练的模型的参数固定不变,实现仅调整微调参数。
在满足训练完成条件时,将微调参数累加到预先训练的模型的参数上,更新预先训练的模型的参数,得到微调后的模型,该微调后的模型可以发布应用。
在一个具体的例子中,如前例,将样本数据输入到用于图像分类的微调模型中,对该用于图像分类的微调模型的微调参数进行调整,对固定的参数不进行调整,在训练完成时,微调模型可以作为训练完成的图像分类模型发布应用。训练完成的图像分类模型可以根据接收到的图像,输出图像的类型,或者图像中内容的类型。
此外,预先训练的模型和微调模型可以是用于处理媒体数据的模型,媒体数据可以包括下述至少一项:文本、图像、音频和视频等。通常,预先训练的模型和微调模型的功能相同或相近,处理的媒体数据的类型相同,例如,预先训练的模型为视频处理模型,微调模型同样为视频处理模型。相应的,训练微调模型的样本数据可以包括至少一项:文本数据、图像数据、音频数据和视频数据等。例如,文本数据可以包括文档或问题文本,图像数据可以包括道路采集图像。音频数据可以包括交互时用户语音。视频数据可以包括用户人脸动态视频等。
现有的模型微调方法是基于预训练模型参数全量微调或者冻结预训练模型主干网络进行全连接层参数的微调,此方法虽然实现简单,但效果很难达到最佳,比如模型参数全量微调容易模型遗忘预训练阶段学习到的知识,同时容易过拟合到下游任务,而仅微调全链接层的方法则容易出现欠拟合问题。而基于参数增量的方法虽然能较好处理模型过拟合和迁拟合问题,相比常用前述方法有提升,但带来了额外的代价,一方面改变了原有的网络结构,增加了模型部署的成本,另一方面带来了额外参数增加了计算成本和内存占用,增量了模型优化和维护成本,不利于工业上应用。
根据本公开的技术方案,通过在预先训练的模型的参数上增加微调参数,并采用样本数据训练模型的过程中,固定预先训练的模型的参数,仅调整微调参数,在兼顾记忆预训练阶段学习知识的情况下,同时未改变模型的网络结构,简化模型参数微调的操作,没有增加额外的训练代价、部署成本和维护成本,提高模型微调参数的效率,提高模型预测效果。
图2是根据本公开实施例公开的另一种模型参数调整方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,具体化为:对所述微调参数进行低秩分解,得到第一参数和第二参数;将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整。
S201、获取预先训练的模型。
S202、固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型。
S203、获取模型使用场景的样本数据。
S204、对所述微调参数进行低秩分解,得到第一参数和第二参数。
对微调参数进行低秩分解,得到第一参数和第二参数。其中,第一参数的数量和第二参数的数量可以为至少一个。通常模型的多个参数可以形成参数矩阵,多个微调参数形成的参数矩阵可以分解为多个矩阵,第一参数和第二参数是微调参数形成的参数矩阵中的元素。可以采用矩阵低秩分解方法对微调参数进行分解。示例性的,低秩分解方法可以包括奇异值分解、CP分解(正则多元分解Canonical Polyadic Decomposition,CPD)或Tucker分解(Tucker Decomposition)。
采用低秩分解得到第一参数和第二参数,可以有效减少微调参数的数量,加快训练速度。
S205、将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整。
可选的,所述对所述微调参数进行低秩分解,得到第一参数和第二参数,包括:对所述微调参数进行奇异值分解,得到左奇异矩阵、奇异值矩阵和右奇异矩阵;将所述奇异值矩阵,确定为第一参数;根据所述左奇异矩阵和所述右奇异矩阵,确定第二参数;其中,所述第二参数满足正交矩阵约束条件。
左奇异矩阵、奇异值矩阵和右奇异值矩阵之间的乘积得到微调参数形成的矩阵。左奇异矩阵的列数与奇异值矩阵的行数相同,奇异值矩阵的列数与右奇异值矩阵的行数相同。奇异值矩阵为对角矩阵。左奇异矩阵和右奇异矩阵均为正交矩阵。
示例性的,微调参数为Δk,其分解得到的参数如下所示:
Δk=PkΛkQk
其中,Λk∈Rr×r。
其中,k表示第k层,k=1、2……n,n为模型层数,Pk为第k层左奇异矩阵、Λ为奇异值矩阵和Qk为第k层右奇异值矩阵。预先训练的模型的模型层数和微调模型的模型层数相同。
通过对微调参数进行奇异值分解,得到第一参数和第二参数,可以减少微调参数的数量,减少冗余信息并保留有效信息,基于奇异值分解得到的参数进行调整,提高模型的预测准确性。
可选的,所述奇异值矩阵的行数和列数通过所述样本数据的数据量确定。
奇异值矩阵的行数和列数与样本数据的数据量有关。可以理解的是,奇异值矩阵中元素表示有效信息,若数量过小,导致特征提取的有效信息较少,从而降低模型的预测效果。通常样本数据的数据量越大,奇异值矩阵的行数和列数越大;样本数据的数据量越小,奇异值矩阵的行数和列数越小。此外,样本数据的数据维度越多,奇异值矩阵的行数和列数越大;样本数据的数据维度越少,奇异值矩阵的行数和列数越小。
示例性的,文本的数据量通常小于图像的数据量。2维图像的数据量小于3维图像的数据量。音频的数据量小于视频的数据量。文本处理模型的微调参数中奇异值矩阵的行数和列数均小于图像处理模型的微调参数中奇异值矩阵的行数和列数。
通过根据样本数据的数据量确定奇异值矩阵的行数和列数,可以针对应用场景适配性调整微调方式,提高微调的灵活性,以及提高参数微调的准确性,从而增加模型提取的有效信息的数量,提高模型的预测准确性。
可选的,所述奇异值矩阵的行数和列数相同,所述奇异值矩阵的行数小于目标值,所述目标值为所述预先训练的模型的参数矩阵中的行数和列数中的最小值。
奇异值矩阵的行数和列数均小于目标值。如前例,预先训练的模型的参数为:
预先训练的模型的参数形成的矩阵的行数为d1,列数为d2。奇异值矩阵的行数和列数r满足一下不等式:
r<<min(d1,d2),其中,min(d1,d2)为目标值。
通过将奇异值矩阵的行数和列数设置为小于模型的参数矩阵中的行数和列数中的最小值,可以压缩奇异值矩阵,减少微调的参数,提高微调效率。
可选的,所述将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整,包括:将所述样本数据输入到所述微调模型中,计算预测损失值以及所述左奇异矩阵和所述右奇异矩阵的正交损失值;将所述预测损失值和所述正交损失值之和,确定为损失函数的数值;根据所述损失函数的数值,对所述第一参数和所述第二参数进行调整。
预测损失值用于描述微调模型输出的结果与真值之间差异。正交损失值用于描述左奇异矩阵与正交矩阵之间的差异,以及右奇异矩阵与正交矩阵之间的差异。
示例性的,损失函数L通过如下公式计算:
其中,L1为预测损失值,M为正交损失值。Fout为模型预测输出,Ftruth为预测输出对应的真值,是Pk的转置矩阵,/>是Qk的转置矩阵,I为单位矩阵。
微调模型训练结束或者微调参数调整完成的条件可以是F收敛。
通过在预测损失值的基础上添加正交损失值,实现对左奇异值矩阵和右奇异值矩阵的正交约束,从而准确实现奇异值分解微调参数。
根据本公开的技术方案,通过将微调参数进行低秩分解,得到第一参数和第二参数,并采用样本数据,对第一参数和第二参数进行调整,可以有效减少微调参数的数量,减少微调的数据量,从而提高参数微调速度,提高模型微调效率。
图3是根据本公开实施例公开的另一种模型参数调整方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述获取用户意图位置,具体化为:获取用户语音,并识别得到用户文本;对所述用户文本进行意图识别,得到用户意图位置。
S301、获取预先训练的模型。
S302、固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型。
S303、获取模型使用场景的样本数据。
S304、将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,得到第一调整结果。
第一调整结果为基于样本数据训练模型调整微调参数得到的结果。每个微调参数都存在第一调整结果。
S305、根据各所述微调参数的第一调整结果,计算各所述微调参数的权重。
微调参数的权重用于表示该微调参数的重要程度,或是对模型预测过程的影响程度。可以根据微调参数的第一调整结果对应的数值,确定为该微调参数的权重,还可以根据损失函数在微调参数的第一调整结果处的梯度值,确定为该微调参数的权重。
可选的,所述微调参数可奇异分解得到左奇异矩阵、奇异值矩阵和右奇异矩阵;所述根据各所述微调参数的第一调整结果,计算各所述微调参数的权重,包括:针对所述奇异值矩阵的奇异值元素,根据所述奇异值元素的第一调整结果,计算所述左奇异矩阵中相应列元素映射数值和所述右奇异矩阵中相应行元素映射数值;针对所述奇异值矩阵的奇异值元素,将所述奇异值元素的第一调整结果、所述左奇异矩阵的相应列元素映射数值和所述右奇异矩阵的相应行元素映射数值进行累加,得到所述奇异值元素的权重。
左奇异矩阵的列数与奇异值矩阵的行数和列数相同。左奇异矩阵的行数和奇异值矩阵的行数和列数可以相同也可以不同。针对奇异值矩阵的奇异值元素,映射到左奇异矩阵,对应一列的元素,该列的元素可以是左奇异矩阵与该奇异值元素对应的列元素。列元素映射数值可以根据同一列中列元素的数值和/或损失函数在该列中列元素处的梯度值确定。
右奇异矩阵的行数与奇异值矩阵的行数和列数相同。右奇异矩阵的列数和奇异值矩阵的行数和列数可以相同也可以不同。针对奇异值矩阵的奇异值元素,映射到右奇异矩阵,对应一行的元素,该行的元素可以是右奇异矩阵与该奇异值元素对应的行元素。行元素映射数值可以根据同一行中行元素的数值和/或损失函数在该行中行元素处的梯度值确定。
示例性的,列元素映射数值根据同一列中列元素的数值确定,列元素映射数值具体是同一列中列元素的绝对值的均值,行元素映射数值根据同一行中行元素的数值确定,行元素映射数值具体是同一行中行元素的绝对值的均值,如前例,那么奇异值元素的权重为:
其中,Sk,ii表示第k层奇异矩阵中第i行第i列元素的权重,第Λk,ii表示第k层奇异矩阵中第i行第i列元素的数值,AL表示列元素映射数值,AR表示行元素映射数值,Pk,ji表示第k层左奇异矩阵中第j行第i列的元素的数值,Qk,ij表示第k层右奇异矩阵中第i行第j列的元素的数值。元素的绝对值越大,表明奇异值元素在模型调整时变化量越大,从而该奇异值元素在模型调整时对预测效果变化最为敏感,也即奇异值元素对模型预测效果的影响程度越大,该奇异值元素的权重越大。元素的绝对值越小,表明奇异值元素在模型调整时变化量越小,从而该奇异值元素在模型调整时对预测效果变化最为敏感,也即奇异值元素对模型预测效果的影响程度越小,该奇异值元素的权重越小。
示例性的,列元素映射数值根据损失函数在同一列中列元素处的梯度值确定,列元素映射数值具体是损失函数在同一列中列元素处的梯度值的绝对值的均值,行元素映射数值根据损失函数在同一行中行元素处的梯度值确定,行元素映射数值具体是损失函数在同一行中行元素处的梯度值的绝对值的均值,如前例,那么奇异值元素的权重为:
其中,表示损失函数在Λk,ii处的梯度值,具体是损失函数对Λk,ii求导,并将Λk,ii的数值带入求导结果的数值。/>表示损失函数在Pk,ji处的梯度值,/>表示损失函数在Qk,ij处的梯度值。
损失函数梯度值的绝对值越大,表明奇异值元素在模型调整时变化量越大,从而该奇异值元素在模型调整时对预测效果变化最为敏感,也即奇异值元素对模型预测效果的影响程度越大,该奇异值元素的权重越大。损失函数梯度值的绝对值越小,表明奇异值元素在模型调整时变化量越小,从而该奇异值元素在模型调整时对预测效果变化最为敏感,也即奇异值元素对模型预测效果的影响程度越小,该奇异值元素的权重越小。
将奇异值元素的第一调整结果、左奇异矩阵的相应列元素映射数值和右奇异矩阵的相应行元素映射数值之和确定为该奇异值元素的权重。
通过将获取奇异值矩阵中各奇异值元素映射到左奇异矩阵中和右奇异矩阵中,并计算相应元素的映射数值,并累加得到奇异值元素的权重,可以增加奇异值元素的权重的内容丰富性,从而提高权重的代表性,使得采用权重衡量奇异值元素的重要性更加准确,从而提高奇异值元素筛选准确性,实现精准降低微调参数的冗余性。
可选的,所述计算所述左奇异矩阵中相应列元素的映射数值,包括:针对所述左奇异矩阵中相应列元素,计算所述列元素的数值与损失函数在所述列元素处的梯度值之间的乘积;对各所述左奇异矩阵中相应列元素的乘积进行求和平均计算,得到所述左奇异矩阵中相应列元素的映射数值。
相应的,针对右奇异矩阵中相应行元素,计算行元素的数值与损失函数在行元素处的梯度值之间的乘积;对各右奇异矩阵中相应行元素的乘积进行求和平均计算,得到右奇异矩阵中相应行元素的映射数值。
基于如下公式计算奇异值元素的权重:
通过根据奇异值元素的数值以及损失函数在奇异值元素的梯度值,以及奇异值元素的映射元素的数值以及损失函数在映射元素的梯度值,计算该奇异值元素的权重,可以将两种可用于评价模型预测效果变化敏感的指标进行结合,计算奇异值元素的权重,可以避免仅根据某个指标计算带来的误判,对权重进行补偿,从而提高权重的计算准确性,进而提高模型的预测准确性。
S306、根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果。
微调参数的权重越大表明微调参数越重要,微调参数的权重越小表明微调参数越冗余。相应调整可以是指根据微调参数的权重对应的调整方式,对微调参数进行调整。示例性的,将权重小于预设数值的微调参数的数值置零或者取反,将权重大于等于该预设数值的微调参数的数值保持不变。根据前述实施例的内容,微调参数可以分解得到第一参数和第二参数,第一参数和第二参数都存在第一调整结果。可以仅计算第一参数或第二参数的权重,以及对第一参数或第二参数进行筛选和相应调整,具体可以根据需要进行设定。
可选的,所述根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果,包括:对各所述微调参数的权重进行比较,筛选出预设数量的微调参数,以及剩余参数;将所述剩余参数的数值置零,得到第二调整结果。
将微调参数的权重进行比较,按照权重大小进行排列,在排列结果中取最大的前n个微调参数,其中,n大于1,并将剩余的微调参数确定为剩余参数。预设数量为n,预设数量为正整数,可以根据需要进行设定,例如,预设数量与微调参数的总数之间的比值为预设比值,预设比值可以根据需要设定。将剩余参数的数值置零,表明剩余参数为空,相当于是减少了微调参数,减少对预先训练的模型的参数的调整数量。其中,筛选的预设数量的微调参数的数值保持不变。可以理解为,筛选的预设数量的微调参数的第一调整结果和第二调整结果相同,剩余参数的第一调整结果和第二调整结果不同,剩余参数的第二调整结果为0。剩余参数所累加的预先训练的模型的参数实际不进行微调。
通过按照微调参数的权重对微调参数进一步筛选,剔除剩余参数,并保留预设数量的微调参数,可以进一步降低微调参数的数量,减少额外参数的计算成本和内存占用,提高模型处理速度。
根据本公开的技术方案,通过根据第一调整结果计算微调参数的权重,并基于各微调参数的权重,筛选微调参数,并根据筛选结果对筛选的微调参数进行相应调整,得到第二调整结果,通过两次调整,可以针对性调整微调参数,提高模型预测准确性。
图4是根据本公开实施例公开的一种模型应用方法的流程图,本实施例可以适用于对微调参数完成的模型进行应用的情况。本实施例方法可以由模型应用装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S401、将待处理数据发送至目标模型中,得到所述目标模型的预测结果;其中,所述目标模型通过如本公开任一实施例所述的模型参数调整方法对预先训练的模型进行参数微调得到。
将前述实施例中微调参数调整完成的微调模型中,将固定的参数与微调参数的调整值进行累加,得到目标模型,作为训练完成的模型发布应用。
待处理数据作为目标模型的输入,得到目标模型的输出,即预测结果。示例性的,目标模型为图像分类模型,待处理数据为采集的图像。预测结果为判断采集的图像的类型,或者是在采集的图像中标注有目标的检测框,并确定检测框的类型。在一个具体的例子中,采集的图像为车辆行驶过程中车辆周围区域的图像,目标模型输出的预测结果包括障碍物的检测框,以及各检测框的类型,例如,车辆、栏杆、行人、路障和标识牌等至少一个类型。
根据本公开的技术方案,通过在预先训练的模型的参数上增加微调参数,并采用样本数据训练模型的过程中,固定预先训练的模型的参数,仅调整微调参数,在兼顾有效保留预训练学习知识的情况下,同时未改变模型的网络结构,简化模型参数微调的操作,没有增加额外的训练代价、部署成本和维护成本,提高模型微调参数的效率,提高模型预测准确性,在模型应用时没有增加计算耗时和占用内存,极大降低后期维护成本和升级成本,实现模型快速迭代更新。
在一个具体的应用场景中,本公开实施例的方法主要分为两部分,一是模型参数微调训练阶段,二是模型应用阶段或推理阶段。模型训练阶段:
一般定义,预训练模型参数为
n为模型层数,常规训练的参数更新是对参数W进行梯度更新,为了尽可能保持预训练模型原始能力,采用叠加一个残差项的方法,即
Wk=Wk+Δk=Wk+PkΛkQk
训练过程保存原参数Wk不变,更新残差项Δk,同时对残差项进行参数化奇异值分解,其中:
Λk∈Rr×r,r<<min(d1,d2),
其中Pk,Qk为正交阵,Λk为对角阵,对角元素对应奇异值,显式奇异值分解需要较大计算量,参数化奇异值分解表示通过模型训练实现奇异值分解,为了保证Pk,Qk为正交阵,训练过程需要增加约束条件如下:
模型不同层参数对特定下游任务重要性并不一致,为了实现对模型参数自适应参数微调,对每层参数的分配不同分数Sk,ii(i=1,…,r)为第k层参数Wk,第i个奇异值所对应的重要性分数即权重,权重的计算规则如下:L为损失函数;
训练过程会更具Sk,ii分数进行排序,选取最高的Z个对应的奇异值保留,其余奇异值设置为0,即对应的参数向量不更新。例如,Z可以是5,可以根据需要进行设定。
模型应用阶段:
完成训练的Δk执行更新的原有的参数中Wk=Wk+Δk,即在应用阶段,微调后的模型结构并发生改变,且无任何额外参数增加。
本公开实施例构建了自适应矩阵分解的高效模型微调方法,该方法利用参数化的奇异值分解策略,通过对待更新参数进行参数化地奇异值分解,将高维矩阵分解低秩矩阵,且采用参数残差形式更新,能有效保留预训练知识,减小对预训练知识的破坏,同时为每个奇异值定义对应的重要性分数,使模型在训练过程能够自适应选择更重要参数进行更新,能有效加快模型收敛,推理阶段无任何额外参数增加,从而实现推理阶段0耗时增加0内存占用增加,极大模型后期维护和升级成本,也能实现模型快速迭代更新,以及实现可学习参数在整个网络中的动态分配,在减小模型优化成本同时,提升模型自适应学习能力,有效实现预训练模型向下游任务迁移,从而实现高效模型微调,在无需增加额外的推理时间和内存占用成本,显著提升模型迁移效果。
模型微调是当前深度学习一个主流应用范式,即利用超大规模数据预训练的模型在下游特定任务进行微调,进而进行模型部署应用,因此模型微调技术应用非常广泛,本公开实施例所涉及的方法可以应用于任何一项基于深度学习的下游模型微调的系统中,帮助其提供模型的迁移效果和效率,该方法通过无增加推理成本的基础上提升模型微调效果和效率,可应用于任何基于深度学习下游模型微调的应用场景。
根据本公开的实施例,图5是本公开实施例中的模型参数调整装置的结构图,本公开实施例适用于对预训练的模型进行参数微调继续训练的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图5所示的一种模型参数调整装置500,包括:预先训练模型获取模块501、参数项添加模块502、样本数据获取模块503和参数微调模块504。其中,
预先训练模型获取模块501,用于获取预先训练的模型;
参数项添加模块502,用于固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
样本数据获取模块503,用于获取模型使用场景的样本数据;
参数微调模块504,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
根据本公开的技术方案,通过在预先训练的模型的参数上增加微调参数,并采用样本数据训练模型的过程中,固定预先训练的模型的参数,仅调整微调参数,在兼顾记忆预训练阶段学习知识的情况下,同时未改变模型的网络结构,简化模型参数微调的操作,没有增加额外的训练代价、部署成本和维护成本,提高模型微调参数的效率,提高模型预测效果。
进一步的,所述参数微调模块504,包括:参数分解单元,用于对所述微调参数进行低秩分解,得到第一参数和第二参数;分解调整单元,用于将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整。
进一步的,所述参数分解单元,包括:奇异值分解子单元,用于对所述微调参数进行奇异值分解,得到左奇异矩阵、奇异值矩阵和右奇异矩阵;第一参数确定子单元,用于将所述奇异值矩阵,确定为第一参数;第二参数确定子单元,用于根据所述左奇异矩阵和所述右奇异矩阵,确定第二参数;其中,所述第二参数满足正交矩阵约束条件。
进一步的,所述奇异值矩阵的行数和列数通过所述样本数据的数据量确定。
进一步的,所述奇异值矩阵的行数和列数相同,所述奇异值矩阵的行数小于目标值,所述目标值为所述预先训练的模型的参数矩阵中的行数和列数中的最小值。
进一步的,所述分解调整单元,包括:损失值计算子单元,用于将所述样本数据输入到所述微调模型中,计算预测损失值以及所述左奇异矩阵和所述右奇异矩阵的正交损失值;损失函数计算子单元,用于将所述预测损失值和所述正交损失值之和,确定为损失函数的数值;参数调整子单元,用于根据所述损失函数的数值,对所述第一参数和所述第二参数进行调整。
进一步的,所述参数微调模块504,包括:第一调整单元,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,得到第一调整结果;权重计算单元,用于根据各所述微调参数的第一调整结果,计算各所述微调参数的权重;第二调整单元,用于根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果。
进一步的,所述第二调整单元,包括:参数筛选子单元,用于对各所述微调参数的权重进行比较,筛选出预设数量的微调参数,以及剩余参数;参数置零子单元,用于将所述剩余参数的数值置零,得到第二调整结果。
进一步的,所述微调参数可奇异分解得到左奇异矩阵、奇异值矩阵和右奇异矩阵;所述权重计算单元,包括:映射数值计算子单元,用于针对所述奇异值矩阵的奇异值元素,根据所述奇异值元素的第一调整结果,计算所述左奇异矩阵中相应列元素映射数值和所述右奇异矩阵中相应行元素映射数值;映射数值累加子单元,用于针对所述奇异值矩阵的奇异值元素,将所述奇异值元素的第一调整结果、所述左奇异矩阵的相应列元素映射数值和所述右奇异矩阵的相应行元素映射数值进行累加,得到所述奇异值元素的权重。
进一步的,所述参数项添加模块,包括:参数融合结果计算单元,用于计算所述固定的参数与所述微调参数之和,得到参数融合结果;微调模型生成单元,用于将所述参数融合结果替换所述预先训练的模型的参数,形成微调模型。
进一步的,所述映射数值计算子单元,包括:元素变化量计算子单元,用于针对所述左奇异矩阵中相应列元素,计算所述列元素的数值与损失函数在所述列元素处的梯度值之间的乘积;映射数值平均计算子单元,用于对各所述左奇异矩阵中相应列元素的乘积进行求和平均计算,得到所述左奇异矩阵中相应列元素的映射数值。
上述模型参数调整装置可执行本公开任意实施例所提供的模型参数调整方法,具备执行模型参数调整方法相应的功能模块和有益效果。
根据本公开的实施例,图6是本公开实施例中的模型应用装置的结构图,本公开实施例适用于对微调参数完成的模型进行应用的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图5所示的一种模型应用装置600,包括:模型计算模块601。其中,
模型计算模块601,用于将待处理数据发送至目标模型中,得到所述目标模型的预测结果;其中,所述目标模型通过如权利要求1-7任一项所述的模型参数调整方法对预先训练的模型进行参数微调得到。
根据本公开的技术方案,通过在预先训练的模型的参数上增加微调参数,并采用样本数据训练模型的过程中,固定预先训练的模型的参数,仅调整微调参数,在兼顾有效保留预训练学习知识的情况下,同时未改变模型的网络结构,简化模型参数微调的操作,没有增加额外的训练代价、部署成本和维护成本,提高模型微调参数的效率,提高模型预测准确性,在模型应用时没有增加计算耗时和占用内存,极大降低后期维护成本和升级成本,实现模型快速迭代更新。
上述模型应用装置可执行本公开任意实施例所提供的模型应用方法,具备执行模型应用方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性区域图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如模型参数调整方法或模型应用方法。例如,在一些实施例中,模型参数调整方法或模型应用方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的模型参数调整方法或模型应用方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型参数调整方法或模型应用方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准对象(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种模型参数调整方法,包括:
获取预先训练的模型;
固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
获取模型使用场景的样本数据;
将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
2.根据权利要求1所述的方法,其中,所述将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,包括:
对所述微调参数进行低秩分解,得到第一参数和第二参数;
将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整。
3.根据权利要求2所述的方法,其中,所述对所述微调参数进行低秩分解,得到第一参数和第二参数,包括:
对所述微调参数进行奇异值分解,得到左奇异矩阵、奇异值矩阵和右奇异矩阵;
将所述奇异值矩阵,确定为第一参数;
根据所述左奇异矩阵和所述右奇异矩阵,确定第二参数;其中,所述第二参数满足正交矩阵约束条件。
4.根据权利要求3所述的方法,其中,所述奇异值矩阵的行数和列数通过所述样本数据的数据量确定。
5.根据权利要求3所述的方法,其中,所述奇异值矩阵的行数和列数相同,所述奇异值矩阵的行数小于目标值,所述目标值为所述预先训练的模型的参数矩阵中的行数和列数中的最小值。
6.根据权利要求3所述的方法,其中,所述将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整,包括:
将所述样本数据输入到所述微调模型中,计算预测损失值以及所述左奇异矩阵和所述右奇异矩阵的正交损失值;
将所述预测损失值和所述正交损失值之和,确定为损失函数的数值;
根据所述损失函数的数值,对所述第一参数和所述第二参数进行调整。
7.根据权利要求1所述的方法,其中,所述将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,包括:
将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,得到第一调整结果;
根据各所述微调参数的第一调整结果,计算各所述微调参数的权重;
根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果。
8.根据权利要求7所述的方法,其中,所述根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果,包括:
对各所述微调参数的权重进行比较,筛选出预设数量的微调参数,以及剩余参数;
将所述剩余参数的数值置零,得到第二调整结果。
9.根据权利要求7所述的方法,其中,所述微调参数可奇异分解得到左奇异矩阵、奇异值矩阵和右奇异矩阵;
所述根据各所述微调参数的第一调整结果,计算各所述微调参数的权重,包括:
针对所述奇异值矩阵的奇异值元素,根据所述奇异值元素的第一调整结果,计算所述左奇异矩阵中相应列元素映射数值和所述右奇异矩阵中相应行元素映射数值;
针对所述奇异值矩阵的奇异值元素,将所述奇异值元素的第一调整结果、所述左奇异矩阵的相应列元素映射数值和所述右奇异矩阵的相应行元素映射数值进行累加,得到所述奇异值元素的权重。
10.根据权利要求9所述的方法,其中,所述计算所述左奇异矩阵中相应列元素的映射数值,包括:
针对所述左奇异矩阵中相应列元素,计算所述列元素的数值与损失函数在所述列元素处的梯度值之间的乘积;
对各所述左奇异矩阵中相应列元素的乘积进行求和平均计算,得到所述左奇异矩阵中相应列元素的映射数值。
11.根据权利要求1所述的方法,其中,所述在固定的参数上累加微调参数,得到微调模型,包括:
计算所述固定的参数与所述微调参数之和,得到参数融合结果;
将所述参数融合结果替换所述预先训练的模型的参数,形成微调模型。
12.一种模型应用方法,包括:
将待处理数据发送至目标模型中,得到所述目标模型的预测结果;
其中,所述目标模型通过如权利要求1-11任一项所述的模型参数调整方法对预先训练的模型进行参数微调得到。
13.一种模型参数调整装置,包括:
预先训练模型获取模块,用于获取预先训练的模型;
参数项添加模块,用于固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
样本数据获取模块,用于获取模型使用场景的样本数据;
参数微调模块,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
14.根据权利要求13所述的装置,其中,所述参数微调模块,包括:
参数分解单元,用于对所述微调参数进行低秩分解,得到第一参数和第二参数;
分解调整单元,用于将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整。
15.根据权利要求14所述的装置,其中,所述参数分解单元,包括:
奇异值分解子单元,用于对所述微调参数进行奇异值分解,得到左奇异矩阵、奇异值矩阵和右奇异矩阵;
第一参数确定子单元,用于将所述奇异值矩阵,确定为第一参数;
第二参数确定子单元,用于根据所述左奇异矩阵和所述右奇异矩阵,确定第二参数;其中,所述第二参数满足正交矩阵约束条件。
16.根据权利要求15所述的装置,其中,所述奇异值矩阵的行数和列数通过所述样本数据的数据量确定。
17.根据权利要求15所述的装置,其中,所述奇异值矩阵的行数和列数相同,所述奇异值矩阵的行数小于目标值,所述目标值为所述预先训练的模型的参数矩阵中的行数和列数中的最小值。
18.根据权利要求15所述的装置,其中,所述分解调整单元,包括:
损失值计算子单元,用于将所述样本数据输入到所述微调模型中,计算预测损失值以及所述左奇异矩阵和所述右奇异矩阵的正交损失值;
损失函数计算子单元,用于将所述预测损失值和所述正交损失值之和,确定为损失函数的数值;
参数调整子单元,用于根据所述损失函数的数值,对所述第一参数和所述第二参数进行调整。
19.根据权利要求13所述的装置,其中,所述参数微调模块,包括:
第一调整单元,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,得到第一调整结果;
权重计算单元,用于根据各所述微调参数的第一调整结果,计算各所述微调参数的权重;
第二调整单元,用于根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果。
20.根据权利要求19所述的装置,其中,所述第二调整单元,包括:
参数筛选子单元,用于对各所述微调参数的权重进行比较,筛选出预设数量的微调参数,以及剩余参数;
参数置零子单元,用于将所述剩余参数的数值置零,得到第二调整结果。
21.根据权利要求19所述的装置,其中,所述微调参数可奇异分解得到左奇异矩阵、奇异值矩阵和右奇异矩阵;
所述权重计算单元,包括:
映射数值计算子单元,用于针对所述奇异值矩阵的奇异值元素,根据所述奇异值元素的第一调整结果,计算所述左奇异矩阵中相应列元素映射数值和所述右奇异矩阵中相应行元素映射数值;
映射数值累加子单元,用于针对所述奇异值矩阵的奇异值元素,将所述奇异值元素的第一调整结果、所述左奇异矩阵的相应列元素映射数值和所述右奇异矩阵的相应行元素映射数值进行累加,得到所述奇异值元素的权重。
22.根据权利要求21所述的装置,其中,所述映射数值计算子单元,包括:
元素变化量计算子单元,用于针对所述左奇异矩阵中相应列元素,计算所述列元素的数值与损失函数在所述列元素处的梯度值之间的乘积;
映射数值平均计算子单元,用于对各所述左奇异矩阵中相应列元素的乘积进行求和平均计算,得到所述左奇异矩阵中相应列元素的映射数值。
23.根据权利要求13所述的装置,其中,所述参数项添加模块,包括:
参数融合结果计算单元,用于计算所述固定的参数与所述微调参数之和,得到参数融合结果;
微调模型生成单元,用于将所述参数融合结果替换所述预先训练的模型的参数,形成微调模型。
24.一种模型应用装置,包括:
模型计算模块,用于将待处理数据发送至目标模型中,得到所述目标模型的预测结果;其中,所述目标模型通过如权利要求1-11任一项所述的模型参数调整方法对预先训练的模型进行参数微调得到。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的模型参数调整方法,或权利要求12中任一项所述的模型应用方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的模型参数调整方法,或权利要求12中任一项所述的模型应用方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的模型参数调整方法,或权利要求12中任一项所述的模型应用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146690.7A CN117034090A (zh) | 2023-09-06 | 2023-09-06 | 模型参数调整、模型应用方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146690.7A CN117034090A (zh) | 2023-09-06 | 2023-09-06 | 模型参数调整、模型应用方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117034090A true CN117034090A (zh) | 2023-11-10 |
Family
ID=88628313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311146690.7A Pending CN117034090A (zh) | 2023-09-06 | 2023-09-06 | 模型参数调整、模型应用方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034090A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273067A (zh) * | 2023-11-20 | 2023-12-22 | 上海芯联芯智能科技有限公司 | 一种基于大语言模型的对话响应方法及装置 |
-
2023
- 2023-09-06 CN CN202311146690.7A patent/CN117034090A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273067A (zh) * | 2023-11-20 | 2023-12-22 | 上海芯联芯智能科技有限公司 | 一种基于大语言模型的对话响应方法及装置 |
CN117273067B (zh) * | 2023-11-20 | 2024-02-02 | 上海芯联芯智能科技有限公司 | 一种基于大语言模型的对话响应方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728224B (zh) | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 | |
EP4080416A1 (en) | Adaptive search method and apparatus for neural network | |
CN110826379B (zh) | 一种基于特征复用与YOLOv3的目标检测方法 | |
CN111507993A (zh) | 一种基于生成对抗网络的图像分割方法、装置及存储介质 | |
KR20180048930A (ko) | 분류를 위한 강제된 희소성 | |
CN113837308B (zh) | 基于知识蒸馏的模型训练方法、装置、电子设备 | |
CN110781970B (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN109242106B (zh) | 样本处理方法、装置、设备和存储介质 | |
CN117034090A (zh) | 模型参数调整、模型应用方法、装置、设备及介质 | |
CN114594461A (zh) | 基于注意力感知与缩放因子剪枝的声呐目标检测方法 | |
CN113902010A (zh) | 分类模型的训练方法和图像分类方法、装置、设备和介质 | |
KR20180022288A (ko) | 부분구조 학습기법과 영상데이터를 이용한 신경망 학습 방법 및 장치 | |
CN112949519A (zh) | 目标检测方法、装置、设备及存储介质 | |
EP4343616A1 (en) | Image classification method, model training method, device, storage medium, and computer program | |
CN115272894A (zh) | 面向无人机图像目标检测方法、装置、电子设备及存储介质 | |
CA3179311A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
CN115984084B (zh) | 一种基于动态可拆分网络的遥感分布式数据处理方法 | |
CN111507396A (zh) | 缓解神经网络对未知类样本产生错误分类的方法及装置 | |
CN116380438A (zh) | 一种故障诊断方法、装置、电子设备及存储介质 | |
CN113961765B (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
JP2022088341A (ja) | 機器学習装置及び方法 | |
CN115983362A (zh) | 一种量化方法、推荐方法以及装置 | |
DE102022126287A1 (de) | Speicherung und abruf von unstrukturierten daten in anwendungen konversationeller künstlicher intelligenz | |
CN114067099A (zh) | 学生图像识别网络的训练方法及图像识别方法 | |
CN111382761B (zh) | 一种基于cnn的检测器、图像检测方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |