CN117033641A - 一种大型预训练语言模型的网络结构优化微调方法 - Google Patents
一种大型预训练语言模型的网络结构优化微调方法 Download PDFInfo
- Publication number
- CN117033641A CN117033641A CN202311280706.3A CN202311280706A CN117033641A CN 117033641 A CN117033641 A CN 117033641A CN 202311280706 A CN202311280706 A CN 202311280706A CN 117033641 A CN117033641 A CN 117033641A
- Authority
- CN
- China
- Prior art keywords
- language model
- model
- training language
- large pre
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005457 optimization Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 17
- 230000006978 adaptation Effects 0.000 claims abstract description 14
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract 4
- 238000013138 pruning Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000007667 floating Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000005611 electricity Effects 0.000 abstract description 3
- 241001522296 Erithacus rubecula Species 0.000 abstract description 2
- 238000006722 reduction reaction Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种大型预训练语言模型的网络结构优化微调方法,收集电话电销的语音营销的对话数据和文字营销的对话数据,进行数据清洗及预处理;对收集的对话数据进行标注,指定部分对话数据为营销失败,并对营销失败原因进行分类和标注;对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法;使用LoRA低秩适应方法对优化后的大型预训练语言模型进行微调;对微调后的大型预训练语言模型进行验证并迭代训练。有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析,通过将大模型分解为低秩矩阵和基模型,减少计算复杂度和内存消耗,保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。
Description
技术领域
本发明属于语言模型处理技术领域,具体涉及一种大型预训练语言模型的网络结构优化微调方法。
背景技术
在电销和文字营销等应用中,理解和预测营销失败的原因至关重要。然而,大型预训练语言模型的微调和部署需要大量计算和存储资源,在微调期间的计算复杂度较高,并且消耗大量内存,使得大模型微调的成本较高。并且微调的过程中容易导致大模型退化,使得理解和预测营销失败的原因的大模型发生灾难遗忘。
发明内容
本发明所要解决的技术问题是提供一种大型预训练语言模型的网络结构优化微调方法,包括以下步骤:
S1:收集电话电销的语音营销的对话数据和文字营销的对话数据,进行数据清洗及预处理;
S2:对S1中收集的对话数据进行标注,指定部分对话数据为营销失败,并对营销失败原因进行分类和标注;
S3:对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法;
S4:使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调;
S5:对S4中微调后的大型预训练语言模型进行验证并进行迭代训练,持续优化。
进一步地,S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。
进一步地,S1中数据清洗及预处理包括移除噪音,具体为移除停用词、标点符号、非相关的背景对话。
进一步地,S2中对营销失败原因进行分类和标注,分类及标注具体为:产品问题、价格问题、交流技巧问题。
进一步地,S3中对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法具体步骤为:
S31:进行词典缩减,只保留频率最高和信息增益最大的词;
S32:根据资源和性能需求,选择适当的大型预训练语言模型的层数;
进一步地,S3中对大型预训练语言模型进行优化的具体方法还包括参数共享:在大型预训练语言模型的不同部分共享参数,以减少模型的总参数数量;量化:将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数;剪枝:去除模型中不重要的参数或神经元。
进一步地,S4中使用LoRA低秩适应方法进行微调的具体为:
将大型预训练语言模型分解为低秩矩阵ΔW和基模型,LoRA低秩适应方法的约束公式为:/>,/> ∈Rd×k,B∈Rd×r ,A∈Rr×k ,r≪min(d,k) ;其中,r为秩,x 代表原模型的输入,是电话电销的对话数据,ΔW代表模型权重的改变,/>代表原始模型的权重,大小为d×k,其中d代表模型的输入维度,k代表模型的输出维度,B和A代表低秩矩阵,其中B∈Rd×r的B代表模型输入到中间层的权重,Rr×k 的A代表中间层到模型输出的权重,而r<<min(d,k)则表示中间层的维度远小于输入和输出层。
进一步地,S4中使用LoRA低秩适应方法进行微调的具体步骤为:
S41:初始化B和A;
S42:固定A,更新B以最小化重构误差;
S43:固定B,更新A以最小化重构误差;
S44:重复步骤S42和S43直到收敛;
S45:使用B和A替换模型中的ΔW,结合实际的电话电销对话数据进行实验和优化,以达到最佳的模型性能。
进一步地,S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤:
S51:使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据,通过大型预训练语言模型进行预测;
S52:对S51中的预测结果通过优化后的大型预训练语言模型进行验证;
S53:根据S52中的验证结果对S51中的预测结果进行纠正,将同样的对话数据,在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证,并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化,进行迭代训练,最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
本发明的有益效果在于:
本发明提供的方法可以有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析,通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析。总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。同时,也保护了用户的隐私和数据安全。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一种大型预训练语言模型的网络结构优化微调方法的流程图。
实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种大型预训练语言模型的网络结构优化微调方法,具体的:
首先进行数据收集和处理:首先,收集电话电销的语音数据和直接的文字营销对话数据。对于语音数据,需要通过语音识别技术将其转换为文本。数据清洗和预处理也在这个阶段进行,以移除噪音,如停用词、标点符号、非相关的背景对话等。保护用户隐私和数据:在处理用户数据时,必须遵守所有适用的隐私和数据保护法规。这可能包括获取用户的明确同意、匿名化数据,以及确保数据的安全存储和传输。
然后进行数据标注:对收集的数据进行标注,指定哪些对话或交谈结果为营销失败,并对失败原因进行分类和标注。这些标签可以包括产品问题、价格问题、交流技巧问题等。标注的数据用于后续的模型训练。
然后进行Transformer模型结构优化:使用词典缩减和网络层数缩减等方法对Transformer模型进行优化,以减小模型的存储和计算需求,同时尽可能保持模型的性能。
首先,进行词典缩减(Transformer模型通常使用一个大型词典进行文本编码。我们可以减小词典的大小,以减少模型的存储需求和运行时间。这可以通过词频统计、信息增益等方法,选出对模型性能最重要的词,只保留这些词在词典中。注意,这可能需要重新训练模型,因为词典的改变会影响输入的编码),只保留频率最高和信息增益最大的词。然后,根据资源和性能需求,选择适当的Transformer层数。参数共享:我们可以在模型的不同部分共享参数,以减少模型的总参数数量。例如,我们可以在所有的Transformer层中共享相同的参数,或者在所有的头(head)中共享参数。量化和剪枝:量化是将模型的浮点数参数转换为更小范围或更低精度的数(如16位浮点数、8位整数等),以减少模型的存储和计算需求。剪枝是去除模型中不重要的参数或神经元,以减少模型的复杂度。这两种方法可以与上述方法结合使用,进一步压缩模型。
具体的,进行词典缩减,只保留频率最高和信息增益最大的词。在电话销售场景中,我们可以将词典缩减到涵盖产品名称、竞争对手的名称、专业术语、行业术语和常见的抱怨或赞扬短语。这可能包括营销的关键词,如"优惠"、"特价"、"促销"等,以及能反映用户需求和反馈的词,如"需要"、"感兴趣"、"考虑"等。这种词典缩减能保证模型更加关注与其任务相关的信息,同时降低模型的复杂度和计算需求。
减少网络层次:原始的预训练模型包含数百个网络层,对于特定的电话销售场景,我们可以通过实验找出最优的网络层数量。
网络层次的优化包括以下方法:
1. 网络剪枝: 这通常涉及到移除一些神经网络层或者神经元,尤其是那些对模型预测影响最小的层或神经元。通过网络剪枝,可以降低模型的复杂性和计算需求,同时保持或提高模型的性能。
2. 知识蒸馏: 这种方法涉及训练一个较小的学生网络去模仿一个较大的教师网络的行为。在这种情况下,较大的预训练模型将作为教师网络,而较小的模型将作为学生网络。这种方法能够帮助我们减少网络层次,而不会丧失太多的性能。
进行模型微调:使用低秩适应方法(LoRA)对优化后的大型预训练语言模型进行微调。在LoRA中,原始模型的权重更新被表示为两个小矩阵的乘积,这两个小矩阵是在微调过程中要学习的新参数。微调的目标是让模型能更好地理解和预测营销失败的原因。预训练的模型可以共享以为不同任务建立许多小的 LoRA 模块。LoRA 使训练更高效。使用自适应优化器,硬件阈值降低 3 倍,因为我们只需要优化注入的低秩矩阵,而不是计算梯度或维护大多数参数的优化器状态。例如,检查点大小降低了 10000x(从 350GB 到 35MB),允许用更少的 GPU 进行训练,避免 I/O 瓶颈。可以在部署时以更低的成本切换任务,只交换LoRA 的权重,而不是所有的参数。与完全微调相比,速度提高了 25%。简单的线性设计允许我们在部署时将可训练矩阵与冻结权重合并,与完全微调的模型相比,在结构上没有引入推理延迟。LoRA 与许多先前的方法是不相关的,并且可以与许多方法相结合,例如前缀微调。还会防止大模型退化,即灾难遗忘,因为不用微调大模型。使用低秩矩阵的原因是为了降低微调时的计算复杂度和内存消耗,同时保持模型性能。
关键思想是将大型预训练语言模型分解为任务独立的基模型和任务特定的适配器模块ΔW。基模型预训练,而适配器在目标任务上受低秩约束训练,以实现高效适配。
假设权重的更新在适应过程中也具有低“内在秩”。对于预先训练的重量矩阵 ∈Rd×k ,通过使用低秩分解/>来限制其更新,其中 B∈Rd×r , A∈Rr ×k ,秩 r≪min(d,k) 。在训练期间,/> 被冻结并且不接收渐变更新,而A和B包含可训练参数。请注意, 和/>和ΔW=BA 与相同的输入相乘,并且它们各自的输出向量在坐标方面相加。对于/>,我们修改后的前向传递如下:/>+ΔWx =/> +BAx,/> ∈Rd×k,B∈ Rd×r ,A∈Rr×k ,r≪min(d,k) ;其中,x 代表原模型的输入,是电话电销的对话数据,由历史录音通过语音转文字外呼一些基础数据处理而来,ΔW代表模型权重的改变,/>代表原始模型的权重,大小为d×k,其中d代表模型的输入维度,k代表模型的输出维度,B和A代表低秩矩阵,其中B∈Rd×r的B代表模型输入到中间层的权重,Rr×k 的A代表中间层到模型输出的权重,而r<<min(d,k)则表示中间层的维度远小于输入和输出层,这样就大大减小了模型的复杂度。
对A使用随机高斯初始化,对B使用零初始化,因此 ΔW=BA 在训练开始时为零。然后,我们通过 αr 缩放 ΔWx ,其中α为r中的常数。当使用Adam优化时,如果我们适当地缩放初始化,则调整α大致相当于调整学习率。因此,我们只需将α设置为我们尝试的第一个r,而不进行调整。这种缩放有助于减少在我们变化r时重新调整超参数的需要。参数在低秩分解约束下更新以满足公式。
具体的,使用LoRA低秩适应方法进行微调的具体步骤为:
S41:初始化B和A;
S42:固定A,更新B以最小化重构误差;
S43:固定B,更新A以最小化重构误差;
S44:重复步骤S42和S43直到收敛;
S45:使用B和A替换模型中的ΔW,结合实际的电话电销对话数据进行实验和优化,以达到最佳的模型性能。
训练LoRA大致收敛到训练原始模型,而基于适配器的方法收敛到MLP。在实验中应用LoRA,目前只更新Wq和Wv。
将LoRA应用于神经网络中的任何权重矩阵的子集,以减少可训练参数的数量。在Transformer架构中,自我注意模块中有四个权重矩阵( ,,,Wq,Wk,Wv,Wo )和两个MLP模块中有两个权重矩阵。我们将 Wq (或 ,Wk,Wv )视为具有 dmodel×dmodel 的单个矩阵,即使输出维度通常被切片到注意力头。出于简单性和参数效率的考虑,我们仅针对下游任务调整注意力权重,并冻结MLP模块(因此不会在下游任务中进行训练)。我们将适应MLP层,LayerNorm层和偏差的经验调查留给未来的工作。最显着的好处来自于内存和存储使用量的减少。对于使用Adam训练的大型的Transformer,如果r ≪ dmodel,VRAM使用量减少了最多2/3,因为无需为冻结参数存储优化器状态。在GPT-3 175B上,我们将训练期间的VRAM消耗从1.2TB降低到350GB。通过仅调整查询和值投影矩阵,并且r= 4,我们将检查点大小减小了大约10,000倍(从350GB到35MB)4。这使我们能够使用较少的GPU进行训练并避免I / O瓶颈。另一个好处是,我们可以通过仅交换LoRA权重而不是所有参数以较低的成本在部署时在许多自定义模型之间切换。这允许在存储预先训练的权重的机器上即时创建许多自定义模型。与全微调相比,我们还观察到在GPT-3 175B上进行训练时的25%加速,因为我们不需要为大多数参数计算梯度。
最后进行模型验证和迭代训练:使用新收集的数据对模型进行验证。这包括通过大型语言模型进行预测,然后使用小模型进行验证。人工进行复核,对错误的预测进行纠正,并将这些纠正后的数据送回模型进行迭代训练。对预测结果通过优化后的大型预训练语言模型进行验证;
使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据,通过大型预训练语言模型进行预测,根据验证结果对预测结果进行纠正,将同样的对话数据,在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证,并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化,进行迭代训练,最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
本技术方案通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析,总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在没有背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同腰间的含义和范围内的所有变化囊括在本发明内。
Claims (9)
1.一种大型预训练语言模型的网络结构优化微调方法,其特征在于,包括以下步骤:
S1:收集电话电销的语音营销的对话数据和文字营销的对话数据,进行数据清洗及预处理;
S2:对S1中收集的对话数据进行标注,指定部分对话数据为营销失败,并对营销失败原因进行分类和标注;
S3:对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法;
S4:使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调;
S5:对S4中微调后的大型预训练语言模型进行验证并进行迭代训练,持续优化。
2.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。
3.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S1中数据清洗及预处理包括移除噪音,具体为移除停用词、标点符号、非相关的背景对话。
4.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S2中对营销失败原因进行分类和标注,分类及标注具体为:产品问题、价格问题、交流技巧问题。
5.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S3中对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法具体步骤为:
S31:进行词典缩减,只保留频率最高和信息增益最大的词;
S32 :根据资源和性能需求,选择适当的大型预训练语言模型的层数。
6.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S3中对大型预训练语言模型进行优化的具体方法还包括参数共享:在大型预训练语言模型的不同部分共享参数,以减少模型的总参数数量;量化:将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数;剪枝:去除模型中不重要的参数或神经元。
7.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S4中使用LoRA低秩适应方法进行微调的具体为:
将大型预训练语言模型分解为低秩矩阵ΔW和基模型,LoRA低秩适应方法的约束公式为:/>+ΔWx =/> +BAx,/> ∈Rd×k,B∈Rd×r ,A∈Rr×,r≪min(d,k) ;
其中,r为秩,x 代表原模型的输入,是电话电销的对话数据,ΔW代表模型权重的改变,代表原始模型的权重,大小为d×k,其中d代表模型的输入维度,k代表模型的输出维度,B和A代表低秩矩阵,其中B∈Rd×r的B代表模型输入到中间层的权重,Rr×k 的A代表中间层到模型输出的权重,而r<<min(d,k)则表示中间层的维度远小于输入和输出层。
8.根据权利要求7所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S4中使用LoRA低秩适应方法进行微调的具体步骤为:
S41:初始化B和A;
S42:固定A,更新B以最小化重构误差;
S43:固定B,更新A以最小化重构误差;
S44:重复步骤S42和S43直到收敛;
S45:使用B和A替换模型中的ΔW,结合实际的电话电销对话数据进行实验和优化,以达到最佳的模型性能。
9.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤:
S51:使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据,通过大型预训练语言模型进行预测;
S52:对S51中的预测结果通过优化后的大型预训练语言模型进行验证;
S53:根据S52中的验证结果对S51中的预测结果进行纠正,将同样的对话数据,在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证,并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化,进行迭代训练,最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311280706.3A CN117033641A (zh) | 2023-10-07 | 2023-10-07 | 一种大型预训练语言模型的网络结构优化微调方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311280706.3A CN117033641A (zh) | 2023-10-07 | 2023-10-07 | 一种大型预训练语言模型的网络结构优化微调方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033641A true CN117033641A (zh) | 2023-11-10 |
Family
ID=88641376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311280706.3A Pending CN117033641A (zh) | 2023-10-07 | 2023-10-07 | 一种大型预训练语言模型的网络结构优化微调方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033641A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332791A (zh) * | 2023-11-30 | 2024-01-02 | 税友软件集团股份有限公司 | 一种大语言模型训练方法、装置、设备及存储介质 |
CN117609470A (zh) * | 2023-12-08 | 2024-02-27 | 中科南京信息高铁研究院 | 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 |
CN117632381A (zh) * | 2024-01-26 | 2024-03-01 | 杭州实在智能科技有限公司 | 结合微调技术和分布式调度的大模型训练部署方法及系统 |
CN117669737A (zh) * | 2023-12-20 | 2024-03-08 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105922871A (zh) * | 2016-05-17 | 2016-09-07 | 杨宗宝 | 一种防止酒驾和疲劳驾驶的安全驾驶系统及方法 |
CN108415888A (zh) * | 2018-02-12 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 用于神经网络语言模型的压缩方法和系统 |
CN111079781A (zh) * | 2019-11-07 | 2020-04-28 | 华南理工大学 | 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法 |
CN112669824A (zh) * | 2020-12-23 | 2021-04-16 | 苏州思必驰信息科技有限公司 | 构建声学模型的方法、语音识别系统和语音识别方法 |
CN112800222A (zh) * | 2021-01-26 | 2021-05-14 | 天津科技大学 | 利用共现信息的多任务辅助极限多标签短文本分类方法 |
CN112883149A (zh) * | 2021-01-20 | 2021-06-01 | 华为技术有限公司 | 一种自然语言处理方法以及装置 |
CN113011575A (zh) * | 2019-12-19 | 2021-06-22 | 华为技术有限公司 | 神经网络模型更新方法、图像处理方法及装置 |
CN113344182A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种基于深度学习的网络模型压缩方法 |
CN114330713A (zh) * | 2022-01-11 | 2022-04-12 | 平安科技(深圳)有限公司 | 卷积神经网络模型剪枝方法和装置、电子设备、存储介质 |
CN115617998A (zh) * | 2022-10-20 | 2023-01-17 | 百融至信(北京)科技有限公司 | 一种基于智能营销场景的文本分类方法及装置 |
CN116051192A (zh) * | 2021-10-28 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 处理数据的方法和装置 |
CN116595150A (zh) * | 2023-06-16 | 2023-08-15 | 上海微盟企业发展有限公司 | 一种对话推荐方法、装置、设备及存储介质 |
CN116720004A (zh) * | 2023-08-09 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 推荐理由生成方法、装置、设备及存储介质 |
CN116822651A (zh) * | 2023-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于增量学习的大模型参数微调方法、装置、设备及介质 |
CN116822611A (zh) * | 2023-06-27 | 2023-09-29 | 山东慧智博视数字科技有限公司 | 一种基于适应器和低秩适应的多任务大模型微调方法 |
-
2023
- 2023-10-07 CN CN202311280706.3A patent/CN117033641A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105922871A (zh) * | 2016-05-17 | 2016-09-07 | 杨宗宝 | 一种防止酒驾和疲劳驾驶的安全驾驶系统及方法 |
CN108415888A (zh) * | 2018-02-12 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 用于神经网络语言模型的压缩方法和系统 |
CN111079781A (zh) * | 2019-11-07 | 2020-04-28 | 华南理工大学 | 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法 |
CN113011575A (zh) * | 2019-12-19 | 2021-06-22 | 华为技术有限公司 | 神经网络模型更新方法、图像处理方法及装置 |
CN112669824A (zh) * | 2020-12-23 | 2021-04-16 | 苏州思必驰信息科技有限公司 | 构建声学模型的方法、语音识别系统和语音识别方法 |
CN112883149A (zh) * | 2021-01-20 | 2021-06-01 | 华为技术有限公司 | 一种自然语言处理方法以及装置 |
CN112800222A (zh) * | 2021-01-26 | 2021-05-14 | 天津科技大学 | 利用共现信息的多任务辅助极限多标签短文本分类方法 |
CN113344182A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种基于深度学习的网络模型压缩方法 |
CN116051192A (zh) * | 2021-10-28 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 处理数据的方法和装置 |
CN114330713A (zh) * | 2022-01-11 | 2022-04-12 | 平安科技(深圳)有限公司 | 卷积神经网络模型剪枝方法和装置、电子设备、存储介质 |
CN115617998A (zh) * | 2022-10-20 | 2023-01-17 | 百融至信(北京)科技有限公司 | 一种基于智能营销场景的文本分类方法及装置 |
CN116595150A (zh) * | 2023-06-16 | 2023-08-15 | 上海微盟企业发展有限公司 | 一种对话推荐方法、装置、设备及存储介质 |
CN116822611A (zh) * | 2023-06-27 | 2023-09-29 | 山东慧智博视数字科技有限公司 | 一种基于适应器和低秩适应的多任务大模型微调方法 |
CN116822651A (zh) * | 2023-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于增量学习的大模型参数微调方法、装置、设备及介质 |
CN116720004A (zh) * | 2023-08-09 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 推荐理由生成方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HU E J 等: "LoRA: low-rank adaptation of large language models", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS》, pages 1 - 26 * |
阿布都克力木·阿布力孜 等: "预训练语言模型的扩展模型研究综述", 《计算机科学》, no. 49, pages 43 - 54 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332791A (zh) * | 2023-11-30 | 2024-01-02 | 税友软件集团股份有限公司 | 一种大语言模型训练方法、装置、设备及存储介质 |
CN117332791B (zh) * | 2023-11-30 | 2024-03-01 | 税友软件集团股份有限公司 | 一种大语言模型训练方法、装置、设备及存储介质 |
CN117609470A (zh) * | 2023-12-08 | 2024-02-27 | 中科南京信息高铁研究院 | 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 |
CN117669737A (zh) * | 2023-12-20 | 2024-03-08 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
CN117669737B (zh) * | 2023-12-20 | 2024-04-26 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
CN117632381A (zh) * | 2024-01-26 | 2024-03-01 | 杭州实在智能科技有限公司 | 结合微调技术和分布式调度的大模型训练部署方法及系统 |
CN117632381B (zh) * | 2024-01-26 | 2024-05-24 | 杭州实在智能科技有限公司 | 结合微调技术和分布式调度的大模型训练部署方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117033641A (zh) | 一种大型预训练语言模型的网络结构优化微调方法 | |
Jiang et al. | Improving transformer-based speech recognition using unsupervised pre-training | |
CN109359309B (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
Goyal et al. | Power-bert: Accelerating bert inference via progressive word-vector elimination | |
CN111079781B (zh) | 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法 | |
US20210141798A1 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
US20140156575A1 (en) | Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization | |
Xu et al. | A survey on model compression and acceleration for pretrained language models | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN105139864A (zh) | 语音识别方法和装置 | |
CN115292470B (zh) | 一种用于小额贷款智能客服的语义匹配方法及系统 | |
Chen et al. | A statistical framework for low-bitwidth training of deep neural networks | |
Senior et al. | Fine context, low-rank, softplus deep neural networks for mobile speech recognition | |
CN117059103A (zh) | 基于低秩矩阵近似的语音识别微调任务的加速方法 | |
JP7186591B2 (ja) | テキスト分類装置、学習装置、およびプログラム | |
JP2016218513A (ja) | ニューラルネットワーク及びそのためのコンピュータプログラム | |
CN111695591A (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN114861907A (zh) | 数据计算方法、装置、存储介质和设备 | |
Xi et al. | Training transformers with 4-bit integers | |
JP6820764B2 (ja) | 音響モデル学習装置および音響モデル学習プログラム | |
JP7469698B2 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
Wei et al. | Model Compression by Iterative Pruning with Knowledge Distillation and Its Application to Speech Enhancement. | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
Manderscheid et al. | Predicting customer satisfaction with soft labels for ordinal classification | |
Kang et al. | Neuron sparseness versus connection sparseness in deep neural network for large vocabulary speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |