CN117033641A - 一种大型预训练语言模型的网络结构优化微调方法 - Google Patents

一种大型预训练语言模型的网络结构优化微调方法 Download PDF

Info

Publication number
CN117033641A
CN117033641A CN202311280706.3A CN202311280706A CN117033641A CN 117033641 A CN117033641 A CN 117033641A CN 202311280706 A CN202311280706 A CN 202311280706A CN 117033641 A CN117033641 A CN 117033641A
Authority
CN
China
Prior art keywords
language model
model
training language
large pre
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311280706.3A
Other languages
English (en)
Inventor
朱宇光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Weihao Intelligent Technology Co ltd
Original Assignee
Jiangsu Weihao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Weihao Intelligent Technology Co ltd filed Critical Jiangsu Weihao Intelligent Technology Co ltd
Priority to CN202311280706.3A priority Critical patent/CN117033641A/zh
Publication of CN117033641A publication Critical patent/CN117033641A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种大型预训练语言模型的网络结构优化微调方法,收集电话电销的语音营销的对话数据和文字营销的对话数据,进行数据清洗及预处理;对收集的对话数据进行标注,指定部分对话数据为营销失败,并对营销失败原因进行分类和标注;对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法;使用LoRA低秩适应方法对优化后的大型预训练语言模型进行微调;对微调后的大型预训练语言模型进行验证并迭代训练。有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析,通过将大模型分解为低秩矩阵和基模型,减少计算复杂度和内存消耗,保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。

Description

一种大型预训练语言模型的网络结构优化微调方法
技术领域
本发明属于语言模型处理技术领域,具体涉及一种大型预训练语言模型的网络结构优化微调方法。
背景技术
在电销和文字营销等应用中,理解和预测营销失败的原因至关重要。然而,大型预训练语言模型的微调和部署需要大量计算和存储资源,在微调期间的计算复杂度较高,并且消耗大量内存,使得大模型微调的成本较高。并且微调的过程中容易导致大模型退化,使得理解和预测营销失败的原因的大模型发生灾难遗忘。
发明内容
本发明所要解决的技术问题是提供一种大型预训练语言模型的网络结构优化微调方法,包括以下步骤:
S1:收集电话电销的语音营销的对话数据和文字营销的对话数据,进行数据清洗及预处理;
S2:对S1中收集的对话数据进行标注,指定部分对话数据为营销失败,并对营销失败原因进行分类和标注;
S3:对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法;
S4:使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调;
S5:对S4中微调后的大型预训练语言模型进行验证并进行迭代训练,持续优化。
进一步地,S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。
进一步地,S1中数据清洗及预处理包括移除噪音,具体为移除停用词、标点符号、非相关的背景对话。
进一步地,S2中对营销失败原因进行分类和标注,分类及标注具体为:产品问题、价格问题、交流技巧问题。
进一步地,S3中对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法具体步骤为:
S31:进行词典缩减,只保留频率最高和信息增益最大的词;
S32:根据资源和性能需求,选择适当的大型预训练语言模型的层数;
进一步地,S3中对大型预训练语言模型进行优化的具体方法还包括参数共享:在大型预训练语言模型的不同部分共享参数,以减少模型的总参数数量;量化:将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数;剪枝:去除模型中不重要的参数或神经元。
进一步地,S4中使用LoRA低秩适应方法进行微调的具体为:
将大型预训练语言模型分解为低秩矩阵ΔW和基模型,LoRA低秩适应方法的约束公式为:/>,/> ∈Rd×k,B∈Rd×r ,A∈Rr×k ,r≪min(d,k) ;其中,r为秩,x 代表原模型的输入,是电话电销的对话数据,ΔW代表模型权重的改变,/>代表原始模型的权重,大小为d×k,其中d代表模型的输入维度,k代表模型的输出维度,BA代表低秩矩阵,其中B∈Rd×rB代表模型输入到中间层的权重,Rr×k A代表中间层到模型输出的权重,而r<<min(d,k)则表示中间层的维度远小于输入和输出层。
进一步地,S4中使用LoRA低秩适应方法进行微调的具体步骤为:
S41:初始化BA
S42:固定A,更新B以最小化重构误差;
S43:固定B,更新A以最小化重构误差;
S44:重复步骤S42和S43直到收敛;
S45:使用BA替换模型中的ΔW,结合实际的电话电销对话数据进行实验和优化,以达到最佳的模型性能。
进一步地,S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤:
S51:使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据,通过大型预训练语言模型进行预测;
S52:对S51中的预测结果通过优化后的大型预训练语言模型进行验证;
S53:根据S52中的验证结果对S51中的预测结果进行纠正,将同样的对话数据,在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证,并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化,进行迭代训练,最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
本发明的有益效果在于:
本发明提供的方法可以有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析,通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析。总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。同时,也保护了用户的隐私和数据安全。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一种大型预训练语言模型的网络结构优化微调方法的流程图。
实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种大型预训练语言模型的网络结构优化微调方法,具体的:
首先进行数据收集和处理:首先,收集电话电销的语音数据和直接的文字营销对话数据。对于语音数据,需要通过语音识别技术将其转换为文本。数据清洗和预处理也在这个阶段进行,以移除噪音,如停用词、标点符号、非相关的背景对话等。保护用户隐私和数据:在处理用户数据时,必须遵守所有适用的隐私和数据保护法规。这可能包括获取用户的明确同意、匿名化数据,以及确保数据的安全存储和传输。
然后进行数据标注:对收集的数据进行标注,指定哪些对话或交谈结果为营销失败,并对失败原因进行分类和标注。这些标签可以包括产品问题、价格问题、交流技巧问题等。标注的数据用于后续的模型训练。
然后进行Transformer模型结构优化:使用词典缩减和网络层数缩减等方法对Transformer模型进行优化,以减小模型的存储和计算需求,同时尽可能保持模型的性能。
首先,进行词典缩减(Transformer模型通常使用一个大型词典进行文本编码。我们可以减小词典的大小,以减少模型的存储需求和运行时间。这可以通过词频统计、信息增益等方法,选出对模型性能最重要的词,只保留这些词在词典中。注意,这可能需要重新训练模型,因为词典的改变会影响输入的编码),只保留频率最高和信息增益最大的词。然后,根据资源和性能需求,选择适当的Transformer层数。参数共享:我们可以在模型的不同部分共享参数,以减少模型的总参数数量。例如,我们可以在所有的Transformer层中共享相同的参数,或者在所有的头(head)中共享参数。量化和剪枝:量化是将模型的浮点数参数转换为更小范围或更低精度的数(如16位浮点数、8位整数等),以减少模型的存储和计算需求。剪枝是去除模型中不重要的参数或神经元,以减少模型的复杂度。这两种方法可以与上述方法结合使用,进一步压缩模型。
具体的,进行词典缩减,只保留频率最高和信息增益最大的词。在电话销售场景中,我们可以将词典缩减到涵盖产品名称、竞争对手的名称、专业术语、行业术语和常见的抱怨或赞扬短语。这可能包括营销的关键词,如"优惠"、"特价"、"促销"等,以及能反映用户需求和反馈的词,如"需要"、"感兴趣"、"考虑"等。这种词典缩减能保证模型更加关注与其任务相关的信息,同时降低模型的复杂度和计算需求。
减少网络层次:原始的预训练模型包含数百个网络层,对于特定的电话销售场景,我们可以通过实验找出最优的网络层数量。
网络层次的优化包括以下方法:
1. 网络剪枝: 这通常涉及到移除一些神经网络层或者神经元,尤其是那些对模型预测影响最小的层或神经元。通过网络剪枝,可以降低模型的复杂性和计算需求,同时保持或提高模型的性能。
2. 知识蒸馏: 这种方法涉及训练一个较小的学生网络去模仿一个较大的教师网络的行为。在这种情况下,较大的预训练模型将作为教师网络,而较小的模型将作为学生网络。这种方法能够帮助我们减少网络层次,而不会丧失太多的性能。
进行模型微调:使用低秩适应方法(LoRA)对优化后的大型预训练语言模型进行微调。在LoRA中,原始模型的权重更新被表示为两个小矩阵的乘积,这两个小矩阵是在微调过程中要学习的新参数。微调的目标是让模型能更好地理解和预测营销失败的原因。预训练的模型可以共享以为不同任务建立许多小的 LoRA 模块。LoRA 使训练更高效。使用自适应优化器,硬件阈值降低 3 倍,因为我们只需要优化注入的低秩矩阵,而不是计算梯度或维护大多数参数的优化器状态。例如,检查点大小降低了 10000x(从 350GB 到 35MB),允许用更少的 GPU 进行训练,避免 I/O 瓶颈。可以在部署时以更低的成本切换任务,只交换LoRA 的权重,而不是所有的参数。与完全微调相比,速度提高了 25%。简单的线性设计允许我们在部署时将可训练矩阵与冻结权重合并,与完全微调的模型相比,在结构上没有引入推理延迟。LoRA 与许多先前的方法是不相关的,并且可以与许多方法相结合,例如前缀微调。还会防止大模型退化,即灾难遗忘,因为不用微调大模型。使用低秩矩阵的原因是为了降低微调时的计算复杂度和内存消耗,同时保持模型性能。
关键思想是将大型预训练语言模型分解为任务独立的基模型和任务特定的适配器模块ΔW。基模型预训练,而适配器在目标任务上受低秩约束训练,以实现高效适配。
假设权重的更新在适应过程中也具有低“内在秩”。对于预先训练的重量矩阵 ∈Rd×k ,通过使用低秩分解/>来限制其更新,其中 B∈Rd×r , A∈Rr ×k ,秩 r≪min(d,k) 。在训练期间,/> 被冻结并且不接收渐变更新,而AB包含可训练参数。请注意, 和/>ΔW=BA 与相同的输入相乘,并且它们各自的输出向量在坐标方面相加。对于/>,我们修改后的前向传递如下:/>Wx =/> +BAx,/> ∈Rd×k,B∈ Rd×r ,A∈Rr×k ,r≪min(d,k) ;其中,x 代表原模型的输入,是电话电销的对话数据,由历史录音通过语音转文字外呼一些基础数据处理而来,ΔW代表模型权重的改变,/>代表原始模型的权重,大小为d×k,其中d代表模型的输入维度,k代表模型的输出维度,BA代表低秩矩阵,其中B∈Rd×rB代表模型输入到中间层的权重,Rr×k A代表中间层到模型输出的权重,而r<<min(d,k)则表示中间层的维度远小于输入和输出层,这样就大大减小了模型的复杂度。
A使用随机高斯初始化,对B使用零初始化,因此 ΔW=BA 在训练开始时为零。然后,我们通过 αr 缩放 ΔWx ,其中α为r中的常数。当使用Adam优化时,如果我们适当地缩放初始化,则调整α大致相当于调整学习率。因此,我们只需将α设置为我们尝试的第一个r,而不进行调整。这种缩放有助于减少在我们变化r时重新调整超参数的需要。参数在低秩分解约束下更新以满足公式。
具体的,使用LoRA低秩适应方法进行微调的具体步骤为:
S41:初始化BA
S42:固定A,更新B以最小化重构误差;
S43:固定B,更新A以最小化重构误差;
S44:重复步骤S42和S43直到收敛;
S45:使用BA替换模型中的ΔW,结合实际的电话电销对话数据进行实验和优化,以达到最佳的模型性能。
训练LoRA大致收敛到训练原始模型,而基于适配器的方法收敛到MLP。在实验中应用LoRA,目前只更新WqWv
将LoRA应用于神经网络中的任何权重矩阵的子集,以减少可训练参数的数量。在Transformer架构中,自我注意模块中有四个权重矩阵( ,,,Wq,Wk,Wv,Wo )和两个MLP模块中有两个权重矩阵。我们将 Wq (或 ,Wk,Wv )视为具有 dmodel×dmodel 的单个矩阵,即使输出维度通常被切片到注意力头。出于简单性和参数效率的考虑,我们仅针对下游任务调整注意力权重,并冻结MLP模块(因此不会在下游任务中进行训练)。我们将适应MLP层,LayerNorm层和偏差的经验调查留给未来的工作。最显着的好处来自于内存和存储使用量的减少。对于使用Adam训练的大型的Transformer,如果r ≪ dmodel,VRAM使用量减少了最多2/3,因为无需为冻结参数存储优化器状态。在GPT-3 175B上,我们将训练期间的VRAM消耗从1.2TB降低到350GB。通过仅调整查询和值投影矩阵,并且r= 4,我们将检查点大小减小了大约10,000倍(从350GB到35MB)4。这使我们能够使用较少的GPU进行训练并避免I / O瓶颈。另一个好处是,我们可以通过仅交换LoRA权重而不是所有参数以较低的成本在部署时在许多自定义模型之间切换。这允许在存储预先训练的权重的机器上即时创建许多自定义模型。与全微调相比,我们还观察到在GPT-3 175B上进行训练时的25%加速,因为我们不需要为大多数参数计算梯度。
最后进行模型验证和迭代训练:使用新收集的数据对模型进行验证。这包括通过大型语言模型进行预测,然后使用小模型进行验证。人工进行复核,对错误的预测进行纠正,并将这些纠正后的数据送回模型进行迭代训练。对预测结果通过优化后的大型预训练语言模型进行验证;
使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据,通过大型预训练语言模型进行预测,根据验证结果对预测结果进行纠正,将同样的对话数据,在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证,并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化,进行迭代训练,最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
本技术方案通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析,总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在没有背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同腰间的含义和范围内的所有变化囊括在本发明内。

Claims (9)

1.一种大型预训练语言模型的网络结构优化微调方法,其特征在于,包括以下步骤:
S1:收集电话电销的语音营销的对话数据和文字营销的对话数据,进行数据清洗及预处理;
S2:对S1中收集的对话数据进行标注,指定部分对话数据为营销失败,并对营销失败原因进行分类和标注;
S3:对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法;
S4:使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调;
S5:对S4中微调后的大型预训练语言模型进行验证并进行迭代训练,持续优化。
2.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。
3.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S1中数据清洗及预处理包括移除噪音,具体为移除停用词、标点符号、非相关的背景对话。
4.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S2中对营销失败原因进行分类和标注,分类及标注具体为:产品问题、价格问题、交流技巧问题。
5.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S3中对大型预训练语言模型进行优化,包括使用词典缩减和网络层数缩减方法具体步骤为:
S31:进行词典缩减,只保留频率最高和信息增益最大的词;
S32 :根据资源和性能需求,选择适当的大型预训练语言模型的层数。
6.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S3中对大型预训练语言模型进行优化的具体方法还包括参数共享:在大型预训练语言模型的不同部分共享参数,以减少模型的总参数数量;量化:将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数;剪枝:去除模型中不重要的参数或神经元。
7.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S4中使用LoRA低秩适应方法进行微调的具体为:
将大型预训练语言模型分解为低秩矩阵ΔW和基模型,LoRA低秩适应方法的约束公式为:/>+ΔWx =/> +BAx,/> ∈Rd×k,B∈Rd×r ,A∈Rr×,r≪min(d,k)
其中,r为秩,x 代表原模型的输入,是电话电销的对话数据,ΔW代表模型权重的改变,代表原始模型的权重,大小为d×k,其中d代表模型的输入维度,k代表模型的输出维度,BA代表低秩矩阵,其中B∈Rd×rB代表模型输入到中间层的权重,Rr×k A代表中间层到模型输出的权重,而r<<min(d,k)则表示中间层的维度远小于输入和输出层。
8.根据权利要求7所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S4中使用LoRA低秩适应方法进行微调的具体步骤为:
S41:初始化BA
S42:固定A,更新B以最小化重构误差;
S43:固定B,更新A以最小化重构误差;
S44:重复步骤S42和S43直到收敛;
S45:使用BA替换模型中的ΔW,结合实际的电话电销对话数据进行实验和优化,以达到最佳的模型性能。
9.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法,其特征在于,S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤:
S51:使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据,通过大型预训练语言模型进行预测;
S52:对S51中的预测结果通过优化后的大型预训练语言模型进行验证;
S53:根据S52中的验证结果对S51中的预测结果进行纠正,将同样的对话数据,在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证,并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化,进行迭代训练,最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
CN202311280706.3A 2023-10-07 2023-10-07 一种大型预训练语言模型的网络结构优化微调方法 Pending CN117033641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311280706.3A CN117033641A (zh) 2023-10-07 2023-10-07 一种大型预训练语言模型的网络结构优化微调方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311280706.3A CN117033641A (zh) 2023-10-07 2023-10-07 一种大型预训练语言模型的网络结构优化微调方法

Publications (1)

Publication Number Publication Date
CN117033641A true CN117033641A (zh) 2023-11-10

Family

ID=88641376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311280706.3A Pending CN117033641A (zh) 2023-10-07 2023-10-07 一种大型预训练语言模型的网络结构优化微调方法

Country Status (1)

Country Link
CN (1) CN117033641A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332791A (zh) * 2023-11-30 2024-01-02 税友软件集团股份有限公司 一种大语言模型训练方法、装置、设备及存储介质
CN117609470A (zh) * 2023-12-08 2024-02-27 中科南京信息高铁研究院 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台
CN117632381A (zh) * 2024-01-26 2024-03-01 杭州实在智能科技有限公司 结合微调技术和分布式调度的大模型训练部署方法及系统
CN117669737A (zh) * 2023-12-20 2024-03-08 中科星图数字地球合肥有限公司 一种端到端地理行业大语言模型构建及使用方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105922871A (zh) * 2016-05-17 2016-09-07 杨宗宝 一种防止酒驾和疲劳驾驶的安全驾驶系统及方法
CN108415888A (zh) * 2018-02-12 2018-08-17 苏州思必驰信息科技有限公司 用于神经网络语言模型的压缩方法和系统
CN111079781A (zh) * 2019-11-07 2020-04-28 华南理工大学 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法
CN112669824A (zh) * 2020-12-23 2021-04-16 苏州思必驰信息科技有限公司 构建声学模型的方法、语音识别系统和语音识别方法
CN112800222A (zh) * 2021-01-26 2021-05-14 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN112883149A (zh) * 2021-01-20 2021-06-01 华为技术有限公司 一种自然语言处理方法以及装置
CN113011575A (zh) * 2019-12-19 2021-06-22 华为技术有限公司 神经网络模型更新方法、图像处理方法及装置
CN113344182A (zh) * 2021-06-01 2021-09-03 电子科技大学 一种基于深度学习的网络模型压缩方法
CN114330713A (zh) * 2022-01-11 2022-04-12 平安科技(深圳)有限公司 卷积神经网络模型剪枝方法和装置、电子设备、存储介质
CN115617998A (zh) * 2022-10-20 2023-01-17 百融至信(北京)科技有限公司 一种基于智能营销场景的文本分类方法及装置
CN116051192A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 处理数据的方法和装置
CN116595150A (zh) * 2023-06-16 2023-08-15 上海微盟企业发展有限公司 一种对话推荐方法、装置、设备及存储介质
CN116720004A (zh) * 2023-08-09 2023-09-08 腾讯科技(深圳)有限公司 推荐理由生成方法、装置、设备及存储介质
CN116822651A (zh) * 2023-06-30 2023-09-29 平安科技(深圳)有限公司 基于增量学习的大模型参数微调方法、装置、设备及介质
CN116822611A (zh) * 2023-06-27 2023-09-29 山东慧智博视数字科技有限公司 一种基于适应器和低秩适应的多任务大模型微调方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105922871A (zh) * 2016-05-17 2016-09-07 杨宗宝 一种防止酒驾和疲劳驾驶的安全驾驶系统及方法
CN108415888A (zh) * 2018-02-12 2018-08-17 苏州思必驰信息科技有限公司 用于神经网络语言模型的压缩方法和系统
CN111079781A (zh) * 2019-11-07 2020-04-28 华南理工大学 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法
CN113011575A (zh) * 2019-12-19 2021-06-22 华为技术有限公司 神经网络模型更新方法、图像处理方法及装置
CN112669824A (zh) * 2020-12-23 2021-04-16 苏州思必驰信息科技有限公司 构建声学模型的方法、语音识别系统和语音识别方法
CN112883149A (zh) * 2021-01-20 2021-06-01 华为技术有限公司 一种自然语言处理方法以及装置
CN112800222A (zh) * 2021-01-26 2021-05-14 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN113344182A (zh) * 2021-06-01 2021-09-03 电子科技大学 一种基于深度学习的网络模型压缩方法
CN116051192A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 处理数据的方法和装置
CN114330713A (zh) * 2022-01-11 2022-04-12 平安科技(深圳)有限公司 卷积神经网络模型剪枝方法和装置、电子设备、存储介质
CN115617998A (zh) * 2022-10-20 2023-01-17 百融至信(北京)科技有限公司 一种基于智能营销场景的文本分类方法及装置
CN116595150A (zh) * 2023-06-16 2023-08-15 上海微盟企业发展有限公司 一种对话推荐方法、装置、设备及存储介质
CN116822611A (zh) * 2023-06-27 2023-09-29 山东慧智博视数字科技有限公司 一种基于适应器和低秩适应的多任务大模型微调方法
CN116822651A (zh) * 2023-06-30 2023-09-29 平安科技(深圳)有限公司 基于增量学习的大模型参数微调方法、装置、设备及介质
CN116720004A (zh) * 2023-08-09 2023-09-08 腾讯科技(深圳)有限公司 推荐理由生成方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HU E J 等: "LoRA: low-rank adaptation of large language models", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS》, pages 1 - 26 *
阿布都克力木·阿布力孜 等: "预训练语言模型的扩展模型研究综述", 《计算机科学》, no. 49, pages 43 - 54 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332791A (zh) * 2023-11-30 2024-01-02 税友软件集团股份有限公司 一种大语言模型训练方法、装置、设备及存储介质
CN117332791B (zh) * 2023-11-30 2024-03-01 税友软件集团股份有限公司 一种大语言模型训练方法、装置、设备及存储介质
CN117609470A (zh) * 2023-12-08 2024-02-27 中科南京信息高铁研究院 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台
CN117669737A (zh) * 2023-12-20 2024-03-08 中科星图数字地球合肥有限公司 一种端到端地理行业大语言模型构建及使用方法
CN117669737B (zh) * 2023-12-20 2024-04-26 中科星图数字地球合肥有限公司 一种端到端地理行业大语言模型构建及使用方法
CN117632381A (zh) * 2024-01-26 2024-03-01 杭州实在智能科技有限公司 结合微调技术和分布式调度的大模型训练部署方法及系统
CN117632381B (zh) * 2024-01-26 2024-05-24 杭州实在智能科技有限公司 结合微调技术和分布式调度的大模型训练部署方法及系统

Similar Documents

Publication Publication Date Title
CN117033641A (zh) 一种大型预训练语言模型的网络结构优化微调方法
Jiang et al. Improving transformer-based speech recognition using unsupervised pre-training
CN109359309B (zh) 一种翻译方法及装置、翻译模型的训练方法及装置
Goyal et al. Power-bert: Accelerating bert inference via progressive word-vector elimination
CN111079781B (zh) 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法
US20210141798A1 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US20140156575A1 (en) Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
Xu et al. A survey on model compression and acceleration for pretrained language models
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN105139864A (zh) 语音识别方法和装置
CN115292470B (zh) 一种用于小额贷款智能客服的语义匹配方法及系统
Chen et al. A statistical framework for low-bitwidth training of deep neural networks
Senior et al. Fine context, low-rank, softplus deep neural networks for mobile speech recognition
CN117059103A (zh) 基于低秩矩阵近似的语音识别微调任务的加速方法
JP7186591B2 (ja) テキスト分類装置、学習装置、およびプログラム
JP2016218513A (ja) ニューラルネットワーク及びそのためのコンピュータプログラム
CN111695591A (zh) 基于ai的面试语料分类方法、装置、计算机设备和介质
CN114861907A (zh) 数据计算方法、装置、存储介质和设备
Xi et al. Training transformers with 4-bit integers
JP6820764B2 (ja) 音響モデル学習装置および音響モデル学習プログラム
JP7469698B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Wei et al. Model Compression by Iterative Pruning with Knowledge Distillation and Its Application to Speech Enhancement.
CN110717022A (zh) 一种机器人对话生成方法、装置、可读存储介质及机器人
Manderscheid et al. Predicting customer satisfaction with soft labels for ordinal classification
Kang et al. Neuron sparseness versus connection sparseness in deep neural network for large vocabulary speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination