CN113468877A - 语言模型的微调方法、装置、计算设备和存储介质 - Google Patents
语言模型的微调方法、装置、计算设备和存储介质 Download PDFInfo
- Publication number
- CN113468877A CN113468877A CN202110777350.9A CN202110777350A CN113468877A CN 113468877 A CN113468877 A CN 113468877A CN 202110777350 A CN202110777350 A CN 202110777350A CN 113468877 A CN113468877 A CN 113468877A
- Authority
- CN
- China
- Prior art keywords
- language model
- words
- input data
- fine tuning
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000873 masking effect Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 16
- 230000008451 emotion Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语言模型的微调方法、装置、计算设备和存储介质,包括:获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词;设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。通过弥合预训练的语言模型和微调的语言模型之间的差距,从而使微调的语言模型在下游的遮蔽令牌预测任务上表现更好;全量样本情况下,本方法相对传统微调方法效果较好,在少样本情况下,本方法效果提升更加显著,能够减少大量参数的计算成本,降低计算设备的计算开销。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种语言模型的微调方法、装置、计算设备和存储介质。
背景技术
预训练语言模型是在大型语料数据集上训练得到的模型,其利用在大量语料进行预训练得到。因为预训练语言模型已经利用大量的语料进行无监督学习,已将语料中的知识迁移进了预训练语言模型的嵌入层中。微调是将预训练模型知识转移到下游任务的主要方法,如公布号为CN112100383A的专利申请公开的一种面向多任务语言模型的元-知识微调方法及平台,再如公布号为CN113032559A的专利申请公开的一种用于低资源黏着性语言文本分类的语言模型微调方法。
目前常用的微调方法均需在针对特定任务增加网络结构来进行微调,以此适应某种特定任务。但这类微调方法有如下缺陷:(1)其参数效率低下:每个下游任务都有自己的微调参数;(2)预训练的训练目标和微调目标不同,导致预训练模型泛化能力差;(3)其相对预训练阶段增加网络参数,需要大量数据才能学好新增的参数。
目前深度学习技术需要大量的数据来训练一个好模型,即需要标记大量的数据来训练模型,而这就存在费时费力的问题,因此少样本学习是一个不错的选择。少样本自然语言处理指的是自然语言处理任务只附带少量的标记样本,这是一个人工只能系统必须学会应对的现实挑战。而预训练模型在大规模的数据上训练过后,其本身已蕴含丰富的知识,因此在少样本场景下,通常依赖于基于预训练模型的微调。而传统的微调方法新增了参数且训练目标与微调目标不同,这导致现在少样本的很多任务上,基于预训练模型的传统微调方法由于训练的数据样本太少易过拟合,训练出的模型可能在训练集上作用效果尚可,但是在测试集上仍然跟使用大样本的情况有很大差距,差距大就会导致少样本不能用。
综上所述,需要研究与开发一种适用于真实应用场景的科学有实际效果的预训练模型微调方法,具有很强的现实意义。
发明内容
鉴于上述,本发明的目的是提供一种语言模型的微调方法、装置、计算设备和存储介质,提升语言模型的微调的鲁棒性,且能够减少参数的计算成本。
第一方面,实施例提供了一种语言模型的微调方法,包括以下步骤:
获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词;
设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
第二方面,实施例提供了一种语言模型的微调方法,包括以下步骤:
获取预训练好的语言模型、词组,所述词组包括模板提示词和标签词,且词组中至少一种词为连续的;
设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
将输入数据和标签词输入语言模型进行遮蔽令牌预测任务,并固定语言模型的模型参数不变,利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量;
根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量,或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
其中,所述离散的模板提示词与离散的标签词均为自然语言的词汇;所述连续的模板提示词与连续的标签词均为连续向量。
一个实施例中,所述离散的模板提示词和离散的标签词通过人工设计、梯度搜索或生成模型生成三种方式获得。
一个实施例中,所述设计微调语言模型的输入数据包括:设计模板提示词的个数和在输入数据中的位置,设计遮蔽令牌在输入数据中的位置。
一个实施例中,所述语言模型包括经语料预训练的BERT、XLNet、RoBERTa或GPT系列模型。
第三方面,实施例提供了一种语言模型的微调装置,包括:
获取模块,用于获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词;
设计模块,用于设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
微调模块,用于根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
第四方面,实施例提供了一种语言模型的微调装置,包括:
获取模块,用于获取预训练好的语言模型、词组,所述词组包括模板提示词和标签词,且词组中至少一种词为连续的;
设计模块,用于设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
优化模块,用于将输入数据和标签词输入语言模型进行遮蔽令牌预测任务,并固定语言模型的模型参数不变,利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量;
微调模块,用于根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量,或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
第五方面,实施例提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时上述语言模型的微调方法。
第六方面,实施例提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现上述语言模型的微调方法。
上述实施例提供的技术方案,具有的有益效果至少包括:
通过设计的模板提示词和遮蔽令牌添加到输入数据中,并将设计的标签词作为监督目,对语言模型进行遮蔽令牌预测任务的有监督学习,来弥合预训练的语言模型和微调的语言模型之间的差距,从而使微调的语言模型在下游的遮蔽令牌预测任务上表现更好;同时,采用少量样本进行语言模型的微调能够减少大量参数的计算成本,降低计算设备的计算开销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的语言模型的微调方法的流程图;
图2是另一实施例提供的语言模型的微调方法的流程图;
图3是另一实施例提供的语言模型的微调方法的流程图;
图4是一实施例提供的语言模型的微调装置的流程图;
图5是另一实施例提供的语言模型的微调装置的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是一实施例提供的语言模型的微调方法的流程图。如图1所示,实施例提供的语言模型的微调方法,包括以下步骤:
S101,获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词。
S102设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
S103,根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
图2是另一实施例提供的语言模型的微调方法的流程图。如图2所示,实施例提供的语言模型的微调方法,包括以下步骤:
S201,获取预训练好的语言模型、词组,所述词组包括模板提示词和标签词,且词组中至少一种词为连续的;
S202,设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
S203,将输入数据和标签词输入语言模型进行遮蔽令牌预测任务,并固定语言模型的模型参数不变,利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量;
S204,根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量,或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
实施例中,预训练的语言模型是专门为从大规模无标注语料中以无监督的方式学习语料中的语义信息的神经网络模型,它是由多层神经网络组成的复杂的学习模型,预训练模型能够更为准确的捕获文本中的语义信息,提高模型进行下游任务的准确性。其中,语言模型包括但不限于经语料预训练的BERT、GPT、XLNet、RoBERTa或GPT系列等模型。这些模型经过语料预训练之后,将语料的知识迁移到了模型的嵌入层,使得获得的预训练的语言模型嵌入有知识空间。
实施例中,模板提示词用于根据遮蔽令牌预测任务以及需求引导并挖掘预训练的语言模型嵌入知识来更好地解决遮蔽令牌预测任务。标签词作为下游遮蔽令牌预测任务的预测目标,也就是预测任务的学习标签。模板提示词与标签词均可以是可微分的连续形式,或者不可微分的离散形式。
其中,离散的模板提示词与离散的标签词均为自然语言的词汇,连续的模板提示词与连续的标签词均为连续向量。离散的模板提示词和离散的标签词通过人工设计、梯度搜索或生成模型生成三种方式获得。即可以手工设计或梯度搜索算法搜索或者生成模型生成适用于遮蔽令牌任务的自然语言的模板提示词,例如当遮蔽令牌预测任务是情感预测任务,即预测语句表达的情感信息,则可以采用人工设计设计模板提示词为:这句话表达的情感是什么,对应的标签词为积极、消极或者平淡。再例如当遮蔽令牌预测任务是关系抽取任务,即从语句中抽取实体关系,则可以采用度搜索算法搜索出显著性最高的前n个词作为模板提示词,两个实体之间的关系是什么,对应的标签词为夫妻、同事、朋友等。
实施例中,遮蔽令牌是与标签词对应的,在训练的过程中引导遮蔽令牌位置预测输出对应的标签词。实施例中,设计微调语言模型的输入数据包括:设计模板提示词的个数和在输入数据中的位置,设计遮蔽令牌在输入数据中的位置。在设计语言模型的输入数据时,需要设计模板提示词的个数,一条输入数据中需要至少包含一个模板提示词,还需要设计模板提示词在输入数据中的位置,可以根据任务需求,将模板提示词插在文本语句的头部、中间或尾部,当然还需要设计遮蔽令牌在输入数据中的位置,具体可以设计遮蔽令牌在文本的头部、中间或尾部,设计好模板提示词和遮蔽令牌的个数和位置之后,相对位置的固定至少1个模板提示词、遮蔽令牌以及文本语句构成输入数据。
当模板提示词和标签词均为离散的自然语言时,采用S102的步骤,将设计的输入数据作为语言模型的输入,将设计的标签词作为语言模型的输出,作为监督目标,对语言模型进行遮蔽令牌预测任务的有监督学习,进行参数的微调,以优化语言模型的模型参数。
当模板提示词和标签词中至少1者为连续的非自然语言时,也就是为初始化的空间连续向量时,例如可以有1或0组成的连续向量。针对模板提示词,直接初始化为空间嵌入向量;针对标签词,还可以是通过随机初始化、或者利用类别文本对应的词汇表空间的令牌的向量初始化。
当当模板提示词和标签词中至少1者为连续向量时,需要进行模板提示词和/或标签词的向量优化,利用优化的嵌入向量进行语言模型关于遮蔽令牌预测任务的模型参数微调。需要注意的是,模板提示词和/或标签词的向量优化与语言模型的参数微调可以交替同时进行,也可以先进行模板提示词和/或标签词的向量优化,向量优化好后再进行语言模型的模型参数的统一微调。
实施例中,针对模板提示词和/或标签词进行向量优化,采用预训练的语言模型来实现,即固定语言模型的模型参数不变,利用语言模型嵌入的词汇表空间中连续的嵌入向量来优化模板提示词和/或标签词的嵌入向量。
针对词组中的模板提示词和标签词均为连续时,设计的微调语言模型的输入数据包括文本语句、模板提示词的嵌入向量以及遮蔽令牌;此种情况下,根据输入数据、模板词组的嵌入向量对应的标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
针对词组中的模板提示词为连续,标签词为离散时,设计的微调语言模型的输入数据包括文本语句、模板提示词的嵌入向量以及遮蔽令牌;此种情况下,根据输入数据、模板词组的嵌入向量对应的标签词,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
针对词组中的模板提示词为离散,标签词为连续时,设计的微调语言模型的输入数据包括文本语句、模板提示词以及遮蔽令牌;此种情况下,根据输入数据、模板词组对应的标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
为了更好的理解本发明,下面以遮蔽令牌预测任务为情感分析任务为例,对上述语言模型的微调方法进行详细说明。
如图3所示,文本语句为电池一天都不够就用完了,对这句进行情感分析,具体过程为:
(1)在待处理的文本语句的尾部添加模板提示词T1、T2、T3,和遮蔽令牌,形成输入数据;
(2)在语言模型内嵌的词汇表空间初始化标签词Y的嵌入向量;对在预训练的语言模型词嵌入层添加连续可微分的模板提示词的嵌入向量即h(T1)h(T2)h(T3),并且将语言模型的原分类任务转换为遮蔽令牌的情感分析任务,即预测图中MASK位置处词汇;
(3)模板提示词的嵌入向量和标签词输入送入语言模型,冻结语言模型参数,只微调模板提示词和标签词对应的参数,以此在有限的样本下获得最优的模板提示词和标签词;
(4)基于优化的模板提示词和标签词,在标注数据上微调预训练的语言模型参数,即可获得较好的模型性能。
上述实施例提供的语言模型的微调方法,通过设计的模板提示词和遮蔽令牌添加到输入数据中,并将设计的标签词作为监督目,对语言模型进行遮蔽令牌预测任务的有监督学习,来弥合预训练的语言模型和微调的语言模型之间的差距,从而使微调的语言模型在下游的遮蔽令牌预测任务上表现更好;同时,全量样本情况下,本方法相对传统微调方法效果较好,在少样本情况下,本方法效果提升更加显著,能够减少大量参数的计算成本,降低计算设备的计算开销。
总之,上述语言模型的微调方法采用基于模板提示词技术的微调技术,可以显著提高下游任务的准确性和效率,能够满足不同应用的需求,不局限于自然语言处理中的分类任务,同样适用于文本生成任务。是挖掘分布在预训练的语言模型中的语言和世界知识的一种很有前途的方法,是新一代预训练模型微调方法。
如图4所示,实施例还提供了一种语言模型的微调装置400,包括:
获取模块401,用于获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词;
设计模块402,用于设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
微调模块403,用于根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
如图5所示,一种语言模型的微调装置500,包括:
获取模块501,用于获取预训练好的语言模型、词组,所述词组包括模板提示词和标签词,且词组中至少一种词为连续的;
设计模块502,用于设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
优化模块503,用于将输入数据和标签词输入语言模型进行遮蔽令牌预测任务,并固定语言模型的模型参数不变,利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量;
微调模块504,用于根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量,或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
需要说明的是,实施例提供的语言模型的微调装置在进行自动生成时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,实施例提供的语言模型的微调装置与语言模型的微调方法实施例属于同一构思,其具体实现过程详见语言模型的微调方法实施例,这里不再赘述。
实施例还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述语言模型的微调方法。
实施例提供的一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现上述语言模型的微调方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语言模型的微调方法,其特征在于,包括以下步骤:
获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词;
设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
2.一种语言模型的微调方法,其特征在于,包括以下步骤:
获取预训练好的语言模型、词组,所述词组包括模板提示词和标签词,且词组中至少一种词为连续的;
设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
将输入数据和标签词输入语言模型进行遮蔽令牌预测任务,并固定语言模型的模型参数不变,利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量;
根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量,或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
3.权利要求1或2所述的语言模型的微调方法,其特征在于,所述离散的模板提示词与离散的标签词均为自然语言的词汇;所述连续的模板提示词与连续的标签词均为连续向量。
4.权利要求3所述的语言模型的微调方法,其特征在于,所述离散的模板提示词和离散的标签词通过人工设计、梯度搜索或生成模型生成三种方式获得。
5.权利要求1或2所述的语言模型的微调方法,其特征在于,所述设计微调语言模型的输入数据包括:设计模板提示词的个数和在输入数据中的位置,设计遮蔽令牌在输入数据中的位置。
6.权利要求1或2所述的语言模型的微调方法,其特征在于,所述语言模型包括经语料预训练的BERT、GPT、XLNet、RoBERTa或GPT系列模型。
7.一种语言模型的微调装置,其特征在于,包括:
获取模块,用于获取预训练好的语言模型、词组,所述词组包括离散的模板提示词和离散的标签词;
设计模块,用于设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
微调模块,用于根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
8.一种语言模型的微调装置,其特征在于,包括:
获取模块,用于获取预训练好的语言模型、词组,所述词组包括模板提示词和标签词,且词组中至少一种词为连续的;
设计模块,用于设计微调语言模型的输入数据,所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌;
优化模块,用于将输入数据和标签词输入语言模型进行遮蔽令牌预测任务,并固定语言模型的模型参数不变,利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量;
微调模块,用于根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量,或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量,对语言模型进行遮蔽令牌预测任务的有监督学习,以优化语言模型的模型参数。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6任一项所述的语言模型的微调方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1~6任一项所述的语言模型的微调方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777350.9A CN113468877A (zh) | 2021-07-09 | 2021-07-09 | 语言模型的微调方法、装置、计算设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777350.9A CN113468877A (zh) | 2021-07-09 | 2021-07-09 | 语言模型的微调方法、装置、计算设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468877A true CN113468877A (zh) | 2021-10-01 |
Family
ID=77879384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110777350.9A Pending CN113468877A (zh) | 2021-07-09 | 2021-07-09 | 语言模型的微调方法、装置、计算设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468877A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962315A (zh) * | 2021-10-28 | 2022-01-21 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN114444488A (zh) * | 2022-01-26 | 2022-05-06 | 中国科学技术大学 | 一种少样本机器阅读理解方法、系统、设备及存储介质 |
CN114492363A (zh) * | 2022-04-15 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114612290A (zh) * | 2022-03-11 | 2022-06-10 | 北京百度网讯科技有限公司 | 图像编辑模型的训练方法和图像编辑方法 |
CN114861665A (zh) * | 2022-04-27 | 2022-08-05 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN116432665A (zh) * | 2023-06-15 | 2023-07-14 | 北京中关村科金技术有限公司 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
CN116737938A (zh) * | 2023-07-19 | 2023-09-12 | 人民网股份有限公司 | 基于微调大模型在线数据网络细粒度情感检测方法及装置 |
CN117133397A (zh) * | 2023-10-27 | 2023-11-28 | 广州国家实验室 | 电子病历数据增强方法、系统、电子设备和存储介质 |
CN117272988A (zh) * | 2023-11-13 | 2023-12-22 | 荣耀终端有限公司 | 优化提示词的方法、电子设备 |
CN113987209B (zh) * | 2021-11-04 | 2024-05-24 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN112148877A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
US20210035556A1 (en) * | 2019-08-02 | 2021-02-04 | Babylon Partners Limited | Fine-tuning language models for supervised learning tasks via dataset preprocessing |
-
2021
- 2021-07-09 CN CN202110777350.9A patent/CN113468877A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
US20210035556A1 (en) * | 2019-08-02 | 2021-02-04 | Babylon Partners Limited | Fine-tuning language models for supervised learning tasks via dataset preprocessing |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN112148877A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
JUAN LI等: "Logic-guided Semantic Representation Learning for Zero-Shot Relation Classification", HTTPS://ARXIV.ORG/PDF/2010.16068.PDF, 30 October 2020 (2020-10-30), pages 1 - 12 * |
KAREN HAMBARDZUMYAN等: "WARP: Word-level Adversarial ReProgramming", HTTPS://ARXIV.ORG/PDF/2101.00121.PDF, 2 June 2021 (2021-06-02), pages 1 - 7 * |
TIMO SCHICK等: "Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference", HTTPS://ARXIV.ORG/PDF/2001.07676.PDF, 25 January 2021 (2021-01-25), pages 6 * |
陈美杉等: "肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法", 《数据分析与知识发现》, vol. 03, no. 12, 22 October 2019 (2019-10-22), pages 61 - 69 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962315B (zh) * | 2021-10-28 | 2023-12-22 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
CN113962315A (zh) * | 2021-10-28 | 2022-01-21 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN113987209B (zh) * | 2021-11-04 | 2024-05-24 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN114444488A (zh) * | 2022-01-26 | 2022-05-06 | 中国科学技术大学 | 一种少样本机器阅读理解方法、系统、设备及存储介质 |
CN114612290B (zh) * | 2022-03-11 | 2023-07-21 | 北京百度网讯科技有限公司 | 图像编辑模型的训练方法和图像编辑方法 |
CN114612290A (zh) * | 2022-03-11 | 2022-06-10 | 北京百度网讯科技有限公司 | 图像编辑模型的训练方法和图像编辑方法 |
WO2023197613A1 (zh) * | 2022-04-15 | 2023-10-19 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114492363B (zh) * | 2022-04-15 | 2022-07-15 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114492363A (zh) * | 2022-04-15 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114861665B (zh) * | 2022-04-27 | 2023-01-06 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN114861665A (zh) * | 2022-04-27 | 2022-08-05 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN116432665A (zh) * | 2023-06-15 | 2023-07-14 | 北京中关村科金技术有限公司 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
CN116432665B (zh) * | 2023-06-15 | 2023-10-10 | 北京中关村科金技术有限公司 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
CN116737938A (zh) * | 2023-07-19 | 2023-09-12 | 人民网股份有限公司 | 基于微调大模型在线数据网络细粒度情感检测方法及装置 |
CN117133397A (zh) * | 2023-10-27 | 2023-11-28 | 广州国家实验室 | 电子病历数据增强方法、系统、电子设备和存储介质 |
CN117133397B (zh) * | 2023-10-27 | 2024-02-20 | 广州国家实验室 | 电子病历数据增强方法、系统、电子设备和存储介质 |
CN117272988A (zh) * | 2023-11-13 | 2023-12-22 | 荣耀终端有限公司 | 优化提示词的方法、电子设备 |
CN117272988B (zh) * | 2023-11-13 | 2024-04-19 | 荣耀终端有限公司 | 优化提示词的方法、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113468877A (zh) | 语言模型的微调方法、装置、计算设备和存储介质 | |
WO2022037256A1 (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
US11941522B2 (en) | Address information feature extraction method based on deep neural network model | |
CN110717039A (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN113688244A (zh) | 基于神经网络的文本分类方法、系统、设备及存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN112016300B (zh) | 预训练模型处理、下游任务处理方法、装置及存储介质 | |
CN115964459B (zh) | 基于食品安全认知图谱的多跳推理问答方法及系统 | |
CN112765996B (zh) | 基于强化学习和机器翻译质量评估的中朝机器翻译方法 | |
CN113919363A (zh) | 基于人工智能的句向量生成模型的处理方法、装置及设备 | |
CN116911252A (zh) | 基于关系注意力增强和词性掩码的实体关系联合抽取方法 | |
Peng | A comparative study of neural network for text classification | |
CN113408267B (zh) | 一种基于预训练模型的词对齐性能提升方法 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN115270795A (zh) | 一种基于小样本学习的环评领域命名实体识别技术 | |
CN113987209B (zh) | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 | |
Zou et al. | Associated lattice-bert for spoken language understanding | |
CN112560487A (zh) | 一种基于国产设备的实体关系抽取方法及系统 | |
Wu et al. | A text emotion analysis method using the dual-channel convolution neural network in social networks | |
CN109241539B (zh) | 机器学习人工智能翻译数据库的更新方法 | |
CN117057321B (zh) | 语音转文字处理方法、模型训练方法、装置、设备及介质 | |
CN117251555B (zh) | 一种语言生成模型训练方法和装置 | |
CN111931478B (zh) | 地址兴趣面模型的训练方法、地址的预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |