CN112100383A - 一种面向多任务语言模型的元-知识微调方法及平台 - Google Patents

一种面向多任务语言模型的元-知识微调方法及平台 Download PDF

Info

Publication number
CN112100383A
CN112100383A CN202011202867.7A CN202011202867A CN112100383A CN 112100383 A CN112100383 A CN 112100383A CN 202011202867 A CN202011202867 A CN 202011202867A CN 112100383 A CN112100383 A CN 112100383A
Authority
CN
China
Prior art keywords
language model
knowledge
meta
model
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011202867.7A
Other languages
English (en)
Other versions
CN112100383B (zh
Inventor
王宏升
王恩平
单海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011202867.7A priority Critical patent/CN112100383B/zh
Publication of CN112100383A publication Critical patent/CN112100383A/zh
Priority to GB2214177.4A priority patent/GB2609768A/en
Priority to JP2022567027A priority patent/JP7283836B2/ja
Priority to PCT/CN2020/138014 priority patent/WO2022088444A1/zh
Application granted granted Critical
Publication of CN112100383B publication Critical patent/CN112100383B/zh
Priority to US17/531,813 priority patent/US11354499B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。

Description

一种面向多任务语言模型的元-知识微调方法及平台
技术领域
本发明属于语言模型压缩领域,尤其涉及一种面向多任务语言模型的元-知识微调方法及平台。
背景技术
大规模预训练语言模型自动压缩技术在自然语言理解和生成任务的应用领域都取得了显著作用;然而,在面向智慧城市领域下游任务时,基于特定数据集重新微调大模型仍然是提升模型压缩效果的关键步骤,已有的面向下游任务语言模型的微调方法是在下游任务特定数据集上进行微调,训练所得的压缩模型的效果受限于该类任务的特定数据集。
发明内容
本发明的目的在于针对现有技术的不足,提供一种面向多任务语言模型的元-知识微调方法及平台。本发明提出基于跨域的典型性分数学习,利用该方法获得同类任务不同数据集上高度可转移的共有知识,引入“元-知识”将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。
本发明的目的是通过以下技术方案实现的:一种面向多任务语言模型的元-知识微调方法,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征,作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:采用
Figure 259182DEST_PATH_IMAGE001
表示每个实例的嵌入特征与自身域原型 的距离,
Figure 848426DEST_PATH_IMAGE002
表示每个实例的嵌入特征与其它域原型的距离;每个实例的典型性分数定 义为
Figure 97005DEST_PATH_IMAGE001
Figure 961056DEST_PATH_IMAGE002
的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;该损失函数惩罚文本分类器预测错误的所有域的实例的标签。
进一步地,所述第一阶段中,采用
Figure 244270DEST_PATH_IMAGE003
表示在数据集的第k个域
Figure 535574DEST_PATH_IMAGE004
中类标签为m的 输入文本
Figure 271449DEST_PATH_IMAGE005
的集合:
Figure 939190DEST_PATH_IMAGE006
其中,
Figure 76911DEST_PATH_IMAGE007
,M为数据集中所有类标签的集合;
Figure 539116DEST_PATH_IMAGE008
为第k个域中第i个实例;
类原型
Figure 762287DEST_PATH_IMAGE009
为第k个域中类标签为m所有输入文本的平均嵌入特征:
Figure 965211DEST_PATH_IMAGE010
其中,
Figure 957437DEST_PATH_IMAGE011
表示BERT模型输出的
Figure 856123DEST_PATH_IMAGE012
的嵌入表示;对于BERT模型,平均嵌入特征是输入
Figure 566590DEST_PATH_IMAGE013
对应的最后一层Transformer编码器的平均池化。
进一步地,所述第二阶段中,将实例
Figure 310555DEST_PATH_IMAGE014
的典型性分数
Figure 422868DEST_PATH_IMAGE015
为:
Figure 226876DEST_PATH_IMAGE016
其中,
Figure 424639DEST_PATH_IMAGE017
是一个预定义的平衡因子,
Figure 972295DEST_PATH_IMAGE018
Figure 939114DEST_PATH_IMAGE019
是余弦相似性度量函数;K是域的 个数;
Figure 976340DEST_PATH_IMAGE020
是指示函数,如果
Figure 599083DEST_PATH_IMAGE021
则返回1,如果
Figure 747167DEST_PATH_IMAGE022
则返回0,索引
Figure 568493DEST_PATH_IMAGE023
用于求和;
Figure 979882DEST_PATH_IMAGE024
Figure 886658DEST_PATH_IMAGE012
的权重,同一类的
Figure 776117DEST_PATH_IMAGE012
权重相同。
进一步地,所述第三阶段中,多任务典型性敏感标签分类损失函数
Figure 708739DEST_PATH_IMAGE025
Figure 291030DEST_PATH_IMAGE026
其中,D表示所有域的集合;
Figure 685103DEST_PATH_IMAGE027
是指示函数,如果
Figure 378252DEST_PATH_IMAGE028
则返回1,如果
Figure 908590DEST_PATH_IMAGE029
则 返回0;
Figure 661783DEST_PATH_IMAGE030
表示预测
Figure 543151DEST_PATH_IMAGE012
的类标签为m的概率;
Figure 39992DEST_PATH_IMAGE031
表示BERT模型最后一层输出的 “[CLS]”的token的嵌入层特征。
一种面向多任务语言模型的元-知识微调平台,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的学生模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
本发明的有益效果如下:
(1)本发明基于跨域的典型性分数学习研究面向多任务语言模型的元-知识微调方法,该面向下游任务的预训练语言模型的微调方法是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元-知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型;
(2)本发明提出学习同类任务不同数据集上高度可转移的共有知识,即元-知识;引入元-知识,元-知识微调网络将同类任务不同数据集对应的不同域上的的学习过程相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力,最终,获得同类下游任务语言模型;
(3)本发明的面向多任务语言模型的元-知识微调平台,生成面向同类任务语言模型的通用架构,充分利用已微调好的模型架构提高下游同类任务的压缩效率,并且可将大规模自然语言处理模型部署在内存小、资源受限等端侧设备,推动了通用深度语言模型在工业界的落地进程。
附图说明
图1是本发明元-知识微调方法的整体架构图。
具体实施方式
如图1所示,本发明一种面向多任务语言模型的元-知识微调方法及平台,在预训练语言模型的下游任务多域数据集上,基于跨域的典型性分数学习,利用典型性分数的元-知识对下游任务场景进行微调,使元学习者较容易地微调到任何域,所学得的知识具有高度泛化和可转移能力,而不是只局限于某个特定域,所得的压缩模型的效果适应于同类任务不同域的数据场景。
本发明一种面向多任务语言模型的元-知识微调方法,具体包括以下步骤:
步骤一:计算同类任务跨域数据集的类原型:考虑到多域的类原型能够总结对应训练数据集的关键语义特征;所以,从不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,生成同一类任务多域的类原型,具体地,对于BERT语言模型,将同类任务不同域的所有输入文本的平均嵌入特征作为该类任务对应的类原型,其中,平均嵌入特征是采用当前输入实例对应的最后一层Transformer编码器平均池化层的输出。
步骤(1.1):定义跨域数据集。定义输入实例的种类集合为M,定义第k域中第m类标 签的所有输入文本
Figure 690416DEST_PATH_IMAGE012
实例的集合为
Figure 348930DEST_PATH_IMAGE032
,其中
Figure 452015DEST_PATH_IMAGE007
步骤(1.2):定义类原型。将第k个域
Figure 752547DEST_PATH_IMAGE004
的所有输入文本的平均嵌入特征作为该域 对应的类原型。
步骤(1.3):计算类原型。类原型
Figure 257477DEST_PATH_IMAGE009
是采用输入BERT模型的
Figure 86893DEST_PATH_IMAGE012
对应的最后一层 Transformer编码器的平均池化,计算如下:
Figure 942854DEST_PATH_IMAGE033
其中,
Figure 781497DEST_PATH_IMAGE011
表示将
Figure 138004DEST_PATH_IMAGE012
映射到d维的嵌入特征。
步骤二:计算训练实例的典型性分数:考虑到如果训练实例在语义上接近其自身 域的类原型,并且距离其它域生成的类原型也不太远,则认为该实例是典型的,具有很高的 可移植性。训练实例的语义既要包含其与自身域的关联特征,也要包含其与其它域的关联 特征,定义典型性训练实例为以上所述两个关联特征的线性组合。具体地,采用
Figure 403901DEST_PATH_IMAGE001
表示每 个训练实例的嵌入特征与自身域原型的距离,
Figure 481578DEST_PATH_IMAGE002
表示每个训练实例的嵌入特征与其它 域原型的距离,每个训练实例的典型性分数定义为
Figure 123912DEST_PATH_IMAGE001
Figure 400172DEST_PATH_IMAGE002
的线性组合。
由于一个原型可能不足以表示某一类别的复杂语义信息,所以,进一步将以上单个类原型扩增为基于多个原型聚类生成某一类别的类原型。具体地,如在自然语言情感的极性分类问题中,即判别某个句子的情感极性,可能的极性包括正面(positive)、负面(negative)、中性(neutral)和冲突(conflict),面向所有情感的极性分类任务,对于正面类别的类原型的计算方法,可以通过在多个不同数据集上进行聚类生成该类别对应的通用类原型。
步骤(2.1):计算训练实例与自身域的关联特征。每个训练实例与自身域的关联特 征是每个训练实例
Figure 836970DEST_PATH_IMAGE014
与其自身域原型
Figure 401944DEST_PATH_IMAGE009
的余弦相似性度量距离,即
Figure 582389DEST_PATH_IMAGE034
步骤(2.2):计算训练实例与其它域的关联特征。每个训练实例与其它域的关联特 征是每个训练实例
Figure 916418DEST_PATH_IMAGE014
与其它域生成的类原型的余弦相似性度量距离,即
Figure 524117DEST_PATH_IMAGE035
步骤(2.3):计算典型性训练实例的特征分数。典型性训练实例
Figure 576387DEST_PATH_IMAGE014
的特征分 数:
Figure 294944DEST_PATH_IMAGE036
其中,
Figure 749059DEST_PATH_IMAGE017
是一个预定义的平衡因子
Figure 527660DEST_PATH_IMAGE037
Figure 67225DEST_PATH_IMAGE019
是余弦相似性度量函数,
Figure 589473DEST_PATH_IMAGE038
是 指示函数,如果输入的布尔函数是true,则返回1,否则,返回0。
步骤(2.4):基于多个原型计算典型性训练实例的特征分数。考虑到一个原型可能 不足以表示某一类别的复杂语义信息,所以,通过聚类生成多个原型,基于同一类的多个原 型计算该类别的类原型。因此,实例
Figure 632516DEST_PATH_IMAGE014
的特征分数
Figure 850526DEST_PATH_IMAGE015
扩增为:
Figure 611809DEST_PATH_IMAGE016
其中,
Figure 672169DEST_PATH_IMAGE024
是实例
Figure 835297DEST_PATH_IMAGE012
的聚类成员的权重,每个类标签
Figure 955700DEST_PATH_IMAGE007
步骤三:基于典型性分数的元-知识微调网络:接下来将根据以上计算出的典型性特征分数,研究如何设计元-知识微调的学习目标函数。本发明提出基于跨域的典型性实例特征设计多任务典型性敏感标签分类损失函数。该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。具体地,利用第二阶段所得的典型性分数作为元-知识微调网络的权重系数。元-知识微调网络学习目标函数定义为:
Figure 469858DEST_PATH_IMAGE039
其中,
Figure 333908DEST_PATH_IMAGE025
是多任务典型性敏感标签分类损失函数,该损失函数惩罚文本分类器预测错 误的所有K个域的典型实例的标签。
Figure 351543DEST_PATH_IMAGE015
是每个训练实例的权重。
Figure 908426DEST_PATH_IMAGE030
是预测实例的类 别标签为
Figure 644301DEST_PATH_IMAGE007
的概率,采用BERT最后一层的d维的“[CLS]”的token的嵌入层作为特征,用
Figure 108780DEST_PATH_IMAGE031
表示。
本发明一种面向多任务语言模型的元-知识微调平台,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本。
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块。
元-知识微调模块是在所述自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的学生模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息。
推理组件:登陆用户从所述平台获取预训练压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理速度的对比信息。
下面将以智能问答、智能客服、多轮对话应用场景中的自然语言推断任务对本发明的技术方案做进一步的详细描述。
自然语言推断任务,即给出一对句子,判断两个句子语义是相近,矛盾,还是中立。由于也是分类问题,也被称为句子对分类问题。MNLI数据集提供了来自多个领域的训练示例,目的就是推断两个句子是意思相近,矛盾,还是无关的。通过所述平台的数据加载组件获取登陆用户上传的自然语言推断任务的BERT模型和MNLI数据集;通过所述平台的自动压缩组件,生成面向多任务的BERT预训练语言模型;通过所述平台加载自动压缩组件生成的BERT预训练模型,在所述生成的预训练模型上构建自然语言推断任务的模型;基于所述自动压缩组件的元-知识微调模块所得的学生模型进行微调,在预训练语言模型基础上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的学生模型,即登陆用户需求的包含自然语言推断任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,从训练数据中随机采样了每个领域数据的5%、10%、20%的数据进行元-知识微调。并在所述平台的输出压缩模型的页面呈现微调前后模型精度的对比信息,如下表1所示。
表1:自然语言推断任务BERT模型元-知识微调前后对比信息
方法 动物 植物 车辆 平均
元知识-微调前 93.6% 91.8% 84.2% 89.3%
元知识-微调后 94.5% 92.3% 90.2% 92.3%
从表1中更可以看出,通过所述平台的推理组件,利用所述平台输出的压缩模型对登陆用户上传的MNLI测试集数据进行推理,并在所述平台的压缩模型推理页面呈现元-知识微调后比元-知识微调前推理精度在动物、植物、车辆领域分别提升了0.9%、0.5%、6.0%。

Claims (5)

1.一种面向多任务语言模型的元-知识微调方法,其特征在于,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征,作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:采用
Figure 204219DEST_PATH_IMAGE001
表示每个实例的嵌入特征与自身域原型 的距离,
Figure 932003DEST_PATH_IMAGE002
表示每个实例的嵌入特征与其它域原型的距离;每个实例的典型性分数定 义为
Figure 155174DEST_PATH_IMAGE001
Figure 361027DEST_PATH_IMAGE002
的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;该损失函数惩罚语言模型预测错误的所有域的实例的标签。
2.如权利要求1所述面向多任务语言模型的元-知识微调方法,其特征在于,所述第一 阶段中,采用
Figure 87675DEST_PATH_IMAGE003
表示在数据集的第k个域
Figure 251940DEST_PATH_IMAGE004
中类标签为m的输入文本
Figure 431249DEST_PATH_IMAGE005
的集合:
Figure 440793DEST_PATH_IMAGE006
其中,m∈M,M为数据集中所有类标签的集合;
Figure 553106DEST_PATH_IMAGE007
为第k个域中第i个实例;
类原型
Figure 357113DEST_PATH_IMAGE008
为第k个域中类标签为m所有输入文本的平均嵌入特征:
Figure 554877DEST_PATH_IMAGE009
其中,
Figure 102533DEST_PATH_IMAGE010
表示BERT模型输出的
Figure 69352DEST_PATH_IMAGE011
的嵌入表示;对于BERT模型,平均嵌入特征是输入
Figure 44261DEST_PATH_IMAGE012
对应的最后一层Transformer编码器的平均池化。
3.如权利要求2所述面向多任务语言模型的元-知识微调方法,其特征在于,所述第二 阶段中,将实例
Figure 729320DEST_PATH_IMAGE013
的典型性分数
Figure 83597DEST_PATH_IMAGE014
为:
Figure 904922DEST_PATH_IMAGE015
其中,α是一个预定义的平衡因子,0<α<1;
Figure 316312DEST_PATH_IMAGE016
是余弦相似性度量函数;K是域的个数;
Figure 223088DEST_PATH_IMAGE017
是指示函数,如果
Figure 112547DEST_PATH_IMAGE018
则返回1,如果
Figure 53958DEST_PATH_IMAGE019
则返回0,索引
Figure 370670DEST_PATH_IMAGE020
用于求和;
Figure 764742DEST_PATH_IMAGE021
Figure 457891DEST_PATH_IMAGE011
的 权重,同一类的
Figure 253809DEST_PATH_IMAGE011
权重相同。
4.如权利要求3所述面向多任务语言模型的元-知识微调方法,其特征在于,所述第三 阶段中,多任务典型性敏感标签分类损失函数
Figure 7002DEST_PATH_IMAGE022
Figure 888370DEST_PATH_IMAGE023
其中,D表示所有域的集合;
Figure 119631DEST_PATH_IMAGE024
是指示函数,如果
Figure 770055DEST_PATH_IMAGE025
则返回1,如果
Figure 694149DEST_PATH_IMAGE026
则返 回0;
Figure 62813DEST_PATH_IMAGE027
表示预测
Figure 94836DEST_PATH_IMAGE011
的类标签为m的概率;
Figure 599766DEST_PATH_IMAGE028
表示BERT模型最后一层输出的 “[CLS]”的token的嵌入层特征。
5.一种基于权利要求1-4任一项所述面向多任务语言模型的元-知识微调方法的平台,其特征在于,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的学生模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
CN202011202867.7A 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台 Active CN112100383B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011202867.7A CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台
GB2214177.4A GB2609768A (en) 2020-11-02 2020-12-21 Multi-task language model-oriented meta-knowledge fine tuning method and platform
JP2022567027A JP7283836B2 (ja) 2020-11-02 2020-12-21 マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
PCT/CN2020/138014 WO2022088444A1 (zh) 2020-11-02 2020-12-21 一种面向多任务语言模型的元-知识微调方法及平台
US17/531,813 US11354499B2 (en) 2020-11-02 2021-11-22 Meta-knowledge fine tuning method and platform for multi-task language model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011202867.7A CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台

Publications (2)

Publication Number Publication Date
CN112100383A true CN112100383A (zh) 2020-12-18
CN112100383B CN112100383B (zh) 2021-02-19

Family

ID=73784520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011202867.7A Active CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台

Country Status (2)

Country Link
CN (1) CN112100383B (zh)
WO (1) WO2022088444A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113987209A (zh) * 2021-11-04 2022-01-28 浙江大学 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
WO2022088444A1 (zh) * 2020-11-02 2022-05-05 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台
US11354499B2 (en) 2020-11-02 2022-06-07 Zhejiang Lab Meta-knowledge fine tuning method and platform for multi-task language model
WO2022151553A1 (zh) * 2021-01-12 2022-07-21 之江实验室 一种基于域-不变特征的元-知识微调方法及平台
CN114780722A (zh) * 2022-03-31 2022-07-22 北京理工大学 一种结合领域通用型语言模型的领域泛化方法
GB2608344A (en) * 2021-01-12 2022-12-28 Zhejiang Lab Domain-invariant feature-based meta-knowledge fine-tuning method and platform
CN114780722B (zh) * 2022-03-31 2024-05-14 北京理工大学 一种结合领域通用型语言模型的领域泛化方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647732B (zh) * 2022-05-23 2022-09-06 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN115859175B (zh) * 2023-02-16 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于跨模态生成式学习的液压减震器设备异常检测方法
CN117669737B (zh) * 2023-12-20 2024-04-26 中科星图数字地球合肥有限公司 一种端到端地理行业大语言模型构建及使用方法
CN117708337B (zh) * 2024-02-05 2024-04-26 杭州杰竞科技有限公司 一种面向复杂定域的人机交互方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767954A (zh) * 2017-10-16 2018-03-06 中国科学院地理科学与资源研究所 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110909145A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing
CN111814448B (zh) * 2020-07-03 2024-01-16 思必驰科技股份有限公司 预训练语言模型量化方法和装置
CN111832282B (zh) * 2020-07-16 2023-04-14 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN112100383B (zh) * 2020-11-02 2021-02-19 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767954A (zh) * 2017-10-16 2018-03-06 中国科学院地理科学与资源研究所 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110909145A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AI科技大本营: "干货 _ 谷歌BERT模型fine-tune终极实践教程", 《HTTPS://BLOG.CSDN.NET/DQCFKYQDXYM3F8RB0/ARTICLE/DETAILS/84551399》 *
CIKY奇: "【深度学习-微调模型】使用Tensorflow Slim fine-tune(微调)模型", 《HTTPS://BLOG.CSDN.NET/C20081052/ARTICLE/DETAILS/81295942?LOCATIONNUM=7&FPS=1》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088444A1 (zh) * 2020-11-02 2022-05-05 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台
US11354499B2 (en) 2020-11-02 2022-06-07 Zhejiang Lab Meta-knowledge fine tuning method and platform for multi-task language model
GB2609768A (en) * 2020-11-02 2023-02-15 Zhejiang Lab Multi-task language model-oriented meta-knowledge fine tuning method and platform
WO2022151553A1 (zh) * 2021-01-12 2022-07-21 之江实验室 一种基于域-不变特征的元-知识微调方法及平台
GB2608344A (en) * 2021-01-12 2022-12-28 Zhejiang Lab Domain-invariant feature-based meta-knowledge fine-tuning method and platform
US11669741B2 (en) 2021-01-12 2023-06-06 Zhejiang Lab Method and platform for meta-knowledge fine-tuning based on domain-invariant features
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113987209A (zh) * 2021-11-04 2022-01-28 浙江大学 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN114780722A (zh) * 2022-03-31 2022-07-22 北京理工大学 一种结合领域通用型语言模型的领域泛化方法
CN114780722B (zh) * 2022-03-31 2024-05-14 北京理工大学 一种结合领域通用型语言模型的领域泛化方法

Also Published As

Publication number Publication date
WO2022088444A1 (zh) 2022-05-05
CN112100383B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
Somogyi The Application of Artificial Intelligence
CN113849653A (zh) 一种文本分类方法及装置
US11354499B2 (en) Meta-knowledge fine tuning method and platform for multi-task language model
CN117009478A (zh) 一种基于软件知识图谱问答问句解析过程的算法融合方法
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN112364945B (zh) 一种基于域-不变特征的元-知识微调方法及平台
CN114372128A (zh) 一种旋转对称型几何体体积题目的自动求解方法及系统
CN113741759A (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN113537802A (zh) 一种基于开源情报的地缘政治风险推演方法
CN112052320A (zh) 一种信息处理方法、装置及计算机可读存储介质
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
CN115658964B (zh) 预训练模型以及体感画风识别模型的训练方法及装置
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN115114910B (zh) 文本处理方法、装置、设备、存储介质及产品
CN113254635B (zh) 数据处理方法、装置及存储介质
CN117453910A (zh) 一种文本分类方法、装置和汽车
Liu Research on Vehicle Retention Rate Prediction Combined with Pre-Trained Language Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant