CN112100383B - 一种面向多任务语言模型的元-知识微调方法及平台 - Google Patents

一种面向多任务语言模型的元-知识微调方法及平台 Download PDF

Info

Publication number
CN112100383B
CN112100383B CN202011202867.7A CN202011202867A CN112100383B CN 112100383 B CN112100383 B CN 112100383B CN 202011202867 A CN202011202867 A CN 202011202867A CN 112100383 B CN112100383 B CN 112100383B
Authority
CN
China
Prior art keywords
knowledge
language model
meta
model
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011202867.7A
Other languages
English (en)
Other versions
CN112100383A (zh
Inventor
王宏升
王恩平
单海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011202867.7A priority Critical patent/CN112100383B/zh
Publication of CN112100383A publication Critical patent/CN112100383A/zh
Priority to GB2214177.4A priority patent/GB2609768A/en
Priority to JP2022567027A priority patent/JP7283836B2/ja
Priority to PCT/CN2020/138014 priority patent/WO2022088444A1/zh
Application granted granted Critical
Publication of CN112100383B publication Critical patent/CN112100383B/zh
Priority to US17/531,813 priority patent/US11354499B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。

Description

一种面向多任务语言模型的元-知识微调方法及平台
技术领域
本发明属于语言模型压缩领域,尤其涉及一种面向多任务语言模型的元-知识微调方法及平台。
背景技术
大规模预训练语言模型自动压缩技术在自然语言理解和生成任务的应用领域都取得了显著作用;然而,在面向智慧城市领域下游任务时,基于特定数据集重新微调大模型仍然是提升模型压缩效果的关键步骤,已有的面向下游任务语言模型的微调方法是在下游任务特定数据集上进行微调,训练所得的压缩模型的效果受限于该类任务的特定数据集。
发明内容
本发明的目的在于针对现有技术的不足,提供一种面向多任务语言模型的元-知识微调方法及平台。本发明提出基于跨域的典型性分数学习,利用该方法获得同类任务不同数据集上高度可转移的共有知识,引入“元-知识”将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。
本发明的目的是通过以下技术方案实现的:一种面向多任务语言模型的元-知识微调方法,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征,作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:采用dself表示每个实例的嵌入特征与自身域原型的距离,dothers表示每个实例的嵌入特征与其它域原型的距离;每个实例的典型性分数定义为dself与dothers的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;该损失函数惩罚文本分类器预测错误的所有域的实例的标签。
进一步地,所述第一阶段中,采用
Figure GDA0002888414410000011
表示在数据集的第k个域Dk中类标签为m的输入文本
Figure GDA0002888414410000012
的集合:
Figure GDA0002888414410000021
其中,m∈M,M为数据集中所有类标签的集合;
Figure GDA0002888414410000022
为第k个域中第i个实例;
类原型
Figure GDA0002888414410000023
为第k个域中类标签为m所有输入文本的平均嵌入特征:
Figure GDA0002888414410000024
其中,ε(·)表示BERT模型输出的
Figure GDA0002888414410000025
的嵌入表示;对于BERT模型,平均嵌入特征是输入
Figure GDA0002888414410000026
对应的最后一层Transformer编码器的平均池化。
进一步地,所述第二阶段中,将实例
Figure GDA0002888414410000027
的典型性分数
Figure GDA0002888414410000028
为:
Figure GDA0002888414410000029
其中,α是一个预定义的平衡因子,0<α<1;cos(·,·)是余弦相似性度量函数;K是域的个数;
Figure GDA00028884144100000210
是指示函数,如果
Figure GDA00028884144100000211
则返回1,如果
Figure GDA00028884144100000212
则返回0,索引
Figure GDA00028884144100000213
用于求和;βm>0是
Figure GDA00028884144100000214
的权重,同一类的
Figure GDA00028884144100000215
权重相同。
进一步地,所述第三阶段中,多任务典型性敏感标签分类损失函数LT
Figure GDA00028884144100000216
其中,D表示所有域的集合;
Figure GDA00028884144100000217
是指示函数,如果
Figure GDA00028884144100000218
则返回1,如果
Figure GDA00028884144100000219
则返回0;
Figure GDA00028884144100000220
表示预测
Figure GDA00028884144100000221
的类标签为m的概率;
Figure GDA00028884144100000222
表示BERT模型最后一层输出的“[CLS]”的token的嵌入层特征。
一种面向多任务语言模型的元-知识微调平台,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
本发明的有益效果如下:
(1)本发明基于跨域的典型性分数学习研究面向多任务语言模型的元-知识微调方法,该面向下游任务的预训练语言模型的微调方法是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元-知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型;
(2)本发明提出学习同类任务不同数据集上高度可转移的共有知识,即元-知识;引入元-知识,元-知识微调网络将同类任务不同数据集对应的不同域上的的学习过程相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力,最终,获得同类下游任务语言模型;
(3)本发明的面向多任务语言模型的元-知识微调平台,生成面向同类任务语言模型的通用架构,充分利用已微调好的模型架构提高下游同类任务的压缩效率,并且可将大规模自然语言处理模型部署在内存小、资源受限等端侧设备,推动了通用深度语言模型在工业界的落地进程。
附图说明
图1是本发明元-知识微调方法的整体架构图。
具体实施方式
如图1所示,本发明一种面向多任务语言模型的元-知识微调方法及平台,在预训练语言模型的下游任务多域数据集上,基于跨域的典型性分数学习,利用典型性分数的元-知识对下游任务场景进行微调,使元学习者较容易地微调到任何域,所学得的知识具有高度泛化和可转移能力,而不是只局限于某个特定域,所得的压缩模型的效果适应于同类任务不同域的数据场景。
本发明一种面向多任务语言模型的元-知识微调方法,具体包括以下步骤:
步骤一:计算同类任务跨域数据集的类原型:考虑到多域的类原型能够总结对应训练数据集的关键语义特征;所以,从不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,生成同一类任务多域的类原型,具体地,对于BERT语言模型,将同类任务不同域的所有输入文本的平均嵌入特征作为该类任务对应的类原型,其中,平均嵌入特征是采用当前输入实例对应的最后一层Transformer编码器平均池化层的输出。
步骤(1.1):定义跨域数据集。定义输入实例的种类集合为M,定义第k域中第m类标签的所有输入文本
Figure GDA0002888414410000031
实例的集合为
Figure GDA0002888414410000032
其中m∈M。
步骤(1.2):定义类原型。将第k个域Dk的所有输入文本的平均嵌入特征作为该域对应的类原型。
步骤(1.3):计算类原型。类原型
Figure GDA0002888414410000041
是采用输入BERT模型的
Figure GDA0002888414410000042
对应的最后一层Transformer编码器的平均池化,计算如下:
Figure GDA0002888414410000043
其中,ε(·)表示将
Figure GDA0002888414410000044
映射到d维的嵌入特征。
步骤二:计算训练实例的典型性分数:考虑到如果训练实例在语义上接近其自身域的类原型,并且距离其它域生成的类原型也不太远,则认为该实例是典型的,具有很高的可移植性。训练实例的语义既要包含其与自身域的关联特征,也要包含其与其它域的关联特征,定义典型性训练实例为以上所述两个关联特征的线性组合。具体地,采用dself表示每个训练实例的嵌入特征与自身域原型的距离,dothers表示每个训练实例的嵌入特征与其它域原型的距离,每个训练实例的典型性分数定义为dself与dothers的线性组合。
由于一个原型可能不足以表示某一类别的复杂语义信息,所以,进一步将以上单个类原型扩增为基于多个原型聚类生成某一类别的类原型。具体地,如在自然语言情感的极性分类问题中,即判别某个句子的情感极性,可能的极性包括正面(positive)、负面(negative)、中性(neutral)和冲突(conflict),面向所有情感的极性分类任务,对于正面类别的类原型的计算方法,可以通过在多个不同数据集上进行聚类生成该类别对应的通用类原型。
步骤(2.1):计算训练实例与自身域的关联特征。每个训练实例与自身域的关联特征是每个训练实例
Figure GDA0002888414410000045
与其自身域原型
Figure GDA0002888414410000046
的余弦相似性度量距离,即
Figure GDA0002888414410000047
步骤(2.2):计算训练实例与其它域的关联特征。每个训练实例与其它域的关联特征是每个训练实例
Figure GDA0002888414410000048
与其它域生成的类原型的余弦相似性度量距离,即
Figure GDA0002888414410000049
步骤(2.3):计算典型性训练实例的特征分数。典型性训练实例
Figure GDA00028884144100000410
的特征分数:
Figure GDA00028884144100000411
其中,α是一个预定义的平衡因子,0<α<1,cos(·,·)是余弦相似性度量函数,1(·)是指示函数,如果输入的布尔函数是true,则返回1,否则,返回0。
步骤(2.4):基于多个原型计算典型性训练实例的特征分数。考虑到一个原型可能不足以表示某一类别的复杂语义信息,所以,通过聚类生成多个原型,基于同一类的多个原型计算该类别的类原型。因此,实例
Figure GDA00028884144100000412
的特征分数
Figure GDA00028884144100000413
扩增为:
Figure GDA0002888414410000051
其中,βm>0是实例
Figure GDA0002888414410000052
的聚类成员的权重,每个类标签m∈M。
步骤三:基于典型性分数的元-知识微调网络:接下来将根据以上计算出的典型性特征分数,研究如何设计元-知识微调的学习目标函数。本发明提出基于跨域的典型性实例特征设计多任务典型性敏感标签分类损失函数。该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。具体地,利用第二阶段所得的典型性分数作为元-知识微调网络的权重系数。元-知识微调网络学习目标函数定义为:
Figure GDA0002888414410000053
其中,LT是多任务典型性敏感标签分类损失函数,该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。
Figure GDA0002888414410000054
是每个训练实例的权重。
Figure GDA0002888414410000055
是预测实例
Figure GDA0002888414410000056
的类别标签为m∈M的概率,采用BERT最后一层的d维的“[CLS]”的token的嵌入层作为特征,用
Figure GDA0002888414410000057
表示。
本发明一种面向多任务语言模型的元-知识微调平台,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本。
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块。
元-知识微调模块是在所述自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息。
推理组件:登陆用户从所述平台获取预训练压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理速度的对比信息。
下面将以智能问答、智能客服、多轮对话应用场景中的自然语言推断任务对本发明的技术方案做进一步的详细描述。
自然语言推断任务,即给出一对句子,判断两个句子语义是相近,矛盾,还是中立。由于也是分类问题,也被称为句子对分类问题。MNLI数据集提供了来自多个领域的训练示例,目的就是推断两个句子是意思相近,矛盾,还是无关的。通过所述平台的数据加载组件获取登陆用户上传的自然语言推断任务的BERT模型和MNLI数据集;通过所述平台的自动压缩组件,生成面向多任务的BERT预训练语言模型;通过所述平台加载自动压缩组件生成的BERT预训练模型,在所述生成的预训练模型上构建自然语言推断任务的模型;基于所述自动压缩组件的元-知识微调模块所得的压缩模型进行微调,在预训练语言模型基础上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型,即登陆用户需求的包含自然语言推断任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,从训练数据中随机采样了每个领域数据的5%、10%、20%的数据进行元-知识微调。并在所述平台的输出压缩模型的页面呈现微调前后模型精度的对比信息,如下表1所示。
表1:自然语言推断任务BERT模型元-知识微调前后对比信息
方法 动物 植物 车辆 平均
元-知识微调前 93.6% 91.8% 84.2% 89.3%
元-知识微调后 94.5% 92.3% 90.2% 92.3%
从表1中更可以看出,通过所述平台的推理组件,利用所述平台输出的压缩模型对登陆用户上传的MNLI测试集数据进行推理,并在所述平台的压缩模型推理页面呈现元-知识微调后比元-知识微调前推理精度在动物、植物、车辆领域分别提升了0.9%、0.5%、6.0%。

Claims (2)

1.一种面向多任务语言模型的元-知识微调方法,其特征在于,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的输入文本的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:实例由输入文本和类标签组成,针对多类任务对应的所有域,采用dself表示每个实例中输入文本的嵌入特征与自身域原型的距离,dothers表示每个实例中输入文本的嵌入特征与其它域原型的距离;每个实例的典型性分数定义为dself与dothers的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;利用该损失函数训练得到多任务语言模型;
所述第一阶段中,采用
Figure FDA0002888414400000011
表示在数据集的第k个域Dk中类标签为m的输入文本
Figure FDA0002888414400000012
的集合:
Figure FDA0002888414400000013
其中,m∈M,M为数据集中所有类标签的集合;
Figure FDA0002888414400000014
为第k个域中第i个实例;
类原型
Figure FDA0002888414400000015
为第k个域中类标签为m所有输入文本的平均嵌入特征:
Figure FDA0002888414400000016
其中,ε(·)表示BERT模型输出的
Figure FDA0002888414400000017
的嵌入表示;对于BERT模型,平均嵌入特征是输入
Figure FDA0002888414400000018
对应的最后一层Transformer编码器的平均池化;
所述第二阶段中,将实例
Figure FDA0002888414400000019
的典型性分数
Figure FDA00028884144000000110
为:
Figure FDA00028884144000000111
其中,α是一个预定义的平衡因子,0<α<1;cos(·,·)是余弦相似性度量函数;K是域的个数,k=1~K;
Figure FDA00028884144000000112
是指示函数,如果
Figure FDA00028884144000000113
则返回1,如果
Figure FDA00028884144000000114
则返回0;βm>0是
Figure FDA00028884144000000115
的权重,同一类的
Figure FDA00028884144000000116
权重相同;
所述第三阶段中,多任务典型性敏感标签分类损失函数LT
Figure FDA00028884144000000117
其中,D表示所有域的集合;
Figure FDA0002888414400000021
是指示函数,如果
Figure FDA0002888414400000022
则返回1,如果
Figure FDA0002888414400000023
则返回0;
Figure FDA0002888414400000024
表示预测
Figure FDA0002888414400000025
的类标签为m的概率;
Figure FDA0002888414400000026
表示BERT模型最后一层输出的token的嵌入层特征。
2.一种基于权利要求1所述面向多任务语言模型的元-知识微调方法的平台,其特征在于,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
CN202011202867.7A 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台 Active CN112100383B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011202867.7A CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台
GB2214177.4A GB2609768A (en) 2020-11-02 2020-12-21 Multi-task language model-oriented meta-knowledge fine tuning method and platform
JP2022567027A JP7283836B2 (ja) 2020-11-02 2020-12-21 マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
PCT/CN2020/138014 WO2022088444A1 (zh) 2020-11-02 2020-12-21 一种面向多任务语言模型的元-知识微调方法及平台
US17/531,813 US11354499B2 (en) 2020-11-02 2021-11-22 Meta-knowledge fine tuning method and platform for multi-task language model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011202867.7A CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台

Publications (2)

Publication Number Publication Date
CN112100383A CN112100383A (zh) 2020-12-18
CN112100383B true CN112100383B (zh) 2021-02-19

Family

ID=73784520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011202867.7A Active CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台

Country Status (2)

Country Link
CN (1) CN112100383B (zh)
WO (1) WO2022088444A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100383B (zh) * 2020-11-02 2021-02-19 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台
GB2609768A (en) 2020-11-02 2023-02-15 Zhejiang Lab Multi-task language model-oriented meta-knowledge fine tuning method and platform
GB2608344A (en) * 2021-01-12 2022-12-28 Zhejiang Lab Domain-invariant feature-based meta-knowledge fine-tuning method and platform
CN112364945B (zh) * 2021-01-12 2021-04-16 之江实验室 一种基于域-不变特征的元-知识微调方法及平台
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113987209A (zh) * 2021-11-04 2022-01-28 浙江大学 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN114647732B (zh) * 2022-05-23 2022-09-06 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN115859175B (zh) * 2023-02-16 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于跨模态生成式学习的液压减震器设备异常检测方法
CN117669737B (zh) * 2023-12-20 2024-04-26 中科星图数字地球合肥有限公司 一种端到端地理行业大语言模型构建及使用方法
CN117708337B (zh) * 2024-02-05 2024-04-26 杭州杰竞科技有限公司 一种面向复杂定域的人机交互方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767954A (zh) * 2017-10-16 2018-03-06 中国科学院地理科学与资源研究所 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110909145A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing
CN111814448B (zh) * 2020-07-03 2024-01-16 思必驰科技股份有限公司 预训练语言模型量化方法和装置
CN111832282B (zh) * 2020-07-16 2023-04-14 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN112100383B (zh) * 2020-11-02 2021-02-19 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767954A (zh) * 2017-10-16 2018-03-06 中国科学院地理科学与资源研究所 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110909145A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
【深度学习-微调模型】使用Tensorflow Slim fine-tune(微调)模型;ciky奇;《https://blog.csdn.net/c20081052/article/details/81295942?locationNum=7&fps=1》;20180801;第1-5页 *
干货 _ 谷歌BERT模型fine-tune终极实践教程;AI科技大本营;《https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/84551399》;20181126;第1-5页 *

Also Published As

Publication number Publication date
CN112100383A (zh) 2020-12-18
WO2022088444A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN107832353B (zh) 一种社交媒体平台虚假信息识别方法
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
Song et al. Text sentiment analysis based on convolutional neural network and bidirectional LSTM model
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113849653B (zh) 一种文本分类方法及装置
CN116662522B (zh) 问题答案推荐方法、存储介质和电子设备
US11354499B2 (en) Meta-knowledge fine tuning method and platform for multi-task language model
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN113705194A (zh) 简称抽取方法及电子设备
CN113239143A (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN112052320A (zh) 一种信息处理方法、装置及计算机可读存储介质
CN115658964B (zh) 预训练模型以及体感画风识别模型的训练方法及装置
CN117668562B (zh) 文本分类模型的训练和使用方法、装置、设备和介质
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
CN113254635B (zh) 数据处理方法、装置及存储介质
He et al. An Incident Identification Method Based on Improved RCNN
Liu Research on Vehicle Retention Rate Prediction Combined with Pre-Trained Language Model
CN117151078A (zh) 面向社交平台的少样本多领域用户意图识别方法及系统
Nan et al. Event Feature Pre-training Model Based on Public Opinion Evolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant