CN112100383B - 一种面向多任务语言模型的元-知识微调方法及平台 - Google Patents
一种面向多任务语言模型的元-知识微调方法及平台 Download PDFInfo
- Publication number
- CN112100383B CN112100383B CN202011202867.7A CN202011202867A CN112100383B CN 112100383 B CN112100383 B CN 112100383B CN 202011202867 A CN202011202867 A CN 202011202867A CN 112100383 B CN112100383 B CN 112100383B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- language model
- meta
- model
- tasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Abstract
本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。
Description
技术领域
本发明属于语言模型压缩领域,尤其涉及一种面向多任务语言模型的元-知识微调方法及平台。
背景技术
大规模预训练语言模型自动压缩技术在自然语言理解和生成任务的应用领域都取得了显著作用;然而,在面向智慧城市领域下游任务时,基于特定数据集重新微调大模型仍然是提升模型压缩效果的关键步骤,已有的面向下游任务语言模型的微调方法是在下游任务特定数据集上进行微调,训练所得的压缩模型的效果受限于该类任务的特定数据集。
发明内容
本发明的目的在于针对现有技术的不足,提供一种面向多任务语言模型的元-知识微调方法及平台。本发明提出基于跨域的典型性分数学习,利用该方法获得同类任务不同数据集上高度可转移的共有知识,引入“元-知识”将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。
本发明的目的是通过以下技术方案实现的:一种面向多任务语言模型的元-知识微调方法,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征,作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:采用dself表示每个实例的嵌入特征与自身域原型的距离,dothers表示每个实例的嵌入特征与其它域原型的距离;每个实例的典型性分数定义为dself与dothers的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;该损失函数惩罚文本分类器预测错误的所有域的实例的标签。
进一步地,所述第三阶段中,多任务典型性敏感标签分类损失函数LT:
一种面向多任务语言模型的元-知识微调平台,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
本发明的有益效果如下:
(1)本发明基于跨域的典型性分数学习研究面向多任务语言模型的元-知识微调方法,该面向下游任务的预训练语言模型的微调方法是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元-知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型;
(2)本发明提出学习同类任务不同数据集上高度可转移的共有知识,即元-知识;引入元-知识,元-知识微调网络将同类任务不同数据集对应的不同域上的的学习过程相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力,最终,获得同类下游任务语言模型;
(3)本发明的面向多任务语言模型的元-知识微调平台,生成面向同类任务语言模型的通用架构,充分利用已微调好的模型架构提高下游同类任务的压缩效率,并且可将大规模自然语言处理模型部署在内存小、资源受限等端侧设备,推动了通用深度语言模型在工业界的落地进程。
附图说明
图1是本发明元-知识微调方法的整体架构图。
具体实施方式
如图1所示,本发明一种面向多任务语言模型的元-知识微调方法及平台,在预训练语言模型的下游任务多域数据集上,基于跨域的典型性分数学习,利用典型性分数的元-知识对下游任务场景进行微调,使元学习者较容易地微调到任何域,所学得的知识具有高度泛化和可转移能力,而不是只局限于某个特定域,所得的压缩模型的效果适应于同类任务不同域的数据场景。
本发明一种面向多任务语言模型的元-知识微调方法,具体包括以下步骤:
步骤一:计算同类任务跨域数据集的类原型:考虑到多域的类原型能够总结对应训练数据集的关键语义特征;所以,从不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,生成同一类任务多域的类原型,具体地,对于BERT语言模型,将同类任务不同域的所有输入文本的平均嵌入特征作为该类任务对应的类原型,其中,平均嵌入特征是采用当前输入实例对应的最后一层Transformer编码器平均池化层的输出。
步骤(1.2):定义类原型。将第k个域Dk的所有输入文本的平均嵌入特征作为该域对应的类原型。
步骤二:计算训练实例的典型性分数:考虑到如果训练实例在语义上接近其自身域的类原型,并且距离其它域生成的类原型也不太远,则认为该实例是典型的,具有很高的可移植性。训练实例的语义既要包含其与自身域的关联特征,也要包含其与其它域的关联特征,定义典型性训练实例为以上所述两个关联特征的线性组合。具体地,采用dself表示每个训练实例的嵌入特征与自身域原型的距离,dothers表示每个训练实例的嵌入特征与其它域原型的距离,每个训练实例的典型性分数定义为dself与dothers的线性组合。
由于一个原型可能不足以表示某一类别的复杂语义信息,所以,进一步将以上单个类原型扩增为基于多个原型聚类生成某一类别的类原型。具体地,如在自然语言情感的极性分类问题中,即判别某个句子的情感极性,可能的极性包括正面(positive)、负面(negative)、中性(neutral)和冲突(conflict),面向所有情感的极性分类任务,对于正面类别的类原型的计算方法,可以通过在多个不同数据集上进行聚类生成该类别对应的通用类原型。
其中,α是一个预定义的平衡因子,0<α<1,cos(·,·)是余弦相似性度量函数,1(·)是指示函数,如果输入的布尔函数是true,则返回1,否则,返回0。
步骤(2.4):基于多个原型计算典型性训练实例的特征分数。考虑到一个原型可能不足以表示某一类别的复杂语义信息,所以,通过聚类生成多个原型,基于同一类的多个原型计算该类别的类原型。因此,实例的特征分数扩增为:
步骤三:基于典型性分数的元-知识微调网络:接下来将根据以上计算出的典型性特征分数,研究如何设计元-知识微调的学习目标函数。本发明提出基于跨域的典型性实例特征设计多任务典型性敏感标签分类损失函数。该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。具体地,利用第二阶段所得的典型性分数作为元-知识微调网络的权重系数。元-知识微调网络学习目标函数定义为:
其中,LT是多任务典型性敏感标签分类损失函数,该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。是每个训练实例的权重。是预测实例的类别标签为m∈M的概率,采用BERT最后一层的d维的“[CLS]”的token的嵌入层作为特征,用表示。
本发明一种面向多任务语言模型的元-知识微调平台,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本。
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块。
元-知识微调模块是在所述自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型,即登陆用户需求的包含下游任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息。
推理组件:登陆用户从所述平台获取预训练压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理;并在所述平台的压缩模型推理页面呈现压缩前后推理速度的对比信息。
下面将以智能问答、智能客服、多轮对话应用场景中的自然语言推断任务对本发明的技术方案做进一步的详细描述。
自然语言推断任务,即给出一对句子,判断两个句子语义是相近,矛盾,还是中立。由于也是分类问题,也被称为句子对分类问题。MNLI数据集提供了来自多个领域的训练示例,目的就是推断两个句子是意思相近,矛盾,还是无关的。通过所述平台的数据加载组件获取登陆用户上传的自然语言推断任务的BERT模型和MNLI数据集;通过所述平台的自动压缩组件,生成面向多任务的BERT预训练语言模型;通过所述平台加载自动压缩组件生成的BERT预训练模型,在所述生成的预训练模型上构建自然语言推断任务的模型;基于所述自动压缩组件的元-知识微调模块所得的压缩模型进行微调,在预训练语言模型基础上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型,即登陆用户需求的包含自然语言推断任务的预训练语言模型压缩模型;将所述压缩模型输出到指定的容器,可供所述登陆用户下载,从训练数据中随机采样了每个领域数据的5%、10%、20%的数据进行元-知识微调。并在所述平台的输出压缩模型的页面呈现微调前后模型精度的对比信息,如下表1所示。
表1:自然语言推断任务BERT模型元-知识微调前后对比信息
方法 | 动物 | 植物 | 车辆 | 平均 |
元-知识微调前 | 93.6% | 91.8% | 84.2% | 89.3% |
元-知识微调后 | 94.5% | 92.3% | 90.2% | 92.3% |
从表1中更可以看出,通过所述平台的推理组件,利用所述平台输出的压缩模型对登陆用户上传的MNLI测试集数据进行推理,并在所述平台的压缩模型推理页面呈现元-知识微调后比元-知识微调前推理精度在动物、植物、车辆领域分别提升了0.9%、0.5%、6.0%。
Claims (2)
1.一种面向多任务语言模型的元-知识微调方法,其特征在于,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的输入文本的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:实例由输入文本和类标签组成,针对多类任务对应的所有域,采用dself表示每个实例中输入文本的嵌入特征与自身域原型的距离,dothers表示每个实例中输入文本的嵌入特征与其它域原型的距离;每个实例的典型性分数定义为dself与dothers的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;利用该损失函数训练得到多任务语言模型;
所述第三阶段中,多任务典型性敏感标签分类损失函数LT:
2.一种基于权利要求1所述面向多任务语言模型的元-知识微调方法的平台,其特征在于,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011202867.7A CN112100383B (zh) | 2020-11-02 | 2020-11-02 | 一种面向多任务语言模型的元-知识微调方法及平台 |
GB2214177.4A GB2609768A (en) | 2020-11-02 | 2020-12-21 | Multi-task language model-oriented meta-knowledge fine tuning method and platform |
JP2022567027A JP7283836B2 (ja) | 2020-11-02 | 2020-12-21 | マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム |
PCT/CN2020/138014 WO2022088444A1 (zh) | 2020-11-02 | 2020-12-21 | 一种面向多任务语言模型的元-知识微调方法及平台 |
US17/531,813 US11354499B2 (en) | 2020-11-02 | 2021-11-22 | Meta-knowledge fine tuning method and platform for multi-task language model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011202867.7A CN112100383B (zh) | 2020-11-02 | 2020-11-02 | 一种面向多任务语言模型的元-知识微调方法及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100383A CN112100383A (zh) | 2020-12-18 |
CN112100383B true CN112100383B (zh) | 2021-02-19 |
Family
ID=73784520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011202867.7A Active CN112100383B (zh) | 2020-11-02 | 2020-11-02 | 一种面向多任务语言模型的元-知识微调方法及平台 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112100383B (zh) |
WO (1) | WO2022088444A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100383B (zh) * | 2020-11-02 | 2021-02-19 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
GB2609768A (en) | 2020-11-02 | 2023-02-15 | Zhejiang Lab | Multi-task language model-oriented meta-knowledge fine tuning method and platform |
GB2608344A (en) * | 2021-01-12 | 2022-12-28 | Zhejiang Lab | Domain-invariant feature-based meta-knowledge fine-tuning method and platform |
CN112364945B (zh) * | 2021-01-12 | 2021-04-16 | 之江实验室 | 一种基于域-不变特征的元-知识微调方法及平台 |
CN113032559B (zh) * | 2021-03-15 | 2023-04-28 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN114647732B (zh) * | 2022-05-23 | 2022-09-06 | 之江实验室 | 一种面向弱监督文本分类系统、方法和装置 |
CN115859175B (zh) * | 2023-02-16 | 2023-05-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于跨模态生成式学习的液压减震器设备异常检测方法 |
CN117669737B (zh) * | 2023-12-20 | 2024-04-26 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
CN117708337B (zh) * | 2024-02-05 | 2024-04-26 | 杭州杰竞科技有限公司 | 一种面向复杂定域的人机交互方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767954A (zh) * | 2017-10-16 | 2018-03-06 | 中国科学院地理科学与资源研究所 | 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN110909145A (zh) * | 2019-11-29 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 针对多任务模型的训练方法及装置 |
CN111291166A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 基于Bert的语言模型的训练方法及装置 |
CN111310848A (zh) * | 2020-02-28 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 多任务模型的训练方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10607598B1 (en) * | 2019-04-05 | 2020-03-31 | Capital One Services, Llc | Determining input data for speech processing |
CN111814448B (zh) * | 2020-07-03 | 2024-01-16 | 思必驰科技股份有限公司 | 预训练语言模型量化方法和装置 |
CN111832282B (zh) * | 2020-07-16 | 2023-04-14 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112100383B (zh) * | 2020-11-02 | 2021-02-19 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
-
2020
- 2020-11-02 CN CN202011202867.7A patent/CN112100383B/zh active Active
- 2020-12-21 WO PCT/CN2020/138014 patent/WO2022088444A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767954A (zh) * | 2017-10-16 | 2018-03-06 | 中国科学院地理科学与资源研究所 | 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN110909145A (zh) * | 2019-11-29 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 针对多任务模型的训练方法及装置 |
CN111310848A (zh) * | 2020-02-28 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 多任务模型的训练方法及装置 |
CN111291166A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 基于Bert的语言模型的训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
【深度学习-微调模型】使用Tensorflow Slim fine-tune(微调)模型;ciky奇;《https://blog.csdn.net/c20081052/article/details/81295942?locationNum=7&fps=1》;20180801;第1-5页 * |
干货 _ 谷歌BERT模型fine-tune终极实践教程;AI科技大本营;《https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/84551399》;20181126;第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112100383A (zh) | 2020-12-18 |
WO2022088444A1 (zh) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
KR102071582B1 (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
CN107832353B (zh) | 一种社交媒体平台虚假信息识别方法 | |
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN112925904B (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
Song et al. | Text sentiment analysis based on convolutional neural network and bidirectional LSTM model | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113849653B (zh) | 一种文本分类方法及装置 | |
CN116662522B (zh) | 问题答案推荐方法、存储介质和电子设备 | |
US11354499B2 (en) | Meta-knowledge fine tuning method and platform for multi-task language model | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN113705194A (zh) | 简称抽取方法及电子设备 | |
CN113239143A (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN112052320A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN115658964B (zh) | 预训练模型以及体感画风识别模型的训练方法及装置 | |
CN117668562B (zh) | 文本分类模型的训练和使用方法、装置、设备和介质 | |
CN117436457B (zh) | 反讽识别方法、装置、计算设备及存储介质 | |
CN113254635B (zh) | 数据处理方法、装置及存储介质 | |
He et al. | An Incident Identification Method Based on Improved RCNN | |
Liu | Research on Vehicle Retention Rate Prediction Combined with Pre-Trained Language Model | |
CN117151078A (zh) | 面向社交平台的少样本多领域用户意图识别方法及系统 | |
Nan et al. | Event Feature Pre-training Model Based on Public Opinion Evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |