CN116629345A - 针对大规模预训练语言模型的提示学习方法和交互系统 - Google Patents
针对大规模预训练语言模型的提示学习方法和交互系统 Download PDFInfo
- Publication number
- CN116629345A CN116629345A CN202310320539.4A CN202310320539A CN116629345A CN 116629345 A CN116629345 A CN 116629345A CN 202310320539 A CN202310320539 A CN 202310320539A CN 116629345 A CN116629345 A CN 116629345A
- Authority
- CN
- China
- Prior art keywords
- plm
- knowledge
- entity
- training
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000003993 interaction Effects 0.000 title description 2
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000002347 injection Methods 0.000 claims abstract description 9
- 239000007924 injection Substances 0.000 claims abstract description 9
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 230000000873 masking effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 7
- 230000002085 persistent effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000001907 polarising light microscopy Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种针对规模预训练语言模型的提示学习方法和利用该操作方法的交互系统。所述方法包括:构造上下文示例并送入经预训练的所述PLM用于提示学习;以及使用学习过所述上下文示例的所述PLM执行针对目标示例的测试,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调,以获取预训练的所述PLM。本公开在业内首次提出了面向大规模预训练语言模型的知识预训练算法,为构建应用于各个领域的大规模知识模型奠定基础。具体地,该方法提出了可以单独或结合使用的新颖的基于事实知识注入的预训练任务,并且发现对目标示例的明智选择和利用知识库中知识先验的校准能够进一步提升模型表现。
Description
技术领域
本公开涉及一种针对大规模预训练语言模型的提示学习方法和利用该方法的交互系统。
背景技术
大规模预训练语言模型(PLM),例如参数量达到1B甚至以上的模型,通过将一些标记的训练例作为基于文本的提示进行调整,以实现上下文学习(ICL),从而无需更新参数并实现具有竞争力的性能。现有的研究已经探索了影响ICL性能的诸多方面。然而所有这些局限在ICL框架内的研究,对应模型性能的提升都有限。
为此需要一种改进的、能够进一步提升大规模预训练语言模型性能的方法。
发明内容
本公开要解决的一个技术问题是提供一种针对大规模预训练语言模型的提示学习方法和利用该方法的交互系统。该方法在业内首次提出了面向大规模预训练语言模型的知识预训练算法,为构建应用于各个领域的大规模知识模型奠定基础。具体地,该方法提出了可以单独或结合使用的新颖的基于事实知识注入的预训练任务,并且发现对目标示例的明智选择和利用知识库中知识先验的校准能够进一步提升模型表现。
根据本公开的第一个方面,提供了一种大规模预训练语言模型PLM操作方法,包括:构造上下文示例并送入经预训练的所述PLM用于提示学习;以及使用学习过所述上下文示例的所述PLM执行针对目标示例的测试,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调,以获取预训练的所述PLM。
可选地,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调还包括:将分类标签看作是特殊实体进行所述实体知识注入。
可选地,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:使用掩码实体预测任务对所述PLM的参数进行微调,其中,所述掩码实体预测任务对输入文本中的实体进行掩码,并且基于所述PLM输出的实体标记与被掩码实体对应的真实实体标记之间差异产生的损失对所述PLM的参数进行微调。
可选地,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:使用实体描述生成任务对所述PLM的参数进行微调,其中,所述实体描述生成任务用于:构造包括实体模板、输入文本中的所有实体和文本模板的前缀文本,并将原始文本作为后缀文本;对后缀文本中的实体进行掩码;基于所述所述PLM针对给定实体输出的文本表述与原始文本之间差异产生的损失对所述PLM的参数进行微调。
可选地,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:使用知识问答任务对所述PLM的参数进行微调,其中,所述知识问答任务用于:对输入文本中的实体进行掩码;基于知识库构造包含被掩码实体的三元组;将所述三元组的信息转换为预测所述三元组中另一个实体的问题;基于所述PLM输出的答案标记与所述另一个实体对应标记之间差异产生的损失对所述PLM的参数进行微调。
可选地,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:从同一任务中随机选择多个示例来形成训练实例,直到达到最大序列长度;计算所述PLM输出的掩码标记与被掩码实体对应标记之间的交叉熵损失;以及根据所述交叉熵损失对所述PLM的参数进行微调。
可选地,构造上下文示例并送入经预训练的所述PLM用于提示学习包括:确定训练集和目标集中所包含的实体;从所述训练集中检索优选训练例,所述优选训练例相比于其他训练例包含更多的目标集中实体;以及利用检索出的所述优选训练集构造所述上下文示例。
可选地,从训练集中检索优选训练例包括:计算所述训练集和所述目标集的语义空间差,所述语义空间差表征所述训练集和所述目标集各自实体平均表示之间的距离;利用所述语义空间差计算所述训练集中的训练例和所述目标集中的目标例之间的知识相关性;基于所述知识相关性确定所述训练集中每个训练例的采样权重;以及根据所述采样权重从所述训练集中选择所述优选训练例。
可选地,使用学习过所述上下文示例的所述PLM执行针对目标示例的测试包括:计算候选标签词或实体在输出位置上的先验概率;以及基于所述先验概率,校准所述所述PLM针对所述目标示例的测试的输出。
根据本公开的第二个方面,提供了一种交互系统,包括:服务器,用于根据特定领域实体知识执行如第一方面所述的操作方法,获取特定知识领域增强的大规模预训练语言模型;以及客户端,用于获取用户针对特定知识领域的查询信息,并将所述查询信息提交所述服务器,其中,所述服务器将所述查询信息送入所述特定知识领域增强的大规模预训练语言模型,并将模型生成的输出返回给客户端。
根据本公开的第三个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面所述的方法。
根据本公开的第四个方面,提供了一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上述第一方面所述的方法。
根据本公开的第五个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面所述的方法。
由此,本申请通过引入了一种新颖的知识性上下文调整框架(KICT)框架,用于在如下方面进一步提高ICL的性能:1)在持续的自我监督预训练过程中向PLM注入知识,2)明智地选择具有高知识相关性的例子,3)根据先验知识校准预测结果。实验结果表明,KICT大大优于强基线,在文本分类和问答任务上分别提高了13%和7%以上。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了ICL的一个例子。
图2示出了大规模PLM在设置被破坏时的准确率变化。
图3示出了根据本发明一个实施例的针对大规模PLM的提示学习方法的示意性流程图。
图4示出了掩码实体预测的一个例子。
图5示出了实体描述生成的一个例子。
图6示出了知识问答的一个例子。
图7示出了根据本发明一个实施例的知识示例检索操作的示意图。
图8示出了大规模PLM预测时标签频率与准确率的关系。
图9出了根据本发明一个实施例的KICT框架的示意图。
图10示出了根据本发明一个实施例的交互系统的组成示意图。
图11示出了根据本发明一实施例可用于实现上述针对大规模的提示学习方法的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
随着使用深度学习生成人类可以理解的自然语言的大规模预训练语言模型(参数规模在1B、几十B甚至更多)的出现,利用大型模型中蕴涵知识而无需更新参数的ICL(In-Context Learning,上下文学习)的方法在NLP(在自然语言处理)领域的广泛研究也如火如荼地展开。
图1示出了ICL的一个例子。ICL的目的是通过对少量的标记样本进行条件化来生成针对目标示例的预测,其关键思想是从类比中学习。图1中给出了一个描述大规模PLM如何使用ICL进行决策的例子。首先,ICL需要一些示例来形成一个作为示范(Demonstration)的上下文。这些示例通常是用自然语言模板编写的。在图1的例子中,下游任务是对文本进行情绪倾向分类。为了使得模型学会对文本进行情绪倾向分类,首先为模型提供作为示范的上下文示例。在示出的例子中分类标签分别对应于“Positive(正性)”和“negative(负性)”,这两个词汇可以是从语言表达器(verbalizer)中选出的分别对应于正性和负性评价的标签词。在作为输入的文本为“It’s a symptom.(这是一个症状。)”时,告知需要模型给出“negetive(负性)”的分类;在而作为输入的文本为“A funny work.(有趣的作品。)”时,告知需要模型给出“Positive(正性)”的分类。大规模PLM在学习到如上两个上下文示例之后,则可根据其内在知识(蕴涵在海量参数中的知识)对具有相同形式的目标示例的输入“Very nice.(非常好。)”给出相应的输出,即,“Positive(正性)”的分类。
值得注意的是,与需要使用反向梯度更新模型参数的训练阶段监督学习不同,ICL不需要参数更新,并直接对预先训练好的语言模型进行预测(这是与提示,传统示范学习同的地方,ICL不需要在下游P-调谐或微调)。ICL希望该模型学习隐藏在示范中的模式,并据此做出正确的预测。由于ICL能够在无需更新模型参数的情况下,使得模型能够以相当的准确率执行下游任务,因此近年来对ICL相关的研究进行的如火如荼。之前的工作已经探索了影响ICL性能的多个方面,例如输入输出映射和数据资源泛化等。
然而,这些工作忽略了事实知识对ICL的影响,而这是NLP领域不可忽视的因素之一。本发明的发明人通过广泛的实验证明,事实知识(factual knowledge)对于模型准确率有着不可忽略的影响,并且本发明从事实知识的角度探讨ICL的有效性,这是业内针对大规模PLM首次进行的基于知识注入到预训练。在本发明中,“事实知识”可以指代示例中关于实体的知识。在NLP领域中,“实体”是一个极为常见的概念,用于指代某一个概念的实例。例如,“张三”可以看作是某个人名的实例,“中秋节”可以看作是某个时间概念的实例,“中国男篮”则可以看作是某个团体的实例,等等。在某些情况下,例如在文本分类任务中,“事实知识”除了涵盖实体知识外,还可以包括分类标签知识。实体和标签的重要性在如下结合图2的破坏实验中表现的十分明显。
为了说明事实知识对于模型正确预测的重要性,本发明首先说明在事实知识遭破坏时,会对模型准确度造成什么样的影响。图2示出了大规模PLM在设置被破坏时的准确率变化。具体地,图2给出了在设置被在不同程度和方面上破坏时,不同规模的PLM(图示模型规模从0.1B~6.7B,仍然全部可以视为大规模PLM)在文本分类和问答这两个常见下游任务中准确率的影响。
本发明通过组件分解来进行实证实验。具体来说,给定一个目标示例文本Xtgt,我们随机选择K个训练样本形成一个基于文本的提示。识别出提示中的所有实体,然后设计一些破坏设置如下。
1)Shuffle Entity(实体乱序)是指将知识库中的所有实体随机替换为其他实体。
2)Shuffle Non-Entity(非实体乱序)表示将一些非实体词(例如,“It(它)”,“have(具有)”)替换为PLM词汇表中的其他词。
3)Shuffle Label(标签乱序)表示用错误的标签替换所有黄金标签(goldenlabel)。
4)Remove Entity(移除实体)和Remove Label(移除标签)分别旨在从提示中删除所有实体和标签。
5)No Demonstration(无示范)是一种典型的零样本方法,不使用任何标记数据。
在具体实验中,选择不同尺度的模型A(0.1B-1.5B)和模型B(2.7B-6.7B)来评估8个文本分类任务和4个问答任务。默认情况下,为每个任务随机抽取K=8个标记样本,并使用5个不同的随机种子运行实验。结果总结如下。
PLM本身的内在知识有利于下游任务的执行。如图2所示,模型在增加规模时可以获得更为显着的少样本性能。可以假设这是因为更大规模的模型可以在预训练语料库中学习更多有价值的语义。为了验证这个假设,可以参考不使用任何基于文本的提示来执行零样本推理(即无示范)。此时,只有在预训练期间学到的内在知识才能为预测提供模型指导。从图中可以可以看到关于文本分类和问题回答任务,6.7B和0.1B之间都存在20%的性能差距。这表明在预训练期间学到的内在知识是必要的。
选定的上下文示例中的事实知识是ICL的关键。如图2所示,原始设置(Origin)在每个模型尺度上都优于其他设置。相比于原始设置,性能降低最小的是非实体乱序,换句话说,从实验中可以发现改变非实体并不会显着降低性能,而实体乱序或删除则会大大降低文本分类和问答任务的平均准确率。这表明基于文本的提示中的事实知识是PLM理解任务的关键因素。此外,还发现标签对于ICL也是必不可少的,因此发明人认为标签也可以被视为指导PLM在模型推理期间感知语义的知识之一。这也是在本发明中,“事实知识”包括实体知识,并且在某些情况下,例如在文本分类任务中,还可以包括分类标签知识的原因。
根据如上实验可知,事实知识对于大规模PLM同样也是重要的,为此,本发明提出了一种大规模PLM操作方法,能够充分利用事实知识来提升ICL中各个过程的性能。图3示出了根据本发明一个实施例的针对大规模PLM的提示学习方法的示意性流程图。该方法针对事实知识注入的大规模PLM,并提升大规模PLM针对下游任务的推理性能。
在步骤S310,构造上下文示例并送入经预训练的所述PLM用于提示学习。其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调,以获取预训练的所述PLM。在步骤S320,使用学习过所述上下文示例的所述PLM执行针对目标示例的测试。由于如上结合图2证明了哪怕对于大规模PLM,事实知识的注入也是必要的(即,针对大规模PLM的实体知识注入的预训练的是必要的,因此本发明在执行ICL(步骤S120可以对应于图1中对于“输入:It’s a symptom.\n输出:Negative\n\n输入:A funny work.\n输出:Positive\n\n”这一示范的学习步骤;步骤S130则可对应于在目标示例为“输入:Very nice.\n”时,进行推理输出的步骤,例如,正确推理输出为“Positive”)之前,会先使用事实知识对大规模PLM进行增强,从而提升PLM在ICL和后续推理中的表现。因此预训练任务可以看作是提示学习之前进行的必要操作。
如前所述,由于标签词的重要性,因此使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调还可以包括:将分类标签看作是特殊实体进行所述实体知识注入(尤其是针对文本分类任务)。
在预训练期间将事实知识注入PLM,本发明设计了新颖的知识性预训练(KPT,Knowledgeable Pre-Training)任务。预训练的目标是利用外部知识库来丰富对于重要实体的语言生成能力。因此,输入是训练语料库{X}和知识库其中ε是一组实体,是一组关系,/>是一组表达事实知识的三元组。
在一个实施例中,预训练任务可以是掩码实体预测(MEP,Masked EntityPrediction)。该任务要求模型预测文本中缺失的实体以学习显性知识,这类似于BERT型PLM中的掩码语言建模。此时,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:使用掩码实体预测任务对所述PLM的参数进行微调,其中,所述掩码实体预测任务对输入文本中的实体进行掩码,并且基于所述PLM输出的实体标记与被掩码实体对应的真实实体标记之间差异产生的损失对所述PLM的参数进行微调。
具体地,给定一段文本标记(token)X={xi},通过现有工具(例如,实体链接工具包)识别其中的所有实体其中e={xj|xj∈X}是一个具有多个标记的实体。对于每个实体e,可以被替换为特殊标记(例如“_”),用于后续模型对特殊标记占位符的推理。在一个实施例中,对于每个实体e,50%的时间被替换为特殊标记(例如“_”),而剩余50%的时间被替换为随机标记,由此通过随机标记的引入提升任务难度,有利于模型学习实体的语义。由此可以得到一个训练示例/>可以生成一个标签掩码向量/>来表示用于训练的位置,并且/>其中/>是指示函数。
图4示出了掩码实体预测的一个例子。在MEP任务中,一个输入文本的例子为:
The Association for Computational Linguistics(ACL)is a scientific andprofessionaorganization for working on NLP.
其对应的中文翻译可以是:计算语言学协会(ACL)是从事NLP工作的科学和专业组织。),其中红标的部分“Association for Computational Linguistics(计算语言学协会)”、“ACL”和“NLP”对应于该文本中包含的实体,也是在MEP任务中需要被掩码并由PLM预测的内容。
在一个实施例中,预训练任务可以是实体描述生成(EDG)。该任务旨在根据给定的实体逐步(step by step)生成文本描述。此时,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:使用实体描述生成任务对所述PLM的参数进行微调,其中,所述实体描述生成任务用于:构造包括实体模板、输入文本中的所有实体和文本模板的前缀文本,并将原始文本作为后缀文本;对后缀文本中的实体进行掩码;基于所述所述PLM针对给定实体输出的文本表述与原始文本之间差异产生的损失对所述PLM的参数进行微调。
具体来说,给定一个文本X和一个对应的实体集EX,构造一个前缀文本,它是由模板“Entities:”、EX中的所有实体、及模板“Text:”组成的线性化字符串。后缀文本是原始文本X。同样,可以生成训练示例和标签掩码向量/>当/>位于后缀字符串中时,/>
在此,前缀和后缀文本明确给定了EDG任务需要做的事情。在实体前后加入描述词能让模型更加理解当前任务是需要生成关于该实体的描述的。图5示出了实体描述生成的一个例子。在EDG任务中,输入模型的是实体信息,即,“Association for ComputationalLinguistics”、“ACL”和“NLP”,需要模型生成关于这三个实体的文本描述,如图中灰色部分所示的完整句子。
为了在知识库中充分使用现成的三元组,本发明还考虑了一个知识感知的问答任务。为此,在一个实施例中,预训练任务可以是知识问答(KQA)任务。该任务旨在根据问题生成实体。此时,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:使用知识问答任务对所述PLM的参数进行微调,其中,所述知识问答任务用于:对输入文本中的实体进行掩码;基于知识库构造包含被掩码实体的三元组;将所述三元组的信息转换为预测所述三元组中另一个实体的问题;基于所述PLM输出的答案标记与所述另一个实体对应标记之间差异产生的损失对所述PLM的参数进行微调。
具体来说,给定一个文本X和一个对应的实体集EX,可以获得两个实体eh,et∈EE,它们具有一跳(1-hop)关系并且形成一个三元组/>其中eh和et分别是头实体和尾实体。可以为每个三元组设计一个模板并将其转换为一个让模型预测尾部实体的问题,并获得训练示例/>和标签掩码向量。当/>是所选尾实体的标记时,/>
图6示出了知识问答的一个例子。在EQA任务中,输入模型的是文本信息,如图示的完整句子。由于“Association for Computational Linguistics”(或“ACL”)和“NLP”之间存在一跳关系,因此可以形成一个三元组,其中“Association for ComputationalLinguistics”是头实体,NLP是尾实体,关系r则以是“working for”(从事…工作)。于是可以根据模板从三元组生成问题“What is Association for Computational Linguisticsworking for?”,并要求模型回答,而模型在正确推理时回答“NLP”(如图中灰标所示),并且该回答对应于如上三元组的尾实体。
应该理解的是,在不同的实现中,可以利用如上三个自监督学习任务中的任一或是组合来对模型进行预训练。在一个实施例中,如上预训练可以包括:从同一任务中随机选择多个示例来形成训练实例,直到达到最大序列长度;计算所述PLM输出的掩码标记与被掩码实体对应标记之间的交叉熵损失;以及根据所述交叉熵损失对所述PLM的参数进行微调。
具体地,在预训练过程中,可以从同一任务中随机选择多个示例来形成训练实例直到达到最大序列长度(例如,2048)。计算输出位置(其中/>)处的交叉熵损失。正式地,损失函数可以是:
其中yi是基本事实。p(·)表示预测概率。是模型需要计算损失的位置的数量。
尽管在进行预训练之后,已经获得了强大且知识性的PLM,可以进行如步骤S310所述的提示步骤和如步骤S320所述的预测步骤。但ICL的性能在很大程度上取决于标记示例的选择和顺序。已经发现PLM本身可以生成合适的基于文本的提示。然而,现有研究很少关注知识库中事实知识的有形价值。本发明的发明人发现,提示步骤中明智地选择提示,同样能够提升预测步骤和下游任务的推理准确性。
为此,在一个实施例中,本发明提出了一种新颖的知识示例检索(KER)算法结合知识来选择上下文示例。图7示出了根据本发明一个实施例的知识示例检索操作的示意图。
如图所示,可以从训练集和目标集中确定所包含的实体。此时,给定的一个训练集为和一个目标集为/>(即,测试集),其中/>和/>表示输入文本,/>表示训练示例的标签,/>和/>是相应的实体集。回想一下,基于文本的提示中的知识是ICL的关键。因此,KER的任务旨在选择一组与目标集具有高度知识相关性的训练示例。一种简单的方法是检索实体可以覆盖更多目标示例的示例。为此,在确定了实体之后,可以从所述训练集中检索优选训练例,所述优选训练例相比于其他训练例包含更多的目标集中实体,并利用检索出的所述优选训练集构造所述上下文示例。可以利用Jaccard相似度来计算两个例子之间的相似度,/>
然而,大多数示例对的Jaccard相似度为零,因此进一步利用预训练的知识嵌入来检索与语义空间中的目标集更相似的训练示例。此时,从训练集中检索优选训练例包括:计算所述训练集和所述目标集的语义空间差,所述语义空间差表征所述训练集和所述目标集各自实体平均表示之间的距离;利用所述语义空间差计算所述训练集中的训练例和所述目标集中的目标例之间的知识相关性;基于所述知识相关性确定所述训练集中每个训练例的采样权重;以及根据所述采样权重从所述训练集中选择所述优选训练例。
形式上,分别获得和/>中所有实体的平均表示ei和ej。ei和ej之间的欧氏距离dsem(i,j)可以用来表示语义空间的差异。因此,最终两个样本之间的知识相关性可被计算为:
其中0≤α≤1和γ>0是超参数。对于每个采样权重为:
其中可以计算为:
直观上,高权重的训练示例意味着它与所有目标样例具有高知识相关性。最终,我们可以根据这些权重对K个训练示例进行采样。
在模型预训练和上下文示例选择之后,我们可以通过下式直接生成目标实例的输出:
其中是将标签词映射到对应类别的映射器(verbalizer)(对于分类,/>表示标签词集。对于问答,/>表示整个词汇集。)。/>是上下文示例的集合。
然而,由于知识偏差,PLM倾向于生成常见的标签词。本发明选择了两个知识密集型任务(即AGNews和TREC)测试预测是否存在偏差问题。首先在每次训练例子的输出位置获得前5个预测并计算每个生成的标签词的频率统计(训练集的规模大于测试集,以便统计更明显)。然后从训练集中选择4个标签示例。对于每个类别,从每个频域中随机选取2个词,并报告所有标签映射排列的平均准确率。(以AGNews为例,它有4个类,每个类都有两个词,共有24=16个标签映射排列。)实验结果在图8中示出了。图8示出了大规模PLM预测时标签频率与准确率的关系。从图中可以看出,性能高度依赖于标签词频,这表明在PLM中学习的事实知识的频率对预测至关重要。
为了解决这个难题,可以利用标签词的先验信息来校准每个目标示例的预测。即,在一个实施例中,本发明还包括对于预测步骤的优化,此时,使用学习过所述上下文示例的所述PLM执行针对目标示例的测试包括:计算候选标签词或实体在输出位置上的先验概率;以及基于所述先验概率,校准所述所述PLM针对所述目标示例的测试的输出。
具体来说,可以从KQA任务中获取训练语料库的一个子集,并通过以下方式计算每个候选标签词或实体/>在输出位置的上下文先验:
其中是训练示例,P(v)示候选v的近似先验信息。在一个实施例中,可以删除先验概率小于阈值的标签词或实体v。因此,可以通过校准预测来升级输出:
大量的针对ICL的最新研究侧重于预测校准。与它们不同的是,本发明充分利用大规模语料库中的先验知识来去偏,而不是仅利用域内数据或设计与任务无关的无上下文输入(例如,“N/A”)。
图9出了根据本发明一个实施例的KICT框架的示意图。该KICT框架可以看作是上述描述的大规模PLM操作方法的一个优选实施例。根据图2的实验表明,事实知识对ICL有重大影响。这表明可以充分利用这些知识来提升ICL中各个过程的性能,包括预训练、提示和预测。为了实现这一目标,本发明引入了KICT,这是一种新颖的知识性上下文调整(Knowledgeable In-Context Tuning)框架,可以更好地利用知识释放PLM的潜能来生成答案。在此框架中,引入了知识性预训练(KPT),其带有三个精心设计的自我监督任务MEP、EDG和KQA从预训练语料库和知识库(知识图片)中获取信息,用以将事实知识注入PLM。然后,在提示阶段,提出了一种知识性的示例检索(KER)算法,以明智地选择与知识相关的上下文示例。最后,知识性预测校准技术(KPC)用于从知识库推导出的先验信息校准预测分布。图8的左图、中图和右图分别对应于预训练的自监督学习任务(KPT)、知识性示例检索(KER)的提示步骤和从大规模语料库中获取先验信息来校准预测(KPC)的预测步骤。这三个模块是即插即用的知识性技术,可以单独使用,也可以彼此结合,以从整体提升大规模PLM的性能。
本发明首次提出了面向大规模PLM的知识预训练算法,使得大规模PLM能充分学习到各种知识,为构建应用于各个领域的大规模知识GPT模型奠定基础。为此,本发明还可以实现为一种交互系统。图10示出了根据本发明一个实施例的交互系统的组成示意图。如图所示,系统1000包括服务器1010、数据库1020和客户端1030。数据库1020中存储有大规模PLM和知识库。服务器1010用于根据特定领域实体知识执行如上所述的操作方法,获取特定知识领域增强的大规模预训练语言模型。客户端1020用于获取用户针对特定知识领域的查询信息,并将所述查询信息提交所述服务器1010。所述服务器将所述查询信息送入所述特定知识领域增强的大规模预训练语言模型,并将模型生成的输出返回给客户端。
图11示出了根据本发明一实施例可用于实现上述大规模PLM操作方法的计算设备的结构示意图。参见图11,计算设备11100包括存储器1110和处理器1120。
处理器1120可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器920可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器920可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器1110可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器1120或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1110可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1110可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1110上存储有可执行代码,当可执行代码被处理器1120处理时,可以使处理器1120执行上文述及的大规模PLM操作方法。
上文中已经参考附图详细描述了根据本发明的大规模PLM操作方法和交互系统。
本申请引入了一种新颖的知识性上下文调整框架(Knowledgeable In-ContextTuning,KICT)框架,用于在如下方面进一步提高ICL的性能:1)在持续的自我监督预训练过程中向PLM注入知识,2)明智地选择具有高知识相关性的例子,3)根据先验知识校准预测结果。发明人评估了所提出的方法在自回归模型上针对多文本分类和问答任务的表现。实验结果表明,KICT大大优于强基线,在文本分类和问答任务上分别提高了13%和7%以上。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (13)
1.一种针对大规模预训练语言模型PLM的提示学习方法,包括:
构造上下文示例并送入经预训练的所述PLM用于提示学习;以及
使用学习过所述上下文示例的所述PLM执行针对目标示例的测试,
其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调,以获取预训练的所述PLM。
2.如权利要求1所述的方法,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调还包括:
将分类标签作为特殊实体进行所述实体知识注入。
3.如权利要求1所述的方法,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:
使用掩码实体预测任务对所述PLM的参数进行微调,其中,所述掩码实体预测任务对输入文本中的实体进行掩码,并且基于所述PLM输出的实体标记与被掩码实体对应的真实实体标记之间差异产生的损失对所述PLM的参数进行微调。
4.如权利要求1所述的方法,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:
使用实体描述生成任务对所述PLM的参数进行微调,其中,所述实体描述生成任务用于:
构造包括实体模板、输入文本中的所有实体和文本模板的前缀文本,并将原始文本作为后缀文本;
对后缀文本中的实体进行掩码;
基于所述所述PLM针对给定实体输出的文本表述与原始文本之间差异产生的损失对所述PLM的参数进行微调。
5.如权利要求1所述的方法,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:
使用知识问答任务对所述PLM的参数进行微调,其中,所述知识问答任务用于:
对输入文本中的实体进行掩码;
基于知识库构造包含被掩码实体的三元组;
将所述三元组的信息转换为预测所述三元组中另一个实体的问题;
基于所述PLM输出的答案标记与所述另一个实体对应标记之间差异产生的损失对所述PLM的参数进行微调。
6.如权利要求3-5中任一项所述的方法,其中,使用将实体知识注入所述PLM的预训练任务对所述PLM的参数进行微调包括:
从同一任务中随机选择多个示例来形成训练实例,直到达到最大序列长度;、
计算所述PLM输出的掩码标记与被掩码实体对应标记之间的交叉熵损失;
根据所述交叉熵损失对所述PLM的参数进行微调。
7.如权利要求1所述的方法,其中,构造上下文示例并送入经预训练的所述PLM用于提示学习包括:
确定训练集和目标集中所包含的实体;
从所述训练集中检索优选训练例,所述优选训练例相比于其他训练例包含更多的目标集中实体;以及
利用检索出的所述优选训练集构造所述上下文示例。
8.如权利要求7所述的方法,其中,从训练集中检索优选训练例包括:
计算所述训练集和所述目标集的语义空间差,所述语义空间差表征所述训练集和所述目标集各自实体平均表示之间的距离;
利用所述语义空间差计算所述训练集中的训练例和所述目标集中的目标例之间的知识相关性;
基于所述知识相关性确定所述训练集中每个训练例的采样权重;以及
根据所述采样权重从所述训练集中选择所述优选训练例。
9.如权利要求1所述的方法,其中,使用学习过所述上下文示例的所述PLM执行针对目标示例的测试包括:
计算候选标签词或实体在输出位置上的先验概率;以及
基于所述先验概率,校准所述所述PLM针对所述目标示例的测试的输出。
10.一种交互系统,包括:
服务器,用于根据特定领域实体知识执行如权利要求1-9中任一项所述的提示学习方法,获取特定知识领域增强的大规模预训练语言模型;以及
客户端,用于获取用户针对特定知识领域的查询信息,并将所述查询信息提交所述服务器,
其中,所述服务器将所述查询信息送入所述特定知识领域增强的大规模预训练语言模型,并将模型生成的输出返回给客户端。
11.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至9中任何一项所述的方法。
12.一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至9中任何一项所述的方法。
13.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至9中任何一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320539.4A CN116629345A (zh) | 2023-03-27 | 2023-03-27 | 针对大规模预训练语言模型的提示学习方法和交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320539.4A CN116629345A (zh) | 2023-03-27 | 2023-03-27 | 针对大规模预训练语言模型的提示学习方法和交互系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116629345A true CN116629345A (zh) | 2023-08-22 |
Family
ID=87590848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310320539.4A Pending CN116629345A (zh) | 2023-03-27 | 2023-03-27 | 针对大规模预训练语言模型的提示学习方法和交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629345A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860980A (zh) * | 2023-09-04 | 2023-10-10 | 中国人民解放军总医院第六医学中心 | 一种实时手术反馈分类方法及系统 |
CN116977796A (zh) * | 2023-09-25 | 2023-10-31 | 中国科学技术大学 | 零样本图像识别方法、系统、设备及存储介质 |
CN117875273A (zh) * | 2024-03-13 | 2024-04-12 | 中南大学 | 基于大型语言模型的新闻摘要自动生成方法、设备及介质 |
-
2023
- 2023-03-27 CN CN202310320539.4A patent/CN116629345A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860980A (zh) * | 2023-09-04 | 2023-10-10 | 中国人民解放军总医院第六医学中心 | 一种实时手术反馈分类方法及系统 |
CN116860980B (zh) * | 2023-09-04 | 2024-01-26 | 中国人民解放军总医院第六医学中心 | 一种实时手术反馈分类方法及系统 |
CN116977796A (zh) * | 2023-09-25 | 2023-10-31 | 中国科学技术大学 | 零样本图像识别方法、系统、设备及存储介质 |
CN116977796B (zh) * | 2023-09-25 | 2024-02-23 | 中国科学技术大学 | 零样本图像识别方法、系统、设备及存储介质 |
CN117875273A (zh) * | 2024-03-13 | 2024-04-12 | 中南大学 | 基于大型语言模型的新闻摘要自动生成方法、设备及介质 |
CN117875273B (zh) * | 2024-03-13 | 2024-05-28 | 中南大学 | 基于大型语言模型的新闻摘要自动生成方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaddour et al. | Challenges and applications of large language models | |
Xu et al. | Enhancing key-value memory neural networks for knowledge based question answering | |
Ye et al. | Compositional exemplars for in-context learning | |
Gu et al. | Insertion-based decoding with automatically inferred generation order | |
Du et al. | Shortcut learning of large language models in natural language understanding | |
Nguyen et al. | End-to-end neural relation extraction using deep biaffine attention | |
Lukovnikov et al. | Pretrained transformers for simple question answering over knowledge graphs | |
Yavuz et al. | Improving semantic parsing via answer type inference | |
CN116629345A (zh) | 针对大规模预训练语言模型的提示学习方法和交互系统 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
Tamkin et al. | Dabs: A domain-agnostic benchmark for self-supervised learning | |
Fu et al. | Natural answer generation with heterogeneous memory | |
Xie et al. | Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments | |
CN114936287A (zh) | 预训练语言模型的知识注入方法和相应的交互系统 | |
Liu et al. | Uamner: uncertainty-aware multimodal named entity recognition in social media posts | |
Major et al. | Utility of general and specific word embeddings for classifying translational stages of research. | |
Patil et al. | Visual question generation: The state of the art | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
Yi et al. | Exploring hierarchical graph representation for large-scale zero-shot image classification | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
CN113468323A (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
KR20240128104A (ko) | 언어 모델 신경망을 사용하여 인라인 증거를 갖는 출력 시퀀스 생성 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
Sun et al. | An approach to helping developers learn open source projects based on machine learning | |
Mücke et al. | Fine-Tuning Language Models for Scientific Writing Support |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |