CN115982363A - 基于提示学习的小样本关系分类方法、系统、介质及电子设备 - Google Patents

基于提示学习的小样本关系分类方法、系统、介质及电子设备 Download PDF

Info

Publication number
CN115982363A
CN115982363A CN202310036913.8A CN202310036913A CN115982363A CN 115982363 A CN115982363 A CN 115982363A CN 202310036913 A CN202310036913 A CN 202310036913A CN 115982363 A CN115982363 A CN 115982363A
Authority
CN
China
Prior art keywords
entity
prompt
category
prototype
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310036913.8A
Other languages
English (en)
Inventor
张河萍
方志军
邵晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Engineering Science
Original Assignee
Shanghai University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Engineering Science filed Critical Shanghai University of Engineering Science
Priority to CN202310036913.8A priority Critical patent/CN115982363A/zh
Publication of CN115982363A publication Critical patent/CN115982363A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于提示学习的小样本关系分类方法、系统、介质及电子设备;所述方法包括以下步骤:构建实体类别待预测词,设置标签词集及获取特征向量编码;构建实体类别模版;计算得到第一隐藏向量;获取提示模版;计算得到第二隐藏向量;本发明提出从训练数据中建立合适的关系标签词,以较低的训练成本持续提高分类性能,在现实环境中,只提供有限数量的样本,和实体类别的集合,该方法可自动的将实体与实体类别相匹配,得到包含更多信息的提示,关系目标标签词由于数量较多,为减轻计算复杂度,训练一个原型网络来代替,其中目标词与类别匹配度越高,准确率就越高,简单便于操作而且分类迅速。

Description

基于提示学习的小样本关系分类方法、系统、介质及电子设备
技术领域
本发明涉及物理领域,尤其属于涉及自然语言处理技术,特别是一种基于提示学习的小样本关系分类方法、系统、介质及电子设备。
背景技术
关系分类作为自然语言处理中的一个重要问题,其目的是提取句子中实体之间的关系,并可应用于其他高级任务,可以对句子中实体对之间的语义关系进行分类,关系分类属于针对限定类别的关系抽取问题。传统的关系分类是在标准的监督学习系统下训练的,需要大量的标记实例。因此,出现了一个具有挑战性的任务,即小样本关系分类。
然而,由于不同语言、领域和人类注释的成本,在现实世界的应用中,标注过的例子数量通常非常少。因此,传统的有监督的学习,使用少量的标记数据,很难达到令人满意的性能。因此,出现了一个具有挑战性的任务即小样本关系分类任务,小样本关系分类是利用极少量的标注数据训练模型,使得模型可以快速学习到关系类别的特征,从而对只有少量样本进行准确性分类。
在小样本关系分类领域中,大致分为两个方向,一个方向是基于元学习的小样本关系分类,另一种是广义的小样本关系分类。基于元学习的小样本关系分类,受计算机视觉(CV)社区中小样本学习的成功启发,提出匹配网络,目前的计算机识别需要依赖大量的标注数据,但是人能够只通过几张图像就快速学习到一个新概念。即测试阶段,对于没有见过的类别只有少数几个标注样本的情况下,如何快速的学习这个概念,进行识别。之后在关系抽取领域,谷歌提出了预训练匹配空白方法,通过关系学习的分布相似性,即其中两个关系共享相同的两个实体,那么这两个关系的相似度越大。论文的假设与远程监督关系抽取的假设类似:如果两个句子中包含相同的实体对,那么它们可能表示相同的关系。广义的小样本关系分类,只依赖少量的标记数据来训练模型,我们的工作是按照更实用和更具挑战性的广义小样本设置进行实验。
基于元学习的小样本关系分类,给定大规模标记基类训练数据和具有少量标记实例的新的分类数据,任务需要从基类中学习广义表示,然后将这些表示适应新分类。在过去的几年中,从预训练模型中获得输入实例的文本序列的表示,在给定的少量标记实例的新的分类数据训练得到微调分类器,微调中分类器的参数是随机初始化的,因此微调标注数据较少的场景,有很高的过拟合风险。当预训练任务与下游任务不同时,预训练模型的能力得不到充分的利用,于是许多人应用元学习策略致力于提高模型的泛化能力,而不是直接从有限的标记数据中学习。
发明内容
本发明的目的在于提供一种基于提示学习的小样本关系分类方法、系统、介质及电子设备,用于解决上述背景技术中提出的问题。
为实现上述目的及其他相关目的,本发明提供一种基于提示学习的小样本关系分类方法,包括以下步骤:步骤一、根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码;所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体;步骤二、构建实体类别模版;所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系;步骤三、使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量;所述第一隐藏向量包括每一所述实体的类别信息;步骤四、将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版;步骤五、将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类;所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。
于本发明的一实施例中,所述标签词集、所述提示模版、所述输入实例及所述提示输入分别形式化为:
V={"person","organization",…};
T(·)es=the[MASK]eses
T(·)eo=the[MASK]eoeo
Figure BDA0004049121590000023
Figure BDA0004049121590000021
Figure BDA0004049121590000022
其中,x表示所述输入实例;w1、w2、wt均表示所述输入实例中的词,共有t个;es表示所述头实体;eo表示所述尾实体;
Figure BDA0004049121590000031
分别表示所述头实体的开始位置标记和结束位置标记;
Figure BDA0004049121590000032
分别表示所述尾实体的开始位置标记和结束位置标记;T(·)表示所述提示模版;[MASK]表示所述实体类别待预测词;V表示所述标签词集;T(x)表示所述提示输入。
于本发明的一实施例中,所述步骤三形式化为:把输入进所述Roberta预训练语言模型最后一层的[MASK]标记的隐藏状态h[MASK]作为所述第一隐藏向量表示为:
Figure BDA0004049121590000033
其中,Mφ(·)表示以φ为参数的Roberta预训练语言模型,u表示所述第一隐藏向量;W表示经训练得到的矩阵。
于本发明的一实施例中,所述步骤四形式化为:
[typees],[typeeo]∈V;
T(·)=[typees]es[MASK][typeeo]eo
Figure BDA0004049121590000034
其中,[typees]、[typeeo]分别表示所述头实体的类别和所述尾实体的类别。
于本发明的一实施例中,所述原型表示为:
C={c1,…,cN};
其中,C表示所述原型,共有N个类别;所述学习所述第二隐藏向量的原型包括:通过对比学习定义目标函数,并利用所述输入实例表示相似度函数,获取所述原型;其中,
所述相似度函数表示为:
Figure BDA0004049121590000035
损失函数表示为:
Figure BDA0004049121590000036
其中,
Figure BDA0004049121590000037
表示类别n的输入实例;
Figure BDA0004049121590000038
表示类别n的输入实例的原型;
Figure BDA0004049121590000039
表示类别n的输入实例的嵌入对;k表示其他类别;
Figure BDA00040491215900000310
Figure BDA0004049121590000041
Figure BDA0004049121590000042
其中,
Figure BDA0004049121590000043
表示所述目标函数;λ1、λ2、λ3分别表示预设参数;cn表示类别n的原型;
Figure BDA0004049121590000044
靠近类别n,远离其他类别的原型ck;cn靠近类别n,远离其他类别的原型
Figure BDA0004049121590000045
于本发明的一实施例中,所述将所述原型映射到对应的标签,以实现分类包括:计算所述第一隐藏向量与不同类别的所述原型之间的相似度,得到与所述第一隐藏向量相似度最大的原型,以实现分类;其中,所述相似度的计算公式为:
Figure BDA0004049121590000046
Figure BDA0004049121590000047
表示所述相似度;
利用argmax函数获取与所述第一隐藏向量相似度最大的原型:
Figure BDA0004049121590000048
输出的分类概率表示为:
Figure BDA0004049121590000049
其中,g表示将标签的概率转换为类别的概率的函数;P(y∣x)表示所述分类概率。
本发明提供一种基于提示学习的小样本关系分类系统,包括:第一构建模块、第二构建模块、第一计算模块、聚合获取模块及第二计算模块;所述第一构建模块用于根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码;所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体;所述第二构建模块用于构建实体类别模版;所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系;所述第一计算模块用于使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量;所述第一隐藏向量包括每一所述实体的类别信息;所述聚合获取模块用于将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版;所述第二计算模块用于将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类;所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。
本发明提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于提示学习的小样本关系分类方法。
本发明提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的基于提示学习的小样本关系分类方法。
如上所述,本发明所述的基于提示学习的小样本关系分类方法、系统、介质及电子设备,具有以下有益效果:
(1)与现有技术相比,本发明提出了Roberta预训练语言模型的新范式,提示调整,用于缩小预训练与下游任务的差距,将下游任务转化为与预训练过程一致的格式,直接从有限的标记数据中学习。
(2)本发明提出一个新颖的基于提示学习的小样本关系分类方法,通过一种提示学习和对比学习来提高关系分类任务的性能;通过设计简单实体类型提示,然后聚合提示,形成最终的总提示,这种方式简单便于操作。
(3)本发明基于提示的原型网络将提示中标签词的概率分布视为特征,而不是使用神经模型的典型隐藏状态,它使我们的模型能够利用词汇量大的证据进行预测,而无需引入额外的成本。
(4)本发明是提供一种基于提示学习的小样本关系分类方法,通用的关系分类方法是预训练任务和在下游任务上的微调,基于提示学习的方法是解决通用方式中存在的知识利用率低的问题,通过减少预训练任务与下游分类任务之间的差距,有效的利用实例中的上下文,实体与实体类型他们之间的关系,通过建立提示的原型网络来获得特征,在不同的关系类别中获得更好的区分。
(5)本发明提出一种将输入实例中的潜在知识融合到可学习的类型词中,标签由特征空间中的原型嵌入表示,而不是由离散的单词表示,输入的掩码位置处的嵌入与原型嵌入之间的距离用作分类标准,通过对比学习优化模型。
附图说明
图1显示为本发明的基于提示学习的小样本关系分类方法于一实施例中的流程图。
图2显示为本发明的基于提示学习的小样本关系分类方法于一实施例中的原理图。
图3显示为本发明的获取类别的原型于一实施例中的结构框图。
图4显示为本发明的终端于一实施例中的结构示意图。
图5显示为本发明的基于提示学习的小样本关系分类系统于一实施例中的结构示意图。
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
提示(prompt)是一种为了更好的使用预训练语言模型的知识,采用在输入段添加额外的文本的技术;提示学习就是在模型训练时加入提示模板,给预训练语言模型的一个线索/提示,帮助它可以更好的理解人类的问题,提示学习通常运用在自然语言处理领域的预训练语言模型相关任务上。
例如对于缺少大规模训练数据的长尾场景,快速图片分类可以通过使用小样本数据进行训练就达到一个相当可观的准确率,解决缺少数据无法训练分类模型的痛点。
本申请提示调整的挑战在于构建一个合适的模版和标签词集合,他们统称为提示。基于提示学习的关系分类面临的挑战为,一方面,关系分类确定合适的提示模板需要领域的专业知识,用输入实体自动构建一个高性能的提示往往需要额外的计算成本来生成和验证;另一方面,标签词搜索过程的计算复杂性随着类别数量的增多而发生指数级的增加。
如图1和图2所示,于一实施例中,本发明的基于提示学习的小样本关系分类方法包括以下步骤:
步骤S1、根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码。
于本实施例中,所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体。
步骤S2、构建实体类别模版。
于一实施例中,所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系。
步骤S3、使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量。
具体地,所述第一隐藏向量包括每一所述实体的类别信息。
Roberta(A Robustly Optimized BERT Pretraining Approach)预训练语言模型,采用的是领域内常规的技术手段,其具体工作原理可参见网址:https://zhuanlan.zhihu.com/p/164610978?utm_medium=social&utm_oi=855393306908188672&utm_content=sec。
步骤S4、将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版。
为了更好的描述实体,这里使用关系三元组概念来描述一个关系性事实,由于实体类型与关系标签之间存在密切的互动和联系,由实例中的上下文信息为实体添加类别信息。
具体地,关系三元组为(头实体,关系,尾实体)。
步骤S5、将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类。
具体地,所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。
如图2所示,于一实施例中,所述标签词集、所述提示模版、所述输入实例及所述提示输入分别形式化为:
V={"person","organization",…};
T(·)es=the[MASK]eses
T(·)eo=the[MASK]eoeo
Figure BDA0004049121590000071
Figure BDA0004049121590000072
Figure BDA0004049121590000073
其中,x表示所述输入实例;w1、w2、wt均表示所述输入实例中的词,共有t个;es表示所述头实体;eo表示所述尾实体;
Figure BDA0004049121590000074
分别表示所述头实体的开始位置标记和结束位置标记;
Figure BDA0004049121590000075
分别表示所述尾实体的开始位置标记和结束位置标记;T(·)表示所述提示模版(T(·)es表示头实体的提示模板;T(·)eo表示尾实体的提示模板);[MASK]表示所述实体类别待预测词;V表示所述标签词集;T(x)或
Figure BDA0004049121590000081
表示所述提示输入(T(x)es
Figure BDA0004049121590000082
表示头实体的提示输入;T(x)eo
Figure BDA0004049121590000083
表示尾实体的提示输入)。
如图2所示,于一实施例中,所述步骤S3形式化为:把输入进所述Roberta预训练语言模型最后一层的[MASK]标记的隐藏状态h[MASK]作为所述第一隐藏向量表示为:
Figure BDA0004049121590000084
其中,Mφ(·)表示以φ为参数的Roberta预训练语言模型,u表示所述第一隐藏向量;W表示经训练得到的矩阵。
如图2所示,于一实施例中,所述步骤S4形式化为:
[typees],[typeeo]∈V;
T(·)=[typees]es[MASK][typeeo]eo
Figure BDA0004049121590000085
其中,[typees]、[typeeo]分别表示所述头实体的类别和所述尾实体的类别。
于一实施例中,所述原型表示为:
C={c1,…,cN};
其中,C表示所述原型,共有N个类别。
于一实施例中,所述学习所述第二隐藏向量的原型包括:通过对比学习定义目标函数,并利用所述输入实例表示相似度函数,获取所述原型;其中,
所述相似度函数表示为:
Figure BDA0004049121590000086
1)相同类别的实例嵌入对应该比不同类别的实例嵌入对获得更高的相似度分数。为达到拉近类内样本,拉开类间距离的目的我们定义以下损失函数:
Figure BDA0004049121590000087
其中,
Figure BDA0004049121590000088
表示类别n的输入实例;
Figure BDA0004049121590000089
表示类别n的输入实例的原型;
Figure BDA00040491215900000810
表示类别n的输入实例的嵌入对;k表示其他类别。
2)如图3所示,对于实例与原型之间的关系,我们希望学习到的原型嵌入;例如,类别为n的实例
Figure BDA0004049121590000091
靠近该类别的原型嵌入,远离其他类别的原型嵌入ck;类别为n的原型嵌入cn靠近该类别所对应的实例
Figure BDA0004049121590000092
同时远离与它有不同类别的的其他嵌入
Figure BDA0004049121590000093
以下两个目标函数用于学习提示输入实例原型:
Figure BDA0004049121590000094
Figure BDA0004049121590000095
上述三个函数
Figure BDA0004049121590000096
与超参数λ1、λ2、λ3结合起来,得到最终的目标函数为:
Figure BDA0004049121590000097
其中,
Figure BDA0004049121590000098
表示所述目标函数;λ1、λ2、λ3分别表示预设参数;cn表示类别n的原型;
Figure BDA0004049121590000099
靠近类别n,远离其他类别的原型ck;cn靠近类别n,远离其他类别的原型
Figure BDA00040491215900000910
于一实施例中,所述将所述原型映射到对应的标签,以实现分类包括:计算所述第一隐藏向量与不同类别的所述原型之间的相似度,得到与所述第一隐藏向量相似度最大的原型,以实现分类;其中,所述相似度的计算公式为:
Figure BDA00040491215900000911
Figure BDA00040491215900000912
表示所述相似度;
于一实施例中,利用argmax函数获取与所述第一隐藏向量相似度最大的原型:
Figure BDA00040491215900000913
输出的分类概率表示为:
Figure BDA00040491215900000914
其中,g表示将标签的概率转换为类别的概率的函数;P(y∣x)表示所述分类概率。
本发明提出一个新颖的基于提示学习的小样本关系分类方法,提示学习是将输入实例包装成一个完形填空问题,输入到预训练语言模型中使其填充掩码标记,最后将填充的标记映射到对应标签上作为最终输出。设计一个结合实体提及和类别信息的面向实体的模版,提出从训练数据中建立合适的关系标签词,以较低的训练成本持续提高分类性能,在现实环境中,只提供有限数量的样本,和实体类别的集合,该方法可自动的将实体与实体类别相匹配,得到包含更多信息的提示,关系目标标签词由于数量较多,为减轻计算复杂度,训练一个原型网络来代替,其中目标词与类别匹配度越高,准确率就越高,简单便于操作而且分类迅速。
需要说明的是,本发明所述的基于提示学习的小样本关系分类方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于提示学习的小样本关系分类方法。所述存储介质包括:只读存储器(Read-OnlyMemory,ROM)、随机访问存储器(Random Access Memory,RAM)、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
本发明的电子设备包括处理器及存储器。
所述存储器用于存储计算机程序;优选地,所述存储器包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的基于提示学习的小样本关系分类方法。
优选地,所述处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
于一实施例中,电子设备包括终端和/或服务器。
图4示出了适于用来实现本发明实施方式的示例性终端4的框图。
图4显示的终端4仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,终端4以通用计算设备的形式表现。终端4的组件可以包括但不限于:一个或者多个处理器或者处理单元41,存储器42,连接不同系统组件(包括存储器42和处理单元41)的总线43。
总线43表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,简称ISA)总线,微通道体系结构(Micro Channel Architecture,简称MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,简称VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,简称PCI)总线。
终端4典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端4访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器42可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)421和/或高速缓存存储器422。终端4可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统423可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线43相连。存储器42可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块4241的程序/实用工具424,可以存储在例如存储器42中,这样的程序模块4241包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4241通常执行本发明所描述的实施例中的功能和/或方法。
终端4也可以与一个或多个外部设备5(例如键盘、指向设备、显示器6等)通信,还可与一个或者多个使得用户能与该终端4交互的设备通信,和/或与使得该终端4能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口44进行。并且,终端4还可以通过网络适配器45与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器45通过总线43与终端4的其它模块通信。应当明白,尽管图中未示出,可以结合终端4使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
如图5所示,于一实施例中,本发明的基于提示学习的小样本关系分类系统包括第一构建模块51、第二构建模块52、第一计算模块53、聚合获取模块54及第二计算模块55。
所述第一构建模块51用于根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码;所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体。
所述第二构建模块52用于构建实体类别模版;所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系。
所述第一计算模块53用于使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量;所述第一隐藏向量包括每一所述实体的类别信息。
所述聚合获取模块54用于将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版。
所述第二计算模块55用于将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类;所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。
需要说明的是,所述第一构建模块51、所述第二构建模块52、所述第一计算模块53、所述聚合获取模块54及所述第二计算模块55的结构及原理与上述基于提示学习的小样本关系分类方法中的步骤(步骤S1~S5)一一对应,故在此不再赘述。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip,简称SOC)的形式实现。
需要说明的是,本发明的基于提示学习的小样本关系分类系统可以实现本发明的基于提示学习的小样本关系分类方法,但本发明的基于提示学习的小样本关系分类方法的实现装置包括但不限于本实施例列举的基于提示学习的小样本关系分类系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明的基于提示学习的小样本关系分类方法、系统、介质及电子设备,与现有技术相比,本发明提出了Roberta预训练语言模型的新范式,提示调整,用于缩小预训练与下游任务的差距,将下游任务转化为与预训练过程一致的格式,直接从有限的标记数据中学习;本发明提出一个新颖的基于提示学习的小样本关系分类方法,通过一种提示学习和对比学习来提高关系分类任务的性能;通过设计简单实体类型提示,然后聚合提示,形成最终的总提示,这种方式简单便于操作;本发明基于提示的原型网络将提示中标签词的概率分布视为特征,而不是使用神经模型的典型隐藏状态,它使我们的模型能够利用词汇量大的证据进行预测,而无需引入额外的成本;本发明是提供一种基于提示学习的小样本关系分类方法,通用的关系分类方法是预训练任务和在下游任务上的微调,基于提示学习的方法是解决通用方式中存在的知识利用率低的问题,通过减少预训练任务与下游分类任务之间的差距,有效的利用实例中的上下文,实体与实体类型他们之间的关系,通过建立提示的原型网络来获得特征,在不同的关系类别中获得更好的区分;本发明提出一种将输入实例中的潜在知识融合到可学习的类型词中,标签由特征空间中的原型嵌入表示,而不是由离散的单词表示,输入的掩码位置处的嵌入与原型嵌入之间的距离用作分类标准,通过对比学习优化模型;所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (9)

1.一种基于提示学习的小样本关系分类方法,其特征在于,包括以下步骤:
步骤一、根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码;所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体;
步骤二、构建实体类别模版;所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系;
步骤三、使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量;所述第一隐藏向量包括每一所述实体的类别信息;
步骤四、将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版;
步骤五、将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类;所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。
2.根据权利要求1所述的基于提示学习的小样本关系分类方法,其特征在于,所述标签词集、所述提示模版、所述输入实例及所述提示输入分别形式化为:
V={″person″,″organization″,...};
T(·)es=the[MASK]eses
T(·)eo=the[MASK]eoeo
Figure FDA0004049121580000011
Figure FDA0004049121580000012
Figure FDA0004049121580000013
其中,x表示所述输入实例;w1、w2、wt均表示所述输入实例中的词,共有t个;es表示所述头实体;eo表示所述尾实体;
Figure FDA0004049121580000014
分别表示所述头实体的开始位置标记和结束位置标记;
Figure FDA0004049121580000015
分别表示所述尾实体的开始位置标记和结束位置标记;T(·)表示所述提示模版;[MASK]表示所述实体类别待预测词;V表示所述标签词集;T(x)表示所述提示输入。
3.根据权利要求2所述的基于提示学习的小样本关系分类方法,其特征在于,所述步骤三形式化为:
把输入进所述Roberta预训练语言模型最后一层的[MASK]标记的隐藏状态h[MASK]作为所述第一隐藏向量表示为:
Figure FDA0004049121580000021
其中,Mφ(·)表示以φ为参数的Roberta预训练语言模型,u表示所述第一隐藏向量;W表示经训练得到的矩阵。
4.根据权利要求3所述的基于提示学习的小样本关系分类方法,其特征在于,所述步骤四形式化为:
[typees],[typeeo]∈V;
T(·)=[typees]es[MASK][typeeo]eo
Figure FDA0004049121580000022
其中,[typees]、[typeeo]分别表示所述头实体的类别和所述尾实体的类别。
5.根据权利要求4所述的基于提示学习的小样本关系分类方法,其特征在于,所述原型表示为:
C={c1,…,cN};
其中,C表示所述原型,共有N个类别;
所述学习所述第二隐藏向量的原型包括:通过对比学习定义目标函数,并利用所述输入实例表示相似度函数,获取所述原型;其中,
所述相似度函数表示为:
Figure FDA0004049121580000023
损失函数表示为:
Figure FDA0004049121580000024
其中,
Figure FDA0004049121580000025
表示类别n的输入实例;
Figure FDA0004049121580000026
表示类别n的输入实例的原型;
Figure FDA0004049121580000027
表示类别n的输入实例的嵌入对;k表示其他类别;
Figure FDA0004049121580000028
Figure FDA0004049121580000031
Figure FDA0004049121580000032
其中,
Figure FDA0004049121580000033
表示所述目标函数;λ1、λ2、λ3分别表示预设参数;cn表示类别n的原型;
Figure FDA0004049121580000034
靠近类别n,远离其他类别的原型ck;cn靠近类别n,远离其他类别的原型
Figure FDA0004049121580000035
6.根据权利要求5所述的基于提示学习的小样本关系分类方法,其特征在于,所述将所述原型映射到对应的标签,以实现分类包括:计算所述第一隐藏向量与不同类别的所述原型之间的相似度,得到与所述第一隐藏向量相似度最大的原型,以实现分类;其中,所述相似度的计算公式为:
Figure FDA0004049121580000036
Figure FDA0004049121580000037
表示所述相似度;
利用argmax函数获取与所述第一隐藏向量相似度最大的原型:
Figure FDA0004049121580000038
输出的分类概率表示为:
Figure FDA0004049121580000039
其中,g表示将标签的概率转换为类别的概率的函数;P(y|x)表示所述分类概率。
7.一种基于提示学习的小样本关系分类系统,其特征在于,包括:第一构建模块、第二构建模块、第一计算模块、聚合获取模块及第二计算模块;
所述第一构建模块用于根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码;所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体;
所述第二构建模块用于构建实体类别模版;所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系;
所述第一计算模块用于使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量;所述第一隐藏向量包括每一所述实体的类别信息;
所述聚合获取模块用于将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版;
所述第二计算模块用于将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类;所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于提示学习的小样本关系分类方法。
9.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至6中任一项所述的基于提示学习的小样本关系分类方法。
CN202310036913.8A 2023-01-10 2023-01-10 基于提示学习的小样本关系分类方法、系统、介质及电子设备 Pending CN115982363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310036913.8A CN115982363A (zh) 2023-01-10 2023-01-10 基于提示学习的小样本关系分类方法、系统、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310036913.8A CN115982363A (zh) 2023-01-10 2023-01-10 基于提示学习的小样本关系分类方法、系统、介质及电子设备

Publications (1)

Publication Number Publication Date
CN115982363A true CN115982363A (zh) 2023-04-18

Family

ID=85957858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310036913.8A Pending CN115982363A (zh) 2023-01-10 2023-01-10 基于提示学习的小样本关系分类方法、系统、介质及电子设备

Country Status (1)

Country Link
CN (1) CN115982363A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117689961A (zh) * 2024-02-02 2024-03-12 深圳大学 视觉识别模型训练、视觉识别方法、系统、终端及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117689961A (zh) * 2024-02-02 2024-03-12 深圳大学 视觉识别模型训练、视觉识别方法、系统、终端及介质
CN117689961B (zh) * 2024-02-02 2024-05-07 深圳大学 视觉识别模型训练、视觉识别方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
CN112949415B (zh) 图像处理方法、装置、设备和介质
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN111738016A (zh) 多意图识别方法及相关设备
WO2023241410A1 (zh) 数据处理方法、装置、设备及计算机介质
WO2023236977A1 (zh) 一种数据处理方法及相关设备
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
WO2024067276A1 (zh) 用于确定视频的标签的方法、装置、设备及介质
CN114416995A (zh) 信息推荐方法、装置及设备
WO2022095370A1 (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN115982363A (zh) 基于提示学习的小样本关系分类方法、系统、介质及电子设备
CN117540221B (zh) 图像处理方法和装置、存储介质及电子设备
Belharbi et al. Deep neural networks regularization for structured output prediction
CN114639109A (zh) 一种图像处理方法、装置、电子设备和存储介质
US20230215203A1 (en) Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium
WO2023178979A1 (zh) 问题标注方法、装置、电子设备及存储介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN115132372A (zh) 术语处理方法、装置、电子设备、存储介质及程序产品
WO2023092719A1 (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
CN115204120B (zh) 保险领域三元组抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination