CN114528383A

CN114528383A - 基于对比学习的预训练语言模型处理方法和智能问答系统

Info

Publication number: CN114528383A
Application number: CN202111646422.2A
Authority: CN
Inventors: 汪诚愚; 徐子云; 邱明辉; 黄�俊
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-24

Abstract

公开了一种基于对比学习的预训练语言模型处理方法和智能问答系统。所述方法包括：向样本添加提示占位符和掩码输出占位符以得到经处理的训练样本；将所述经处理的训练样本输入所述预训练语言模型PLM，以得到对掩码输出进行连续化表征的嵌入；以及以第一损失函数对所述PLM的神经网络进行调整，所述第一损失函数用于最小化同类样本的嵌入的组内距离，最大化非同类样本的嵌入的组间距离。本发明基于对比学习的思路，使得正负例在损失函数的约束下彼此远离，从而能够在不增添任何新参数以及避免人为设置任何模板和标签词的情况下实现高效的小样本学习。配备了基于此方法获取模型的智能问答系统能够获取良好的问题匹配能力。

Description

基于对比学习的预训练语言模型处理方法和智能问答系统

技术领域

本公开涉及深度学习领域，尤其涉及一种基于对比学习的预训练语言模型处理方法，以及配备了由此方法获取模型的智能问答系统。

背景技术

在特定自然语言处理任务上要取得高精度预测结果，通常需要使用大量带标签的数据来训练预训练模型。但大量带标签的数据会使得训练成本过高。为此开发出的小样本学习技术可以使预训练语言模型在少量训练样本的条件下进行训练，从而用较低的训练成本实现较高的预测精确度。

然而在现有的小样本学习技术中，仍然需要大量人工操作来设置训练模板、标签词并增添新的参数。上述操作使得训练过程变得繁琐并使得训练效果变得不稳定。

为此，需要一种改进的用于小样本学习的技术。

发明内容

本公开要解决的一个技术问题是提供一种基于对比学习的预训练语言模型处理方法。本发明基于对比学习的思路，使得正负例在损失函数的约束下彼此远离，从而能够在不增添任何新参数以及避免人为设置任何模板和标签词的情况下实现高效的小样本学习。配备了由此方法获取模型的智能问答系统能够获取良好的问题匹配能力。

根据本公开的第一个方面，提供了一种基于对比学习的预训练语言模型处理方法，包括：向样本添加提示占位符和掩码输出占位符以得到经处理的训练样本；将所述经处理的训练样本输入所述预训练语言模型PLM，以得到对掩码输出进行连续化表征的嵌入；以及以第一损失函数对所述PLM的神经网络进行调整，所述第一损失函数用于最小化同类样本的嵌入的组内距离，最大化非同类样本的嵌入的组间距离。可选地，所述第一损失函数包括成对的松弛因子来约束不同类别的相距距离以及类内的相似程度。

可选地，所述方法还包括：对样本中的词进行掩码处理，以获取带掩码文本占位符的经处理的训练样本；获取所述PLM对所述掩码文本占位符的对应预测结果；以及以第二损失函数对所述PLM的神经网络进行调整，所述第二损失函数根据所述掩码文本占位符的对应预测结果与被掩码词是否相同进行损失求取。

可选地，所述方法还包括：根据所述第一损失函数和所述第二损失函数的加权得到的总损失函数，对所述PLM的神经网络进行调整。

可选地，所述方法还包括：在针对当前训练样本集的PLM训练的当前迭代结束后，计算所有在前训练样本的嵌入，并计算每个类别的嵌入平均值作为类中心。

可选地，所述方法还包括：在推理阶段，根据PLM输出的当前嵌入与所述类中心的相似度，取得待推理数据的所属类别。

可选地，所述方法还包括：求取针对训练样本集的分类任务中每个类的类中心；以及在存储网络中存储已有的多个类各自的类中心。

可选地，所述方法还包括：将当前待训练样本集中的训练样本输入文本神经网络模型以获取用于生成提示的嵌入；将所述用于生成提示的嵌入与所述类中心送入注意力网络；以及获取所述注意力网络的输出作为当前待训练样本集的提示。

可选地，所述方法还包括：向样本添加提示占位符和掩码输出占位符以得到经处理的训练样本包括：针对作为句对输入的样本，在两个句子之间添加所述提示占位符和所述掩码输出占位符得到经处理的训练样本。

根据本公开的第二个方面，提供了一种智能问答系统，包括：用户输入接收单元，用于获取用户的输入问询；问题匹配单元，包括如上述第一方面所述的方法获取的预训练模型，所述模型用于将所述输入问询与已有问题相匹配；以及回答提供单元，用于将匹配的已有问题的答案提供给所述用户。

根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一方面所述的方法。

由此，本发明通过引入对比学习，避免了传统小样本学习技术中需要人工构建标签词与分类类别的映射的需求，并通过PCCL任务的设置降低了文本对于提示模版的敏感度。另外，通过使用预训练模型在softmax层之前的输出表征作为特征，最大化的保留并利用了预训练模型的语义信息，并且可以通过使用MLM作为辅助任务，减轻小样本学习中的过拟合问题。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了评论情绪分析的提示和标签选择的例子。

图2示出了根据本发明一个实施例的基于对比学习的预训练语言模型处理方法的示意性流程图。

图3示出了根据本发明一个实施例的对比学习调整方法的图示。

图4A-B示出了常规对比学习和本发明优化正例和负例分布的例子。

图5示出了根据本发明一个实施例的对比学习调整方法的图示。

图6示出了根据本发明一个实施例的对比学习调整方法的图示。

图7示出了任务自适应提示编码器的操作示意图。

图8示出了本发明训练得到的PLM用于智能问答的一个例子。

图9示出了根据本发明一实施例可用于实现上述基于对比学习的预训练语言模型处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

小样本学习是机器学习的一种范式，目的是在极小训练样本的情况下，仅仅对模型进行少量调优，得到精度较高的模型。小样本学习在带标签数据训练成本高昂的现今有着广泛的应用前景。

小样本学习技术例如可以包括：

1)基于预训练模型的调优方法(Fine-tuning)：指在已经训练好的语言模型的基础上，加入少量的任务相关的神经网络层，针对特定任务进行再次训练。例如对分类问题，以预训练语言模型(如BERT)为底座加入分类器并根据任务语料进行训练。该方法较常用于下游任务拥有较多标签数据的情况，由于需要重新初始化大量额外参数，在小样本情况下因为数据不足而结果较差。

2)PET(完形填空训练，PatternExplotingTraining)：针对小样本任务的特殊性质对下游任务重构为“完形填空问题”，将预测问题转化为MLM(掩码语言模型)问题。如对于评论情感分析问题，若需要预测“这个手机壳很不错”的情感极性。PET算法将任务改写为“这个手机壳很不错。我觉得[MASK]好。“[MASK]”字符对应预训练模型MLMhead(MLM头)的预测输出映射到实际的类别标签。如对于上述例子，若预测"很"的概率较高，则对应“正”类别，若预测"不"的概率较高，则对应“负”类别。PET算法的优势在于能够利用到了预训练模型的MLM层并且没有引入新的参数，并且能够利用人工选择的模版和标签词对模型预测进行提示，因此在小样本情境下的模型表现较好。但是其主要缺点在于模型表现对选定的模版和标签较为敏感，并且模版和标签词选定较为依赖人工经验，因此从产品层面对用户不友好。

P-Tuning(P调谐):P-tuning算法放弃了模板必须是自然语言的假设，认为通过训练连续的文本表征作为辅助输入同样能起到提示预训练模型的效果。P-tuning算法通过构建一个小型的LSTM模型学习这些用于“提示”的连续表征，发现对于GPT类预训练模型的小样本学习任务有重大提升，对于BERT类的模型也也同样适用。这一方法虽然解决了PET算法中提示模版需要人工选择的问题，但是分类问题对应的标签词依旧需要人工选择且对于模型结果影响较大；并且其他实验也表明P-tuning算法运用于BERT类的模型表现不如PET。

图1示出了评论情绪分析的提示和标签选择的例子。如图1所示，为了判定句子“Wonderful movie in every aspect(各方面都很棒的电影)”的情感类别(例如，是正性的赞赏还是负性的批评)，可以直接向输入文本添加提示“It is[MASK].”，并确定模型要预测的[MASK]可以是对应于正性标签的“good(好的)”，或是对应于负性标签的“terrible(糟糕的)”。换句话说，可以将提示模板构造为“Itis+情感属性词汇”格式，并且使用Verbalizer(语言表达器)从词汇表中对应于正性和负性情感的词汇中选择两个作为标签，在此例中为“good”和“terrible”。由此，原始的训练样本“Wonderful movie in every aspect。”可以被改造为添加了掩码提示的经处理的训练样本：“Wonderful movie in every aspect.Itis[MASK].”，该训练样本随后被送入预训练语言模型(PLM)进行训练，例如，根据PLM模型预测[MASK]是good还是terrible来进行损失函数的求取和基于反向传播的调整。

在图1所示的例子中，需要人为选择正负标签，例如，可以选择图示的“good”和“terrible”，也可以选择词汇表(例如，总词表)中其他用于表示情感属性的词，例如“awesome”和“bad”。另外，在图1的例子中，提示词“It is(它是)”也是被人为设计的。上述提示词和正负标签的选取增加了模型的不确定性，并且人工选择且对于模型结果影响较大。

为此，本发明提出了一种基于对比学习的预训练语言模型处理方法，该方法可以实现为CP-Tuning(对比学习调优)，这是一种用于PLM的端到端对比提示调优框架，无需手动设计特定于任务的提示和语言表达器。具体地，本发明包括两个主要创新：

1)任务不变的连续提示编码：本发明使用连续的嵌入(embeddings)作为提示，并且不使用任何提示编码器来避免在小样本学习期间学习额外的参数。在一个实施例中，可以将连续提示的嵌入初始化为一组任务不变标记的预训练表示，并通过反向传播使提示嵌入具有任务自适应性。

2)无语言表达器的类映射：本发明提出了无语言表达器机制，以减轻设计语言表达器的手工劳动并提高模型和提示的任务不变性的泛化能力。具体来说，引入了成对成本敏感对比损失(PCCL)来训练小样本学习器，以及作为正则化器(regularizer)的辅助掩码语言模型(MLM)任务。PCCL显式学习以区分不同的类别，并通过为简单和困难案例分配不同的成本来使决策边界更加平滑。与之前的方法相比，MLM分类器之前的实例嵌入直接用于推理。

在此，对比学习指代一种自监督的学习方法，用于在深度学习模型中提升对数据的表征学习，其核心思想为在数据的表征空间中把正样本距离拉近，把正样本与负样本距离拉远。预训练语言模型则是一类自然语言处理的模型的总称，用来学习文本的低维度实值向量表征。早期的预训练语言模型旨在利用浅层的神经网络学习词嵌入表示，这些词嵌入表示用于下游自然语言处理的各种任务；最新的预训练语言模型学习基于上下文的词嵌入表示，并且学习的模型用于在下游任务的微调。

在步骤S210，向样本添加提示占位符和掩码输出占位符以得到经处理的训练样本。在步骤S220，将所述经处理的训练样本输入所述预训练语言模型PLM，以得到对掩码输出进行连续化表征的嵌入。在步骤S230，以第一损失函数(如下所述的L_PCCL)对所述PLM的神经网络进行调整，所述第一损失函数用于最小化同类样本的嵌入的组内距离，最大化非同类样本的嵌入的组间距离。

图3示出了根据本发明一个实施例的对比学习调整方法的图示。在此，[CLS]指代文本输入头标识符，[TXT]指代原始输入文本，[PRO]指代可学习的提示，[OMSK]指代用于标签预测的掩码。进一步地，[EMB]指代用于标签预测的表征，即，连续表征的嵌入(embedding)。

在此，同样以原始文本“Wonderful movie in every aspect.”为例，不同于图1所示将“Wonderful movie in every aspect.It is[MASK].”作为训练样本送入PLM，本发明中送入PLM的是直接向原始文本添加提示占位符和掩码输出占位符的训练样本，在此例中可以是“Wonderful movie in every aspect.[PRO][PRO][OMSK].”。由于此时提示尚未被学习到，因此[PRO]对应于提示占位符；并且由于此时掩码也未被模型预测，因此[OMSK]对应于掩码输出占位符。

应该理解的是，图3中示出了单句输入的例子。而在需要输入句子对的情况中，即，对于句子对的任务，输入格式可以是[CLS][TXT][TXT][PRO][PRO][OMSK][TXT][TXT][TXT]。将“[PRO]”和“[OMSK]”标记放在文本对之间以更好地捕捉它们之间的关系。例如，在文本匹配任务中，针对作为句对输入的样本，可以在两个句子之间添加所述提示占位符和所述掩码输出占位符得到经处理的训练样本。

进一步地，不同于图1中直接使用MLM head(即，送入softmax层的分类结果)来进行损失函数的计算。本发明中第一损失函数L_PCCL的计算对象是[EMB]，即用于标签预测的表征，即，连续表征的嵌入(embedding)。使用标签预测的连续表征，而不是MLM head来进行基于对比学习的损失值的求取可以带来诸多好处，现阐述如下。

作为参数，需要从给定任务中学习“[PRO]”，但这在小样本学习中会由于缺乏训练数据而难以实现。为此，本发明将提示嵌入初始化为通用任务不变提示的预训练表示。此时，用于单句分类的通用任务不变提示是“it is”；句子对分类任务的不变提示是“？”。这个设置可以看作是提示嵌入的知识先验。在模型训练期间，提示的表示可以自动适应特定任务。可以进一步验证无需为本发明的方法设计特定于任务的提示。因此，不需要改变“[PRO]”提示的数量和位置用于模型调优。

现有的基于提示的方法的一个共同属性是，它们需要手工语言表达器来建立标记和类标签之间的映射。在图1所示的评论分析例子中，基于语言表达器(Verbalizer)的方法生成整个词汇表(可能包含超过1万个单词)的分布，并且只关注极少数单词(例如例子中的“good”和“terrible”)。词之间的语义关联也在很大程度上被忽略了。例如，“nice”、“fantastic”、“bad”和“horrible”等词的概率也是类标签的有力指标。相比之下，本发明采用低维、密集的表示(即，embeddings)代替高维、稀疏的分布，可以大大提高底层模型的泛化能力和灵活性。

由此，本发明提出了一种全新的无语言表示器的方法来生成基于PCCL的模型输出。在训练期间，将

表示为一个批次中的实例集台

每个实例

可以被视为一个锚点，具有表示为y_i的标签。还可以设置正集P(i)和负集N(i)，关于实例i和批次

和

即，标签相同为正集，不同为负集。

使得

为底层PLM(在sofimax函数之前的)最后一层的“[OMSK]”标记的1²归一化嵌入。在对比学习的上下文中，训练目标是最大化类内相似度

其中p∈P(i)，同时最小化类间相似度

其中n∈N(i)。遵循监督对比学习模型，可以直接推导出样本对比损失：

其中τ是温度值。当考虑P(i)和N(i)中的多个实例时，我们将L_CL(i)改写如下：

其中集合

这为模型提供了更多的泛化能力，因为多个类内和类间相似度值被平均，从而使学习到的决策边界更平滑。

只是最小化L_CL(i)可能是不够的，因为它没有考虑样本难度。例如，如果s_i，p＝0.2和s_i，p′＝0.95其中p，P’∈P(i)。模型应该更多地关注s_i，p以达到最为优化，而较少关注s_i，p′以避免模型过拟合。由此，在一个实施例中，可以引入了成对松弛因子并提出了一个名为成对成本敏感对比损失(PCCL)的新损失函数，如下所示：

其中

是归一化因子：

α_i，p和α_i，n是成对松弛因子，其定义如下：

与原来的L_CL(i)相比，PCCL增加了两个新功能。在α_i，p和α_i，n内部，使用边际因子m来预期s_i，p＞1-m和s_i，n＜m。因此，在s_i，p和s_i，n之间有一个宽松的裕度。α_i，p和α_i，n的使用也使得模型专注于学习困难案例，并且避免在简单案例上过度拟合。另一个经验设置是使用单独的温度τ_p和τ_n来表示类内和类间的相似性，而不是统一的温度τ。进一步设置τ_p＝ξ·τ_n(ξ＞1)以对正样本给予更多的松弛，以使类内相似度不会太大，由此很容易得出：

其中

通过这种方式，本发明的小样本学习器将不太容易过拟合训练实例。

图4A-B示出了常规对比学习和本发明优化正例和负例分布的例子。如前所述，本发明通过边际因子来约束组间距离，由此如图4B所示，正例和负例彼此之间隔得更远。用通过单独的温度τ_p和τ_n，使得正例之间不会离得过近，负例之间也也不离得过远。

优选地，由于PCCL的学习目标与MLM任务明显不同，仅最小化L_PCCL(i)可能会导致对预训练知识的灾难性遗忘。为此，可以将MLM视为小样本学习期间的辅助任务，以提高模型在以前看不见的实例上的性能。图5示出了根据本发明一个实施例的对比学习调整方法的图示。

如图5所示，PLM的训练还可以包括MLM的辅助训练任务。为此，本发明的处理方法还可以包括：对样本中的词进行掩码处理，以获取带掩码文本占位符的经处理的训练样本；获取所述PLM对所述掩码文本占位符的对应预测结果；以及以第二损失函数(对应于L_MLM)对所述PLM的神经网络进行调整，所述第二损失函数根据所述掩码文本占位符的对应预测结果与被掩码词是否相同进行损失求取。

将样本级MLM损失表示为L_MLM(i)。则针对样本的总损失函数L(i)可以是第一损失函数和第二损失函数的加权和，在一个例子中，总损失函数L(i)可以写成如下：L(i)＝λ·L_PCCL(i)+(1-λ)·L_MIM(i)，其中λ是一个预定义的平衡超范围。在图5中，分别将辅助MLM任务应用于“[TMSK]”指示([TMSK]指代文本中的随机掩码)，将PCCL应用于“[OMSK]”指示。这种做法可以被视为同时执行特定任务的持续预训练和小样本学习。

在模型推理期间，可以直接利用测试实例i的embedding

通过在小样本训练集中的K个最近邻与

的比较来生成类标签

当CP-Tuning应用于更大的训练集时，为了更好的可扩展性，标签

由下式预测：

其中C是类标签的集合，

是类c∈C的原型嵌入(即，类标签为c的所有训练实例的平均嵌入)。

为此，本发明的处理方法还可以包括：在针对当前训练样本集的PLM训练的当前迭代结束后，计算所有在前训练样本的嵌入，并计算每个类别的嵌入平均值作为类中心。为此，在推理阶段，根据PLM输出的当前嵌入与所述类中心的相似度，取得待推理数据的所属类别。

进一步地，可以求取针对训练样本集的分类任务中每个类的类中心，并在存储网络中存储已有的多个类各自的类中心。存储的类中心可以在每次迭代后得到更新，并且可以用于推理和提示嵌入的确定。为此，本发明的处理方法还可以包括：将当前待训练样本集中的训练样本输入文本神经网络模型以获取用于生成提示的嵌入；将所述用于生成提示的嵌入与所述类中心送入注意力网络；以及获取所述注意力网络的输出作为当前待训练样本集的提示。图6示出了根据本发明一个实施例的对比学习调整方法的图示。相比于图5所示，增加了任务自适应提示编码器，以及存储网络。图7示出了任务自适应提示编码器的操作示意图。

具体如图6和7，任务自适应提示编码器的输入包括两个部分：文本输入和所有中心点(centroid)的集合。任务自适应提示编码器同时接受这两种输入，通过计算文本与centroid的attention(注意力)，获得最终的提示表示。具体可以采用TextCNN来进行文本编码，将文本编码的结果(嵌入)与这些中心点一起计算注意力结果，作为最终送入PLM的[PRO]。

在进行数据推理是，当模型训练的每一个迭代(epoch)结束后，模型可以自动计算训练数据的[EMB]表示，并且计算每个类别的[EMB]平均值，即为中心点，存储在图6所示的存储网络中。当模型用于推理时，直接可以用该数据的[EMB]与这些中心点进行相似度计算，并且输出分类标签。

由此，模型可以支持迭代增量学习。模型训练每一个迭代结束后，可以重新计算相应类的中心点。这些中心点于是可被输入任务自适应提示编码器，使得下一轮模型训练的提示比前一轮的提示有所更新。为此，模型在学习过程中可以自动学习提示的计算过程，直到模型的效果收敛。

由上训练得到的模型尤其适用于文本匹配任务。在此，文本匹配指两个输入文本的相似度匹配的任务，常用于信息检索。例如在检索型机器人中评测一个给的用户问题和知识库的问题的相似度。为此，如上方法训练得到的PLM可以在一种智能问答系统中实现。图8示出了本发明训练得到的PLM用于智能问答的一个例子。

智能问答系统可以包括：用户输入接收单元，用于获取用户的输入问询(例如，可以是语音识别出的文本模型，或是用户直接输入的文本模型)；问题匹配单元，包括如前所述的方法获取的预训练模型，所述模型用于将所述输入问询与已有问题相匹配；以及回答提供单元，用于将匹配的已有问题的答案提供给所述用户。

参见图9，计算设备900包括存储器910和处理器920。

处理器920可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器920可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器920可以使用定制的电路实现，例如特定用途集成电路(ASIC，ApplicationSpecificIntegratedCircuit)或者现场可编程逻辑门阵列(FPGA，FieldProgrammableGateArrays)。

存储器910可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器910可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器910可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、minSD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器910上存储有可执行代码，当可执行代码被处理器920处理时，可以使处理器920执行上文述及的基于对比学习的预训练语言模型处理方法。

上文中已经参考附图详细描述了根据本发明的基于对比学习的预训练语言模型处理方法。本发明的处理方法通过引入对比学习，避免了传统PET,P-tuning算法中需要人工构建标签词与分类类别的映射的需求。实现的PCCL任务降低了文本对于提示模版的敏感度，对于不同匹配任务选取同一模版能取得较好的结果，因此也解决了之前算法需要人工构建提示模版的问题。另外，通过使用预训练模型MLM head在softmax层之前的输出表征作为特征，最大化的保留并利用了预训练模型的语义信息，相比调优或是p-tuning等方法没有引入任何新的参数。通过使用MLM作为辅助任务，一定程度上减轻了小样本学习中的过拟合问题。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于对比学习的预训练语言模型处理方法，包括：

向样本添加提示占位符和掩码输出占位符以得到经处理的训练样本；

将所述经处理的训练样本输入所述预训练语言模型PLM，以得到对掩码输出进行连续化表征的嵌入；以及

以第一损失函数对所述PLM的神经网络进行调整，所述第一损失函数用于最小化同类样本的嵌入的组内距离，最大化非同类样本的嵌入的组间距离。

2.如权利要求1所述的方法，还包括：

对样本中的词进行掩码处理，以获取带掩码文本占位符的经处理的训练样本；

获取所述PLM对所述掩码文本占位符的对应预测结果；以及

以第二损失函数对所述PLM的神经网络进行调整，所述第二损失函数根据所述掩码文本占位符的对应预测结果与被掩码词是否相同进行损失求取。

3.如权利要求2所述的方法，还包括：

根据所述第一损失函数和所述第二损失函数的加权得到的总损失函数，对所述PLM的神经网络进行调整。

4.如权利要求1所述的方法，还包括：

在针对当前训练样本集的PLM训练的当前迭代结束后，计算所有在前训练样本的嵌入，并计算每个类别的嵌入平均值作为类中心。

5.如权利要求4所述的方法，还包括：

在推理阶段，根据PLM输出的当前嵌入与所述类中心的相似度，取得待推理数据的所属类别。

6.如权利要求4所述的方法，还包括：

求取针对训练样本集的分类任务中每个类的类中心；以及

在存储网络中存储已有的多个类各自的类中心。

7.如权利要求6所述的方法，还包括：

将当前待训练样本集中的训练样本输入文本神经网络模型以获取用于生成提示的嵌入；

将所述用于生成提示的嵌入与所述类中心送入注意力网络；

获取所述注意力网络的输出作为当前待训练样本集的提示。

8.如权利要求1所述的方法，其中，向样本添加提示占位符和掩码输出占位符以得到经处理的训练样本包括：

针对作为句对输入的样本，在两个句子之间添加所述提示占位符和所述掩码输出占位符得到经处理的训练样本。

9.一种智能问答系统，包括：

用户输入接收单元，用于获取用户的输入问询；

问题匹配单元，包括如权利要求1-8中任一项所述的方法获取的预训练模型，所述模型用于将所述输入问询与已有问题相匹配；以及

回答提供单元，用于将匹配的已有问题的答案提供给所述用户。

10.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-8中任一项所述的方法。

11.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-8中任一项所述的方法。