CN116881641A

CN116881641A - 预训练模型调整方法及装置、存储介质、计算设备

Info

Publication number: CN116881641A
Application number: CN202310855991.0A
Authority: CN
Inventors: 蔡华; 李帅帅; 史可欢; 陆逸骁
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-13

Abstract

本申请提供了一种预训练模型调整方法及装置、存储介质、计算设备，该预训练模型调整方法包括：获取初始样本，初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；利用核心样本对预训练模型进行训练调整。本申请能够在保证模型训练的效果的基础上，避免预训练模型对原有知识的遗忘，提升预训练模型的性能。

Description

预训练模型调整方法及装置、存储介质、计算设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种预训练模型调整方法及装置、存储介质、计算设备。

背景技术

随着大型预训练语言模型的逐渐流行，在很多场景和任务都展现了其强大的能力。对于一个特定的模型，其训练数据在训练时是固定的，如果模型无法在线学习，则模型的内部知识就会过时；同时，由于训练数据中存在各种问题(如：数据不干净)，模型训练完成之后，内部知识也可能存在错误。对模型重新进行训练的话代价高昂，耗时耗力。为此，许多研究者开始钻研如何对大模型进行编辑，以修改其中的知识。同时，对于未修改的知识与模型之前的输出尽量保持一致。

一般来说，大模型的训练分为两步：1.无监督训练，利用大量的训练数据让模型具有通用能力；2.微调：让模型更好地对齐下游任务和用户的交互习惯。现有的带限制微调方法，一般是结合新的数据来更新模型内部的知识，即使用新的数据来对模型进行微调。

但是，现有技术在调整预训练模型时，存在预训练模型对原有知识遗忘的问题，影响模型的性能。

发明内容

本申请能够在保证模型训练的效果的基础上，避免预训练模型对原有知识的遗忘，提升预训练模型的性能。

为了达到上述目的，本申请提供了以下技术方案：

第一方面，提供了一种预训练模型调整方法，预训练模型调整方法包括：获取初始样本，所述初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；利用所述核心样本对预训练模型进行训练调整。

可选的，所述在每个簇中按照与同一簇中其他点的最大距离选取多个点包括：计算每个簇中每两个点的欧式距离，并确定每个点的最大距离；在每个簇中，按照最大距离从小到大的顺序排序，并选取排序靠前的多个点，作为所述核心样本。

可选的，每个簇具有中心点，所述利用各个问答对对应的句子嵌入对各个问答对进行聚类之后还包括：在每个簇中计算各个点与该簇的中心点的余弦相似度；在每个簇中选取余弦相似度大于门限值的点，以用于所述核心样本的选取。

可选的，所述获取初始样本包括：从知识库中获取初始问答对，所述知识库包括知识条目，所述知识条目包括所述初始问答对；利用所述预训练模型对所述初始问答对进行更新，以获得所述初始样本，所述初始样本的语言风格与所述预训练模型的输出的语言风格一致。

可选的，所述预训练模型调整方法还包括：获取用户针对所述预训练模型的输出的反馈结果，所述反馈结果包括问题和更新答案；将所述反馈结果加入所述核心样本。

可选的，所述将所述反馈结果加入所述核心样本包括：在所述预训练模型训练的过程中，每隔预设迭代轮次将所述反馈结果加入所述核心样本。

可选的，所述预训练模型调整方法还包括：在知识库中更新所述反馈结果，所述知识库包括知识条目，所述知识条目包括多个问答对。

可选的，所述预训练模型包括适配器，所述利用所述核心样本对预训练模型进行训练调整包括：利用所述核心样本对所述适配器进行训练，以更新所述适配器的参数，所述适配器的参数用于计算所述预训练模型的输出。

第二方面，本申请还公开一种预训练模型调整装置，预训练模型调整装置包括：获取模块，用于获取初始样本，所述初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；聚类模块，用于利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；选取模块，用于在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；调整模块，用于利用所述核心样本对预训练模型进行训练调整。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器运行以执行第一方面提供的任意一种方法。

第四方面，提供了一种计算机程序产品，其上存储有计算机程序，计算机程序被处理器运行以执行第一方面提供的任意一种方法。

第五方面，本申请实施例还提供一种芯片，该芯片上存储有计算机程序，在计算机程序被芯片执行时，实现上述方法的步骤。

第六方面，本申请实施例还提供一种系统芯片，应用于终端中，所述芯片系统包括至少一个处理器和接口电路，所述接口电路和所述至少一个处理器通过线路互联，所述至少一个处理器用于执行指令，以执行第一方面提供的方法。

与现有技术相比，本申请技术方案具有以下有益效果：

本申请技术方案中，获取初始样本，所述初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；利用核心样本对预训练模型进行训练调整。本申请中，核心样本能够表征初始样本，也即采用少量的样本表征海量的数据，核心样本具有较高的质量；通过少量的核心样本训练预训练模型，在保证模型训练的效果的基础上，避免预训练模型对原有知识的遗忘，从而在保证模型通用性的基础上对模型进行特定领域的强化训练，进一步提升了预训练模型的性能。

进一步地，在每个簇中计算各个点与该簇的中心点的余弦相似度；在每个簇中选取余弦相似度大于门限值的点，以用于核心样本的选取，具体地计算每个簇中每两个点的欧式距离，并确定每个点的最大距离；在每个簇中，按照最大距离从小到大的顺序排序，并选取排序靠前的多个点，作为核心样本。本申请通过两步筛选的步骤，能够减小选取核心样本的计算量，节约了计算资源。

进一步地，通过反馈结果，能够提升预训练模型在训练时的收敛速度，使模型更快地收敛，节约了预训练模型的训练时间。

附图说明

图1是本申请实施例提供的一种预训练模型调整方法的流程图；

图2是本申请实施例提供的一种预训练模型调整架构的示意图；

图3是本申请实施例提供的一种预训练模型调整装置的结构示意图；

图4是本申请实施例提供的一种预训练模型调整装置的硬件结构示意图。

具体实施方式

如背景技术中所述，现有技术在调整预训练模型时，存在预训练模型对原有知识遗忘的问题，影响模型的性能。

此外，如何更新预训练模型的参数，通过尽量少更新模型参数或只更新模型的部分结构，来节约模型计算资源和训练时间。

本申请中，核心样本能够表征多个问答对，也即采用少量的样本表征海量的数据，核心样本具有较高的质量；通过少量的核心样本训练预训练模型，在保证模型训练的效果的基础上，避免预训练模型对原有知识的遗忘，从而在保证模型通用性的基础上对模型进行特定领域的强化训练，进一步提升了预训练模型的性能。

为使本申请的上述目的、特征和优点能够更为明显易懂，下面结合附图对本申请的具体实施例做详细的说明。

参见图1，本申请提供的方法具体包括以下步骤：

步骤101：获取初始样本，所述初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；

步骤102：利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；

步骤103：在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；

步骤104：利用核心样本对预训练模型进行训练调整。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

可以理解的是，在具体实施中，所述预训练模型调整方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中。该方法也可以采用软件结合硬件的方式实现，本申请不作限制。

本实施例能够从现有数据中采样出最有用的核心样本，以帮助预训练模型学习下游任务所需的知识，并仅用少量样本实现预训练模型良好的性能。本实施例中的问答对是指带有描述指令的问题以及答案对的格式的数据。

在步骤101的一种具体实施中，可以直接从知识库中获取初始样本(也即初始样本)，知识库中的问答对将直接参与后续预训练模型的调整。具体地，知识库是预先构建好的，通过收集准确可靠的知识条目形成知识库。知识条目可以是问答对的形式。

在步骤101的另一种具体实施中，可以先从知识库中获取初始问答对，知识库中的知识条目包括初始问答对；然后利用预训练模型对初始问答对进行更新，以获得初始样本，初始样本的语言风格与预训练模型的输出的语言风格一致。

本实施例通过预训练模型对知识库中的从初始问答对进行更新和改写，使得初始样本与模型生成的风格一致，更新后的问答对将参与后续预训练模型的调整，从而保证调整后的预训练模型的输出的语言风格具有连贯性，提升用户体验。

更具体地，知识库中的知识条目可以是经过清洗后的网页数据，或者是经过解析后的文档数据，例如Word、PDF和TXT等格式的文档数据；然后将这些数据切片为大小长度合适的文档块；之后利用预训练模型对这些文档块生成问题-答案对，也即问答对。

为了获得核心样本，需要先对问答对进行向量化。具体可以采用通过变换的双向编码表示(Bidirectional Encoder Representation from Transformers,BERT)模型对问答对进行向量编码，以得到问答对对应的句子嵌入。具体地，将每个问答对输入到BERT模型后，提取每个问答对的cls词向量表示该问答对的句子嵌入。

需要说明的是，也可以采用其他的算法计算句子嵌入，例如WORD2VECTOR等，本申请对此不作限制。

在步骤102中，利用各个问答对对应的句子嵌入对各个问答对进行聚类。具体可以通过上述句子嵌入来进行无监督聚类。具体地，使用基于密度的带噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCANDBSCAN)算法在嵌入空间中进行无监督聚类，以得到多个簇。选择每一簇中频率最高的聚类的中心点作为该簇的分布中心点。

在步骤103中，在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本。

在一个非限制性的实施例中，计算每个簇中每两个点的欧式距离，并确定每个点的最大距离。在每个簇中，按照最大距离从小到大的顺序排序，并选取排序靠前的多个点，作为核心样本。

通过上述选取方式，能保证最终选取的核心样本中每个点与其他点的最大距离较小，也即选取得到的核心样本能够表征整体的初始样本。并且，核心样本的数量远低于初始样本的数量。

本发明中实施例可以选择出具有多样性和高质量的核心样本，来对齐下游任务和用户的交互习惯，通过使用少量的样本调整预训练模型来完成知识更新，节约了模型计算资源和训练时间。

进一步地，在每个簇中计算各个点与该簇的中心点的余弦相似度；在每个簇中选取余弦相似度大于门限值的点，以用于核心样本的选取。

如前所述，在选取核心样本时需要计算每两个点的欧式距离，那么在点的数量较多时，计算量也非常大。为了降低计算量，节约计算资源，本发明实施例使用两步筛选的步骤。通过各个点与该簇的中心点的余弦相似度筛选出余弦相似度大于门限值的点，筛选出的点才会用于计算欧式距离，从而减少了不必要的计算。

具体地，在获得簇对应的分布中心点后，在每个簇中计算各个点与中心点的余弦相似度，根据这个相似度对簇内样本进行排序，选出大于门限值的样本，这样选出来的样本的数量较大，需要进一步筛选。具体可以对每个簇使用核心集算法KCentergreedy，根据需要的样本数和簇数选取核心样本。例如，需要核心样本的数量为1000，簇数为20，那么需要在每个簇中选取50个点。

进一步地，由于核心样本的数量是相对较少的，因此可以实现对核心样本的人工审核，具体可以对核心样本的质量和多样性方面进行评估审核并进行修改。

在步骤104中，利用核心样本对预训练模型进行训练调整。由于核心样本能够表征初始样本，并且核心样本的数量远低于初始样本的数量，因此通过少量的核心样本训练预训练模型，在保证模型训练的效果的基础上，避免预训练模型对原有知识的遗忘，从而在保证模型通用性的基础上对模型进行特定领域的强化训练，进一步提升了预训练模型的性能。

本发明实施例利用核心样本对预训练模型进行微调，使预训练模型具备对特定领域知识的理解能力。

具体地，模型微调旨在使用编辑描述符(xe，ye)调整预训练模型fW(其中W表示模型的参数)，最终目标是创建一个经过编辑的模型，表示为fWe(We的参数大小可以大于等于W)。具体来说，给定包括编辑输入xe和编辑标签ye的编辑描述符，使得原来模型fθ(xe)≠ye的这种情况，编辑后模型的输出为fθe(xe)＝ye。

在一个非限制性的实施例中，预训练模型包括适配器。利用核心样本对适配器进行训练，以更新适配器的参数，适配器的参数用于计算预训练模型的输出。

具体地，通过添加一个适配器到预训练模型中来微调适配特定任务，微调过程中仅更新适配器的参数而不更新预训练模型的参数。这些适配器只占原始模型大小的一小部分，这使得预训练模型的训练速度更快，内存需求更低。适配器可以针对多种任务进行训练，然后再融合到预训练模型中以执行新任务。

本发明实施例使用的模型微调方法，不是对模型参数做全量微调，而是通过参数高效的微调，在尽可能减少所需的参数和计算资源的情况下，实现对预训练语言模型的有效微调。

在一个具体的例子中，可以用LoRA的方式来进行模型微调。

例如，在下游任务微调一个预训练语言模型(如类GPT-3.5)，则需要更新预训练模型参数，公式表示为：W+ΔW，θ是预训练模型的参数，ΔW是需要更新的参数。LoRA的微调方式是在原始预训练大规模语言模型(LLM)旁边增加一个旁路，做一个降维再升维的操作。训练的时候固定LLM的参数，只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变，输出时将旁路的参数与LLM的参数叠加。

图2示出了一种预训练模型调整架构。其中，知识库201可以提供知识条目，初始样本是从知识库中选取的。模型微调模块202可以执行上述步骤104，也即利用核心样本对预训练模型进行训练调整。

本实施例中，知识编辑204可以用于获取用户针对预训练模型的输出的反馈结果，反馈结果包括问题和更新答案；反馈模块203用于将反馈结果加入核心样本。

本发明实施例通过反馈结果，能够提升预训练模型在训练时的收敛速度，使模型更快地收敛，节约了预训练模型的训练时间。

具体地，通过知识编辑模块204，人类专家对预训练模型生成的知识进行审核，编辑和修改。知识编辑模块204能够提供用户交互界面，用户交互界面包括输入文本框，展示区域，反馈按钮，知识条目浏览区以及保存按钮。

更具体地，输入文本框是指用于输入编辑指令的文本框，人类专家可以在其中输入编辑指令，例如修改、补充或删除特定知识内容的指令。

展示区域是指用于显示预训练模型生成的知识内容的区域，人类专家可以在展示区域查看预训练模型生成的知识内容。

反馈按钮具体是一个按钮，人类专家可以点击该按钮来提供反馈结果，例如指出生成结果中的错误或不准确之处，或者给出修改建议。

知识条目浏览区是指用于浏览知识库中已有知识条目的区域，人类专家可以浏览已有的知识内容以辅助编辑工作。

保存按钮具体是一个按钮，人类专家可以点击该按钮将编辑后的知识保存。

通过上述用户交互界面，人类专家可以与预训练模型进行交互，输入编辑指令、查看生成结果并提供反馈，从而参与知识编辑的过程。

在一个非限制性的实施例中，反馈模块203根据人类专家的编辑和反馈，一方面将反馈结果返回给知识库201进行知识的更新，另一方面将反馈结果重新采样后新加入到预训练模型中进行微调，形成知识的生成、编辑和更新的良性循环。

在另一个非限制性的实施例中，反馈模块203可以直接将反馈结果加入到核心样本中，参与预训练模型的微调。

具体地，在预训练模型训练的过程中，每隔预设迭代轮次将反馈结果加入所述核心样本。例如，预训练模型的训练迭代次数为3000次，那么可以在迭代次数为1000次、2000次时，实时将反馈结果加入核心样本参与后续的模型训练。

本发明实施例结合了预训练模型和人类专家的知识，人类专家可以直接参与到知识编辑的过程中，通过编辑指令，实时纠正大模型生成的知识，使得预训练模型生成的知识更加准确和可控。

本发明实施例可以广泛应用于各个领域的知识编辑和生成任务，无论是科学研究还是技术文档编写，通过本发明实施例快速生成和编辑特定领域的知识。

关于本申请实施例的更多具体实现方式，请参照前述实施例，此处不再赘述。

请参照图3，图3示出了一种预训练模型调整装置30，预训练模型调整装置30可以包括：

获取模块301，用于获取初始样本，初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；

聚类模块302，用于利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；

选取模块303，用于在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；

调整模块304，用于利用核心样本对预训练模型进行训练调整。

在具体实施中，上述预训练模型调整装置30可以对应于计算设备中具有预训练模型调整功能的芯片，例如片上系统(System-On-a-Chip，SOC)、基带芯片等；或者对应于终端设备中包括具有预训练模型调整功能的芯片模组；或者对应于具有数据处理功能芯片的芯片模组，或者对应于计算设备。

关于预训练模型调整装置30的其他相关描述可以参照前述实施例中的相关描述，此处不再赘述。

关于上述实施例中描述的各个装置、产品包含的各个模块/单元，其可以是软件模块/单元，也可以是硬件模块/单元，或者也可以部分是软件模块/单元，部分是硬件模块/单元。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端设备的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端设备内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端设备内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

本申请实施例还公开了一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时可以执行前述实施例中所示方法的步骤。所述存储介质可以包括只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁盘或光盘等。存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

请参照图4，本申请实施例还提供了一种预训练模型调整装置的硬件结构示意图。该装置包括处理器401、存储器402和收发器403。

处理器401可以是一个通用中央处理器(central processing unit，CPU)、微处理器、特定应用集成电路(application-specific integrated circuit，ASIC)，或者一个或多个用于控制本申请方案程序执行的集成电路。处理器401也可以包括多个CPU，并且处理器401可以是一个单核(single-CPU)处理器，也可以是多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。

存储器402可以是ROM或可存储静态信息和指令的其他类型的静态存储设备、RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，本申请实施例对此不作任何限制。存储器402可以是独立存在(此时，存储器402可以位于该装置外，也可以位于该装置内)，也可以和处理器401集成在一起。其中，存储器402中可以包含计算机程序代码。处理器401用于执行存储器402中存储的计算机程序代码，从而实现本申请实施例提供的方法。

处理器401、存储器402和收发器403通过总线相连接。收发器403用于与其他设备或通信网络通信。可选的，收发器403可以包括发射机和接收机。收发器403中用于实现接收功能的器件可以视为接收机，接收机用于执行本申请实施例中的接收的步骤。收发器403中用于实现发送功能的器件可以视为发射机，发射机用于执行本申请实施例中的发送的步骤。

当图4所示的结构示意图用于示意上述实施例中所涉及的终端设备的结构时，处理器401用于对终端设备的动作进行控制管理，例如，处理器401用于支持终端设备执行图1中的步骤101和步骤102，或者图2中的步骤302、步骤303和步骤304，和/或本申请实施例中所描述的其他过程中的终端设备执行的动作。处理器401可以通过收发器403与其他网络实体通信，例如，与上述网络设备通信。存储器402用于存储终端设备的程序代码和数据。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的部分步骤。

虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种预训练模型调整方法，其特征在于，包括：

获取初始样本，所述初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；

利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；

在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；

利用所述核心样本对预训练模型进行训练调整。

2.根据权利要求1所述的预训练模型调整方法，其特征在于，所述在每个簇中按照与同一簇中其他点的最大距离选取多个点包括：

计算每个簇中每两个点的欧式距离，并确定每个点的最大距离；

在每个簇中，按照最大距离从小到大的顺序排序，并选取排序靠前的多个点，作为所述核心样本。

3.根据权利要求1所述的预训练模型调整方法，其特征在于，每个簇具有中心点，所述利用各个问答对对应的句子嵌入对各个问答对进行聚类之后还包括：

在每个簇中计算各个点与该簇的中心点的余弦相似度；

在每个簇中选取余弦相似度大于门限值的点，以用于所述核心样本的选取。

4.根据权利要求1所述的预训练模型调整方法，其特征在于，所述获取初始样本包括：

从知识库中获取初始问答对，所述知识库包括知识条目，所述知识条目包括所述初始问答对；

利用所述预训练模型对所述初始问答对进行更新，以获得所述初始样本，所述初始样本的语言风格与所述预训练模型的输出的语言风格一致。

5.根据权利要求1所述的预训练模型调整方法，其特征在于，还包括：

获取用户针对所述预训练模型的输出的反馈结果，所述反馈结果包括问题和更新答案；

将所述反馈结果加入所述核心样本。

6.根据权利要求5所述的预训练模型调整方法，其特征在于，所述将所述反馈结果加入所述核心样本包括：

在所述预训练模型训练的过程中，每隔预设迭代轮次将所述反馈结果加入所述核心样本。

7.根据权利要求5所述的预训练模型调整方法，其特征在于，还包括：

在知识库中更新所述反馈结果，所述知识库包括知识条目，所述知识条目包括多个问答对。

8.根据权利要求1所述的预训练模型调整方法，其特征在于，所述预训练模型包括适配器，所述利用所述核心样本对预训练模型进行训练调整包括：利用所述核心样本对所述适配器进行训练，以更新所述适配器的参数，所述适配器的参数用于计算所述预训练模型的输出。

9.一种预训练模型调整装置，其特征在于，包括：

获取模块，用于获取初始样本，所述初始样本包括多个问答对，并计算每一问答对对应的句子嵌入，每一问答对包括问题和答案；

聚类模块，用于利用各个问答对对应的句子嵌入对各个问答对进行聚类，以得到多个簇，每个簇包括多个点，每一点对应一个句子嵌入；

选取模块，用于在每个簇中按照与同一簇中其他点的最大距离选取多个点，以得到核心样本；

调整模块，用于利用所述核心样本对预训练模型进行训练调整。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至8中任一项所述预训练模型调整方法的步骤。

11.一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述预训练模型调整方法的步骤。