CN114091452A

CN114091452A - 一种基于适配器的迁移学习方法、装置、设备及存储介质

Info

Publication number: CN114091452A
Application number: CN202111396195.2A
Authority: CN
Inventors: 王伟; 黄勇其; 于翠翠; 张黔
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-25

Abstract

本申请公开了一种基于适配器的迁移学习方法、装置、设备及存储介质，属于人工智能技术领域。本申请基于全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，初始迁移学习模型包括若干个适配器，然后通过预处理后的训练样本对初始迁移学习模型进行预训练，并基于预训练结果计算每一个适配器的沙普利值，对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，通过适配器贡献队列对初始迁移学习模型进行调整和迭代，得到自注意力迁移学习模型。本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

Description

一种基于适配器的迁移学习方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种基于适配器的迁移学习方法、装置、设备及存储介质。

背景技术

迁移学习是近年来人工智能研究领域的热门，这一领域主要着眼于如何将某个原本用于特定任务而训练的模型用于另外的任务。而预训练(pre-trained)语言模型的特点就很适合用于迁移学习领域。近年来在文本分类、智能问答、机器阅读、文本摘要等众多NLP领域都取得了很好的效果。例如transformer及以transformer为基础的GPT、BERT等预训练语言模型。预训练语言模型基于海量文本数据训练，从统计学上讲，海量文本数据内部本身隐含了极为丰富的特征，因此结合拟合能力强大的神经网络模型，就能够学习到语言内部蕴含的知识，从而用于不同任务。

但现有预训练语言模型大多是基于自注意力的transformer-encoder模型，通过大量语料训练提取到文本中的某种"知识"。但现有迁移学习方法存在以下缺点：当新任务需要添加某种新"知识"时，又需要重新预训练整个模型，这会导致：1、原来已经获得的"知识"被模型“遗忘”，使得模型效果大打折扣；2、每次都重新训练模型的代价太高，需要消耗大量计算资源和时间成本。

发明内容

本申请实施例的目的在于提出一种基于适配器的迁移学习方法、装置、计算机设备及存储介质，以解决现有迁移学习方法存在训练代价高，且容易导致已经获得的"知识"被遗忘的技术问题。

为了解决上述技术问题，本申请实施例提供一种基于适配器的迁移学习方法，采用了如下所述的技术方案：

一种基于适配器的迁移学习方法，包括：

基于预设的全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，所述初始迁移学习模型包括若干个适配器；

获取训练样本，并对训练样本进行预处理，得到训练样本对应的词向量；

通过所述词向量对所述初始迁移学习模型进行预训练，获取预训练结果；

基于所述预训练结果计算每一个所述适配器的沙普利值，并对每一个所述适配器的沙普利值进行降序排列，得到适配器贡献队列；

通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型；

获取待迁移语料，并将所述待迁移语料导入所述自注意力迁移学习模型，生成知识迁移结果。

进一步地，所述获取训练样本，并对训练样本进行预处理，得到训练样本对应的词向量的步骤，具体包括：

获取训练语料，按照段落或者语句对所述训练语料进行划分，得到训练样本集合，其中，所述训练样本集合包含若干个训练样本；

对所述训练样本进行分词处理，得到样本分词；

对所述样本分词进行向量转化，得到所述样本分词对应的词向量。

进一步地，所述对所述样本分词进行向量转化，得到所述样本分词对应的词向量的步骤，具体包括：

识别所述样本分词的文本，并从预设词向量库中获取所述文本对应的词嵌入向量；

获取所述样本分词的位置信息，并对所述位置信息进行编码，得到位置向量；

识别所述样本分词的知识实体，并从所述词向量库中获取所述知识实体对应的知识向量；

对所述词嵌入向量、所述位置向量和所述知识向量进行求和，生成所述样本分词对应的词向量。

进一步地，所述全连接网络包括第一全连接层和第二全连接层，所述第一全连接层的输出与所述编码器的输入连接，所述编码器的输出与所述第二全连接层的输入连接，所述通过所述词向量对所述初始迁移学习模型进行预训练，获取预训练结果的步骤，具体包括：

将所述词向量作为初始输入向量输入到所述第一全连接层，并在所述第一全连接层进行线性映射，得到第一映射向量；

将第一映射向量输入到所述编码器，并在所述编码器中对所述第一映射向量进行特征编码，得到特征编码向量；

将所述特征编码向量输入到所述第二全连接层，并在所述第二全连接层进行线性映射，得到第二映射向量；

将所述第二映射向量作为所述初始迁移学习模型输出的预训练结果。

进一步地，所述基于所述预训练结果计算每一个所述适配器的沙普利值的步骤，具体包括：

获取每一个所述适配器的输出向量；

基于预设的价值函数计算每一个所述输出向量与预训练结果之间的余弦相似度；

基于每一个所述输出向量与预训练结果之间的余弦相似度计算对应适配器的沙普利值。

进一步地，所述沙普利值的计算公式如下：

其中，φ_i(υ)为适配器的沙普利值，υ为价值函数，N表示所有可能的适配器组合，S是N的子集，I为任意一个适配器，υ(S)表示适配器组合S的贡献度，υ(S∪{I})表示适配器组合S与适配器I的贡献度总和。

进一步地，所述通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型的步骤，具体包括：

获取所述初始迁移学习模型在预训练过程中资源使用信息；

基于所述适配器贡献队列和所述资源使用信息，确定适配器的激活数量；

基于所述适配器的激活数量，对所述初始迁移学习模型中的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代训练，得到所述自注意力迁移学习模型。

为了解决上述技术问题，本申请实施例还提供一种基于适配器的迁移学习装置，采用了如下所述的技术方案：

一种基于适配器的迁移学习装置，包括：

模型构建模块，用于基于预设的全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，所述初始迁移学习模型包括若干个适配器；

样本获取模块，用于获取训练样本，并对训练样本进行预处理，得到训练样本对应的词向量；

预训练模块，用于通过所述词向量对所述初始迁移学习模型进行预训练，获取预训练结果；

贡献计算模块，用于基于所述预训练结果计算每一个所述适配器的沙普利值，并对每一个所述适配器的沙普利值进行降序排列，得到适配器贡献队列；

适配训练模块，用于通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型；

知识迁移模块，用于获取待迁移语料，并将所述待迁移语料导入所述自注意力迁移学习模型，生成知识迁移结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述所述的基于适配器的迁移学习方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述的基于适配器的迁移学习方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种基于适配器的迁移学习方法、装置、设备及存储介质，属于人工智能技术领域。本申请基于全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，初始迁移学习模型包括若干个适配器，然后通过预处理后的训练样本对初始迁移学习模型进行预训练，并基于预训练结果计算每一个适配器的沙普利值，对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，通过适配器贡献队列对初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型，在进行知识迁移时，通过将不同学习任务中的待迁移语料输入到自注意力迁移学习模型，即可实现不同学习任务的知识迁移。本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的基于适配器的迁移学习方法的一个实施例的流程图；

图3示出了根据本申请的基于适配器的迁移学习方法的一个实施例的中初始迁移学习模型的结构示意图；

图4示出了根据本申请的基于适配器的迁移学习装置的一个实施例的结构示意图；

图5示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

需要说明的是，本申请实施例所提供的基于适配器的迁移学习方法一般由服务器执行，相应地，基于适配器的迁移学习装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于适配器的迁移学习的方法的一个实施例的流程图，所述的基于适配器的迁移学习方法，包括以下步骤：

S201，基于预设的全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，所述初始迁移学习模型包括若干个适配器。

其中，transformer模型一种基于encoder-decoder结构的模型，其编码器和解码器均是由注意力模块和前馈神经网络构成，是第一个用纯attention搭建的模型，不仅计算速度更快，在各种知识学习任务上获得了很好的结果。其中，一种transformer模型的transformer-encoder(编码器)如图3所示，transformer-encoder包括多头注意力层和前馈神经网络层，且在多头注意力层和前馈神经网络层的输出端均设置有对应的残差&标准化层，用于对输出结果进行标准化处理。全连接网络本质上是把输入与输出连接起来的单个交换机，全连接网络具有吞吐量大、可靠性高、低延时的特点，在本申请具体的实施例中，全连接网络包括第一全连接层和第二全连接层。

具体的，服务器接收模型迁移学习指令，基于预设的全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，所述初始迁移学习模型包括若干个适配器。请继续参考图3，初始迁移学习模型结构示意图如图3所示，初始迁移学习模型由标准的transformer模型中编码器部分和多个适配器构成，每一个适配器均由第一全连接层和第二全连接层构成，每个适配器与一个transformer-encoder层配合工作，相当于每个transformer-encoder层的输入要先经过对应适配器的第一全连接层进行线性映射后再传到transformer-encoder层进行编码，然后transformer-encoder层的输出作为适配器的第二全连接层的输入，在经过第二全连接层的线性映射后再传到下一个适配器。每一个输入到transformer-encoder层的输入都需要经过一个第一全连接层，每一个transformer-encoder层的输出都需要经过一个第二全连接层，以实现输入和输出均能和transformer-encoder层适配，保证输入和输出的特征能够被保留，通过适配器来进行不同学习任务中的知识迁移学习，降低了训练开销。

在本实施例中，基于适配器的迁移学习方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收模型迁移学习指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本申请一种具体的实施例中，初始迁移学习模型采用了M个transformer-encoder层，且初始迁移学习模型中设置N个适配器，其中，N≤M，在实际应用中，通过计算每一个适配器的沙普利值，并对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，根据适配器贡献队列和服务器资源使用情况确定N，即确定初始迁移学习模型中适配器的激活数量，当N<M时，即认为第N+1个transformer-encoder层开始不需要再设置适配器，此时维度已饱和，不需要再进行适配，可以进一步减少训练开销。

S202，获取训练样本，并对训练样本进行预处理，得到训练样本对应的词向量。

具体的，在完成初始迁移学习模型的构建之后，服务器获取训练语料，按照段落或者语句对训练语料进行划分，得到训练样本集合，其中，所述训练样本集合包含若干个训练样本，然后

对训练样本进行预处理，其中，预处理包括分词处理和向量转化处理，得到训练样本对应的词向量，并利用得到的词向量相对初始迁移学习模型进行预训练。

S203，通过所述词向量对所述初始迁移学习模型进行预训练，获取预训练结果。

具体的，服务器将预处理后的训练样本输入到初始迁移学习模型中，通过训练样本对应的词向量对初始迁移学习模型进行预训练，获取初始迁移学习模型的输出结果，并将初始迁移学习模型的输出结果作为预训练结果。其中，预训练结果为训练样本对应的预测标签，例如，在文本词性分类场景中，预训练结果为名词、动词、形容词等等。

在本申请一种具体的实施例中，在模型预训练过程时，将训练轮数分为P个训练子周期，可以在第i(一般为i<0.2P)个训练子周期结束后，分别获取P轮中初始迁移学习模型的输出结果，并根据输出结果分别计算N个适配器的沙普利值(Shapley Value)。

S204，基于所述预训练结果计算每一个所述适配器的沙普利值，并对每一个所述适配器的沙普利值进行降序排列，得到适配器贡献队列。

具体的，服务器通过获取每一个适配器的输出向量，并计算每一个适配器的输出向量与预训练结果的余弦相似度，得到的余弦相似度表征了适配器对预训练结果的贡献度，并基于余弦相似度计算适配器的沙普利值，最后对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列。

S205，通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型。

具体的，服务器获取初始迁移学习模型在预训练过程中资源使用信息，例如运行内存使用情况、现存使用情况等。然后基于上述获得适配器贡献队列和资源使用信息，确定适配器的激活数量，并基于适配器的激活数量，对初始迁移学习模型中的适配器进行调整，并对调整后的初始迁移学习模型进行迭代训练，得到自注意力迁移学习模型。

在本申请一种具体的实施例中，资源使用信息是显存，当显存使用已达某个阈值时，在下一个训练子周期开始时，确定适配器的激活数量为K，就保留适配器贡献队列中的前K个适配器，减少下一个训练子周期的资源消耗，进一步减少训练开销。

S206，获取待迁移语料，并将所述待迁移语料导入所述自注意力迁移学习模型，生成知识迁移结果。

具体的，服务器获取待迁移语料，并提取待迁移语料中的知识实体，将知识实体导入训练好的自注意力迁移学习模型，生成知识迁移结果。本申请在进行知识迁移时，通过将不同学习任务中的待迁移语料输入到自注意力迁移学习模型，即可实现不同学习任务的知识迁移。

需要说明的是，当需要处理新业务场景的任务时，为了实现迁移学习，需要对自注意力迁移学习模型再做局部调整，即固定图3中transformer编码层的参数，将待迁移语料导入自注意力迁移学习模型，获取自注意力迁移学习模型的输出，并基于自注意力迁移学习模型的输出调整适配器中的全连接层神经网络的参数，得到调整后的自注意力迁移学习模型，这样就避免了以前的知识迁移方案中，模型应用到新的业务场景时，需要重新完整训练带来的问题，同时也实现了知识迁移。

在上述实施例中，本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

对所述训练样本进行分词处理，得到样本分词；

具体的，服务器获取训练样本，对训练语料识别，并按照段落或者语句对训练语料进行划分，得到多个段落或者语句，由得到的段落或者语句构建训练样本集合，其中，所述训练样本集合包含若干个训练样本,所述训练样本为段落或者语句。对训练样本集合中每个训练样本都进行分词处理，得到样本分词，最后对样本分词进行向量转化，得到样本分词对应的词向量。

具体的，服务器首先通过识别样本分词，获得样本分词的文本，并通过预设的word2vec词向量库对样本分词的文本进行向量转化，得到文本对应的词嵌入向量；然后通过获取样本分词的位置信息，其中，位置信息表征了样本分词在训练样本中的位置，并对位置信息进行正余弦编码，得到位置向量；接着通过命名实体识别技术识别样本分词的知识实体，并通过预设的word2vec词向量库对样本分词的知识实体进行向量转化，得到知识实体对应的知识向量；最后对词嵌入向量、位置向量和知识向量进行求和，生成样本分词对应的词向量。需要说明的是，可能存在某个分词文本与实体相同情形，此时词嵌入向量等于知识向量，若某个分词不等同于实体，则其知识向量设为元素全为0的向量。

其中，word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

在上述实施例中，本申请通过对训练样本进行分词处理，得到样本分词，通过对样本分词进行文本向量转化、位置编码和知识实体向量转化，分别获得词嵌入向量、位置向量和知识向量，并通过整合词嵌入向量、位置向量和知识向量，得到样本分词的词向量，样本分词的词向量用于训练自注意力迁移学习模型。

其中，初始迁移学习模型包括多个适配器(N₁～N_n)，每一个适配器均由全连接网络和transformer模型的编码器构建而成，其中，全连接网络包括第一全连接层和第二全连接层，第一全连接层的输出与编码器的输入连接，编码器的输出与第二全连接层的输入连接。

在本申请具体的实施例中，预训练时，在第一个适配器N₁中，将样本分词的词向量作为初始输入向量X₀输入到第一全连接层P_N1，并在第一全连接层P_N1进行线性映射，得到第一映射向量X_N1，将第一映射向量X_N1输入到transformer-encoder，并在transformer-encoder中对第一映射向量X_N1进行特征编码，得到特征编码向量X_T1，将特征编码向量X_T1输入到第二全连接层P_N1’，同时初始输入向量X₀也通过残差&标准网络后输入到第二全连接层P_N1’，在第二全连接层P_N1’中对特征编码向量X_T1和标准化后的初始输入向量X₀进行线性映射，得到第二映射向量X_N1’。将第一个适配器N₁输出的第二映射向量X_N1’输入至第二个适配器N₂中，并在第二个适配器N₂以及后续所有适配器中均执行上述过程，获取最后一个适配器输出的第二映射向量，并将最后一个适配器输出的第二映射向量作为初始迁移学习模型输出的预训练结果，通过适配器实现输入和输出均能和transformer-encoder适配，保证输入和输出的特征能够被保留，通过适配器来进行不同学习任务中的知识迁移学习，降低了训练开销。

在上述实施例中，通过全连接网络和transformer模型的编码器构建适配器，通过全连接网络实现编码器输入、输出之间的适配，采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。

获取每一个所述适配器的输出向量；

进一步地，所述沙普利值的计算公式如下：

其中，沙普利值(Shapley值)集合中子集的贡献度分配，体现了各个子集对集合目标的贡献程度，避免了分配上的平均主义，比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性。

具体的，服务器获取每一个适配器的输出向量，即适配器中第二全连接层输出的第二映射向量，基于预设的价值函数计算每一个输出向量与预训练结果之间的余弦相似度，基于每一个输出向量与预训练结果之间的余弦相似度计算对应适配器的沙普利值。

在上述实施例中，本申请基于每一个适配器的输出向量与预训练结果之间的余弦相似度计算对应适配器的沙普利值，以此获得适配器对预训练的贡献度。

获取所述初始迁移学习模型在预训练过程中资源使用信息；

具体的，服务器获取初始迁移学习模型在预训练过程中资源使用信息，如运行内存使用情况、现存使用情况等，并基于适配器贡献队列和资源使用信息，确定适配器的激活数量，基于适配器的激活数量，对初始迁移学习模型中的适配器进行调整，并对调整后的初始迁移学习模型进行迭代训练，得到自注意力迁移学习模型。

需要说明的是，在构建初始迁移学习模型时，先给初始迁移学习模型中的每一个transformer-encoder层都配置适配器，然后通过计算适配器贡献队列并结合资源使用信息，确定适配器的激活数量，以确定需要保留的适配器，并对不再需要进行适配的transformer-encoder层的适配器进行移除。本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

在本申请具体的实施例中，可以通过反向传播算法对初始迁移学习模型进行迭代训练，反向传播算法，即误差反向传播算法(Backpropagation algorithm，BP算法)适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上，用于深度学习网络的误差计算。BP网络的输入、输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，并转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，以作为修改权值的依据。

需要说明的是，资源使用信息存在一个阈值上限，当资源使用已达阈值上限时，在下一个训练子周期开始时，确定适配器的激活数量为K，保证K个适配器激活的情况下，训练资源使用情况不会超过阈值上限，保留适配器贡献队列中的前K个适配器，减少下一个训练子周期的资源消耗，进一步减少训练开销。

本申请公开了一种基于适配器的迁移学习方法，属于人工智能技术领域。本申请基于全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，初始迁移学习模型包括若干个适配器，然后通过预处理后的训练样本对初始迁移学习模型进行预训练，并基于预训练结果计算每一个适配器的沙普利值，对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，通过适配器贡献队列对初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型，在进行知识迁移时，通过将不同学习任务中的待迁移语料输入到自注意力迁移学习模型，即可实现不同学习任务的知识迁移。本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4，作为对上述图2所示方法的实现，本申请提供了一种基于适配器的迁移学习装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的基于适配器的迁移学习装置包括：

模型构建模块401，用于基于预设的全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，所述初始迁移学习模型包括若干个适配器；

样本获取模块402，用于获取训练样本，并对训练样本进行预处理，得到训练样本对应的词向量；

预训练模块403，用于通过所述词向量对所述初始迁移学习模型进行预训练，获取预训练结果；

贡献计算模块404，用于基于所述预训练结果计算每一个所述适配器的沙普利值，并对每一个所述适配器的沙普利值进行降序排列，得到适配器贡献队列；

适配训练模块405，用于通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型；

知识迁移模块406，用于获取待迁移语料，并将所述待迁移语料导入所述自注意力迁移学习模型，生成知识迁移结果。

进一步地，所述样本获取模块402具体包括：

语料划分单元，用于获取训练语料，按照段落或者语句对所述训练语料进行划分，得到训练样本集合，其中，所述训练样本集合包含若干个训练样本；

分词处理单元，用于对所述训练样本进行分词处理，得到样本分词；

向量转化单元，用于对所述样本分词进行向量转化，得到所述样本分词对应的词向量。

进一步地，所述向量转化单元具体包括：

第一向量转化子单元，用于识别所述样本分词的文本，并从预设词向量库中获取所述文本对应的词嵌入向量；

第二向量转化子单元，用于获取所述样本分词的位置信息，并对所述位置信息进行编码，得到位置向量；

第三向量转化子单元，用于识别所述样本分词的知识实体，并从所述词向量库中获取所述知识实体对应的知识向量；

向量整合子单元，用于对所述词嵌入向量、所述位置向量和所述知识向量进行求和，生成所述样本分词对应的词向量。

进一步地，所述全连接网络包括第一全连接层和第二全连接层，所述第一全连接层的输出与所述编码器的输入连接，所述编码器的输出与所述第二全连接层的输入连接，所述预训练模块403具体包括：

第一映射单元，用于将所述词向量作为初始输入向量输入到所述第一全连接层，并在所述第一全连接层进行线性映射，得到第一映射向量；

特征编码单元，用于将第一映射向量输入到所述编码器，并在所述编码器中对所述第一映射向量进行特征编码，得到特征编码向量；

第二映射单元，用于将所述特征编码向量输入到所述第二全连接层，并在所述第二全连接层进行线性映射，得到第二映射向量；

结果输出单元，用于将所述第二映射向量作为所述初始迁移学习模型输出的预训练结果。

进一步地，所述贡献计算模块404具体包括：

输出向量获取单元，用于获取每一个所述适配器的输出向量；

余弦相似度计算单元，用于基于预设的价值函数计算每一个所述输出向量与预训练结果之间的余弦相似度；

贡献计算单元，用于基于每一个所述输出向量与预训练结果之间的余弦相似度计算对应适配器的沙普利值。

进一步地，所述沙普利值的计算公式如下：

进一步地，所述适配训练模块405具体包括：

资源获取单元，用于获取所述初始迁移学习模型在预训练过程中资源使用信息；

数量确认单元，用于基于所述适配器贡献队列和所述资源使用信息，确定适配器的激活数量；

迭代训练单元，用于基于所述适配器的激活数量，对所述初始迁移学习模型中的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代训练，得到所述自注意力迁移学习模型。

本申请公开了一种基于适配器的迁移学习装置，属于人工智能技术领域。本申请基于全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，初始迁移学习模型包括若干个适配器，然后通过预处理后的训练样本对初始迁移学习模型进行预训练，并基于预训练结果计算每一个适配器的沙普利值，对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，通过适配器贡献队列对初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型，在进行知识迁移时，通过将不同学习任务中的待迁移语料输入到自注意力迁移学习模型，即可实现不同学习任务的知识迁移。本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图5，图5为本实施例计算机设备基本结构框图。

所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是，图中仅示出了具有组件51-53的计算机设备5，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器51可以是所述计算机设备5的内部存储单元，例如该计算机设备5的硬盘或内存。在另一些实施例中，所述存储器51也可以是所述计算机设备5的外部存储设备，例如该计算机设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中，所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件，例如基于适配器的迁移学习方法的计算机可读指令等。此外，所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中，所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据，例如运行所述基于适配器的迁移学习方法的计算机可读指令。

所述网络接口53可包括无线网络接口或有线网络接口，该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。

本申请公开了一种设备，属于人工智能技术领域。本申请基于全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，初始迁移学习模型包括若干个适配器，然后通过预处理后的训练样本对初始迁移学习模型进行预训练，并基于预训练结果计算每一个适配器的沙普利值，对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，通过适配器贡献队列对初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型，在进行知识迁移时，通过将不同学习任务中的待迁移语料输入到自注意力迁移学习模型，即可实现不同学习任务的知识迁移。本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于适配器的迁移学习方法的步骤。

本申请公开了一种存储介质，属于人工智能技术领域。本申请基于全连接网络和transformer模型的编码器构建初始迁移学习模型，其中，初始迁移学习模型包括若干个适配器，然后通过预处理后的训练样本对初始迁移学习模型进行预训练，并基于预训练结果计算每一个适配器的沙普利值，对每一个适配器的沙普利值进行降序排列，得到适配器贡献队列，通过适配器贡献队列对初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型，在进行知识迁移时，通过将不同学习任务中的待迁移语料输入到自注意力迁移学习模型，即可实现不同学习任务的知识迁移。本申请采用适配器来进行不同学习任务中的知识迁移，降低了训练开销。此外，本申请在训练过程中根据每个适配器的沙普利值，对适配器的数量进行缩减，在迁移学习过程中进一步减少了训练开销。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于适配器的迁移学习方法，其特征在于，包括：

2.如权利要求1所述的基于适配器的迁移学习方法，其特征在于，所述获取训练样本，并对训练样本进行预处理，得到训练样本对应的词向量的步骤，具体包括：

对所述训练样本进行分词处理，得到样本分词；

3.如权利要求2所述的基于适配器的迁移学习方法，其特征在于，所述对所述样本分词进行向量转化，得到所述样本分词对应的词向量的步骤，具体包括：

4.如权利要求2所述的基于适配器的迁移学习方法，其特征在于，所述全连接网络包括第一全连接层和第二全连接层，所述第一全连接层的输出与所述编码器的输入连接，所述编码器的输出与所述第二全连接层的输入连接，所述通过所述词向量对所述初始迁移学习模型进行预训练，获取预训练结果的步骤，具体包括：

5.如权利要求1所述的基于适配器的迁移学习方法，其特征在于，所述基于所述预训练结果计算每一个所述适配器的沙普利值的步骤，具体包括：

获取每一个所述适配器的输出向量；

6.如权利要求5所述的基于适配器的迁移学习方法，其特征在于，所述沙普利值的计算公式如下：

7.如权利要求1所述的基于适配器的迁移学习方法，其特征在于，所述通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整，并对调整后的所述初始迁移学习模型进行迭代，得到自注意力迁移学习模型的步骤，具体包括：

获取所述初始迁移学习模型在预训练过程中资源使用信息；

8.一种基于适配器的迁移学习装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于适配器的迁移学习方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于适配器的迁移学习方法的步骤。