CN111651576A - 一种基于迁移学习的多轮阅读理解方法 - Google Patents

一种基于迁移学习的多轮阅读理解方法 Download PDF

Info

Publication number
CN111651576A
CN111651576A CN202010474290.9A CN202010474290A CN111651576A CN 111651576 A CN111651576 A CN 111651576A CN 202010474290 A CN202010474290 A CN 202010474290A CN 111651576 A CN111651576 A CN 111651576A
Authority
CN
China
Prior art keywords
task
word
output
model
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010474290.9A
Other languages
English (en)
Other versions
CN111651576B (zh
Inventor
张寅�
黄信静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010474290.9A priority Critical patent/CN111651576B/zh
Publication of CN111651576A publication Critical patent/CN111651576A/zh
Application granted granted Critical
Publication of CN111651576B publication Critical patent/CN111651576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于迁移学习的多轮阅读理解方法。通过多任务学习方法,可以较好地迁移来自单轮阅读理解领域中的知识,有效地提升模型在多轮阅读理解任务上的效果。本发明包括如下步骤:1)获取多个阅读理解任务的训练语料;2)在多任务学习的过程中,从预定义的任务分布中采样一个批次的训练数据,送入共享的编码器和任务特定输出层中;3)通过任务特定的注意力机制捕捉任务对不同层输出的依赖,从而建立更好的任务相关的表征。和现有技术相比,本发明利用了单轮阅读理解任务中蕴含的知识,并且利用任务特定输出层和任务特定的注意力机制较好地建模目标任务的特性,可以有效地提升模型在多轮阅读理解任务的效果。

Description

一种基于迁移学习的多轮阅读理解方法
技术领域
本发明涉及迁移学习和深度学习方法在多轮阅读理解领域上的应用,尤其涉及采用任务特定的输出层和注意力机制建模任务特定表征的技术方法。
背景技术
在阅读理解任务中建模对话历史已经成为了一个研究热点。在这个场景中存在两个角色,提问者和回答者。提问者会连续的根据回答者的回答进行提问,而回答者的任务是从仅对其可见的文章中抽取一个文本片段作为回复。这个任务又称为ConvQA(Conversational Question Answering)。与传统的单轮阅读理解任务相比,此任务更加侧重于多轮交互的建模。
多轮阅读理解属于机器阅读理解任务的一种,指在给定上下文相关的语境和相关文章的情况下,根据问题从文章中抽取一段文本作为答案。多轮阅读理解任务中的上下文语境的设置较好地模拟了现实中用户的提问习惯,即用户通常会以指代和省略等方式引用上下文语境中的信息。理解上下文属于非常重要的技术。多轮阅读理解场景广泛地出现在各种信息咨询场景例如医疗问答,客服咨询等等。
在此任务中主要存在两个挑战。1)不可回答的问题。在对话的过程中,因为某些问题在文章中是无法找到答案的,因此需要给出不可回答的答复。2)多轮交互的建模问题。因为在对话的过程中,当前问题可能指代和引用对话历史中的部分信息,因此对话历史成为了理解当前问题时非常重要的线索。在理解问题时经常需要进行指代消解和省略补全。例如为了回答“在他身上发生了什么事情”,回答者必须理解代词“他”指向的是历史对话中涉及的人物。目前的方法都忽略了在大多数的阅读理解任务中知识是可以迁移的。单轮阅读理解任务和多轮阅读理解任务均需要某些相同的能力,例如识别不可回答的问题,推理和抽取答案。来自源任务的知识可能可以提升模型在目标任务上的表现,特别是当源任务和目标任务较为相关时。
发明内容
本发明目的是解决现有技术中存在的问题,并提供一种基于迁移学习的多轮阅读理解方法。
本发明具体采用的技术方案如下:
一种基于迁移学习的多轮阅读理解方法,其步骤如下:
S1:获取多个阅读理解任务的训练语料,并将它们预处理为相同的输入格式;
S2:利用训练预料对模型进行迭代更新,得到模型参数;且在每次模型更新时,采用多任务学习的方式来达到迁移学习的目的,步骤如S21~S22:
S21:按预定义的任务分布从候选任务中选择一个任务,并在该任务中采样得到一组由问题和文章组成的数据;
S22:将S21中采样得到的数据送入共享编码器和任务输出层;
所述共享编码器为多轮阅读理解模型,负责对输入数据进行信息建模;
所述任务输出层,负责捕捉共享编码器中每个任务的输出偏好,每个任务均具有各自对应的任务输出层;对于任一任务t而言,共享编码器的输出为Ht,采用前馈神经网络预测每个任务t对应的答案起始位置和结束位置,公式如下,
Figure BDA0002515326400000021
Figure BDA0002515326400000022
其中:
Figure BDA0002515326400000023
表示任务t的答案起始位置,
Figure BDA0002515326400000024
表示任务t的答案结束位置;
Figure BDA0002515326400000025
均为权重,
Figure BDA0002515326400000026
均为偏置,四个参数均为可训练变量;上标T表示转置;
根据任务输出层的输出结果计算出损失值,并根据优化算法更新共享编码器和任务输出层的模型参数;
S3:完成S2中的模型参数更新后,固定所述共享编码器和任务输出层的模型参数,并在共享编码器中加入注意力模块,通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度;设置注意力模块为可训练,仅以目标任务为训练语料,对注意力模块进行训练和参数更新;
S4:基于S3中训练完毕的共享编码器和任务输出层,根据输入的问题预测文章中答案的起始和结束位置。
基于上述技术方案,各步骤可以采用如下具体方法实现。
作为优选,所述多轮阅读理解模型,是在BERT模型的三层嵌入层中加入一层历史答案嵌入层得到的,文章中的每个词都会有一个索引值来表示其在历史答案中出现的轮次;每个词的索引值都会输入到不同属性的嵌入矩阵中查找到对应的向量,文章中第i个词对应的低维向量查找公式为:
Ei,type=Ctype*OneHot(Ii,type)
其中:type表示词的属性,Ei,type为第i个词对应type属性的向量,Ei,type∈RH,H为向量的维度;OneHot(·)表示将索引值变成独热向量的操作;Ctype为type属性对应的嵌入矩阵,Ii,type为第i个词对应属性type的索引值;
将每个词对应不同属性的相连求和,得到每个词的输出向量,其中第i个词的输出向量Ei计算公式为:
Figure BDA0002515326400000031
S21中采样得到的数据送入多轮阅读理解模型前,需将当前问题、文章以及最近kq轮的历史问题进行拼接,得到输入序列。
进一步的,所述输入序列的形式为:
Figure BDA0002515326400000032
其中:P为文章词序列,Qn为当前任务中的问题,Qn-m为前m轮任务中的问题,m=1,2…,kq;每个序列起始由[CLS]分隔符进行标记,相邻问题和文章之间由[SEP]分隔符进行分隔。
进一步的,所述词的属性type∈{answer,token,segment,pos},其中answer表示是否为历史答案,token表示词表中的编号,segment表示当前输入的词来源于问题还是来源于文章,pos表示词在当前输入序列中的位置编号。
作为优选,所述的S22中,损失函数采用负对数似然,形式为:
Figure BDA0002515326400000033
训练过程中,优化模型参数以最大化文章中第m个词wm作为答案开始的概率和文章中第n个词wn作为答案结束的概率,其中m,n分别是训练集中给定的答案起始位置和结束位置。
作为优选,所述的注意力模块中,通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度的具体方法为:
使用单词级别的注意力机制通过同个单词在每一层的输出来决定该层输出的重要程度,计算公式:
Figure BDA0002515326400000041
其中
Figure BDA0002515326400000042
其中:权重
Figure BDA0002515326400000043
和偏置
Figure BDA0002515326400000044
属于可训练参数;
Figure BDA0002515326400000045
表示任务t对应的第i个词在共享编码器的倒数第j层上的权重,
Figure BDA0002515326400000046
表示任务t对应的第t个词在共享编码器的倒数第j层上的输出;
对共享编码器的每层输出和对应的权值进行加权求和,得到模型对于第i个词的最后输出
Figure BDA0002515326400000047
Figure BDA0002515326400000048
根据任务t中所有词的最后输出,获得最终的模型输出St,将其代替模型原来的输出Ht,送入到任务输出层中预测答案的起始和结束位置。
作为优选,所述的S1中,所述的训练语料选择单轮阅读理解数据集SQuAD2.0和多轮阅读理解数据集CoQA和QuAC。
作为优选,所述的S21中预定义的任务分布采用均匀分布。
作为优选,所述S3中,注意力模块的训练方法为:
按预定义的任务分布从目标任务中选择一个任务,并在该任务中采样得到一组由问题和文章组成的数据;再将采样得到的数据送入共享编码器和注意力模块,根据预测结果计算损失值,并根据优化算法更新注意力模块的模型参数。
和现有技术相比,本发明利用了单轮阅读理解任务中蕴含的知识,并且利用任务特定输出层和任务特定的注意力机制较好的建模目标任务的特性,可以有效的提升模型在多轮阅读理解任务的效果。
附图说明
图1为本发明的方法流程图;
图2为本发明和其他方法的参数量对比。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述和说明。
多轮阅读理解技术主要以单轮阅读理解模型为基础,其任务是给定当前问题
Figure BDA0002515326400000049
其中q1,n表示第n轮问题的第1个词,
Figure BDA00025153264000000410
为第t轮问题qt的序列长度,对话历史Hn={(Q1,A1),(Q2,A2),...,(Qn-1,An-1)}和文章
Figure BDA0002515326400000051
Lp为文章的长度,要求在文章中找到一段文本作为问题的答案An
如图1所示,本发明主要基于预训练语言模型BERT作为多任务的共享编码器,同时建模历史对话问题和答案信息。每次迭代时从输入的QuAC,CoQA和SQuAD 2.0任务中分布按照相同的概率采样出一个任务,然而从任务中读取一个批次的数据输入到共享的编码器和特定的任务输出层中,计算损失值,根据优化算法更新模型参数。下面具体描述本发明的实现过程:
S1:获取多个阅读理解任务的训练语料,在本发明中数据集具体的可以选择单轮阅读理解数据集SQuAD 2.0和多轮阅读理解数据集CoQA和QuAC,并将它们预处理为相同的输入格式。
S2:利用训练预料对模型进行迭代更新,得到模型参数;且在每次模型更新时,采用多任务学习的方式来达到迁移学习的目的。每次更新的步骤如S21~S22:
S21:按预定义的任务分布从候选任务中选择一个任务,并在该任务中采样得到一组由问题和文章组成的数据。
为了使我们的框架更加具有统一性,我们将任务的挑选过程视为一个任务分布的采样过程。因此我们可以统一以往迁移学习中混合训练和序列学习的过程。本发明中任务分布可预定义为均匀分布,即认为输入的所有任务的重要性是相同的。例如混合数据的训练过程,其对应的策略为每个任务根据相同的概率进行采样训练。在序列学习的训练过程,其对应的策略为采样概率的变化过程,即首先设置任务1的概率为1,其他任务的采样概率为0,其次是任务2的采样概率为1,其他任务的采样概率为0,...,直到目标任务。
S22:将S21中采样得到的数据送入共享编码器和任务输出层。共享编码器和任务输出层可以视为一个模型,此处记为Context-Aware BERT,简称CAT-BERT。该模型的具体结构详述如下:
其中共享编码器为多轮阅读理解模型,负责对输入数据进行信息建模。本发明的多轮阅读理解模型,是在BERT模型的三层嵌入层中加入一层历史答案嵌入层(HistoryAnswer Embedding)得到的,文章中的每个词都会有一个索引值来表示其在历史答案中出现的轮次;每个词的索引值都会输入到不同属性的嵌入矩阵中查找到对应的向量,即对四个嵌入矩阵通过下面公式找到每个词对应的低维向量,文章中第i个词对应的低维向量查找公式为:
Ei,type=Ctype*OneHot(Ii,type)
其中:type表示词的属性,Ei,type为第i个词对应type属性的向量,Ei,type∈RH,H为向量的维度;OneHot(·)表示将索引值变成独热向量的操作;Ctype为type属性对应的嵌入矩阵,Ii,type为第i个词对应属性type的索引值。
词的属性type∈{answer,token,segment,pos},其中answer表示是否为历史答案,token表示词表中的编号,segment表示当前输入的词来源于问题还是来源于文章,pos表示词在当前输入序列中的位置编号。
将每个词对应四种属性的相连求和,即可得到每个词的输出向量,其中第i个词的输出向量Ei计算公式为:
Figure BDA0002515326400000061
历史问题同样也提供了一些指代性质的信息,因此S21中采样得到的数据送入多轮阅读理解模型前,需将当前问题、文章以及最近kq轮的历史问题进行拼接,得到输入序列。输入序列的形式为:
Figure BDA0002515326400000062
其中:P为文章词序列,Qn为当前任务中的问题,Qn-m为前m轮任务中的问题,m=1,2…,kq;每个序列起始由[CLS]分隔符进行标记,相邻问题和文章之间由[SEP]分隔符进行分隔。
其中任务输出层,负责捕捉共享编码器中每个任务的输出偏好,每个任务均具有各自对应的任务输出层。对于任一任务t而言,共享编码器的输出为Ht,采用前馈神经网络预测每个任务t对应的答案起始位置和结束位置,公式如下,
Figure BDA0002515326400000063
Figure BDA0002515326400000064
其中:t∈{QuAC,CoQA,SQuAD2.0},
Figure BDA0002515326400000065
表示任务t的答案起始位置,
Figure BDA0002515326400000066
表示任务t的答案结束位置;
Figure BDA0002515326400000067
均为权重,
Figure BDA0002515326400000068
均为偏置,四个参数均为可训练变量;上标T表示转置;
根据任务输出层的输出结果计算出损失值,并根据优化算法Adam更新共享编码器和任务输出层的模型参数。其损失函数可以采用负对数似然,形式为:
Figure BDA0002515326400000071
训练过程中,优化模型参数以最大化文章中第m个词wm作为答案开始的概率和文章中第n个词wn作为答案结束的概率,其中m,n分别是训练集中给定的答案起始位置和结束位置。
S3:完成S2中的模型参数更新后,固定上述训练好的共享编码器和任务输出层的模型参数,并在共享编码器中加入注意力模块,通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度。原来的共享编码器、注意力模块和任务输出层构成了一个新的模型,此处记为CAT-BERT-ATTN。
在该注意力模块中,通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度的具体方法为:
由于层级级别的注意力机制是以[CLS]对应的输出向量作为重要程度的来源,然而直接使用这种向量来决定当前层每个词级别的表示的重要程度太过粗粒度,难以细致的建模每层中每个词的抽象程度。因此,本发明使用单词级别的注意力机制通过同个单词在每一层的输出来决定该层输出的重要程度,计算公式:
Figure BDA0002515326400000072
其中
Figure BDA0002515326400000073
其中:权重
Figure BDA0002515326400000074
和偏置
Figure BDA0002515326400000075
属于可训练参数;
Figure BDA0002515326400000076
表示任务t对应的第i个词在共享编码器的倒数第j层上的权重,
Figure BDA0002515326400000077
表示任务t对应的第i个词在共享编码器的倒数第j层上的输出;
对共享编码器的每层输出和对应的权值进行加权求和,得到模型对于第i个词的最后输出
Figure BDA0002515326400000078
Figure BDA0002515326400000079
根据任务t中所有词的最后输出,获得最终的模型输出St,将其代替模型原来的输出Ht,送入到任务输出层中预测答案的起始和结束位置。
共享编码器连接注意力模块后,形成的新模型CAT-BERT-ATTN,需要重新进行训练。训练时,设置注意力模块为可训练,仅以目标任务为训练语料,对注意力模块进行训练和参数更新。其具体做法与S2相似,下面简述如下:
按均匀分布从目标任务中选择一个任务,并在该任务中采样得到一组由问题和文章组成的数据;再将采样得到的数据送入共享编码器和注意力模块,根据预测结果计算损失值,并根据优化算法更新注意力模块的模型参数。
S4:经过上述步骤S1~S3,就可以得到一个能够实现多轮阅读理解的模型,即包含注意力模块的共享编码器和任务输出层组成的CAT-BERT-ATTN。基于S3中训练完毕的CAT-BERT-ATTN,即可在实际应用中,根据输入的问题预测文章中答案的起始和结束位置。
下面将上述方法应用至具体实施例中,具体实施步骤如前所述,实施例中主要展示其效果。
实施例
为了测试上述引入迁移学习的多轮阅读理解方法的实际效果,以下为实施例。本实施例中方法的具体步骤如前所述,不再赘述,下面主要展示将上述方法的测试效果。
1.下载迁移学习的源领域数据SQuAD 2.0和CoQA,以及目标领域数据集QuAC。
2.预处理。将每个任务的数据按照如下方式进行预处理。在每一轮问题时,针对当前轮次,对文章中每个词产生索引值,其中每个索引表示当前词在历史答案中出现的相对轮次,对于文章中没有出现在历史答案中的词,其索引值为0。将最近3轮的历史也拼接到当前问题之后。预处理按照BERT中的WordPiece的切词方式,并以空格隔开。
3.在CAT-BERT模型每次迭代时,按照均匀分布从候选任务中采样出一个任务,然后取对应任务的一个批次训练数据输入到共享的编码器和采样任务对应的输出层中,根据输出和标签计算损失值,并进行反向传播。完成固定次数的迭代。可以得到模型权重。
CAT-BERT的训练过程伪代码简述如下:
输入:任务集合T={T1,T2,..,Tm}对应的数据集,迭代次数N1,任务采样分布ψ,学习速率α;
初始化:将任务集合T={T1,T2,..,Tm}都打包成经过答案标记的训练批次B={B1,B2,..,Bm},其中
Figure BDA0002515326400000091
其中m是任务数量,p是每个任务m可以打包的训练Batch数量;装载预训练的BERT权重;随机初始化任务特定输出层;
1)steps小于等于N1时,做以下2)~6)循环:
2)从ψ中采样一个任务m;
3)从Bm中读取一个批次的训练数据
Figure BDA0002515326400000092
4)将
Figure BDA0002515326400000093
送入Context-Aware BERT模型中,进行前向过程,得到任务特定的损失函数值Lt
5)计算梯度
Figure BDA0002515326400000094
6)更新模型参数
Figure BDA0002515326400000095
输出:CAT-BERT权重
4.在步骤3结束后,固定住模型参数。加入任务特定的注意力模块并设置其为可训练。并参照步骤3的过程进行CAT-BERT-ATTN的训练,此时的训练仅在目标任务上进行。
CAT-BERT-ATTN模型的训练过程伪代码简述如下:
输入:目标任务Ttarget数据集,迭代次数N2,经过多任务学习的CAT-BERT,学习速率α;
初始化:将目标任务Ttarget都打包成经过答案标记的训练批次
Figure BDA0002515326400000096
Figure BDA0002515326400000097
装载CAT-BERT权重。设置模型中的变量为不可训练;加入注意力模块,设置该模块中的变量为可训练;
1)当steps小于N2时,执行以下2)~5)循环:
2)从Btarget中读取一个批次的训练数据
Figure BDA0002515326400000098
3)将
Figure BDA0002515326400000099
送入CAT-BERT-ATTN模型中,进行前向过程,得到任务特定的损失函数值Lt
4)计算梯度
Figure BDA00025153264000000910
5)更新模型参数
Figure BDA0002515326400000101
输出:模型CAT-BERT-ATTN权重
本实施例中对比了步骤3中不同迁移测量的结果,具体如下表1所示:
表1多任务上不同学习策略下的对比
Figure BDA0002515326400000102
Seq-SQuAD->QuAC:其中Seq表示序列学习(Sequential)的方式,表示模型先在SQuAD任务上学习,学习完成后,再在QuAC任务上学习。
Mix-SQuAD-QuAC:其中(Mix:混合学习的方式),表示每次从SQuAD-QuAC中均匀采样一个任务的数据进行学习。
Co-CoQA-QuAC:联合学习的方式。即模型在CoQA-QuAC上进行均匀采样数据,然后每个任务还会有对应任务输出层的。
其余的学习方式表达含义依次类推。
BERT有多种形式,基于BERT base模型上,本实施例还给出了不同的微调方法,Pals,Adapter方法和注意力模型在不同层数,作为本发明的方法的对比效果。首先,可以看到本发明的注意力方法取得的效果是所有基线方法中最好的。其次,随着模型考虑层数的增多,可以看到Pals和Adapter方法的最终效果也呈现上升的趋势,在Pals-12时F1和HEQQ指标最高,Adapter在第9层时最好。这也符合两者模型的设计:随着模型层数的加多,经过转换的变量参数更多,因此建模更加细致。而基于注意力机制的方法在考虑前三层时效果最好,这可能是因为最后三层的更加接近最终输出,已经建模了较好的向量表征。另外,可以注意到微调方法仅微调最后三层时效果是最好的,随着微调层数的变多,所有指标开始出现了下降,这说明在迁移学习之后,在目标任务上进一步微调模型参数反而会丢失原来学习到的知识。
表2 Position注意力机制,Pals与层数的关系(基于模型BERT BASE)
Figure BDA0002515326400000111
其中Attn-Position:即本发明的方法。
Finetune:在注意力模块微调的过程中,仅微调倒数v层的Transformer模型权重,同时固定共享编码器输出层。
Pals方法参见文献:BERT and PALs:Projected Attention Layers forEfficient Adaptation in Multi-Task Learning。
Adapter方法参见文献:Parameter-Efficient Transfer Learning for NLP。
W/O Attention:即训练后的CAT-BERT权重不进行任何微调,直接进行评测,作为加入任务适配器的基线结果。
表3展示了Position注意力机制在BERT wwm上的结果,可以看到模型依旧有效,并且继续提升了模型在QuAC任务上的指标。
表3 Position注意力机制在BERT wwm的表现
Figure BDA0002515326400000112
图2给出了本发明的Attention-Position方法,Pals和Adapter方法在同一个Transformer层中加入的额外参数量对比。可以看到注意力方法需要的参数量较少。因为注意力方法复用同个全连接网络来捕捉每层中每个词的重要性,全连接的输出维度为1,因此额外的参数量为一个权重矩阵和偏执项。而Adapter方法的参数量来自于四个全连接层,且输出维度为204。因此需要较多的参数量。
由此可见,本发明的多任务学习框架CAT-BERT底部的编码器学习到的是多个任务之间共享的表征。为了能够使得我们的模型针对每个任务提取较好的任务特定的特征表示,本发明额外增加了第二阶段的微调过程,并且加入任务特定的词级别注意力机制来捕捉不同任务对同一个编码器中不同层输出的依赖关系,最终的注意力权值的可视化和对比实验也证明了我们加入的注意力机制能够捕捉这种依赖关系,并且进一步的提升了模型的指标。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (9)

1.一种基于迁移学习的多轮阅读理解方法,其特征在于,步骤如下:
S1:获取多个阅读理解任务的训练语料,并将它们预处理为相同的输入格式;
S2:利用训练预料对模型进行迭代更新,得到模型参数;且在每次模型更新时,采用多任务学习的方式来达到迁移学习的目的,步骤如S21~S22:
S21:按预定义的任务分布从候选任务中选择一个任务,并在该任务中采样得到一组由问题和文章组成的数据;
S22:将S21中采样得到的数据送入共享编码器和任务输出层;
所述共享编码器为多轮阅读理解模型,负责对输入数据进行信息建模;
所述任务输出层,负责捕捉共享编码器中每个任务的输出偏好,每个任务均具有各自对应的任务输出层;对于任一任务t而言,共享编码器的输出为Ht,采用前馈神经网络预测每个任务t对应的答案起始位置和结束位置,公式如下,
Figure FDA0002515326390000011
Figure FDA0002515326390000012
其中:
Figure FDA0002515326390000013
表示任务t的答案起始位置,
Figure FDA0002515326390000014
表示任务t的答案结束位置;
Figure FDA0002515326390000015
均为权重,
Figure FDA0002515326390000016
均为偏置,四个参数均为可训练变量;上标T表示转置;
根据任务输出层的输出结果计算出损失值,并根据优化算法更新共享编码器和任务输出层的模型参数;
S3:完成S2中的模型参数更新后,固定所述共享编码器和任务输出层的模型参数,并在共享编码器中加入注意力模块,通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度;设置注意力模块为可训练,仅以目标任务为训练语料,对注意力模块进行训练和参数更新;
S4:基于S3中训练完毕的共享编码器和任务输出层,根据输入的问题预测文章中答案的起始和结束位置。
2.如权利要求1所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述多轮阅读理解模型,是在BERT模型的三层嵌入层中加入一层历史答案嵌入层得到的,文章中的每个词都会有一个索引值来表示其在历史答案中出现的轮次;每个词的索引值都会输入到不同属性的嵌入矩阵中查找到对应的向量,文章中第i个词对应的低维向量查找公式为:
Ei,type=Ctype*OneHot(Ii,type)
其中:type表示词的属性,Ei,type为第i个词对应type属性的向量,Ei,type∈RH,H为向量的维度;OneHot(·)表示将索引值变成独热向量的操作;Ctype为type属性对应的嵌入矩阵,Ii,type为第i个词对应属性type的索引值;
将每个词对应不同属性的相连求和,得到每个词的输出向量,其中第i个词的输出向量Ei计算公式为:
Figure FDA0002515326390000021
S21中采样得到的数据送入多轮阅读理解模型前,需将当前问题、文章以及最近kq轮的历史问题进行拼接,得到输入序列。
3.如权利要求2所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述输入序列的形式为:
Figure FDA0002515326390000022
其中:P为文章词序列,Qn为当前任务中的问题,Qn-m为前m轮任务中的问题,m=1,2…,kq;每个序列起始由[CLS]分隔符进行标记,相邻问题和文章之间由[SEP]分隔符进行分隔。
4.如权利要求2所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述词的属性type∈{answer,token,segment,pos},其中answer表示是否为历史答案,token表示词表中的编号,segment表示当前输入的词来源于问题还是来源于文章,pos表示词在当前输入序列中的位置编号。
5.如权利要求1所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述的S22中,损失函数采用负对数似然,形式为:
Figure FDA0002515326390000023
训练过程中,优化模型参数以最大化文章中第m个词wm作为答案开始的概率和文章中第n个词wn作为答案结束的概率,其中m,n分别是训练集中给定的答案起始位置和结束位置。
6.如权利要求1所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述的注意力模块中,通过任务特定注意力机制捕捉共享编码器中每层输出的重要程度的具体方法为:
使用单词级别的注意力机制通过同个单词在每一层的输出来决定该层输出的重要程度,计算公式:
Figure FDA0002515326390000031
其中
Figure FDA0002515326390000032
其中:权重
Figure FDA0002515326390000033
和偏置
Figure FDA0002515326390000034
属于可训练参数;
Figure FDA0002515326390000035
表示任务t对应的第i个词在共享编码器的倒数第j层上的权重,
Figure FDA0002515326390000036
表示任务t对应的第i个词在共享编码器的倒数第j层上的输出;
对共享编码器的每层输出和对应的权值进行加权求和,得到模型对于第i个词的最后输出
Figure FDA0002515326390000037
Figure FDA0002515326390000038
根据任务t中所有词的最后输出,获得最终的模型输出St,将其代替模型原来的输出Ht,送入到任务输出层中预测答案的起始和结束位置。
7.如权利要求1所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述的S1中,所述的训练语料选择单轮阅读理解数据集SQuAD 2.0和多轮阅读理解数据集CoQA和QuAC。
8.如权利要求1所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述的S21中预定义的任务分布采用均匀分布。
9.如权利要求1所述的基于迁移学习的多轮阅读理解方法,其特征在于,所述S3中,注意力模块的训练方法为:
按预定义的任务分布从目标任务中选择一个任务,并在该任务中采样得到一组由问题和文章组成的数据;再将采样得到的数据送入共享编码器和注意力模块,根据预测结果计算损失值,并根据优化算法更新注意力模块的模型参数。
CN202010474290.9A 2020-05-29 2020-05-29 一种基于迁移学习的多轮阅读理解方法 Active CN111651576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010474290.9A CN111651576B (zh) 2020-05-29 2020-05-29 一种基于迁移学习的多轮阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010474290.9A CN111651576B (zh) 2020-05-29 2020-05-29 一种基于迁移学习的多轮阅读理解方法

Publications (2)

Publication Number Publication Date
CN111651576A true CN111651576A (zh) 2020-09-11
CN111651576B CN111651576B (zh) 2022-07-08

Family

ID=72350930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010474290.9A Active CN111651576B (zh) 2020-05-29 2020-05-29 一种基于迁移学习的多轮阅读理解方法

Country Status (1)

Country Link
CN (1) CN111651576B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712893A (zh) * 2021-01-04 2021-04-27 山东众阳健康科技集团有限公司 一种提升计算机临床辅助诊断效果的方法
CN113032545A (zh) * 2021-05-29 2021-06-25 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统
CN113326378A (zh) * 2021-06-16 2021-08-31 山西财经大学 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN113723518A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于迁移学习的任务分级部署方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075306A1 (en) * 2012-09-12 2014-03-13 Randy Rega Music search and retrieval system
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075306A1 (en) * 2012-09-12 2014-03-13 Randy Rega Music search and retrieval system
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712893A (zh) * 2021-01-04 2021-04-27 山东众阳健康科技集团有限公司 一种提升计算机临床辅助诊断效果的方法
CN113032545A (zh) * 2021-05-29 2021-06-25 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统
CN113326378A (zh) * 2021-06-16 2021-08-31 山西财经大学 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN113326378B (zh) * 2021-06-16 2022-09-06 山西财经大学 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN113723518A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于迁移学习的任务分级部署方法、装置及计算机设备
CN113723518B (zh) * 2021-08-31 2024-03-19 平安科技(深圳)有限公司 基于迁移学习的任务分级部署方法、装置及计算机设备

Also Published As

Publication number Publication date
CN111651576B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111651576B (zh) 一种基于迁移学习的多轮阅读理解方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN110781409B (zh) 一种基于协同过滤的物品推荐方法
CN109919183B (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
EP3688678A1 (en) Aggressive development with cooperative generators
WO2019067960A1 (en) AGGRESSIVE DEVELOPMENT USING COOPERATIVE GENERATORS
Lezama et al. Improved masked image generation with token-critic
Metz et al. Using a thousand optimization tasks to learn hyperparameter search strategies
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN107562787B (zh) 一种poi编码方法及装置、poi推荐方法,电子设备
CN111723914A (zh) 一种基于卷积核预测的神经网络架构搜索方法
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN112256971A (zh) 一种序列推荐方法及计算机可读存储介质
CN109086463B (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
KR20240034804A (ko) 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가
CN115101145A (zh) 一种基于自适应元学习的药物虚拟筛选方法
CN113590748B (zh) 基于迭代网络组合的情感分类持续学习方法及存储介质
Sharma et al. Transfer learning and its application in computer vision: A review
US12026624B2 (en) System and method for loss function metalearning for faster, more accurate training, and smaller datasets
CN116975686A (zh) 训练学生模型的方法、行为预测方法和装置
Contardo et al. Representation learning for cold-start recommendation
CN116561270A (zh) 问答方法以及问答模型训练方法
CN116681078A (zh) 一种基于强化学习的关键词生成方法
CN116186384A (zh) 一种基于物品隐含特征相似度的物品推荐方法及系统
CN110659962B (zh) 一种商品信息输出方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant