CN113312454A - 一种基于自监督的三阶段故事阅读理解训练方法 - Google Patents
一种基于自监督的三阶段故事阅读理解训练方法 Download PDFInfo
- Publication number
- CN113312454A CN113312454A CN202110670949.2A CN202110670949A CN113312454A CN 113312454 A CN113312454 A CN 113312454A CN 202110670949 A CN202110670949 A CN 202110670949A CN 113312454 A CN113312454 A CN 113312454A
- Authority
- CN
- China
- Prior art keywords
- task
- training
- story
- model
- supervision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种基于自监督的三阶段故事阅读理解训练方法,包括以下步骤:1)使用语言模型在开放域语料库上进行预训练;2)采用语言模型LM或者掩码语言模型MLM的自我监督学习目标继续在无监督、同领域的ROCStories日常故事语料上进行预训练;3)对目标SCT任务上的结果模型进行训练。本发明引入在ROCStories故事无监督语料上的预训练步骤,提高了预训练语言模型在故事完形填空SCT任务的准确率。
Description
技术领域
本发明涉及一种基于自监督的三阶段故事阅读理解训练方法,属于深度学习中的自然语言处理领域。
背景技术
近年来,自然语言处理(NLP)引起了人们的长期关注并广泛应用于各个领域。故事阅读理解作为自然语言处理的一项热门任务,也吸引了不少学者的目光。故事完形测试(SCT)挑战由Mostafazadeh等人首次提出,该挑战提供了标记的验证集和测试集作为评估故事阅读理解系统的基准。同时,他们提供了无监督的ROCStories日常故事语料作为辅助。
故事完形测试任务需要一个故事理解模型来从给定故事上下文的两个候选结尾中选择正确的结尾,而ROCStories是完整的五句话常识故事。其中,SCT和ROCStories之间存在较高的词重叠,如果机器事先看过这些词所出现的情景,对SCT任务中推断正确结尾很有帮助。
目前,完成故事完形测试有很多方法,既包括传统的机器学习方法,又可以使用神经网络模型。一些作品还利用诸如情感、主题词和事件框架之类的信息。在2018年以后,Radford等人提出GPT(Generative Pre-Training)来利用大型未标记的开放域语料库,例如BooksCorpus数据集,给故事阅读理解任务带来了革新。Chen等人基于GPT,提出ISCK模型,融合了三种类型的外部信息,包括叙事顺序、情感演变和结构化的常识知识来预测故事的结局。除此之外,Google Brain在2018年提出的自编码语言模型框架——BERT在该任务上也有很好的效果,它与GPT非常的相似,都是基于Transformer的二阶段训练模型,都在预训练阶段无监督地训练出一个可通用的Transformer模型,然后在微调阶段对这个模型中的参数进行微调,使之能够适应不同的下游任务。与GPT不同的是,BERT在预训练阶段采用的是mask语言模型损失函数。
然而,当前的方法都缺乏SCT的领域相关的知识。与用于预训练BERT的BooksCorpus相比,ROCStories是SCT的大规模、同领域的无监督知识来源。SCT和ROCStories之间存在许多密切相关的语义联系,考虑使用ROCStories日常故事中的领域相关知识对于SCT中推理正确的结局是有效的。
发明内容
本发明的目的是提出一个三阶段故事阅读理解训练方法,引入在ROCStories故事无监督语料上的预训练步骤,提高预训练语言模型在故事完形填空SCT任务的准确率。
为了实现上述目的,本发明创造采用了如下技术方案:
一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,包括以下步骤:
1)使用语言模型在开放域语料库上进行预训练;
2)采用语言模型LM或者掩码语言模型MLM的自我监督学习目标继续在无监督、同领域的ROCStories日常故事语料上进行预训练;
3)对目标SCT任务上的结果模型进行训练。
所述的步骤2)中,具体方法为:
2.1)调整BERT和任务特定参数,在无监督的ROCStories上执行自监督任务:
随机将ROCStories分成80%的训练集和20%开发集两部分,接着使用自我监督任务MLM和下一个句子预测NSP目标来预训练BERT;在MLM任务中,遵循BERT的程序,随机掩蔽15%经过Wordpiece分词之后、每个序列中的所有词项,使用模型预测掩蔽词项;使用的每条训练样例是一条5句话的故事;
2.2)为了理解故事,重新设计了用于ROCStories的变体NSP任务:
随机选择每个故事中的前句作为sent.A,当为每个训练前考试选择sent.B时,50%的时间B是A之后的实际下一个句子,50%的时间是故事中的随机句子;正样本与IsNext一起标记,负样本标记为NotNext;最终生成的模型在ROCStories开发集上的NSP任务中;
2.3)为了完成SCT任务,在BERT模型中,引入多项选择头作为模型的决策层:
表示形式Ci∈RH作为BERT模型中编码器的输出,其中H是Transformer的隐藏层大小,i代表第i个选项;
引入了任务特定的参数——向量V∈RH,与每个选项i的[CLS]词表示做点积,得到的分数;分母是N个选项的点积和,分数比上分母就是概率分布值;
Ci=BERT(sent.A,sent.B)#(2)
其中:N是SCT任务中选项的数量。
所述的步骤3)中,具体方法为:
对于目标任务SCT,将四句故事视为句子A,将每个候选作为sent.B结尾,最终概率分布如下:
Pi=RM([sent.1,sent.2,...,sent.4],endi)#(3)
其中:RM这个函数代表自监督学习任务预训练的BERT模型和多选头;每个候选结尾都标有SCT数据集中的"错误结尾"或"正确结尾";由此将一般语义知识和同领域中的故事知识转移到SCT任务中;
训练模型的损失函数为交叉熵损失:
所述的步骤3)中,选择Adam优化器对目标领域监督训练模型进行训练。
本发明创造的有益效果:
本发明引入在ROCStories故事无监督语料上的预训练步骤,提高预训练语言模型对领域知识的融合,实现了SCT故事完形填空效果的提升。
附图说明
图1为自监督的三阶段故事阅读理解训练方法框架图。
具体实施方式
下面将结合本发明创造实施例中的附图,对本发明创造实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明创造一部分实施例,而不是全部的实施例。
下面结合附图和具体实施例对本发明作进一步详细说明。
为了使预训练语言模型能够掌握更多的领域相关知识,本发明提供了一种基于自监督的三阶段故事阅读理解训练框架,其包括三个阶段,如图1所示。在第一阶段,使用语言模型在开放域语料库上进行预训练。在第二阶段,继续采用LM或者MLM的自我监督学习目标继续在无监督、同领域的ROCStories预训练。在第三阶段,对目标SCT任务上的结果模型进行了微调。
下面展开阐述这三个阶段:
第一阶段:开放域预训练
本文采用原始BERT的做法进行开放领域预训练,这个阶段使用的自监督任务是masked语言模型和连续句子预测。同时,保持故事理解系统的输入与BERT一样,为sent.A和sent.B形式。还利用了分段嵌入来指示两个不同的句子,输入向量的结构与BERT一致,为[CLS]sent.A[SEG]sent.B[SEG]。
第二阶段:同领域自监督预训练
与之前的工作不同,本文调整了BERT和任务特定参数,在无监督的ROCStories上执行自监督任务,如下所述。随机将ROCStories分成两部分:80%的训练集和20%的开发集。
使用Masked Language Model(MLM)和下一个句子预测(NSP)目标来预训练BERT。本专利中,沿用此自我监督任务。
MLM任务遵循BERT的程序。随机掩蔽15%经过Wordpiece分词之后、每个序列中的所有词项,模型需要预测掩蔽词项。与开放域预训练不同的是,这里使用的每条训练样例不再是512长度的自然语言文本,而是一条5句话故事。
接着,为了理解故事,重新设计了用于ROCStories的变体NSP任务。与BERT不同,随机选择每个故事中的前句作为sent.A。当为每个训练前考试选择sent.B时,50%的时间B是A之后的实际下一个句子,50%的时间是故事中的随机句子。正样本与IsNext一起标记,负样本标记为NotNext。最终生成的模型在ROCStories开发集上的NSP任务中实现了95%-96%的精度。
为了完成第二阶段和第三阶段的任务,此处引入了多项选择头作为模型的决策层。方案如下:
表示形式Ci∈RH作为BERT模型中编码器的输出,其中H是Transformer的隐藏层大小,i代表第i个选项。同时,为了适应多选任务,引入了任务特定的参数——向量V∈RH,与每个选项i的[CLS]词表示做点积,得到的分数;分母是N个选项的点积和,分数比上分母就是概率分布值。
Ci=BERT(sent.A,sent.B)#(2)
其中N是SCT任务中选项的数量,本专利中,N为2。
第三阶段:目标领域监督训练
对于目标任务SCT,将四句故事(上下文)视为句子A,将每个候选作为sent.B结尾。最终概率分布如下:
Pi=RM([sent.1,sent.2,...,sent.4],endi)#(3)
其中:RM代表第二阶段自监督学习任务预训练的BERT模型和多选头(公式1)。每个候选结尾都标有SCT数据集中的"错误结尾"或"正确结尾"。这样,就可以将一般语义知识和同领域中的故事知识转移到SCT任务中。
训练模型的损失函数为交叉熵损失(见公式4):
本文选用Adam优化器对模型进行训练。
基于Adam的训练算法:
输入:batch-size个样例(句对X,标签Y),
经过二阶段训练之后BERT的词向量,
经过二阶段训练之后BERT的模型参数θ
输出:模型参数θ更新;
3.利用Adam优化器计算更新模型参数θ;
4.Until当验证集上的准确率连续三轮低于之前的最大值。
实施例1:
实验使用ROCStories作为第二阶段自监督预训练的语料,这个语料库收集了98,162个众包完整的五句话故事。每个故事以一个主题,跟随一个角色通过一系列事件得出一个符合常识和逻辑的结尾。
本文根据标记数据SCT-v1.0和SCT-v1.5评估三阶段故事阅读理解训练框架。SCT-v1.0是包括3,742个故事,其中包含一个四句情节和两个候选人结尾。正确的结局自然以连贯和有意义的方式结束故事,错误的结局完全不可能成为故事的自然结局。此外,所有结尾应至少分享故事的一个角色。SCT-v1.5包含1,571个四句故事上下文,以及验证和盲测试数据集中正确的结尾和错误的结局。
在第三个阶段,本文微调了SCT验证集上生成的模型,以选择正确的结束。本文随机拆分80%的故事,将SCT-v1.0评估集中的两个考生结尾作为培训集(1,479个案例),将SCT-v1.0评估集中的20%的故事作为验证集(374个案例)。此外,使用SCT-v1.0测试集作为测试集(1,871个案例)。对于SCT-v1.5,使用1,871SCT-v1.0测试数据集用于训练目的,并在SCT-v1.5验证集中进行测试。
表1所用数据集详细信息
数据名称 | 样例数 | 类别数 |
SCT-v1.0 | 3,742 | 2 |
SCT-v1.5 | 1,571 | 2 |
参数设置如下表:
表2参数设置
参数设置 | 值 |
batch size | 32 |
number of Multi-Head | 16 |
Initial learning rate | 0.00002 |
dimension of bert embedding | 1024 |
weight decay of learning rate | 0.1 |
The number of epochs | 3 |
learning rate warm-up | 0.01% |
优化器使用的是Adam。
为了全面地验证比较本发明的实验效果,将本发明与强基线系统BERT large进行效果比较。
表3在SCT数据集上的实验效果
通过分析表3,可以清楚的看到,三阶段故事阅读理解训练框架达到了最优的效果,在不使用其他有监督数据的情况下,只使用同领域的ROCStories进行预训练,可以帮助目标领域的SCT任务达到很好的效果。
表4在SCT数据集上的实验效果
从表4的结果可以看出,本发明在去除人类偏置的升级版本SCT-v1.5上也有很好的表现,已经超过了基线系统,达到最好的效果。综上,本发明具有很好的泛化能力,有效地提升BERT在NLP下游任务上的效果。
Claims (4)
1.一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,包括以下步骤:
1)使用语言模型在开放域语料库上进行预训练;
2)采用语言模型LM或者掩码语言模型MLM的自我监督学习目标继续在无监督、同领域的ROCStories日常故事语料上进行预训练;
3)对目标SCT任务上的结果模型进行训练。
2.根据权利要求1所述的一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,所述的步骤2)中,具体方法为:
2.1)调整BERT和任务特定参数,在无监督的ROCStories上执行自监督任务:
随机将ROCStories分成80%的训练集和20%开发集两部分,接着使用自我监督任务MLM和下一个句子预测NSP目标来预训练BERT;在MLM任务中,遵循BERT的程序,随机掩蔽15%经过Wordpiece分词之后、每个序列中的所有词项,使用模型预测掩蔽词项;使用的每条训练样例是一条5句话的故事;
2.2)为了理解故事,重新设计了用于ROCStories的变体NSP任务:
随机选择每个故事中的前句作为sent.A,当为每个训练前考试选择sent.B时,50%的时间B是A之后的实际下一个句子,50%的时间是故事中的随机句子;正样本与IsNext一起标记,负样本标记为NotNext;最终生成的模型在ROCStories开发集上的NSP任务中;
2.3)为了完成SCT任务,在BERT模型中,引入多项选择头作为模型的决策层:
表示形式Ci∈RH作为BERT模型中编码器的输出,其中H是Transformer的隐藏层大小,i代表第i个选项;
引入了任务特定的参数——向量V∈RH,与每个选项i的[CLS]词表示做点积,得到的分数;分母是N个选项的点积和,分数比上分母就是概率分布值;
Ci=BERT(sent.A,sent.B)#(2)
其中:N是SCT任务中选项的数量。
4.根据权利要求1所述的一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,所述的步骤3)中,选择Adam优化器对目标领域监督训练模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110670949.2A CN113312454A (zh) | 2021-06-17 | 2021-06-17 | 一种基于自监督的三阶段故事阅读理解训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110670949.2A CN113312454A (zh) | 2021-06-17 | 2021-06-17 | 一种基于自监督的三阶段故事阅读理解训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113312454A true CN113312454A (zh) | 2021-08-27 |
Family
ID=77379302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110670949.2A Pending CN113312454A (zh) | 2021-06-17 | 2021-06-17 | 一种基于自监督的三阶段故事阅读理解训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312454A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633730A (zh) * | 2019-08-07 | 2019-12-31 | 中山大学 | 一种基于课程学习的深度学习机器阅读理解训练方法 |
CN112016300A (zh) * | 2020-09-09 | 2020-12-01 | 平安科技(深圳)有限公司 | 预训练模型处理、下游任务处理方法、装置及存储介质 |
US20210042937A1 (en) * | 2019-08-08 | 2021-02-11 | Nec Laboratories America, Inc. | Self-supervised visual odometry framework using long-term modeling and incremental learning |
KR20210036840A (ko) * | 2019-09-26 | 2021-04-05 | 주식회사 루닛 | 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치 |
-
2021
- 2021-06-17 CN CN202110670949.2A patent/CN113312454A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633730A (zh) * | 2019-08-07 | 2019-12-31 | 中山大学 | 一种基于课程学习的深度学习机器阅读理解训练方法 |
US20210042937A1 (en) * | 2019-08-08 | 2021-02-11 | Nec Laboratories America, Inc. | Self-supervised visual odometry framework using long-term modeling and incremental learning |
KR20210036840A (ko) * | 2019-09-26 | 2021-04-05 | 주식회사 루닛 | 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치 |
CN112016300A (zh) * | 2020-09-09 | 2020-12-01 | 平安科技(深圳)有限公司 | 预训练模型处理、下游任务处理方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
张超然;裘杭萍;孙毅;王中伟;: "基于预训练模型的机器阅读理解研究综述", 计算机工程与应用, no. 11 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bakhtin et al. | Real or fake? learning to discriminate machine from human generated text | |
Oord et al. | Parallel wavenet: Fast high-fidelity speech synthesis | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN106547735B (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
US11526676B2 (en) | Implicit discourse relation classification with contextualized word representation | |
US11625540B2 (en) | Encoder, system and method for metaphor detection in natural language processing | |
Rozen et al. | Diversify your datasets: Analyzing generalization via controlled variance in adversarial datasets | |
Elhamifar et al. | Self-supervised multi-task procedure learning from instructional videos | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
Wang et al. | A Deep Reinforcement Learning Based Multimodal Coaching Model (DCM) for Slot Filling in Spoken Language Understanding (SLU). | |
US20230351149A1 (en) | Contrastive captioning neural networks | |
Zheng et al. | Knowledge-grounded dialogue generation with term-level de-noising | |
Ding et al. | Albert-based sentiment analysis of movie review | |
CN113312454A (zh) | 一种基于自监督的三阶段故事阅读理解训练方法 | |
CN117058394A (zh) | 一种零样本语义分割方法 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
Kashyap et al. | GPT-Neo for commonsense reasoning--a theoretical and practical lens | |
CN114579706A (zh) | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 | |
Dai et al. | From Ultra-Fine to Fine: Fine-tuning Ultra-Fine Entity Typing Models to Fine-grained | |
US20230244452A1 (en) | Computer code generation from task descriptions using neural networks | |
Taraldsen et al. | Expanding on the end-to-end memory network for goal-oriented dialogue | |
Wang et al. | An Automatic Error Correction Method for English Composition Grammar Based on Multilayer Perceptron | |
Ranzato | A text segmentation technique based on language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |