CN113312454A - 一种基于自监督的三阶段故事阅读理解训练方法 - Google Patents

一种基于自监督的三阶段故事阅读理解训练方法 Download PDF

Info

Publication number
CN113312454A
CN113312454A CN202110670949.2A CN202110670949A CN113312454A CN 113312454 A CN113312454 A CN 113312454A CN 202110670949 A CN202110670949 A CN 202110670949A CN 113312454 A CN113312454 A CN 113312454A
Authority
CN
China
Prior art keywords
task
training
story
model
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110670949.2A
Other languages
English (en)
Inventor
陈廷伟
侯昊辰
刘欣月
胡玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN202110670949.2A priority Critical patent/CN113312454A/zh
Publication of CN113312454A publication Critical patent/CN113312454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种基于自监督的三阶段故事阅读理解训练方法,包括以下步骤:1)使用语言模型在开放域语料库上进行预训练;2)采用语言模型LM或者掩码语言模型MLM的自我监督学习目标继续在无监督、同领域的ROCStories日常故事语料上进行预训练;3)对目标SCT任务上的结果模型进行训练。本发明引入在ROCStories故事无监督语料上的预训练步骤,提高了预训练语言模型在故事完形填空SCT任务的准确率。

Description

一种基于自监督的三阶段故事阅读理解训练方法
技术领域
本发明涉及一种基于自监督的三阶段故事阅读理解训练方法,属于深度学习中的自然语言处理领域。
背景技术
近年来,自然语言处理(NLP)引起了人们的长期关注并广泛应用于各个领域。故事阅读理解作为自然语言处理的一项热门任务,也吸引了不少学者的目光。故事完形测试(SCT)挑战由Mostafazadeh等人首次提出,该挑战提供了标记的验证集和测试集作为评估故事阅读理解系统的基准。同时,他们提供了无监督的ROCStories日常故事语料作为辅助。
故事完形测试任务需要一个故事理解模型来从给定故事上下文的两个候选结尾中选择正确的结尾,而ROCStories是完整的五句话常识故事。其中,SCT和ROCStories之间存在较高的词重叠,如果机器事先看过这些词所出现的情景,对SCT任务中推断正确结尾很有帮助。
目前,完成故事完形测试有很多方法,既包括传统的机器学习方法,又可以使用神经网络模型。一些作品还利用诸如情感、主题词和事件框架之类的信息。在2018年以后,Radford等人提出GPT(Generative Pre-Training)来利用大型未标记的开放域语料库,例如BooksCorpus数据集,给故事阅读理解任务带来了革新。Chen等人基于GPT,提出ISCK模型,融合了三种类型的外部信息,包括叙事顺序、情感演变和结构化的常识知识来预测故事的结局。除此之外,Google Brain在2018年提出的自编码语言模型框架——BERT在该任务上也有很好的效果,它与GPT非常的相似,都是基于Transformer的二阶段训练模型,都在预训练阶段无监督地训练出一个可通用的Transformer模型,然后在微调阶段对这个模型中的参数进行微调,使之能够适应不同的下游任务。与GPT不同的是,BERT在预训练阶段采用的是mask语言模型损失函数。
然而,当前的方法都缺乏SCT的领域相关的知识。与用于预训练BERT的BooksCorpus相比,ROCStories是SCT的大规模、同领域的无监督知识来源。SCT和ROCStories之间存在许多密切相关的语义联系,考虑使用ROCStories日常故事中的领域相关知识对于SCT中推理正确的结局是有效的。
发明内容
本发明的目的是提出一个三阶段故事阅读理解训练方法,引入在ROCStories故事无监督语料上的预训练步骤,提高预训练语言模型在故事完形填空SCT任务的准确率。
为了实现上述目的,本发明创造采用了如下技术方案:
一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,包括以下步骤:
1)使用语言模型在开放域语料库上进行预训练;
2)采用语言模型LM或者掩码语言模型MLM的自我监督学习目标继续在无监督、同领域的ROCStories日常故事语料上进行预训练;
3)对目标SCT任务上的结果模型进行训练。
所述的步骤2)中,具体方法为:
2.1)调整BERT和任务特定参数,在无监督的ROCStories上执行自监督任务:
随机将ROCStories分成80%的训练集和20%开发集两部分,接着使用自我监督任务MLM和下一个句子预测NSP目标来预训练BERT;在MLM任务中,遵循BERT的程序,随机掩蔽15%经过Wordpiece分词之后、每个序列中的所有词项,使用模型预测掩蔽词项;使用的每条训练样例是一条5句话的故事;
2.2)为了理解故事,重新设计了用于ROCStories的变体NSP任务:
随机选择每个故事中的前句作为sent.A,当为每个训练前考试选择sent.B时,50%的时间B是A之后的实际下一个句子,50%的时间是故事中的随机句子;正样本与IsNext一起标记,负样本标记为NotNext;最终生成的模型在ROCStories开发集上的NSP任务中;
2.3)为了完成SCT任务,在BERT模型中,引入多项选择头作为模型的决策层:
表示形式Ci∈RH作为BERT模型中编码器的输出,其中H是Transformer的隐藏层大小,i代表第i个选项;
引入了任务特定的参数——向量V∈RH,与每个选项i的[CLS]词表示做点积,得到的分数;分母是N个选项的点积和,分数比上分母就是概率分布值;
Figure BDA0003119225310000021
Ci=BERT(sent.A,sent.B)#(2)
其中:N是SCT任务中选项的数量。
所述的步骤3)中,具体方法为:
对于目标任务SCT,将四句故事视为句子A,将每个候选作为sent.B结尾,最终概率分布如下:
Pi=RM([sent.1,sent.2,...,sent.4],endi)#(3)
其中:RM这个函数代表自监督学习任务预训练的BERT模型和多选头;每个候选结尾都标有SCT数据集中的"错误结尾"或"正确结尾";由此将一般语义知识和同领域中的故事知识转移到SCT任务中;
训练模型的损失函数为交叉熵损失:
Figure BDA0003119225310000031
所述的步骤3)中,选择Adam优化器对目标领域监督训练模型进行训练。
本发明创造的有益效果:
本发明引入在ROCStories故事无监督语料上的预训练步骤,提高预训练语言模型对领域知识的融合,实现了SCT故事完形填空效果的提升。
附图说明
图1为自监督的三阶段故事阅读理解训练方法框架图。
具体实施方式
下面将结合本发明创造实施例中的附图,对本发明创造实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明创造一部分实施例,而不是全部的实施例。
下面结合附图和具体实施例对本发明作进一步详细说明。
为了使预训练语言模型能够掌握更多的领域相关知识,本发明提供了一种基于自监督的三阶段故事阅读理解训练框架,其包括三个阶段,如图1所示。在第一阶段,使用语言模型在开放域语料库上进行预训练。在第二阶段,继续采用LM或者MLM的自我监督学习目标继续在无监督、同领域的ROCStories预训练。在第三阶段,对目标SCT任务上的结果模型进行了微调。
下面展开阐述这三个阶段:
第一阶段:开放域预训练
本文采用原始BERT的做法进行开放领域预训练,这个阶段使用的自监督任务是masked语言模型和连续句子预测。同时,保持故事理解系统的输入与BERT一样,为sent.A和sent.B形式。还利用了分段嵌入来指示两个不同的句子,输入向量的结构与BERT一致,为[CLS]sent.A[SEG]sent.B[SEG]
第二阶段:同领域自监督预训练
与之前的工作不同,本文调整了BERT和任务特定参数,在无监督的ROCStories上执行自监督任务,如下所述。随机将ROCStories分成两部分:80%的训练集和20%的开发集。
使用Masked Language Model(MLM)和下一个句子预测(NSP)目标来预训练BERT。本专利中,沿用此自我监督任务。
MLM任务遵循BERT的程序。随机掩蔽15%经过Wordpiece分词之后、每个序列中的所有词项,模型需要预测掩蔽词项。与开放域预训练不同的是,这里使用的每条训练样例不再是512长度的自然语言文本,而是一条5句话故事。
接着,为了理解故事,重新设计了用于ROCStories的变体NSP任务。与BERT不同,随机选择每个故事中的前句作为sent.A。当为每个训练前考试选择sent.B时,50%的时间B是A之后的实际下一个句子,50%的时间是故事中的随机句子。正样本与IsNext一起标记,负样本标记为NotNext。最终生成的模型在ROCStories开发集上的NSP任务中实现了95%-96%的精度。
为了完成第二阶段和第三阶段的任务,此处引入了多项选择头作为模型的决策层。方案如下:
表示形式Ci∈RH作为BERT模型中编码器的输出,其中H是Transformer的隐藏层大小,i代表第i个选项。同时,为了适应多选任务,引入了任务特定的参数——向量V∈RH,与每个选项i的[CLS]词表示做点积,得到的分数;分母是N个选项的点积和,分数比上分母就是概率分布值。
Figure BDA0003119225310000041
Ci=BERT(sent.A,sent.B)#(2)
其中N是SCT任务中选项的数量,本专利中,N为2。
第三阶段:目标领域监督训练
对于目标任务SCT,将四句故事(上下文)视为句子A,将每个候选作为sent.B结尾。最终概率分布如下:
Pi=RM([sent.1,sent.2,...,sent.4],endi)#(3)
其中:RM代表第二阶段自监督学习任务预训练的BERT模型和多选头(公式1)。每个候选结尾都标有SCT数据集中的"错误结尾"或"正确结尾"。这样,就可以将一般语义知识和同领域中的故事知识转移到SCT任务中。
训练模型的损失函数为交叉熵损失(见公式4):
Figure BDA0003119225310000051
本文选用Adam优化器对模型进行训练。
基于Adam的训练算法:
输入:batch-size个样例(句对X,标签Y),
经过二阶段训练之后BERT的词向量,
经过二阶段训练之后BERT的模型参数θ
输出:模型参数θ更新;
1.利用X和θ,在模型中计算得到预测的标签
Figure BDA0003119225310000052
2.利用Y、
Figure BDA0003119225310000053
和式(4)计算目标函数;
3.利用Adam优化器计算更新模型参数θ;
4.Until当验证集上的准确率连续三轮低于之前的最大值。
实施例1:
实验使用ROCStories作为第二阶段自监督预训练的语料,这个语料库收集了98,162个众包完整的五句话故事。每个故事以一个主题,跟随一个角色通过一系列事件得出一个符合常识和逻辑的结尾。
本文根据标记数据SCT-v1.0和SCT-v1.5评估三阶段故事阅读理解训练框架。SCT-v1.0是包括3,742个故事,其中包含一个四句情节和两个候选人结尾。正确的结局自然以连贯和有意义的方式结束故事,错误的结局完全不可能成为故事的自然结局。此外,所有结尾应至少分享故事的一个角色。SCT-v1.5包含1,571个四句故事上下文,以及验证和盲测试数据集中正确的结尾和错误的结局。
在第三个阶段,本文微调了SCT验证集上生成的模型,以选择正确的结束。本文随机拆分80%的故事,将SCT-v1.0评估集中的两个考生结尾作为培训集(1,479个案例),将SCT-v1.0评估集中的20%的故事作为验证集(374个案例)。此外,使用SCT-v1.0测试集作为测试集(1,871个案例)。对于SCT-v1.5,使用1,871SCT-v1.0测试数据集用于训练目的,并在SCT-v1.5验证集中进行测试。
表1所用数据集详细信息
数据名称 样例数 类别数
SCT-v1.0 3,742 2
SCT-v1.5 1,571 2
参数设置如下表:
表2参数设置
参数设置
batch size 32
number of Multi-Head 16
Initial learning rate 0.00002
dimension of bert embedding 1024
weight decay of learning rate 0.1
The number of epochs 3
learning rate warm-up 0.01%
优化器使用的是Adam。
为了全面地验证比较本发明的实验效果,将本发明与强基线系统BERT large进行效果比较。
表3在SCT数据集上的实验效果
Figure BDA0003119225310000061
通过分析表3,可以清楚的看到,三阶段故事阅读理解训练框架达到了最优的效果,在不使用其他有监督数据的情况下,只使用同领域的ROCStories进行预训练,可以帮助目标领域的SCT任务达到很好的效果。
表4在SCT数据集上的实验效果
Figure BDA0003119225310000071
从表4的结果可以看出,本发明在去除人类偏置的升级版本SCT-v1.5上也有很好的表现,已经超过了基线系统,达到最好的效果。综上,本发明具有很好的泛化能力,有效地提升BERT在NLP下游任务上的效果。

Claims (4)

1.一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,包括以下步骤:
1)使用语言模型在开放域语料库上进行预训练;
2)采用语言模型LM或者掩码语言模型MLM的自我监督学习目标继续在无监督、同领域的ROCStories日常故事语料上进行预训练;
3)对目标SCT任务上的结果模型进行训练。
2.根据权利要求1所述的一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,所述的步骤2)中,具体方法为:
2.1)调整BERT和任务特定参数,在无监督的ROCStories上执行自监督任务:
随机将ROCStories分成80%的训练集和20%开发集两部分,接着使用自我监督任务MLM和下一个句子预测NSP目标来预训练BERT;在MLM任务中,遵循BERT的程序,随机掩蔽15%经过Wordpiece分词之后、每个序列中的所有词项,使用模型预测掩蔽词项;使用的每条训练样例是一条5句话的故事;
2.2)为了理解故事,重新设计了用于ROCStories的变体NSP任务:
随机选择每个故事中的前句作为sent.A,当为每个训练前考试选择sent.B时,50%的时间B是A之后的实际下一个句子,50%的时间是故事中的随机句子;正样本与IsNext一起标记,负样本标记为NotNext;最终生成的模型在ROCStories开发集上的NSP任务中;
2.3)为了完成SCT任务,在BERT模型中,引入多项选择头作为模型的决策层:
表示形式Ci∈RH作为BERT模型中编码器的输出,其中H是Transformer的隐藏层大小,i代表第i个选项;
引入了任务特定的参数——向量V∈RH,与每个选项i的[CLS]词表示做点积,得到的分数;分母是N个选项的点积和,分数比上分母就是概率分布值;
Figure FDA0003119225300000011
Ci=BERT(sent.A,sent.B)#(2)
其中:N是SCT任务中选项的数量。
3.根据权利要求1所述的一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,所述的步骤3)中,具体方法为:
对于目标任务SCT,将四句故事视为句子A,将每个候选作为sent.B结尾,最终概率分布如下:
Pi=RM([sent.1,sent.2,...,sent.4],endi)#(3)
其中:RM这个函数代表自监督学习任务预训练的BERT模型和多选头;每个候选结尾都标有SCT数据集中的″错误结尾″或″正确结尾″;由此将一般语义知识和同领域中的故事知识转移到SCT任务中;
训练模型的损失函数为交叉熵损失:
Figure FDA0003119225300000021
4.根据权利要求1所述的一种基于自监督的三阶段故事阅读理解训练方法,其特征在于,所述的步骤3)中,选择Adam优化器对目标领域监督训练模型进行训练。
CN202110670949.2A 2021-06-17 2021-06-17 一种基于自监督的三阶段故事阅读理解训练方法 Pending CN113312454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110670949.2A CN113312454A (zh) 2021-06-17 2021-06-17 一种基于自监督的三阶段故事阅读理解训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110670949.2A CN113312454A (zh) 2021-06-17 2021-06-17 一种基于自监督的三阶段故事阅读理解训练方法

Publications (1)

Publication Number Publication Date
CN113312454A true CN113312454A (zh) 2021-08-27

Family

ID=77379302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110670949.2A Pending CN113312454A (zh) 2021-06-17 2021-06-17 一种基于自监督的三阶段故事阅读理解训练方法

Country Status (1)

Country Link
CN (1) CN113312454A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836919A (zh) * 2021-09-30 2021-12-24 中国建筑第七工程局有限公司 一种基于迁移学习的建筑行业文本纠错方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN112016300A (zh) * 2020-09-09 2020-12-01 平安科技(深圳)有限公司 预训练模型处理、下游任务处理方法、装置及存储介质
US20210042937A1 (en) * 2019-08-08 2021-02-11 Nec Laboratories America, Inc. Self-supervised visual odometry framework using long-term modeling and incremental learning
KR20210036840A (ko) * 2019-09-26 2021-04-05 주식회사 루닛 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
US20210042937A1 (en) * 2019-08-08 2021-02-11 Nec Laboratories America, Inc. Self-supervised visual odometry framework using long-term modeling and incremental learning
KR20210036840A (ko) * 2019-09-26 2021-04-05 주식회사 루닛 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치
CN112016300A (zh) * 2020-09-09 2020-12-01 平安科技(深圳)有限公司 预训练模型处理、下游任务处理方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张超然;裘杭萍;孙毅;王中伟;: "基于预训练模型的机器阅读理解研究综述", 计算机工程与应用, no. 11 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836919A (zh) * 2021-09-30 2021-12-24 中国建筑第七工程局有限公司 一种基于迁移学习的建筑行业文本纠错方法

Similar Documents

Publication Publication Date Title
Bakhtin et al. Real or fake? learning to discriminate machine from human generated text
Oord et al. Parallel wavenet: Fast high-fidelity speech synthesis
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN106547735B (zh) 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
US11526676B2 (en) Implicit discourse relation classification with contextualized word representation
US11625540B2 (en) Encoder, system and method for metaphor detection in natural language processing
Rozen et al. Diversify your datasets: Analyzing generalization via controlled variance in adversarial datasets
Elhamifar et al. Self-supervised multi-task procedure learning from instructional videos
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
Wang et al. A Deep Reinforcement Learning Based Multimodal Coaching Model (DCM) for Slot Filling in Spoken Language Understanding (SLU).
US20230351149A1 (en) Contrastive captioning neural networks
Zheng et al. Knowledge-grounded dialogue generation with term-level de-noising
Ding et al. Albert-based sentiment analysis of movie review
CN113312454A (zh) 一种基于自监督的三阶段故事阅读理解训练方法
CN117058394A (zh) 一种零样本语义分割方法
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
Kashyap et al. GPT-Neo for commonsense reasoning--a theoretical and practical lens
CN114579706A (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
Dai et al. From Ultra-Fine to Fine: Fine-tuning Ultra-Fine Entity Typing Models to Fine-grained
US20230244452A1 (en) Computer code generation from task descriptions using neural networks
Taraldsen et al. Expanding on the end-to-end memory network for goal-oriented dialogue
Wang et al. An Automatic Error Correction Method for English Composition Grammar Based on Multilayer Perceptron
Ranzato A text segmentation technique based on language models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination