CN115293142A - 一种基于词典增强预训练模型的常识问答方法 - Google Patents
一种基于词典增强预训练模型的常识问答方法 Download PDFInfo
- Publication number
- CN115293142A CN115293142A CN202210836783.1A CN202210836783A CN115293142A CN 115293142 A CN115293142 A CN 115293142A CN 202210836783 A CN202210836783 A CN 202210836783A CN 115293142 A CN115293142 A CN 115293142A
- Authority
- CN
- China
- Prior art keywords
- model
- question
- training
- dictionary
- entries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 28
- 238000012512 characterization method Methods 0.000 claims description 27
- 230000000692 anti-sense effect Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 49
- 238000001907 polarising light microscopy Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000001802 infusion Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 241000735495 Erica <angiosperm> Species 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词典增强预训练模型的常识问答方法。本发明包括如下步骤:1)词典知识清洗;2)在预训练过程中,采用描述‑实体预测和实体判别两个预训练任务,将实体‑描述以及同义词、反义词送到模型编码层;3)通过传统的拼接式或外跳注意力机制与外挂相结合的手段,捕捉词典增强的预训练模型在常识问答任务下的实体表征,从而建立更强的任务相关的表征。和现有技术相比,本发明利用了专家构建的词典中蕴含的知识,并且利用任务特定输出层和外跳注意力机制,较好地建模目标任务的特性,可以有效地提升模型在知识驱动型常识问答的效果。
Description
技术领域
本发明属于自然语言处理领域,具体涉及对比学习和词典增强的预训练模型 在知识驱动的问答与自然语言理解上的应用。
背景技术
预训练的语言模型(PLMs),如BERT、RoBERTa、ALBERT,由于其在各 种自然语言处理(NLP)任务上的最先进的性能,在学术界和工业界都很流行。 然而,由于它们只捕获了从大规模语料库中学习的一般语言表征,在处理知识驱 动的任务时,它们被证明是缺乏知识的。为了应对这一挑战,许多工作,如 ERNIE-THU、KEPLER、KnowBERT、K-Adapter和ERICA,都是为了将知识注 入PLMs以进一步改进。
常识问答是预训练的语言模型的一个典型应用场景。然而,现有的知识增强 型PLM仍然存在着一些缺陷。首先,很少有方法关注知识本身,包括需要什么 类型的知识以及获取这些知识的可行性。一方面,一些模型认为使用知识图谱 (KG)是理所当然的,而这在实践中是很难获得的,并被证明不如字典知识那 样有效。另一方面,许多方法使用维基百科,而维基百科更容易获取,但往往是 有噪声的,而且知识密度低。第二,目前的K-PLMs主要集中在一两类知识驱动 的任务上。尽管它们在一些特定的任务上被证明是有用的,但它们的语言理解能 力要么没有在GLUE上得到进一步验证。
因此,在常识问答领域中,如何提高PLMs的效果和性能,是目前亟待解决 的技术问题。
发明内容
本发明目的是解决现有技术中存在的问题,并提供一种基于词典增强预训练 模型的常识问答方法。
受字典知识比结构化知识更有效的启发,本发明利用字典资源作为外部知识 来提高PLMs的效率。根据相关经验,这样做的有点如下:首先,它与人类的阅 读习惯和认知过程是一致的;在阅读过程中,当遇到不熟悉的单词时,人们通常 会查阅字典或百科全书。第二,与维基百科的长篇文字相比,字典知识更加简洁, 知识密度高。第三,字典知识更容易获取,这对K-PLMs的实际应用具有重要意 义,即使在缺乏字典的情况下,也可以通过简单地构建一个生成器来总结解释一 个词的描述而获得。
本发明具体采用的技术方案如下:
一种基于词典增强预训练模型的常识问答方法,其步骤如下:
S1:获取多个词典知识作为训练语料,并将各语料样本预处理为相同的输入 格式;每个语料样本的内容包括词条和词条的定义描述,同时每个词条还对应有 正样本和负样本,正样本中包含词条的同义词和同义词的定义描述,负样本中包 含词条的反义词和反义词的定义描述;
S2:以BERT或RoBERTa作为原始编码器模型,利用训练语料对编码器模 型进行训练,更新编码器模型参数,得到词典增强的编码器模型;具体训练步骤 如S21~S22:
S21:对训练语料进行采样,并对部分采样到的词条进行掩码处理,遮盖词 条实体内容,形成用于通过描述预测词条实体的第一样本,其余采样到的词条直 接作为第二样本;
S22:同时通过描述-实体预测预训练任务和实体判别预训练任务对所述编码 器模型进行迭代训练,训练的总损失为两个预训练任务损失的加权和;
在描述-实体预测预训练任务中,将S21中采样得到的第一样本送入所述编 码器模型中,得到对应的隐藏层状态,再通过池化层和全连接层进行掩码预测, 并计算掩码预测损失作为描述-实体预测预训练任务的损失;
在实体判别预训练任务中,利用S21中采样得到的第二样本并结合对应的正 样本和负样本,进行对比学习,由编码器模型获取每个样本对应的词条和定义描 述的表征,计算对比学习损失作为实体判别预训练任务的损失,以拉近同义词表 征距离,分离反义词之间的表征距离;
S3:完成S2中的模型训练后,结合所述词典增强的编码器模型和原始编码 器模型形成双塔编码器模型,并在双塔编码器模型后连接问答任务输出层,得到 问答模型;其中,双塔编码器模型的输入为问题文本,输入的问题文本经过原始 编码器模型得到第一表征,同时基于词典对输入的问题文本进行匹配以识别出问 题文本中的所有词条,识别出的词条经过所述词典增强的编码器模型得到第二表 征,将第一表征和第二表征融合后输入问答任务输出层中进行回答预测;基于问 答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调;
S4、基于S3中微调完毕后的所述问答模型,根据输入的问题预测得到问题 的答案。
作为优选,所述问答模型中,原始编码器模型对输入的问题文本进行编码最 终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码器模型分 别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,将所有词条 的词嵌入相加后的总和作为第二表征
作为优选,所述问答模型中,原始编码器模型对输入的问题文本进行编码最 终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码器模型分 别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,通过注意力 机制计算所有词条的词嵌入加权和作为第二表征
其中:ATT表示注意力函数,hc作为注意力函数的键(Key)和值(Value), ei作为注意力函数的查询(Query),ei表示第i个识别的词条或者词条与其定义 描述通过所述词典增强的编码器模型得到的最终输出,K是从问题文本中识别到 的词条总数。
作为优选,所述问答模型中,原始编码器模型对输入的问题文本进行编码最 终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码器模型分 别对每一个识别出的词条进行编码,提取所述原始编码器模型和所述词典增强的 编码器模型各自的每一层输出,并通过注意力机制计算任意第l层输出的所有词 条的词嵌入加权和然后将所有层的词嵌入加权和进行平均得到第二表征
其中,hl表示问题文本输入原始编码器模型后在模型第l层的输出,表示第 i个识别的词条或者词条与其定义描述输入所述词典增强的编码器模型后在模型 第l层的输出;aTT表示注意力函数,hl作为注意力函数的键(Key)和值(Value), ei作为注意力函数的查询(Query);L表示所述原始编码器模型和所述词典增强 的编码器模型中的总层数,K是从问题文本中识别到的词条总数。
作为优选,所述S1中,每个语料样本中的词条e和定义描述desc均通过增加 [CLS]和[SEP]预处理为相同的输入格式s={[CLS]e[SEP]desc[SEP]}。
作为优选,所述S22中,掩码预测损失Ldep采用交叉熵损失。
作为优选,所述S22中,对比学习损失Ledd计算公式如下:
作为优选,所述S2中,对编码器模型进行训练时采用的总损失函数的计算 公式为:
L=λ1Ldep+λ2Ledd
其中λ1和λ2分别表示两个任务的损失函数的权重值。
作为优选,所述问答任务输出层由Linner层和Softmax层组成。
作为优选,所述原始编码器模型优选为BERT-large。
相对于现有技术而言,本发明的有益效果如下:
和现有技术相比,本发明能够利用了专家构建的词典中蕴含的知识,并且利 用任务特定输出层,建模常识问答任务的特性,可以有效地提升模型在知识驱动 型常识问答的效果。而且,本发明还可以在双塔编码器模型中通过结合外跳注意 力机制和外挂式的微调手段,进一步的利用词典知识中的实体知识,有效的提升 预训练模型在常识问答任务的效果。
附图说明
图1为一种基于词典增强预训练模型的常识问答方法的步骤示意图;
图2为本发明的方法的预训练流程图;
图3为本发明的三种不同的微调框架。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述和说明。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于词典增强预训 练模型的常识问答方法,其步骤如S1~S4所示:
S1:获取多个词典知识作为训练语料,并将各语料样本预处理为相同的输入 格式;每个语料样本的内容包括词条和词条的定义描述,同时每个词条还对应有 正样本和负样本,正样本中包含词条的同义词和同义词的定义描述,负样本中包 含词条的反义词和反义词的定义描述。
作为本发明实施例的一种较佳实现方式,每个语料样本中的词条e和定义描 述desc均通过增加[CLS]和[SEP]标记来预处理为相同的输入格式 s={[CLS]e[SEP]desc[SEP]}。
由于本发明中实际包含三种词条实体,即词条Entry、其同义词Syn、反义 词Ant,因此构造可以分别关于词条Entry-词条描述Desc以及同义词Syn、反义 词Ant的输入格式:[CLS]Entry[SEP]Desc[SEP],[CLS]Syn[SEP]Desc[SEP], [CLS]Ant[SEP]Desc[SEP]。
S2:以BERT或RoBERTa作为原始编码器模型,利用训练语料对编码器模 型进行训练,更新编码器模型参数,得到词典增强的编码器模型;具体训练步骤 如S21~S22:
S21:对训练语料进行采样,并对部分采样到的词条进行掩码处理,遮盖词 条实体内容,形成用于通过描述预测词条实体的第一样本,其余采样到的词条直 接作为第二样本;
S22:同时通过描述-实体预测预训练任务和实体判别预训练任务对所述编码 器模型进行迭代训练,训练的总损失为两个预训练任务损失的加权和;
在描述-实体预测预训练任务中,将S21中采样得到的第一样本送入所述编 码器模型中,得到对应的隐藏层状态,再通过池化层和全连接层进行掩码预测, 并计算掩码预测损失作为描述-实体预测预训练任务的损失;
在实体判别预训练任务中,利用S21中采样得到的第二样本并结合对应的正 样本和负样本,进行对比学习,由编码器模型获取每个样本对应的词条和定义描 述的表征,计算对比学习损失作为实体判别预训练任务的损失,以拉近同义词表 征距离,分离反义词之间的表征距离。
作为本发明实施例的一种较佳实现方式,上述掩码预测损失Ldep可以采用交 叉熵损失。上述对比学习损失Ledd计算公式可以采用如下形式:
由此,对编码器模型进行训练时采用的总损失函数L的计算公式可以表示为:
L=λ1Ldep+λ2Ledd
其中λ1和λ2分别表示两个任务的损失函数的权重值,具体权重值可以根据实 际进行优化调整。
作为本发明实施例的一种较佳实现方式,上述预定义的任务中执行采样时的 采样数据分布优选采用均匀分布,即对语料进行均匀采样,使所有词条都可能被 采样到。
上述训练得到词典增强的编码器模型过程如图2所示。
S3:完成S2中的模型训练后,结合所述词典增强的编码器模型和原始编码 器模型形成双塔编码器模型,并在双塔编码器模型后连接问答任务输出层,得到 问答模型;其中,双塔编码器模型的输入为问题文本,输入的问题文本经过原始 编码器模型得到第一表征,同时基于词典对输入的问题文本进行匹配以识别出问 题文本中的所有词条,识别出的词条经过所述词典增强的编码器模型得到第二表 征,将第一表征和第二表征融合后输入问答任务输出层中进行回答预测;基于问 答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调。
S4、基于S3中微调完毕后的所述问答模型,根据输入的问题预测得到问题 的答案。
需要说明的是,本发明中的原始编码器模型可以是BERT或RoBERTa,后 续实施例中的优选方式为BERT-large。
作为本发明实施例的一种较佳实现方式,上述问答模型中,双塔编码器模型 输出的第一表征和第二表征可以设置不同的表征结合方式,主要包括是三种:(1) 直接串联拼接,(2)跳外注意力机制和(3)层感知的跳外注意力机制。如图3所示, 下面分别对着三种表征结合方式的具体实现进行详细描述:
(1)直接串联拼接:
在采用该表征结合方式的问答模型中,原始编码器模型对输入的问题文本进 行编码最终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码 器模型分别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,将 所有词条的词嵌入相加后的总和作为第二表征
(2)跳外注意力机制:
在采用该表征结合方式的问答模型中,原始编码器模型对输入的问题文本进 行编码最终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码 器模型分别对每一个识别出的词条进行编码,最终输出每一个词条的词嵌入,通 过注意力机制计算所有词条的词嵌入加权和作为第二表征
其中:ATT表示注意力函数,hc作为注意力函数的键(Key)和值(Value), ei作为注意力函数的查询(Query),ei表示第i个识别的词条或者词条与其定义 描述通过所述词典增强的编码器模型得到的最终输出,K是从问题文本中识别到 的词条总数。
(3)层感知的跳外注意力机制:
在采用该表征结合方式的问答模型中,原始编码器模型对输入的问题文本进 行编码最终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码 器模型分别对每一个识别出的词条进行编码,提取所述原始编码器模型和所述词 典增强的编码器模型各自的每一层输出,并通过注意力机制计算任意第l层输出 的所有词条的词嵌入加权和然后将所有层的词嵌入加权和进行平均得到第 二表征
其中,hl表示问题文本输入原始编码器模型后在模型第l层的输出,表示第 i个识别的词条或者词条与其定义描述输入所述词典增强的编码器模型后在模型 第l层的输出;aTT表示注意力函数,hl作为注意力函数的键(Key)和值(Value), ei作为注意力函数的查询(Query);L表示所述原始编码器模型和所述词典增强 的编码器模型中的总层数,K是从问题文本中识别到的词条总数。
需要特别注意的是,在上述(2)跳外注意力机制和(3)层感知的跳外注意力机 制中,词典增强的编码器模型输出的注意力函数的查询(Query)均有两种形式, 其区别在于词典增强的编码器模型的输入是不同的,第一种查询形式是输入了第 i个识别的词条,而第二种查询形式是输入了第i个识别的词条以及其定义描述。 因此,在上述(2)跳外注意力机制中,采用第一种查询形式时,ei表示第i个识别 的词条通过所述词典增强的编码器模型得到的最终输出;采用第二种查询形式时, ei表示第i个识别的词条与其定义描述通过所述词典增强的编码器模型得到的最 终输出。在上述(3)层感知的跳外注意力机制中,采用第一种查询形式时,表示 第i个识别的词条输入所述词典增强的编码器模型后在模型第l层的输出;采用 第二种查询形式时,表示第i个识别的词条与其定义描述输入所述词典增强的 编码器模型后在模型第l层的输出。
另外,作为本发明实施例的一种较佳实现方式,在上述问答模型中,均可通 过得到的第一表征hc和第二表征可以以拼接的方式进行融合后输入问答任务输 出层中进行回答预测。问答任务输出层可以由Linner层和Softmax层组成,拼接 融合后的表征先通过Linner层,Linner层的输出再通过Softmax层输出预测的概 率分布,从而实现对回答的预测。
下面将上述S1~S4所述的基于词典增强预训练模型的常识问答方法应用至 一个具体实例中,以展示其具体实现方式和技术效果。
实施例
词典是一种资源,它列出了一种语言的词汇,通过解释说明来澄清其含义, 并经常说明其发音、起源、用法、同义词和反义词等。本发明中词典中的条目即 词条,对该词条的解释即定义描述。表1显示了一个关于英文单词"forest"的例 子。在本发明中,使用四种信息进行预训练:每个词条、其定义描述、同义词和 反义词,并利用字典中的词条和它们的含义(即解释性描述)进行知识注入预训 练。另外,为了提高词条的代表性,使用词条的同义词和反义词进行对比学习。
表1词典词条的样例
如图1所示,本实施例按照上述S1~S4所述的流程,使用两个新的预训练 任务:(1)词典条目预测任务和(2)条目描述判别任务,即前述的描述-实体预 测预训练任务和实体判别预训练任务,通过进一步训练预训练的语言模型PLM (本实施例中采用BERT作为预训练的编码器模型)来捕捉字典知识的不同方面, 进而构建问答模型。下面具体描述本实施例的实现过程:
对于词条的预测,本实施例遵循BERT中掩蔽语言建模(MLM)的设计, 但对要掩蔽的标记施加了限制。最初,给定一个输入序列,MLM任务用一个特 殊的[MASK]符号随机掩盖一定比例的输入标记,然后试图恢复它们。受Defsent 工作的启发,为了有效地学习词条表征,本实施例将每个词条 e={t1,t2,...,ti,...,tm}和其描述desc={w1,w2,....wn}作为输入,只对所选输入 样本s={[CLS]e[SEP]desc[SEP]}中的条目e的标记进行掩蔽,最后根据相应的描 述desc预测被掩蔽的条目标记。值得注意的是,如果一个条目e由多个标记组成,所有的组成标记都将被屏蔽。在多义性的情况下,一个词条e有多种意义(即 描述),本实施例以类似的方式为每个意义构建一个输入样本。本实施例可将词 条标记预测表述为:
P(t1,t2,...,ti,...,tm|s\{t1,t2,...,ti,...,tm})
其中ti是e的第i个符号,s\{t1,t2,...,ti,...,tm}表示样本s的输入符号ti...m被屏蔽。本实施例用BERT-large的预训练检查点初始化编码器模型,并将MLM作 为优化目标之一,它使用交叉熵损失作为损失函数Ldep。
为了更好地捕捉词典词条的语义,本实施例引入了条目描述判别,试图通过 对比性学习来提高词条表征的稳健性。具体来说,本实施例构建正面(或负面) 样本如下:给定一个词条e和它的描述desc,本实施例从词典源中获得它的同义 词Ds={esyn}(或反义词Da={eant}),并将每个esyn(或eant)和它的描述descsyn (或descant)的连接作为一个正面(或负面)样本。以表1中的条目″Forest″ 为例,″woodland″和″desert″分别是其同义词和反义词之一。相应的正样本和负 样本在表2中显示。在本实施例的实验中,使用相同数量的(例如,5个)正样 本和负样本。请注意,目前本实施例中只利用一个词条的反义词来构建严格的负面样本,但未来也可以探索通过随机选择来构建负面样本。
表2正样本和负样本举例
Positive | [CLS]woodland[SEP]Land covered with wood or trees SEP] |
Negative | [CLS]desert[SEP]arid land with little or no vegetation[SEP] |
本实施例用hori,hsyn,hant来表示原始的、正面的和负面的输入样本的表示。 为了拉近hori和hsyn的距离,推开hori和hant,本实施例设计了一个对比性目标, 其中(eori,esyn)被认为是正面的一对,(eori,eant)被认为是负面的。本实施例使 用hc,表示特殊符号[CLS]的隐藏状态,来表示输入样本的表示。定义一个对比 性目标Ledd如下:
其中f(x,y)表示隐藏状态x和y之间点积的指数化。本实施例将字典条目预 测任务损失和条目描述判别任务损失相加,最后得到总体损失函数L:
L=λ1 Ldep+λ2 Ledd
其中Ldep和Ledd表示两个任务的损失函数。在本实施例的实验中,可设定λ1=0.4,λ2=0.6。
以BERT-large作为原始编码器模型,利用训练语料对编码器模型进行训练, 更新编码器模型参数,待训练至收敛后即可得到词典增强的编码器模型,本实施 例中将其命名为DictBERT。具体训练步骤如前述S21~S22,此处不再重复赘述。
本实施例将DictBERT作为一个插件,在微调期间使用固定参数的PLM。通 过这种方式,本实施例可以享受为不同的字典训练不同的DictBERTs的灵活性, 并避免连续训练的灾难性遗忘问题。具体来说,本实施例首先从一个给定的输入 中识别出词典条目,然后将DictBERT作为一个KB来检索相应的条目信息(即 条目嵌入),最后将检索到的条目信息注入原始输入中,为下游任务获得一个增 强的表示。在输入由多个序列组成的情况下(例如,NLI),本实施例对每个输 入序列进行单独处理,然后将它们输入到下游的特定问答任务层进行后续处理。
具体而言,在进行问答任务时,可结合词典增强的编码器模型DictBERT和 原始编码器模型BERT-large形成双塔编码器模型,并在双塔编码器模型后连接 问答任务输出层,得到问答模型。其中,双塔编码器模型的输入为问题文本,输 入的问题文本经过原始编码器模型得到第一表征,同时基于词典对输入的问题文 本进行匹配以识别出问题文本中的所有词条,识别出的词条经过所述词典增强的 编码器模型得到第二表征,将第一表征和第二表征融合后输入问答任务输出层中 进行回答预测。问答任务输出层可以由Linner层和Softmax层组成,拼接融合后 的表征先通过Linner层,Linner层的输出再通过Softmax层输出预测的概率分布, 从而实现对回答的预测。该问答模型需进行训练,可利用带有标注的问答数据集, 基于问答数据集对问答模型中的原始编码器模型和问答任务输出层进行微调,微 调完毕后即可用于进行常识问答。
为了更好地利用下游任务中检索到的隐性知识,本实施例在问答模型中引入 了三种不同的知识灌输机制(见图3):(1)直接串联拼接,(2)跳外注意力机制和 (3)层感知的跳外注意力机制。
将识别出的条目纳入原始文本的最简单方法是将它们的嵌入相加,并将相加 的结果与文本代表相连接。然而,这种方法无法判断哪个词条更重要,以及在多 义词条的情况下哪个意义更适合。
因此,本实施例进一步提出了一种跳外关注机制来解决这一缺陷。如图3 所示,遵循Transformer-XH,将输入查询中[CLS]标记的隐藏状态hc作为"关注 中心",关注同一输入中识别的每个词条。有了关注的权重,再将这些词条或意 义作为外部知识整合到原始输入查询中时,就会关注更重要的词条或意义。外跳 注意力机制的公式如下:
为了进一步提高性能,本实施例将最后一层的跳外注意扩展到每个内层,使 其成为层级的。如图3所示,计算每一层的注意力得分,最后用它们的平均值来 进行隐性输入知识的判断。具体来说,层间跳外注意力可以表述为:
下面将上述方法应用至具体数据集中,具体实施步骤如前所述,下面主要展 示其效果。
本实施例采用CommonsenseQA和OpenBookQA等知识驱动型问答,评估 了DictBERT在该任务上的性能。
本实施例在实验中评估了DictBERT的不同变体。DictBERT+Concat(K)使用 连接机制,DictBERT+EHA(K)和DictBERT+EHA(K+V)采用跳外注意力机制,而 Dict-BERT+LWA(K+V)使用层间注意力机制。符号K表示使用词条从DictBERT 中检索条目嵌入,即采用前述的第一种查询形式,K+V表示同时使用词条和其 对应的定义描述进行知识检索,即采用前述的第二种查询形式。
表3.CommonsenseQA和OpenbookQA的实验结果
DictBERT在知识驱动的QA任务上的表现,即CommonsenseQA和 OpenBookQA,如表4所示。与BERT-large相比,本实施例的基本设置 DictBERT+Concat在这两个任务上分别获得了6.0%和4.0%的显著改善。此外, 本实施例观察到跳外注意力机制带来了明显的增长(2.4%和1.9%),再次验证了 识别输入样本中条目的敏感权重的重要性。最后,DictBERT+LWA(K+V)在两个 任务上都取得了最好的结果,与BERT-large基线相比,最终获得了9.0%和7.1% 的收益。为了更有说服力,本实施例还在CommonsenseQA和OpenBookQA上 将DictRoBERTa与原来的RoBERTa-large进行了比较。如表4所示,这个结论 对RoBERTa也是成立的。同样,DictRoBERTa+LWA(K+V)取得了最好的结果, 最终可以分别提高6.4%和6.5%以上。
表4.消融实验结果
此外,本实施例对DictBERT的不同组成部分进行了消融研究。首先,本实 施例评估了BERT-large+Concat(K)和BERT-large+LWA(K+V),它们直接使用BERT-large而不是预先训练的Dict-BERT作为插件。正如从结果中所看到的, 改进是相当有限的,证实了注入外部知识的必要性。其次,本实施例评估了两项 每项训练任务的有效性。DictBERT(DEP)+Concat和DictBERT(DEP+EDD) +Concat。如表6所示,对比性学习在一定程度上是有帮助的(平均0.4%),而 只屏蔽词条标记比屏蔽词条和描述的标记要好(三者均为+0.3%)。最后,本实 施例考察了使用DictBERT作为插件KB的必要性,而不是直接使用它进行下游 任务的微调(仅DictBERT),以及字典的大小是否重要(DictBERT plus)。如表 6所示,本实施例的三种知识灌输机制都可以进一步提高纯DictBERT的性能, 这表明将DictBERT作为一个插件使用是有好处的。为了评估词典规模的影响, 本实施例使用了剑桥词典、牛津词典和维基词典的结合,其总词条数超过100 万条。结果显示,DictBERT plus+LWA(K+V)可以进一步提高三个任务集的性能 (平均+0.23%)。
本实施例提出了DictBERT,通过两个新颖的预训练任务和微调期间基于注 意力的知识灌输机制,用词典知识来增强PLM。同时,通过一组充分的实验来 证明其在常识问答任务上的有效性。重要的是,本发明的方法可以很容易地在实 践中应用。而且本发明还可以进一步探索更有效的预训练任务和知识灌输机制, 将该方法应用到更多的知识驱动型任务。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。 有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以 做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案, 均落在本发明的保护范围内。
Claims (10)
1.一种基于词典增强预训练模型的常识问答方法,其特征在于,步骤如下:
S1:获取多个词典知识作为训练语料,并将各语料样本预处理为相同的输入格式;每个语料样本的内容包括词条和词条的定义描述,同时每个词条还对应有正样本和负样本,正样本中包含词条的同义词和同义词的定义描述,负样本中包含词条的反义词和反义词的定义描述;
S2:以BERT或RoBERTa作为原始编码器模型,利用训练语料对编码器模型进行训练,更新编码器模型参数,得到词典增强的编码器模型;具体训练步骤如S21~S22:
S21:对训练语料进行采样,并对部分采样到的词条进行掩码处理,遮盖词条实体内容,形成用于通过描述预测词条实体的第一样本,其余采样到的词条直接作为第二样本;
S22:同时通过描述-实体预测预训练任务和实体判别预训练任务对所述编码器模型进行迭代训练,训练的总损失为两个预训练任务损失的加权和;
在描述-实体预测预训练任务中,将S21中采样得到的第一样本送入所述编码器模型中,得到对应的隐藏层状态,再通过池化层和全连接层进行掩码预测,并计算掩码预测损失作为描述-实体预测预训练任务的损失;
在实体判别预训练任务中,利用S21中采样得到的第二样本并结合对应的正样本和负样本,进行对比学习,由编码器模型获取每个样本对应的词条和定义描述的表征,计算对比学习损失作为实体判别预训练任务的损失,以拉近同义词表征距离,分离反义词之间的表征距离;
S3:完成S2中的模型训练后,结合所述词典增强的编码器模型和原始编码器模型形成双塔编码器模型,并在双塔编码器模型后连接问答任务输出层,得到问答模型;其中,双塔编码器模型的输入为问题文本,输入的问题文本经过原始编码器模型得到第一表征,同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条,识别出的词条经过所述词典增强的编码器模型得到第二表征,将第一表征和第二表征融合后输入问答任务输出层中进行回答预测;基于问答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调;
S4、基于S3中微调完毕后的所述问答模型,根据输入的问题预测得到问题的答案。
4.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述问答模型中,原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征hc,而所述词典增强的编码器模型分别对每一个识别出的词条进行编码,提取所述原始编码器模型和所述词典增强的编码器模型各自的每一层输出,并通过注意力机制计算任意第l层输出的所有词条的词嵌入加权和然后将所有层的词嵌入加权和进行平均得到第二表征
6.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述S1中,每个语料样本中的词条e和定义描述desc均通过增加[CLS]和[SEP]预处理为相同的输入格式s={[CLS]e[SEP]desc[SEP]}。
7.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述S22中,掩码预测损失Ldep采用交叉熵损失。
9.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述S2中,对编码器模型进行训练时采用的总损失函数的计算公式为:
L=λ1Ldep+λ2Ledd
其中λ1和λ2分别表示两个任务的损失函数的权重值。
10.如权利要求1所述的基于词典增强预训练模型的常识问答方法,其特征在于,所述问答任务输出层由Linner层和Softmax层组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210836783.1A CN115293142A (zh) | 2022-07-15 | 2022-07-15 | 一种基于词典增强预训练模型的常识问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210836783.1A CN115293142A (zh) | 2022-07-15 | 2022-07-15 | 一种基于词典增强预训练模型的常识问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115293142A true CN115293142A (zh) | 2022-11-04 |
Family
ID=83821644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210836783.1A Pending CN115293142A (zh) | 2022-07-15 | 2022-07-15 | 一种基于词典增强预训练模型的常识问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293142A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117909484A (zh) * | 2024-03-19 | 2024-04-19 | 华中科技大学 | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
-
2022
- 2022-07-15 CN CN202210836783.1A patent/CN115293142A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117909484A (zh) * | 2024-03-19 | 2024-04-19 | 华中科技大学 | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
CN117909484B (zh) * | 2024-03-19 | 2024-05-28 | 华中科技大学 | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN110083705A (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111581350A (zh) | 一种基于预训练语言模型的多任务学习阅读理解方法 | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
CN112309528B (zh) | 一种基于视觉问答方法的医疗影像报告生成方法 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN107832300A (zh) | 面向微创医疗领域文本摘要生成方法及装置 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN116821297A (zh) | 一种风格化法律咨询问答方法、系统、存储介质和设备 | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN111723207B (zh) | 意图识别方法及系统 | |
Yan et al. | Learning contextualized knowledge structures for commonsense reasoning | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN115293142A (zh) | 一种基于词典增强预训练模型的常识问答方法 | |
CN114282592A (zh) | 一种基于深度学习的行业文本匹配模型方法及装置 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
Wang et al. | Weakly Supervised Chinese short text classification algorithm based on ConWea model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |