CN112364639A

CN112364639A - 基于预训练语言模型的上下文敏感的释义生成方法及系统

Info

Publication number: CN112364639A
Application number: CN202011121675.3A
Authority: CN
Inventors: 杨麟儿; 范齐楠; 杨尔弘; 孔存良
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-02-12
Anticipated expiration: 2040-10-19
Also published as: CN112364639B

Abstract

本发明公开了一种基于预训练语言模型的上下文敏感的释义生成方法及系统，该方法包括：获取训练数据集；其中，训练数据集中包括被释义词、被释义词所在的上下文，以及被释义词对应的释义；构建用于为被释义词生成释义的释义模型；其中，释义模型基于编码器‑解码器框架，释义模型的编码器为预训练的语言模型；基于所述训练数据集，对所述释义模型进行训练；通过训练好的释义模型，基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示，生成所述待释义的被释义词的释义。本发明具有逻辑清晰、效率高、准确率高的优点，解决了现有技术无法为被释义词准确生成释义的问题。

Description

基于预训练语言模型的上下文敏感的释义生成方法及系统

技术领域

本发明涉及自然语言处理(Natural Language Processing，简称NLP)技术领域，特别涉及一种基于预训练语言模型的上下文敏感的释义生成方法及系统。

背景技术

释义生成(又称释义建模，Denition Modeling)任务目的是为一个给定的目标词生成相应的释义。释义生成任务不论在自然语言处理领域还是实际应用场景中，都具有非常重要的研究意义和价值。

现有的上下文敏感的释义生成技术一般基于深度学习，使用词语和上下文的分布式向量表示作为输入，并使用循环神经网络(RNN)或卷积神经网络(CNN)对生成过程进行建模。由于词语的分布式向量表示可以捕捉到部分语法和语义信息，使用现有方法的确可以做到生成词语的释义，但现有方法仍有许多不足之处。

首先，现有技术所使用的模型结构一般比较简单，一般在循环神经网络或卷积神经网络的基础上构建。而对于近年来在机器翻译等领域表现良好的多头自注意力Transformer模型，未见在释义生成任务上有所应用。

其次，神经网络模型结构复杂、参数量庞大，需要大量训练数据对模型参数进行训练。而释义生成任务所需的词典数据十分稀缺，尤其是包含上下文的词典数据的获取更加困难，训练数据的缺乏导致模型参数无法得到充分训练。

最后，现有技术在解码阶段均采用贪心算法，而该算法具有一些弊端，在每个时间步都选取概率最大的词，很容易陷入局部最优解。另外，当某个时间步概率最大词错误时，该错误也会被继续传播，影响释义生成的效果。

发明内容

本发明提供了一种基于预训练语言模型的上下文敏感的释义生成方法及系统，以解决现有技术无法为被释义词准确生成释义的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于预训练语言模型的上下文敏感的释义生成方法，该基于预训练语言模型的上下文敏感的释义生成方法包括：

获取训练数据集；其中，所述训练数据集中包括被释义词、所述被释义词所在的上下文，以及所述被释义词在所述上下文中对应的释义；

构建用于为被释义词生成释义的释义模型；其中，所述释义模型基于编码器-解码器框架，所述释义模型的编码器为预训练的语言模型；

基于所述训练数据集，对所述释义模型进行训练；

通过训练好的释义模型，基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示，生成所述待释义的被释义词的释义。

其中，所述上下文是一个包含对应的被释义词的句子。

其中，所述释义模型为基于Transformer架构的编码器-解码器模型。

其中，所述释义模型的编码器被配置为BERT、GPT或ELMo模型。

其中，所述释义模型的解码器被配置为Transformer解码器。

其中，对所述释义模型进行训练时，所述释义模型以所述训练数据集中的释义词和上下文的分布式向量表示作为输入，并迭代地生成释义中的每个词。

其中，通过训练好的释义模型，基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示，生成待释义的被释义词的释义，包括：

获取待释义的被释义词x，及x所在的上下文c；

使用词嵌入层，获得x的分布式向量表示X，及c的分布式向量表示C；

使用编码器对X和C进行编码，编码结果为隐状态序列h；

使用解码器构建语言模型，基于所述解码器构建的语言模型，利用h，迭代地生成释义中的每个词。

其中，所述解码器构建的语言模型在解码过程中采用柱搜索算法。

其中，所述解码器的解码过程包括：

在解码的第一个时间步，将开始符号作为输入，搜索出概率最大的前k个词，将搜索出的前k个词的分布式向量表示作为第一个时间步的输出；

在之后的时间步，接收上一时刻输出的k个词的分布式向量表示，作为当前时间步的输入；

获得当前语言模型的输出向量，将输出向量作为语言模型向量；

依据上一时刻输出的k个词的分布式向量表示和上一时刻的隐状态输出，获得当前时刻的隐状态；

利用当前时刻的隐状态，逐一计算当前所预测词在词表范围内的概率分布，得到k*k个结果，从中取k个使得序列概率最大的词作为当前时刻的输出。

另一方面，本发明还提供了一种基于预训练语言模型的上下文敏感的释义生成系统，该基于预训练语言模型的上下文敏感的释义生成系统包括：

训练数据集获取模块，用于获取训练数据集；其中，所述训练数据集中包括被释义词、所述被释义词所在的上下文，以及所述被释义词在所述上下文中对应的释义；

释义模型构建模块，用于构建为被释义词生成释义的释义模型；所述释义模型基于编码器-解码器框架，所述释义模型的编码器为预训练的语言模型；

释义模型训练模块，用于基于所述训练数据集，对所述释义模型进行训练；

释义生成模块，用于通过训练好的释义模型，基于待释义的被释义词和待释义的被释义词的上下文的分布式向量表示，生成待释义的被释义词的释义。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明将被释义词和其所在上下文的分布式向量表示作为输入，使释义模型生成被释义词在特定上下文中的释义，提升了释义生成的效果。而且，本发明的释义模型为基于Transformer架构的编码器-解码器模型；其中，编码器使用了预训练语言模型，可配置为BERT、GPT或ELMo等，在编码器编码被释义词和上下文时，预训练语言模型从大规模语料中获得的语义信息被迁移至释义生成任务中，并结合柱搜索算法提升了释义生成的准确性。具有逻辑清晰、效率高、准确率高的优点，解决了现有技术无法为被释义词准确生成释义的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于预训练语言模型的上下文敏感的释义生成方法的原理示意图；

图2是本发明实施例提供的基于BERT预训练语言模型的上下文敏感的释义生成方法的模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种基于预训练语言模型的上下文敏感的释义生成方法，该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该基于预训练语言模型的上下文敏感的释义生成方法的原理如图1所示，包括以下步骤：

S101，获取训练数据集；

需要说明的是，上述训练数据集中包括被释义词、所述被释义词所在的上下文，以及所述被释义词在所述上下文中对应的释义，所述上下文是一个包含对应的被释义词的句子；本实施例将被释义词及其所在上下文一起输入释义模型中，获得包含语义更充足的分布式向量表示。

S102，构建用于为被释义词生成释义的释义模型；

需要说明的是，上述释义模型基于编码器-解码器框架，所述释义模型的编码器为在大规模语料上预训练的语言模型；从而将其在大规模语料上获得的语义信息迁移到释义生成任务中。所述释义模型的编码器可以被配置为BERT、GPT或ELMo等模型。如图2所示，在本实施例中，所述释义模型基于Transformer架构，其编码器被配置为BERT预训练语言模型。对于所述释义模型的训练，在本实施例中共分为两个阶段：第一阶段固定编码器参数，仅训练解码器；第二阶段同时调优编码器和解码器参数。

S103，基于所述训练数据集，对所述释义模型进行训练；

需要说明的是，对释义模型进行训练时，所述释义模型以训练数据集中的释义词和上下文的分布式向量表示作为输入，并迭代地生成释义中的每个词。

S104，通过训练好的释义模型，基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示，生成所述待释义的被释义词的释义。

需要说明的是，通过上述释义模型生成待释义词的释义的过程，包括：

获取待释义的被释义词x，及x所在的上下文序列c＝[c₁,…,c_n]，其中，c_n为上下文中的第n个词语；

使用词嵌入层，获得x的分布式向量表示X，及c中每个词语的分布式向量表示C＝[C₁,…,C_N]，其中，C_N为第n条知识信息c_n对应的分布式向量表示；

使用编码器对X和C进行编码，编码结果为隐状态序列h；其中，该隐状态序列h根据编码器所使用模型的不同，长度也不同，在本实施例中，其长度为N+4，即h＝[h₀,h₁,…,h_N+3]；

使用解码器构建语言模型，基于构建的语言模型，利用h，迭代地生成释义中的每个词；其中，该语言模型可以通过释义中的前t-1个词，预测第t个词。

需要说明的是，在本实施例中，被释义词x和上下文序列[c₁,…,c_n]直接拼接后作为嵌入式输入。BERT通过两种方式将输入的词和上下文区分开。首先，使用特殊符号“[SEP]”将它们分隔开；其次，为它们分别加上不同的段表征，将目标词的段表征置为0，上下文的段表征置为1。对于每一个词，其词嵌入由对应的词表征、段表征和位置表征相加产生。

在本实施例中，解码器被配置为Transformer解码器，其由N层相同的模块构成，上层模块输出的隐状态是下层模块的输入。每个模块包含三个子层：一个掩码多头自注意力层、一个编码器-解码器多头注意力层和一个前馈神经网络层。其中多头注意力层由多个注意力层得到的向量拼接而成，每个注意力层采用缩放点积运算：

MultiHead(Q,K,V)＝Concat(Attention₁,…,Attention_h)

其中，Q、K和V分别表示查询矩阵、键值矩阵和实值矩阵，h表示注意力层的头数。掩码多头自注意力层的Q、K和V相同，都会释义的词嵌入经线性映射后的向量，掩码操作使模型在训练阶段的每个时间步不能看到未来信息。编码器-解码器多头注意力层的Q来自于上一层解码器的输出，K和V来自于编码器的输出。另外，这三个子层之后都会接一个归一化层和残差网络，归一化层能够加快模型训练速度，残差网络能够防止神经网络模型退化。

在解码过程中，本实施例采用了柱搜索算法，其包括：

在解码的第一个时间步，将开始符号作为输入，搜索出概率最大的前k个词

将词

的分布式向量表示

作为第一个时间步的输出；

在之后的时间步，接收上一时刻输出的k个词的分布式向量表示

作为当前时间步的输入；

获得当前语言模型的输出向量

将输出向量

作为语言模型向量；

依据上一时刻输出的k个词的分布式向量表示

和上一时刻的隐状态输出

获得当前时刻的隐状态

利用隐状态

逐一计算当前所预测词在词表范围内的概率分布，得到k*k个结果，从中取k个使得序列概率最大的词作为当前时刻的输出。

综上，本实施例将被释义词和其上下文的分布式向量表示作为输入，使释义模型生成被释义词在特定上下文中的释义，提升了释义生成的效果。而且本实施例的释义模型为基于Transformer架构的编码器-解码器模型；其中，编码器使用了预训练语言模型，可配置为BERT、GPT或ELMo，在编码器编码被释义词和上下文时，预训练语言模型从大规模语料中获得的语义信息被迁移至释义生成任务中，并结合柱搜索算法提升了释义生成的准确性。具有逻辑清晰、效率高、准确率高的优点，解决了现有技术无法为被释义词准确生成释义的问题。

第二实施例

本实施例提供了一种基于预训练语言模型的上下文敏感的释义生成系统，该基于预训练语言模型的上下文敏感的释义生成系统，包括以下模块：

本实施例的基于预训练语言模型的上下文敏感的释义生成系统与上述第一实施例的基于预训练语言模型的上下文敏感的释义生成方法相对应；其中，本实施例的基于预训练语言模型的上下文敏感的释义生成系统中的各功能模块所实现的功能与上述第一实施例的基于预训练语言模型的上下文敏感的释义生成方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以下步骤：

S101，获取训练数据集；其中，所述训练数据集中包括被释义词、所述被释义词所在的上下文，以及所述被释义词在所述上下文中对应的释义；

S102，构建用于为被释义词生成释义的释义模型；其中，所述释义模型基于编码器-解码器框架，所述释义模型的编码器为预训练的语言模型；

S103，基于所述训练数据集，对所述释义模型进行训练；

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤：

S103，基于所述训练数据集，对所述释义模型进行训练；

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述基于预训练语言模型的上下文敏感的释义生成方法包括：

基于所述训练数据集，对所述释义模型进行训练；

2.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述上下文是一个包含对应的被释义词的句子。

3.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述释义模型为基于Transformer架构的编码器-解码器模型。

4.如权利要求3所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述释义模型的编码器被配置为BERT、GPT或ELMo模型。

5.如权利要求4所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述释义模型的解码器被配置为Transformer解码器。

6.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，对所述释义模型进行训练时，所述释义模型以所述训练数据集中的释义词和上下文的分布式向量表示作为输入，并迭代地生成释义中的每个词。

7.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，通过训练好的释义模型，基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示，生成待释义的被释义词的释义，包括：

获取待释义的被释义词x，及x所在的上下文c；

使用编码器对X和C进行编码，编码结果为隐状态序列h；

8.如权利要求7所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述解码器构建的语言模型在解码过程中采用柱搜索算法。

9.如权利要求8所述的基于预训练语言模型的上下文敏感的释义生成方法，其特征在于，所述解码器的解码过程包括：

10.一种基于预训练语言模型的上下文敏感的释义生成系统，其特征在于，所述基于预训练语言模型的上下文敏感的释义生成系统包括：