CN112364639A - 基于预训练语言模型的上下文敏感的释义生成方法及系统 - Google Patents

基于预训练语言模型的上下文敏感的释义生成方法及系统 Download PDF

Info

Publication number
CN112364639A
CN112364639A CN202011121675.3A CN202011121675A CN112364639A CN 112364639 A CN112364639 A CN 112364639A CN 202011121675 A CN202011121675 A CN 202011121675A CN 112364639 A CN112364639 A CN 112364639A
Authority
CN
China
Prior art keywords
paraphrased
words
paraphrase
model
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011121675.3A
Other languages
English (en)
Other versions
CN112364639B (zh
Inventor
杨麟儿
范齐楠
杨尔弘
孔存良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202011121675.3A priority Critical patent/CN112364639B/zh
Publication of CN112364639A publication Critical patent/CN112364639A/zh
Application granted granted Critical
Publication of CN112364639B publication Critical patent/CN112364639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于预训练语言模型的上下文敏感的释义生成方法及系统,该方法包括:获取训练数据集;其中,训练数据集中包括被释义词、被释义词所在的上下文,以及被释义词对应的释义;构建用于为被释义词生成释义的释义模型;其中,释义模型基于编码器‑解码器框架,释义模型的编码器为预训练的语言模型;基于所述训练数据集,对所述释义模型进行训练;通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。本发明具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为被释义词准确生成释义的问题。

Description

基于预训练语言模型的上下文敏感的释义生成方法及系统
技术领域
本发明涉及自然语言处理(Natural Language Processing,简称NLP)技术领域,特别涉及一种基于预训练语言模型的上下文敏感的释义生成方法及系统。
背景技术
释义生成(又称释义建模,Denition Modeling)任务目的是为一个给定的目标词生成相应的释义。释义生成任务不论在自然语言处理领域还是实际应用场景中,都具有非常重要的研究意义和价值。
现有的上下文敏感的释义生成技术一般基于深度学习,使用词语和上下文的分布式向量表示作为输入,并使用循环神经网络(RNN)或卷积神经网络(CNN)对生成过程进行建模。由于词语的分布式向量表示可以捕捉到部分语法和语义信息,使用现有方法的确可以做到生成词语的释义,但现有方法仍有许多不足之处。
首先,现有技术所使用的模型结构一般比较简单,一般在循环神经网络或卷积神经网络的基础上构建。而对于近年来在机器翻译等领域表现良好的多头自注意力Transformer模型,未见在释义生成任务上有所应用。
其次,神经网络模型结构复杂、参数量庞大,需要大量训练数据对模型参数进行训练。而释义生成任务所需的词典数据十分稀缺,尤其是包含上下文的词典数据的获取更加困难,训练数据的缺乏导致模型参数无法得到充分训练。
最后,现有技术在解码阶段均采用贪心算法,而该算法具有一些弊端,在每个时间步都选取概率最大的词,很容易陷入局部最优解。另外,当某个时间步概率最大词错误时,该错误也会被继续传播,影响释义生成的效果。
发明内容
本发明提供了一种基于预训练语言模型的上下文敏感的释义生成方法及系统,以解决现有技术无法为被释义词准确生成释义的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种基于预训练语言模型的上下文敏感的释义生成方法,该基于预训练语言模型的上下文敏感的释义生成方法包括:
获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
构建用于为被释义词生成释义的释义模型;其中,所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
基于所述训练数据集,对所述释义模型进行训练;
通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。
其中,所述上下文是一个包含对应的被释义词的句子。
其中,所述释义模型为基于Transformer架构的编码器-解码器模型。
其中,所述释义模型的编码器被配置为BERT、GPT或ELMo模型。
其中,所述释义模型的解码器被配置为Transformer解码器。
其中,对所述释义模型进行训练时,所述释义模型以所述训练数据集中的释义词和上下文的分布式向量表示作为输入,并迭代地生成释义中的每个词。
其中,通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成待释义的被释义词的释义,包括:
获取待释义的被释义词x,及x所在的上下文c;
使用词嵌入层,获得x的分布式向量表示X,及c的分布式向量表示C;
使用编码器对X和C进行编码,编码结果为隐状态序列h;
使用解码器构建语言模型,基于所述解码器构建的语言模型,利用h,迭代地生成释义中的每个词。
其中,所述解码器构建的语言模型在解码过程中采用柱搜索算法。
其中,所述解码器的解码过程包括:
在解码的第一个时间步,将开始符号作为输入,搜索出概率最大的前k个词,将搜索出的前k个词的分布式向量表示作为第一个时间步的输出;
在之后的时间步,接收上一时刻输出的k个词的分布式向量表示,作为当前时间步的输入;
获得当前语言模型的输出向量,将输出向量作为语言模型向量;
依据上一时刻输出的k个词的分布式向量表示和上一时刻的隐状态输出,获得当前时刻的隐状态;
利用当前时刻的隐状态,逐一计算当前所预测词在词表范围内的概率分布,得到k*k个结果,从中取k个使得序列概率最大的词作为当前时刻的输出。
另一方面,本发明还提供了一种基于预训练语言模型的上下文敏感的释义生成系统,该基于预训练语言模型的上下文敏感的释义生成系统包括:
训练数据集获取模块,用于获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
释义模型构建模块,用于构建为被释义词生成释义的释义模型;所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
释义模型训练模块,用于基于所述训练数据集,对所述释义模型进行训练;
释义生成模块,用于通过训练好的释义模型,基于待释义的被释义词和待释义的被释义词的上下文的分布式向量表示,生成待释义的被释义词的释义。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明将被释义词和其所在上下文的分布式向量表示作为输入,使释义模型生成被释义词在特定上下文中的释义,提升了释义生成的效果。而且,本发明的释义模型为基于Transformer架构的编码器-解码器模型;其中,编码器使用了预训练语言模型,可配置为BERT、GPT或ELMo等,在编码器编码被释义词和上下文时,预训练语言模型从大规模语料中获得的语义信息被迁移至释义生成任务中,并结合柱搜索算法提升了释义生成的准确性。具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为被释义词准确生成释义的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于预训练语言模型的上下文敏感的释义生成方法的原理示意图;
图2是本发明实施例提供的基于BERT预训练语言模型的上下文敏感的释义生成方法的模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种基于预训练语言模型的上下文敏感的释义生成方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该基于预训练语言模型的上下文敏感的释义生成方法的原理如图1所示,包括以下步骤:
S101,获取训练数据集;
需要说明的是,上述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义,所述上下文是一个包含对应的被释义词的句子;本实施例将被释义词及其所在上下文一起输入释义模型中,获得包含语义更充足的分布式向量表示。
S102,构建用于为被释义词生成释义的释义模型;
需要说明的是,上述释义模型基于编码器-解码器框架,所述释义模型的编码器为在大规模语料上预训练的语言模型;从而将其在大规模语料上获得的语义信息迁移到释义生成任务中。所述释义模型的编码器可以被配置为BERT、GPT或ELMo等模型。如图2所示,在本实施例中,所述释义模型基于Transformer架构,其编码器被配置为BERT预训练语言模型。对于所述释义模型的训练,在本实施例中共分为两个阶段:第一阶段固定编码器参数,仅训练解码器;第二阶段同时调优编码器和解码器参数。
S103,基于所述训练数据集,对所述释义模型进行训练;
需要说明的是,对释义模型进行训练时,所述释义模型以训练数据集中的释义词和上下文的分布式向量表示作为输入,并迭代地生成释义中的每个词。
S104,通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。
需要说明的是,通过上述释义模型生成待释义词的释义的过程,包括:
获取待释义的被释义词x,及x所在的上下文序列c=[c1,…,cn],其中,cn为上下文中的第n个词语;
使用词嵌入层,获得x的分布式向量表示X,及c中每个词语的分布式向量表示C=[C1,…,CN],其中,CN为第n条知识信息cn对应的分布式向量表示;
使用编码器对X和C进行编码,编码结果为隐状态序列h;其中,该隐状态序列h根据编码器所使用模型的不同,长度也不同,在本实施例中,其长度为N+4,即h=[h0,h1,…,hN+3];
使用解码器构建语言模型,基于构建的语言模型,利用h,迭代地生成释义中的每个词;其中,该语言模型可以通过释义中的前t-1个词,预测第t个词。
需要说明的是,在本实施例中,被释义词x和上下文序列[c1,…,cn]直接拼接后作为嵌入式输入。BERT通过两种方式将输入的词和上下文区分开。首先,使用特殊符号“[SEP]”将它们分隔开;其次,为它们分别加上不同的段表征,将目标词的段表征置为0,上下文的段表征置为1。对于每一个词,其词嵌入由对应的词表征、段表征和位置表征相加产生。
在本实施例中,解码器被配置为Transformer解码器,其由N层相同的模块构成,上层模块输出的隐状态是下层模块的输入。每个模块包含三个子层:一个掩码多头自注意力层、一个编码器-解码器多头注意力层和一个前馈神经网络层。其中多头注意力层由多个注意力层得到的向量拼接而成,每个注意力层采用缩放点积运算:
Figure BDA0002732199350000051
MultiHead(Q,K,V)=Concat(Attention1,…,Attentionh)
其中,Q、K和V分别表示查询矩阵、键值矩阵和实值矩阵,h表示注意力层的头数。掩码多头自注意力层的Q、K和V相同,都会释义的词嵌入经线性映射后的向量,掩码操作使模型在训练阶段的每个时间步不能看到未来信息。编码器-解码器多头注意力层的Q来自于上一层解码器的输出,K和V来自于编码器的输出。另外,这三个子层之后都会接一个归一化层和残差网络,归一化层能够加快模型训练速度,残差网络能够防止神经网络模型退化。
在解码过程中,本实施例采用了柱搜索算法,其包括:
在解码的第一个时间步,将开始符号作为输入,搜索出概率最大的前k个词
Figure BDA0002732199350000061
将词
Figure BDA0002732199350000062
的分布式向量表示
Figure BDA0002732199350000063
作为第一个时间步的输出;
在之后的时间步,接收上一时刻输出的k个词的分布式向量表示
Figure BDA00027321993500000610
作为当前时间步的输入;
获得当前语言模型的输出向量
Figure BDA0002732199350000068
将输出向量
Figure BDA0002732199350000069
作为语言模型向量;
依据上一时刻输出的k个词的分布式向量表示
Figure BDA0002732199350000067
和上一时刻的隐状态输出
Figure BDA0002732199350000065
获得当前时刻的隐状态
Figure BDA0002732199350000066
利用隐状态
Figure BDA0002732199350000064
逐一计算当前所预测词在词表范围内的概率分布,得到k*k个结果,从中取k个使得序列概率最大的词作为当前时刻的输出。
综上,本实施例将被释义词和其上下文的分布式向量表示作为输入,使释义模型生成被释义词在特定上下文中的释义,提升了释义生成的效果。而且本实施例的释义模型为基于Transformer架构的编码器-解码器模型;其中,编码器使用了预训练语言模型,可配置为BERT、GPT或ELMo,在编码器编码被释义词和上下文时,预训练语言模型从大规模语料中获得的语义信息被迁移至释义生成任务中,并结合柱搜索算法提升了释义生成的准确性。具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为被释义词准确生成释义的问题。
第二实施例
本实施例提供了一种基于预训练语言模型的上下文敏感的释义生成系统,该基于预训练语言模型的上下文敏感的释义生成系统,包括以下模块:
训练数据集获取模块,用于获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
释义模型构建模块,用于构建为被释义词生成释义的释义模型;所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
释义模型训练模块,用于基于所述训练数据集,对所述释义模型进行训练;
释义生成模块,用于通过训练好的释义模型,基于待释义的被释义词和待释义的被释义词的上下文的分布式向量表示,生成待释义的被释义词的释义。
本实施例的基于预训练语言模型的上下文敏感的释义生成系统与上述第一实施例的基于预训练语言模型的上下文敏感的释义生成方法相对应;其中,本实施例的基于预训练语言模型的上下文敏感的释义生成系统中的各功能模块所实现的功能与上述第一实施例的基于预训练语言模型的上下文敏感的释义生成方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以下步骤:
S101,获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
S102,构建用于为被释义词生成释义的释义模型;其中,所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
S103,基于所述训练数据集,对所述释义模型进行训练;
S104,通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤:
S101,获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
S102,构建用于为被释义词生成释义的释义模型;其中,所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
S103,基于所述训练数据集,对所述释义模型进行训练;
S104,通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述基于预训练语言模型的上下文敏感的释义生成方法包括:
获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
构建用于为被释义词生成释义的释义模型;其中,所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
基于所述训练数据集,对所述释义模型进行训练;
通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。
2.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述上下文是一个包含对应的被释义词的句子。
3.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述释义模型为基于Transformer架构的编码器-解码器模型。
4.如权利要求3所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述释义模型的编码器被配置为BERT、GPT或ELMo模型。
5.如权利要求4所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述释义模型的解码器被配置为Transformer解码器。
6.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,对所述释义模型进行训练时,所述释义模型以所述训练数据集中的释义词和上下文的分布式向量表示作为输入,并迭代地生成释义中的每个词。
7.如权利要求1所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成待释义的被释义词的释义,包括:
获取待释义的被释义词x,及x所在的上下文c;
使用词嵌入层,获得x的分布式向量表示X,及c的分布式向量表示C;
使用编码器对X和C进行编码,编码结果为隐状态序列h;
使用解码器构建语言模型,基于所述解码器构建的语言模型,利用h,迭代地生成释义中的每个词。
8.如权利要求7所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述解码器构建的语言模型在解码过程中采用柱搜索算法。
9.如权利要求8所述的基于预训练语言模型的上下文敏感的释义生成方法,其特征在于,所述解码器的解码过程包括:
在解码的第一个时间步,将开始符号作为输入,搜索出概率最大的前k个词,将搜索出的前k个词的分布式向量表示作为第一个时间步的输出;
在之后的时间步,接收上一时刻输出的k个词的分布式向量表示,作为当前时间步的输入;
获得当前语言模型的输出向量,将输出向量作为语言模型向量;
依据上一时刻输出的k个词的分布式向量表示和上一时刻的隐状态输出,获得当前时刻的隐状态;
利用当前时刻的隐状态,逐一计算当前所预测词在词表范围内的概率分布,得到k*k个结果,从中取k个使得序列概率最大的词作为当前时刻的输出。
10.一种基于预训练语言模型的上下文敏感的释义生成系统,其特征在于,所述基于预训练语言模型的上下文敏感的释义生成系统包括:
训练数据集获取模块,用于获取训练数据集;其中,所述训练数据集中包括被释义词、所述被释义词所在的上下文,以及所述被释义词在所述上下文中对应的释义;
释义模型构建模块,用于构建为被释义词生成释义的释义模型;所述释义模型基于编码器-解码器框架,所述释义模型的编码器为预训练的语言模型;
释义模型训练模块,用于基于所述训练数据集,对所述释义模型进行训练;
释义生成模块,用于通过训练好的释义模型,基于待释义的被释义词和待释义的被释义词的上下文的分布式向量表示,生成待释义的被释义词的释义。
CN202011121675.3A 2020-10-19 2020-10-19 基于预训练语言模型的上下文敏感的释义生成方法及系统 Active CN112364639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011121675.3A CN112364639B (zh) 2020-10-19 2020-10-19 基于预训练语言模型的上下文敏感的释义生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121675.3A CN112364639B (zh) 2020-10-19 2020-10-19 基于预训练语言模型的上下文敏感的释义生成方法及系统

Publications (2)

Publication Number Publication Date
CN112364639A true CN112364639A (zh) 2021-02-12
CN112364639B CN112364639B (zh) 2021-09-07

Family

ID=74507584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121675.3A Active CN112364639B (zh) 2020-10-19 2020-10-19 基于预训练语言模型的上下文敏感的释义生成方法及系统

Country Status (1)

Country Link
CN (1) CN112364639B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344621A (zh) * 2021-05-31 2021-09-03 北京百度网讯科技有限公司 异常账户的确定方法、装置和电子设备
CN114139532A (zh) * 2022-01-30 2022-03-04 北京语言大学 一种基于多任务框架进行简单释义生成的方法与系统
CN114282515A (zh) * 2022-02-18 2022-04-05 北京语言大学 一种基于增量式片段预测的端到端词汇受限文本生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885830A (zh) * 2019-01-29 2019-06-14 金蝶软件(中国)有限公司 语句释义方法、装置、计算机设备
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
CN110619034A (zh) * 2019-06-27 2019-12-27 中山大学 基于Transformer模型的文本关键词生成方法
CN110851584A (zh) * 2019-11-13 2020-02-28 成都华律网络服务有限公司 一种法律条文精准推荐系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885830A (zh) * 2019-01-29 2019-06-14 金蝶软件(中国)有限公司 语句释义方法、装置、计算机设备
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
CN110619034A (zh) * 2019-06-27 2019-12-27 中山大学 基于Transformer模型的文本关键词生成方法
CN110851584A (zh) * 2019-11-13 2020-02-28 成都华律网络服务有限公司 一种法律条文精准推荐系统和方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LINER YANG等: "Incorporating Sememes into Chinese Definition Modeling", 《ARXIV》 *
SHONOSUKE ISHIWATARI等: "Learning to Describe Unknown Phrases with Local and Global Contexts", 《PROCEEDINGS OF NAACL-HLT 2019》 *
孙海同 等: "基于门控化上下文感知网络的词语释义生成方法", 《中文信息学报》 *
王辰成等: "基于Transformer 增强架构的中文语法纠错方法", 《中文信息学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344621A (zh) * 2021-05-31 2021-09-03 北京百度网讯科技有限公司 异常账户的确定方法、装置和电子设备
CN113344621B (zh) * 2021-05-31 2023-08-04 北京百度网讯科技有限公司 异常账户的确定方法、装置和电子设备
CN114139532A (zh) * 2022-01-30 2022-03-04 北京语言大学 一种基于多任务框架进行简单释义生成的方法与系统
CN114139532B (zh) * 2022-01-30 2022-04-19 北京语言大学 一种基于多任务框架进行简单释义生成的方法与系统
CN114282515A (zh) * 2022-02-18 2022-04-05 北京语言大学 一种基于增量式片段预测的端到端词汇受限文本生成方法
CN114282515B (zh) * 2022-02-18 2022-07-08 北京语言大学 一种基于增量式片段预测的端到端词汇受限文本生成方法

Also Published As

Publication number Publication date
CN112364639B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
Han et al. Pre-trained models: Past, present and future
WO2022037256A1 (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN112364639B (zh) 基于预训练语言模型的上下文敏感的释义生成方法及系统
Li Language models: past, present, and future
CN110326002B (zh) 使用在线注意的序列处理
BR112019004524B1 (pt) Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio
JP2020500366A (ja) 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN110807335B (zh) 基于机器学习的翻译方法、装置、设备及存储介质
CN109858046B (zh) 利用辅助损失来学习神经网络中的长期依赖性
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
Zhang et al. Chinese named-entity recognition via self-attention mechanism and position-aware influence propagation embedding
US11941356B2 (en) Systems and methods for multi-scale pre-training with densely connected transformer
CN113870835A (zh) 基于人工智能的语音合成方法、装置、设备及存储介质
CN115129826B (zh) 电力领域模型预训练方法、精调方法、装置及设备
CN109117471A (zh) 一种词语相关度的计算方法及终端
Su et al. Investigating linguistic pattern ordering in hierarchical natural language generation
Baas et al. Transfusion: Transcribing speech with multinomial diffusion
Sarathi et al. Effect of Batch Normalization and Stacked LSTMs on Video Captioning
CN113010676B (zh) 一种文本知识提取方法、装置及自然语言推断系统
CN114707523A (zh) 基于交互式Transformer的图像-多语言字幕转换方法
Bekarystankyzy et al. Automatic speech recognition improvement for Kazakh language with enhanced language model
Zhang et al. A rapid combined model for automatic generating web UI codes
Zou et al. Associated lattice-bert for spoken language understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant