CN110287333A

CN110287333A - 一种基于知识库进行释义生成的方法及系统

Info

Publication number: CN110287333A
Application number: CN201910507994.9A
Authority: CN
Inventors: 杨尔弘; 孔存良; 杨麟儿
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-27

Abstract

本发明提供一种基于知识库进行释义生成的方法及系统，包括：获得训练数据集，该训练数据集中包括训练词语和训练词语对应的释义，以及知识库中的知识信息；基于训练数据集，构建用于为待释义词生成释义的释义模型，并对释义模型进行训练；通过训练好的释义模型，基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示，生成待释义词的释义。本发明中的释义模型包含自适应自注意力机制，在生成释义中的每个词时，通过自适应自注意力机制可对知识库中的知识信息进行选择，并判断是否将知识信息应用于当前词的生成。具有逻辑清晰、效率高、准确率高的优点，解决了现有技术无法为词语准确生成释义的问题。

Description

一种基于知识库进行释义生成的方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是指一种基于知识库进行释义生成的方法及系统。

背景技术

释义生成任务可以为给定的词语生成其自然语言释义，在词典编纂、对外汉语教学等方面具有重大的理论价值和实践意义。由于释义生成任务要求对给定的词语生成一句自然语言释义，且给定的词语可能具有多个义项，使得该任务变得尤为困难。现有的释义生成技术一般基于深度学习，使用词语的分布式向量表示作为输入，并使用循环神经网络(RNN)或卷积神经网络(CNN)对生成过程进行建模。由于词语的分布式向量表示可以捕捉到部分语法和语义信息，使用现有方法的确可以做到生成词语的释义，但现有方法仍有许多不足之处。

首先，目前而言，词向量仍然无法完全满足释义生成任务的需求。例如，由于成对的反义词在语料库中出现的位置相似，与反义的两个词共现的词语也基本相似，因此，成对的反义词的词向量十分接近。这就造成了在释义生成任务中，难以对反义词生成准确的释义。

其次，现有技术所使用的模型结构一般比较简单，一般在循环神经网络或卷积神经网络的基础上构建。由于模型仅使用词语的向量表示作为输入，模型中一般无法使用注意力机制。而对于近年来在机器翻译等领域表现良好的自注意力模型，也未见在释义生成任务上有所应用。

最后，现有技术无法对多义词生成准确释义。对每个词语，现有技术仅接收一个词向量作为输入，因而无法准确生成对应各个义项的释义。

发明内容

本发明要解决的技术问题是提供一种基于知识库进行释义生成的方法及装置，在以词向量作为输入的基础上，加入知识库中的知识信息进行补充，实现为待释义词生成准确的释义，提升释义生成效果。

为解决上述技术问题，本发明提供一种基于知识库进行释义生成的方法，所述基于知识库进行释义生成的方法包括：

获得训练数据集，所述训练数据集中包括训练词语和所述训练词语对应的释义，以及知识库中的知识信息；

基于所述训练数据集，构建用于为待释义词生成释义的释义模型，并对所述释义模型进行训练；

通过训练好的释义模型，基于待释义词的分布式向量表示和所述知识库中与所述待释义词相关的知识信息的分布式向量表示，生成所述待释义词的释义。

优选地，所述释义模型配置为基于循环神经网络或自注意力网络的编码器-解码器模型。

优选地，所述释义模型包括自适应自注意力机制，在通过所述释义模型生成释义时，所述自适应自注意力机制对所述知识库中的知识信息进行选择，并判断是否将所述知识信息应用于当前释义的生成。

进一步地，在对释义模型进行训练时，释义模型以训练数据集中的训练词语和知识信息的分布式向量表示作为输入，并迭代地生成释义中的每个词。

进一步地，通过所述释义模型生成待释义词的释义的过程，包括：

接收待释义词x，并获取所述知识库中与待释义词x相关的知识信息s＝[s₁,…,s_n]，其中s_n为第n条知识信息；

使用词嵌入层，获得待释义词x的分布式向量表示X，及与待释义词x相关的每条知识信息的分布式向量表示S＝[S₁,…,S_N]，其中S_N为第n条知识信息s_n对应的分布式向量表示；

使用编码器，对待释义词x的分布式向量表示X和知识信息的分布式向量表示S进行编码，编码结果为隐状态序列h；

使用解码器构建语言模型，基于所述语言模型利用所述隐状态序列h，迭代地生成释义中的每个词。

优选地，所述编码器被配置为双向长短期记忆网络或多头自注意力网络。

进一步地，所述语言模型迭代地生成释义中的每个词的过程，包括：

接收上一时刻输出的词y_t-1，将词y_t-1的分布式向量表示Y_t-1作为当前时刻的输入；

获得当前语言模型的输出向量o_t，将输出向量o_t作为语言模型向量；

使用自适应自注意力机制对所述隐状态序列h进行筛选，并将筛选后所获得的向量作为知识信息向量；

使用自适应自注意力机制对所述知识信息向量和语言模型向量进行整合，获得上下文向量c_t；

依据所述Y_t-1，上一时刻的隐状态输出z_t-1和所述上下文向量c_t，获得当前时刻的隐状态z_t；

利用所述隐状态z_t，计算当前所预测词在词表范围内的概率分布，并取概率最大的词作为当前时刻的输出。

优选地，所述知识库为知网常识知识库。

优选地，所述知识库中的知识信息为知网常识知识库中的义原信息。

相应地，为解决上述技术问题，本发明还提供一种基于知识库进行释义生成的系统，所述基于知识库进行释义生成的系统包括：

训练数据集获取模块，用于获得训练数据集，所述训练数据集中包括训练词语和所述训练词语对应的释义，以及知识库中的知识信息；

释义模型构建及训练模块，用于基于所述训练数据集，构建用于为待释义词生成释义的释义模型，并对所述释义模型进行训练；

释义生成模块，用于通过训练好的释义模型，基于待释义词的分布式向量表示和所述知识库中与所述待释义词相关的知识信息的分布式向量表示，生成所述待释义词的释义。

本发明的上述技术方案的有益效果如下：

本发明通过获得训练数据集，训练数据集中包括训练词语和所述训练词语对应的释义，以及知识库中的知识信息；基于训练数据集，构建用于为待释义词生成释义的释义模型，并对释义模型进行训练；通过训练好的释义模型，基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示，生成待释义词的释义。在以词向量作为输入的基础上，加入知识库中的知识信息进行补充，提升了释义生成的准确性；并且本发明的释义模型包含自适应自注意力机制，在生成释义中的每个词时，可通过自适应自注意力机制对知识库中的知识信息进行选择，并判断是否将知识信息应用于当前词的生成，提升了释义生成效果。具有逻辑清晰、效率高、准确率高的优点，解决了现有技术无法为待释义词准确生成释义的问题。

附图说明

图1为本发明的基于知识库进行释义生成的方法及系统的原理示意图；

图2为本发明第一实施例提供的基于知识库进行释义生成的方法的流程示意图；

图3为本发明第二实施例提供的基于知识库进行释义生成的系统的框图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

第一实施例

请参阅图1和图2，本实施例针对现有的释义生成方法生成释义不够准确的问题，提供一种基于知识库进行释义生成的方法，该方法包括：

S101，获得训练数据集；

需要说明的是，上述步骤中的训练数据集中包括训练词语和训练词语对应的释义，以及知识库中的知识信息；其中，知识库可以选用知网(HowNet)常识知识库，知网是一个以概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

相应地，知识库中的知识信息可选用知网常识知识库中的义原信息。义原(Sememe)是知网用来描述概念意义的基本单位，是最基本的、不易于再分割的最小的意义单元。本实施例将义原同待释义词一起输入释义模型中，作为词语的分布式向量表示的补充。

S102，基于训练数据集，构建用于为待释义词生成释义的释义模型，并对释义模型进行训练；

S103，通过训练好的释义模型，基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示，生成待释义词的释义。

需要说明的是，在本实施例中，上述释义模型被配置为基于循环神经网络(RNN)或自注意力(Self-Attention)网络的编码器-解码器模型。

而且在本实施例中，上述释义模型包括自适应自注意力机制，在通过释义模型生成释义时，自适应自注意力机制对知识库中的知识信息进行选择，并判断是否将知识信息应用于当前释义的生成。在对释义模型进行训练时，释义模型以训练数据集中的训练词语和知识信息的分布式向量表示作为输入，并迭代地生成释义中的每个词。

具体地，通过上述释义模型生成待释义词的释义的过程，包括：

接收待释义词x，并获取知识库中与待释义词x相关的知识信息s＝[s₁,…,s_n]，其中s_n为第n条知识信息；

使用编码器，对待释义词x的分布式向量表示X和知识信息的分布式向量表示S进行编码，编码结果为隐状态序列h；该隐状态序列h根据编码器所使用模型的不同，长度为N或N+1，即h＝[h₁,…,h_N]或h＝[h₀,h₁,…,h_N]。

使用解码器构建语言模型，基于语言模型利用隐状态序列h，迭代地生成释义中的每个词；该语言模型可以通过释义中的前t-1个词，预测第t个词。

此外，上述编码器可以被配置为双向长短期记忆(Bidirectional LSTM)网络或多头自注意力(Multi-Head Self-Attention)网络；

当编码器被配置为双向长短期记忆网络时，该编码器接收的输入向量v可以通过以下方式获得：

v_n＝[x；s_n]，

其中，x是待释义词的向量表示，s_n是第n个义原的向量表示，所述[a；b]表示将向量a和向量b拼接；

接着，编码器使用双向循环神经网络对v_n进行编码；双向循环神经网络由前向和后向两个循环神经网络组成，编码过程可以用以下公式表示：

其中，f为长短期记忆循环函数，为时刻n的前向隐状态，为时刻n的后向隐状态。

这样，编码器就将原始的输入序列，编码成了长度为N的隐状态序列h＝[h₁,…,h_N]。隐状态h_n包含待释义词和第n个义原的语义信息。

当编码器被配置为多头自注意力网络时，该编码器接收的输入向量v可以通过以下方式获得：

其中，所述x是待释义词的向量表示，所述s_n是第n个义原的向量表示，所述p_n为位置向量，在训练中随机初始化，可以在训练阶段学习获得。

在获取到所述输入向量后，编码器使用多头自注意力机制进行编码，编码过程可用如下公式表示：

h＝Multihead(Q,K,V)，

Multihead(Q,K,V)＝Concat(head₁,…,head_h)W^O，

其中，Q＝K＝V＝v，参数矩阵 d_k为K的维数，d_v为V的维数，d_model为模型所使用的词向量维数，h为多头自注意力机制的头数，且d_k＝d_v＝d_model/h。

这样，编码器就将原始的输入序列，编码成了长度为N+1的隐状态序列h＝[h₀,h₁,…,h_N]。隐状态h_n包含待释义词和第n个义原的语义信息。

进一步地，上述语言模型迭代地生成释义中的每个词的过程，包括：

使用自适应自注意力机制对隐状态序列h进行筛选，并将筛选后所获得的向量作为知识信息向量；

使用自适应自注意力机制对知识信息向量和语言模型向量进行整合，获得上下文向量c_t；

依据Y_t-1，上一时刻的隐状态输出z_t-1和上下文向量c_t，获得当前时刻的隐状态z_t；

利用隐状态z_t，计算当前所预测词在词表范围内的概率分布，并取概率最大的词作为当前时刻的输出。

需要说明的是，当解码器被配置为带自适应注意力机制的长短期记忆网络时，在时刻t，上述获得当前语言模型的输出向量o_t，将输出向量o_t作为语言模型向量，指的是通过以下公式进行运算：

o_t＝g_t⊙tanh(z_t-1)，

g_t＝σ(W_g[y_t-1；z_t-1]+b_g)，

其中，y_t-1为t-1时刻解码器输出的词语的向量。

上述使用自适应自注意力机制对隐状态序列h进行筛选，并将筛选后所获得的向量作为知识信息向量，指的是使用以下公式进行计算：

其中，α_tn为h_n对应的权重，可以通过以下公式获得：

其中，z_t-1为t-1时刻解码器的隐状态。

上述使用自适应自注意力机制对知识信息向量和语言模型向量进行整合，获得上下文向量c_t，指的是通过以下公式进行运算：

其中，β_t是t时刻的权重，可以通过如下公式获得：

e_to＝(W_o)^T[o_t；z_t]，

上述依据Y_t-1，上一时刻的隐状态输出z_t-1和上下文向量c_t，获得当前时刻的隐状态z_t，指的是通过以下公式进行运算：

z_t＝f(z_t-1,y_t-1,c_t)，

其中，f为长短期记忆循环函数。

上述利用隐状态z_t，计算当前所预测词在词表范围内的概率分布，指的是通过以下公式进行计算：

P(y_t|y_＜t,x,s)∝exp(y_t；z_t,c_t)。

其中，所得的概率即为y_t在词表中的概率分布。

而当解码器被配置为自适应自注意力模型时，在时刻t，上述获得当前语言模型的输出向量o_t，将输出向量o_t作为语言模型向量，指的是通过以下公式进行运算：

其中，为第l层的语言模型向量，为解码器中第l-1层、第t个时间步的隐藏状态；为解码器中第l-1层、前t个时间步的隐藏状态；MultiHead为多头自注意力函数。

其中，为第l层的知识信息向量。

其中，是第l层，第t个时刻的权重，可以通过如下公式获得：

z_t＝f(z_t-1,y_t-1,c_t)，

其中，c_t为最后一层的上下文向量，z_t-1为最后一层的隐状态，f为长短期记忆循环函数。

P(y_t|y_＜t,x,s)∝exp(y_t；z_t,c_t)。

其中，所得的概率即为y_t在词表中的概率分布。

第二实施例

请参阅图3，本实施例针对现有的释义生成方法生成释义不够准确的问题，提供一种基于知识库进行释义生成的系统，该系统包括：

训练数据集获取模块201，用于获得训练数据集，该训练数据集中包括训练词语和训练词语对应的释义，以及知识库中的知识信息；

释义模型构建及训练模块202，用于基于训练数据集，构建用于为待释义词生成释义的释义模型，并对释义模型进行训练；

释义生成模块203，用于通过训练好的释义模型，基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示，生成待释义词的释义。

本实施中的基于知识库进行释义生成的系统与上述第一实施例中的基于知识库进行释义生成的方法相对应；其中，该基于知识库进行释义生成的系统中的各模块所实现的功能与上述第一实施例中的基于知识库进行释义生成的方法的各流程步骤一一对应，故在此不再赘述。

此外，需要说明的是，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识库进行释义生成的方法，其特征在于，包括：

2.如权利要求1所述的基于知识库进行释义生成的方法，其特征在于，所述释义模型配置为基于循环神经网络或自注意力网络的编码器-解码器模型。

3.如权利要求1所述的基于知识库进行释义生成的方法，其特征在于，所述释义模型包括自适应自注意力机制，在通过所述释义模型生成释义时，所述自适应自注意力机制对所述知识库中的知识信息进行选择，并判断是否将所述知识信息应用于当前释义的生成。

4.如权利要求1所述的基于知识库进行释义生成的方法，其特征在于，在对所述释义模型进行训练时，所述释义模型以所述训练数据集中的训练词语和知识信息的分布式向量表示作为输入，并迭代地生成释义中的每个词。

5.如权利要求4所述的基于知识库进行释义生成的方法，其特征在于，通过所述释义模型生成待释义词的释义的过程，包括：

6.如权利要求5所述的基于知识库进行释义生成的方法，其特征在于，所述编码器被配置为双向长短期记忆网络或多头自注意力网络。

7.如权利要求5所述的基于知识库进行释义生成的方法，其特征在于，所述语言模型迭代地生成释义中的每个词的过程，包括：

8.如权利要求1所述的基于知识库进行释义生成的方法，其特征在于，所述知识库为知网常识知识库。

9.如权利要求8所述的基于知识库进行释义生成的方法，其特征在于，所述知识库中的知识信息为知网常识知识库中的义原信息。

10.一种基于知识库进行释义生成的系统，其特征在于，包括：