CN109446518B

CN109446518B - 语言模型的解码方法及解码器

Info

Publication number: CN109446518B
Application number: CN201811173768.3A
Authority: CN
Inventors: 刘知远; 顾逸宏; 闫俊; 朱昊; 孙茂松; 谢若冰; 林芬; 林乐宇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2020-06-02
Anticipated expiration: 2038-10-09
Also published as: CN109446518A

Abstract

本发明实施例提供一种语言模型的解码方法及解码器，该方法包括：根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词；根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率；对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。本发明实施例通过在语言模型中以义原‑词义‑单词的层次进行解码，获得每个目标单词为待预测单词的概率，与现有技术中仅在词的层面上进行预测相比，由于从义原和词义的层面上充分考虑了单词之间的相互关联，层次化了预测过程，能够提升预测的准确性。

Description

语言模型的解码方法及解码器

技术领域

本发明实施例涉及自然语言处理领域，更具体地，涉及一种语言模型的解码方法及解码器。

背景技术

随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的文本数据产生。对自然语言处理的研究旨在实现人与计算机之间使用自然语言进行有效通信的各种理论和方法。得益于深度学习技术的发展，由数据驱动的自然语言处理技术在机器翻译、自动摘要等领域均取得了长足的进步。而在这些任务中，语言模型都起到了至关重要的作用。语言模型的目标是衡量在某种语言中，一段词语序列出现的概率，进而可通过条件概率公式分解为各时刻给定上文词语时出现下一词语的概率的乘积。现有技术中，语言模型的解码方法是在编码输入序列后直接在词层面或字层面进行预测，但这种方法并没有考虑词与词之间先验的语义关联，因此预测结果并不准确。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的语言模型的解码方法及解码器。

根据本发明实施例的第一方面，提供一种语言模型的解码方法，该方法包括：根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词；根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率；对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。

根据本发明实施例第二方面，提供了一种语言模型的解码器，该解码器包括：义原预测模块，用于根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词；词义预测模块，用于根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率；单词预测模块，用于对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。

根据本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语言模型的解码方法。

根据本发明实施例的第四方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语言模型的解码方法。

本发明实施例提供的语言模型的解码方法及解码器，通过在语言模型中以义原-词义-单词的层次进行解码，获得每个目标单词为待预测单词的概率，与现有技术中仅在词的层面上进行预测相比，由于从义原和词义的层面上充分考虑了单词之间的相互关联，层次化了预测过程，有效提升了语言模型的准确性和可解释性，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明实施例提供的语言模型的解码方法的流程示意图；

图2为本发明另一实施例提供的语言模型的解码方法的流程示意图；

图3为本发明实施例提供的语言模型的解码器的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的直接在词层面或字层面上进行预测，而没有考虑词与词之间先验的语义关联导致的预测结果不准确的问题，本发明实施例引入“知网”中“义原-词义-单词”的结构关系，层次化预测过程，利用新的预测方法和结构提高语言模型的准确性和可解释性。

其中，知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。义原是最基本的、不易于再分割的意义的最小单位。例如：“人”虽然是一个非常复杂的概念，它可以是多种属性的集合体，但也可以把它看作为一个义原。可设想所有的概念都分解成各种各样的义原。同时也可以设想应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合，并利用它来描述概念之间的关系以及属性与属性之间的关系，就有可能建立设想的知识系统。中文中的字(包括单纯词)是有限的，并且它可以被用来表达各种各样的单纯的或复杂的概念，以及表达概念与概念之间、概念的属性与属性之间的关系。

本发明实施例提供一种语言模型的解码方法，该方法能够用于语言模型的解码器，且应当说明的是，该解码器是义原驱动的解码器，并不是传统的线性解码器，该解码器能够在给定上文时对出现的下一单词的概率进行预测。参见图1，该方法包括但不限于：

101、根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词。

其中，上下文即语境、语意，是语言学科(语言学、社会语言学、篇章分析、语用学、符号学等)的概念。具体地，上下文向量即为基于上文或下文获得的向量，本发明实施例以基于上文获得的向量为例进行说明。应当说明的是，本发明实施例同样可应用于上下文向量为通过下文获得的向量的情况。另外，本发明实施例对语言模型所应用的语言的语种不作限定，本发明实施例仅以中文为例进行说明。在获得上下文向量后，根据上下文向量去预测每个义原将在待预测单词中出现的概率。待预测单词为上下文向量对应的下个单词，即为根据上文需要去预测的下个单词，而上下文向量是根据上文获得的。例如图2，上下文向量是基于上文“我在果园摘”获得的向量，义原可包括“水果”、“样式值”、“携带”、“电脑”、“特定牌子”和“能”等，可对每一个义原在待预测单词中出现的概率进行预测。

102、根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率。

其中，词义即为词的含义。每个义原可对应多个词义，而每个词义同样可对应于多个义原。例如，义原“水果”可对应于“梨子(水果)”和“苹果(水果)”等多个词义，而词义“苹果(电脑)”可对应于“特定牌子”和“电脑”等多个义原。因此，在根据步骤101获得每个义原在待预测单词中的出现概率后，可以从义原出发，获得每个义原所对应的每个词义在待预测单词中的出现概率。其中，义原对应的每个词义是指全部义原所涉及到的全部词义。例如，义原“水果”、“样式值”、“携带”、“电脑”、“特定牌子”和“能”所对应的词义至少包括“梨子(水果)”、“苹果(水果)”和“苹果(电脑)”。

103、对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。

其中，边缘化处理是一种方法，它要求对一个变量的可能值求和，以确定另一个变量的边缘贡献。由于词义和目标单词是具有关联的，因此在根据步骤102获得每个词义在待预测单词中的出现概率后，可从词义出发，确定与词义相关联的目标单词为待预测单词的概率。具体而言，对于每个目标单词，将其对应的所有词义的概率相加即可得到该目标单词作为待预测单词的概率。例如单词“苹果”的概率即为词义“苹果(水果)”与词义“苹果(电脑)”的概率之和。

本发明实施例提供的语言模型的解码方法，通过在语言模型中以义原-词义-单词的层次进行解码，获得每个目标单词为待预测单词的概率，与现有技术中仅在词的层面上进行预测相比，由于从义原和词义的层面上充分考虑了单词之间的相互关联，层次化了预测过程，有效提升了语言模型的准确性和可解释性，具有良好的实用性。

基于上述实施例的内容，在根据上下文向量，预测获得每个义原在待预测单词中的出现概率之前，作为一种可选实施例，提供一种获得上下文向量的方法，包括但不限于：将上文词序列输入至循环神经网络，获得循环神经网络输出的上下文向量，上文词序列是待预测单词的上文的词序列。具体地，上文词序列是通过上文获得的，上文即为待预测单词的上文。例如图2中的上文词序列是基于上文“我在果园摘”获得的。将上文词序列输入至循环神经网络后，循环神经网络会将上文词序列标识的上文信息编码为上下文向量，例如编码获得一个H₁维的上下文向量g。

基于上述实施例的内容，作为一种可选实施例，每个义原在待预测单词中的出现概率为：

q_k＝σ(g^Tv_k+b_k) (1)

式中，q_k为义原e_k在待预测单词中的出现概率，σ为sigmoid激励函数，g为H₁维的上下文向量，v_k为H₁维的义原e_k的义原向量，b_k为标量。

具体地，在义原预测的步骤101中，在给定上文的情况下，下个单词(即待预测单词)是否包含义原e_k是独立的(根据假设，义原是最小的语义单位)。因此，可以使用一个线性解码器及sigmoid激励函数表示待预测单词包含义原e_k的概率q_k，即为上式(1)。其中，式(1)中，v_k除了为义原向量外，还可以看作义原e_k的嵌入(embedding)。σ为sigmoid激励函数，且σ(x)＝(e^x)/(ex+1)。v_k和b_k均可以是训练得到的参数。因此，本发明实施例提供的方法，能够利用线性解码器及激励函数标识待预测单词包含的每个义原的概率。

基于上述实施例的内容，作为一种可选实施例，提供一种根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率的方法，包括但不限于：

步骤1、根据上下文向量及每个义原在待预测单词中的出现概率，预测获得每个义原中包含的每个词义在待预测单词中的出现概率。

其中，在词义预测的步骤中，可以借鉴机器学习中经典的专家乘积方法(PoE)，即把每一个义原当成一个负责预测包含该义原的所有词义的“专家”。具体地，假设某个词义s的嵌入(即词义向量)是一个H₂维的向量w_s，则可以使用一个与义原e_k相关的双线性函数φ^(k)(g,w_s)＝g^TU_kw_s来表示义原专家e_k给词义s概率的打分(此处U_k是一个H₁×H₂的矩阵)，那么从义原专家e_k的角度来看，下一个单词(即待预测单词)包含这个义原的一个词义s的概率为：

其中，C_k,s是一个归一化的常数，Γ^k表示所有包含义原e_k的词义的集合。

例如，参见图2，对于义原“水果”，可基于上式(2)获得该义原包含的词义“梨子(水果)”和词义“苹果(水果)”分别在待预测单词中的出现概率。

步骤2、对于每个词义，将包含于不同的义原的词义在待预测单词中的出现概率求积，获得词义在待预测单词中的出现概率。

作为一种可选实施例，基于上式(2)，使用专家乘积的方法，一个词义s在待预测单词中出现的概率为：

φ^(k)(g,w_s)＝g^TU_kw_s； (4)

式中，C_k,s为归一化常数，φ^(k)(g,w_s)为与义原e_k相关的双线性函数，w_s为词义s的H₂维词义向量，E^s为包含有词义s的义原集合，U_k是一个H₁×H₂的矩阵，s′为表示所有词义的辅助变量。

例如，对于义原“携带”、义原“电脑”和义原“特定牌子”，均包含有“苹果(电脑)”这一词义，那么词义“苹果(电脑)”在待预测单词中的出现概率为从义原专家“携带”、“电脑”和“特定牌子”来看，下一个单词包含“苹果(电脑)”这一词义的概率之积。

基于上述实施例的内容，作为一种可选实施例，矩阵U_k通过以下方式获得：采用R个矩阵的线性组合参数化矩阵U_k以使

式中，Q_r为H₁×H₂的矩阵，α_r,k是非负的标量，且满足

具体地，由于义原的个数过多(大约2000个左右)，但是义原和词义之间的连接相对而言比较少(小于5倍的单词总数)。因此，采用的专家乘积是稀疏的。同时为了降低参数并减少计算复杂度，可以使用一种基矩阵的表示方法来参数化矩阵U_k，即采用上式(5)来获得矩阵，从而减小计算复杂度。

基于上述实施例的内容，作为一种可选实施例，提供一种对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率的方法，包括但不限于：对于每个目标单词，将对应于不同的词义的目标单词在待预测单词中的出现概率求和，获得目标单词为待预测单词的概率。具体地，可以将每个目标单词相对应的所有词义的概率相加得到该目标单词作为待预测单词的概率，即

式中，S^w表示单词w对应的所有词义的集合。

例如，目标单词“苹果”对应了两个词义“苹果(水果)”和“苹果(电脑)”，那么，目标单词“苹果”为待预测单词的概率为“苹果(水果)”和“苹果(电脑)”的概率之和。

基于上述内容，本发明实施例提供的解码方法可以应用于传统的循环神经网络语言模型的解码器，并且通过利用上述解码方法进行测试，可以发现该解码方法有效提升了语言模型的准确性和可解释性，具有良好的实用性。

基于上述实施例的内容，本发明实施例提供了一种语言模型的解码器，该语言模型的解码器用于执行上述方法实施例中的语言模型的解码方法。参见图3，该解码器包括义原预测模块301、词义预测模块302和单词预测模块303，其中：

义原预测模块301，用于根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词；词义预测模块302，用于根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率；单词预测模块303，用于对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。

具体地，在获得上下文向量后，义原预测模块301根据上下文向量去预测每个义原将在待预测单词中出现的概率。待预测单词为上下文向量对应的下个单词，即为根据上文需要去预测的下个单词，而上下文向量是根据上文获得的。在根据义原预测模块301获得每个义原在待预测单词中的出现概率后，词义预测模块302可以从义原出发，获得每个义原所对应的每个词义在待预测单词中的出现概率。由于词义和目标单词是具有关联的，因此在根据词义预测模块302获得每个词义在待预测单词中的出现概率后，单词预测模块303可从词义出发，确定与词义相关联的目标单词为待预测单词的概率。

本发明实施例提供的语言模型的解码器，通过在语言模型中以义原-词义-单词的层次进行解码，获得每个目标单词为待预测单词的概率，与现有技术中仅在词的层面上进行预测相比，由于从义原和词义的层面上充分考虑了单词之间的相互关联，层次化了预测过程，有效提升了语言模型的准确性和可解释性，具有良好的实用性。

本发明实施例提供了一种电子设备，如图4所示，该设备包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403上并可在处理器401上运行的计算机程序，以执行上述各实施例提供的语言模型的解码方法，例如包括：根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词；根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率；对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语言模型的解码方法，例如包括：根据上下文向量，预测获得每个义原在待预测单词中的出现概率，待预测单词为上下文向量对应的下个单词；根据上下文向量及每个义原在待预测单词中的出现概率，预测获得义原对应的每个词义在待预测单词中的出现概率；对每个词义在待预测单词的出现概率进行边缘化处理，预测获得词义对应的每个目标单词为待预测单词的概率。

以上所描述的电子设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语言模型的解码方法，其特征在于，包括：

根据上下文向量，预测获得每个义原在待预测单词中的出现概率，所述待预测单词为所述上下文向量对应的下个单词；

根据所述上下文向量及所述每个义原在待预测单词中的出现概率，预测获得所述义原对应的每个词义在所述待预测单词中的出现概率；

对每个所述词义在所述待预测单词的出现概率进行边缘化处理，预测获得所述词义对应的每个目标单词为所述待预测单词的概率；

所述每个义原在待预测单词中的出现概率为：

q_k＝σ(g^Tv_k+b_k)；

2.根据权利要求1所述的方法，其特征在于，所述根据上下文向量，预测获得每个义原在待预测单词中的出现概率之前，还包括：

将上文词序列输入至循环神经网络，获得所述循环神经网络输出的所述上下文向量，所述上文词序列是所述待预测单词的上文的词序列。

3.根据权利要求1所述的方法，其特征在于，所述根据所述上下文向量及所述每个义原在待预测单词中的出现概率，预测获得所述义原对应的每个词义在所述待预测单词中的出现概率，包括：

根据所述上下文向量及所述每个义原在待预测单词中的出现概率，预测获得每个所述义原中包含的每个所述词义在所述待预测单词中的出现概率；

对于每个所述词义，将包含于不同的所述义原的所述词义在所述待预测单词中的出现概率求积，获得所述词义在所述待预测单词中的出现概率。

4.根据权利要求3所述的方法，其特征在于，所述对每个所述词义在所述待预测单词的出现概率进行边缘化处理，预测获得所述词义对应的每个目标单词为所述待预测单词的概率，包括：

对于每个所述目标单词，将对应于不同的所述词义的所述目标单词在所述待预测单词中的出现概率求和，获得所述目标单词为所述待预测单词的概率。

5.根据权利要求3所述的方法，其特征在于，所述词义在所述待预测单词中的出现概率为：

φ^(k)(g，w_s)＝g^TU_kw_s；

式中，P(s|g)为词义s在待预测单词中的出现概率，C_k，s为归一化常数，φ^(k)(g，w_s)为与义原e_k相关的双线性函数，w_s为词义s的H₂维词义向量，E^s为包含有词义s的义原集合，U_k是一个H₁×H₂的矩阵，s′为表示所有词义的辅助变量。

6.根据权利要求5所述的方法，其特征在于，矩阵U_k通过以下方式获得：采用R个矩阵的线性组合参数化矩阵U_k，

式中，Q_r为H₁×H₂的矩阵，α_r，k是非负的标量，且满足

7.一种语言模型的解码器，其特征在于，包括：

义原预测模块，用于根据上下文向量，预测获得每个义原在待预测单词中的出现概率，所述待预测单词为所述上下文向量对应的下个单词；

所述每个义原在待预测单词中的出现概率为：

q_k＝σ(g^Tv_k+b_k)；

式中，q_k为义原e_k在待预测单词中的出现概率，σ为sigmoid激励函数，g为H₁维的上下文向量，v_k为H₁维的义原e_k的义原向量，b_k为标量；

词义预测模块，用于根据所述上下文向量及所述每个义原在待预测单词中的出现概率，预测获得所述义原对应的每个词义在所述待预测单词中的出现概率；

单词预测模块，用于对每个所述词义在所述待预测单词的出现概率进行边缘化处理，预测获得所述词义对应的每个目标单词为所述待预测单词的概率。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语言模型的解码方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述语言模型的解码方法的步骤。