CN107506345A

CN107506345A - 语言模型的构建方法和装置

Info

Publication number: CN107506345A
Application number: CN201610423002.0A
Authority: CN
Inventors: 方昕; 刘俊华; 吴明辉; 魏思; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2017-12-22

Abstract

本发明提出一种语言模型的构建方法和装置，该方法包括：确定建模单元；获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。该方法能够提高构建的语言模型的效果。

Description

语言模型的构建方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语言模型的构建方法和装置。

背景技术

随着自然语言理解技术的不断发展，语言模型在越来越多的领域发挥着重要的作用，例如语音识别，手写识别，机器翻译等领域；优秀的语言模型对提高这些领域的效果起着举足轻重的作用，因此也得到了学者们越来越多的的研究和关注。通常的语言模型的构建方法包括：N-gram语言模型构建，和循环神经网络(Recurrent Neural Network，RNN)语言模型构建。通常来讲，训练数据的数据量越大，训练生成的语言模型的效果越好。

黏着语是语言的一种语法类型，包括词干和词缀，词干和词缀统称为子词。有些黏着语使用范围比较小，比如维语、蒙古语这些黏着语的使用人数都比较少。

相关技术中，在构造黏着语的语言模型时，通常是收集包括整词的数据，对这些数据进行切词后，将整词对应的词向量或子词对应的词向量作为模型训练的输入。

对于维语、蒙古语等使用范围较小的语言，其能够收集的数据非常有限，而黏着语一般词典都较为庞大，从而由于训练数据的数据量很小，会影响语言模型的效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语言模型的构建方法，该方法可以提高构建的语言模型的效果。

本发明的另一个目的在于提出一种语言模型的构建装置。

为达到上述目的，本发明第一方面实施例提出的语言模型的构建方法，包括：确定建模单元；获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

本发明第一方面实施例提出的语言模型的构建方法，通过获取建模单元的词向量之外，还获取了其他特征向量，可以充分利用能够收集到的数据的多种信息，提高构建的语言模型的效果。

为达到上述目的，本发明第二方面实施例提出的语言模型的构建装置，包括：确定模块，用于确定建模单元；获取模块，用于获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；生成模块，用于根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

本发明第二方面实施例提出的语言模型的构建装置，通过获取建模单元的词向量之外，还获取了其他特征向量，可以充分利用能够收集到的数据的多种信息，提高构建的语言模型的效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例提出的语言模型的构建方法的流程示意图；

图2是本发明实施例中根据一种建模单元生成语言模型的示意图；

图3是本发明实施例中根据另一种建模单元生成语言模型的示意图；

图4是本发明实施例中根据另一种建模单元生成语言模型的示意图；

图5是本发明一个实施例提出的语言模型的构建装置的结构示意图；

图6是本发明另一个实施例提出的语言模型的构建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

如上所示，仅以收集到的数据的词向量本身作为输入进行模型训练会存在效果不理想的问题。

为了在能够收集的数据有限的基础上，提高训练得到的语言模型的效果，本申请将不仅会获取到整词或子词这些建模单元对应的词向量，还会获取到词向量之外的其他特征向量，以充分利用能够收集到的数据的信息。

进一步的，本申请中将不仅会选择整词或子词作为建模单元，还可以选择其他的建模单元。具体的，对于黏着语的语言模型的构建，由于黏着语的语义信息大部分由词干表示，则还可以选择词干作为建模单元。

具体内容可以参见后续的实施例。

图1是本发明一个实施例提出的语言模型的构建方法的流程示意图。

参见图1，本实施例的流程包括：

S11：确定建模单元。

其中，可以从收集的数据中确定建模单元。

具体的，以黏着语为例，可以收集尽可能涵盖各整词的数据。在收集到这些数据后，可以根据需要对整词进行切分后得到词干、词缀等，进而可以从中确定建模单元。

本实施例中，建模单元不限于整词或子词，还可以包括词干。

具体的，对于收集的整词，如果需要的建模单元是子词或词干，则可以对整词进行切词，以得到子词或词干。其中，子词可以具体是词干或词缀。

S12：获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量。

本实施例中，在提取建模单元的特征向量时，不仅会使用到词向量，还使用其他特征向量。

可以理解的是，当建模单元不同，相应的其他特征向量也可以不同。

具体的，以黏着语为例，建模单元及对应的其他特征向量可以包括：

当所述建模单元是整词时，所述其他特征向量是所述整词包括的词干对应的词干词性向量；

当所述建模单元是子词时，所述其他特征向量是所述子词对应的子词属性向量；

当所述建模单元是词干时，所述其他特征向量是所述词干对应的词干词性向量。

对于上述的词干词性向量或子词属性向量可以根据预先对词干和词缀的标注信息确定。例如，在对整词进行切词得到词干或词缀后，可以对应词干标注词性，如：名词、动词等；对应词缀标注构型属性向量，如：格、态、语气。之后可以根据这些预先标注的信息获取建模单元的词干词性向量或词缀属性向量。

进一步的，获取词向量及词干词性向量或词缀属性向量的具体内容可以参见后续描述。

S13：根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

在获取到词向量和其他特征向量后，可以将其作为训练数据进行模型训练，生成语言模型。

具体的，根据每种建模单元生成对应的语言模型的流程可以具体参见后续描述。

本实施例中，通过获取建模单元的词向量之外，还获取了其他特征向量，可以充分利用能够收集到的数据的多种信息，提高构建的语言模型的效果。

一些实施例中，建模单元可以是多个，此时，可以对应每种建模单元生成一个语言模型，从而可以生成多个语言模型。

在得到多个语言模型时，在测试阶段，可以采用其中的一个或多个计算语言模型得分。例如，当采用一个时，则可以选择任一个语言模型计算语言模型得分。当采用多个时，可以选择任意多个的组合，多个是指至少两个，从而可以根据至少两个语言模型分别计算每个语言模型的得分，再对这至少两个的得分进行插值运算，得到最终的语言模型得分。

本实施例中，通过在得到多个语言模型时，可以根据需要选择一个或多个语言模型计算语言模型得分，从而满足不同需求。

下面分别对应每种建模单元生成对应的语言模型进行说明。

下面将以RNN训练方式为例。但是可以理解的是，训练方式不限于此种方式，还可以是其他神经网络训练，如卷积神经网络(Convolutional Neural Network，CNN)、深度神经网络((Deep neural network，DNN)等。当然，也不限于神经网络训练，还可以是其他训练方式，如N-gram训练。

一些实施例中，可以以整词为建模单元进行语言模型构建。

参见图2，以整词为建模单元构建语言模型的流程包括：

S21：获取整词的词向量，以及所述整词包括的词干对应的词干词性向量，以及获取上一时刻RNN隐层的输出。

具体的，word(t)表示当前t时刻的整词的词向量，向量维数为训练语料中所有整词并集的大小，当前整词是哪个词，则对应维置“1”，其余维置“0”。例如训练数据中有三个整词“AB”、“CD”、“E”，则对应整词的词向量为三维，假设当前整词为“AB”，则词向量为“1 00”。

Stem_p(t)表示当前时刻t整词word(t)的词干词性向量，例如“名词”、“动词”等，一般会有十几类，该整词的词干属于哪一类则词干词性向量对应维置“1”，其余维数置“0”。例如词干词性属性有三类“名词”、“动词”、“形容词”，则对应词干词性向量为三维，假设当前整词为“AB”，假设它的词干为“A”，若“A”是名词词干，则词干词性向量为“1 0 0”；W矩阵为词干属性输入层与隐层的权重。

S₁(t-1)表示t-1时刻即上一时刻RNN隐层的输出。

S22：以所述词向量、所述词干词性向量和所述上一时刻RNN隐层的输出，作为当前时刻的输入进行RNN训练，生成整词对应的语言模型。

其中，训练网络可以如图2所示，各参数描述如下：

y₁(t)为当前时刻t当前整词出现的概率；

S₁(t)为当前时刻t隐层的输出；

U₁为整词输入与隐层的权重；

W₁为词干词性输入与隐层的权重；

T₁为上一时刻隐层输出S₁(t-1)与当前时刻隐层的权重；

V₁为隐层与输出层的权重。

可以理解的是，具体的RNN训练流程可以参见各种相关技术，在此不再详细说明。

一些实施例中，可以以子词为建模单元进行语言模型构建。

参见图3，以子词为建模单元构建语言模型的流程包括：

S31：获取子词的词向量，以及所述子词对应的子词属性向量，以及获取上一时刻RNN隐层的输出。

具体的，subword(t)表示当前t时刻的子词的词向量，向量维数为训练数据中子词大小(词干与词缀取并集)，当前子词是哪个子词，则对应维置“1”，其余维置“0”。例如训练数据中有三个整词“AB”、“CD”、“E”，切分成子词之后则有词干“A”、词缀“B”、词干“C”、词缀“D”，词干“E”，取并集后则对应子词词向量为五维，假设当前子词为词干“A”，则词向量为“10 0 0 0”。

Stem_suffix_p(t)表示当前时刻t子词subword(t)的子词属性向量，向量维数为词干词性属性种类与词缀构型属性种类之和,若当前子词为词干，则对应为词干词性属性，例如“名词”、“动词”等，一般会有十几类；若当前子词为词缀，则对应为词缀构型属性，例如“格”、“态”、“语气”等，一般也有几十类；该子词属于哪一类则子词属性向量对应维置“1”，其余维数置“0”；例如词干词性属性有三类“名词”、“动词”、“形容词”；词缀构型属性有三类“领属格”、“被动态”、“语气”，取并集后则对应子词属性向量为六维，假设当前子词为词干“A”，若“A”是名词词干，则子词属性向量为“1 0 0 0 0 0”；若当前子词为词缀“B”，若“B”是领属格词缀，则子词属性向量为“0 0 0 1 0 0”。

S₂(t-1)表示t-1时刻即上一时刻RNN隐层的输出。

S32：以所述词向量、所述子词属性向量和所述上一时刻RNN隐层的输出，作为当前时刻的输入进行RNN训练，生成子词对应的语言模型。

其中，训练网络可以如图3所示，各参数描述如下：

y₂(t)为当前时刻t当前子词出现的概率；

S₂(t)为当前时刻t隐层的输出；

U₂为子词输入与隐层的权重；

W₂为子词属性输入与隐层的权重；

T₂为上一时刻隐层输出S₂(t-1)与当前时刻隐层的权重；

V₂为隐层与输出层的权重。

一些实施例中，可以以词干为建模单元进行语言模型构建。

参见图4，以词干为建模单元构建语言模型的流程包括：

S41：获取词干的词向量，以及所述词干对应的词干词性向量，以及获取上一时刻RNN隐层的输出。

具体的，stem(t)表示当前t时刻的词干的词向量(简称词干向量)，向量维数为训练数据中所有词干数量，当前词干是哪个词干，则对应维置“1”，其余维置“0”；例如训练数据中有三个整词“AB”、“CD”、“E”，切分为子词后，对应的词干分别为“A”、“B”、“C”，则对应词干向量为三维，假设当前整词为“AB”，它的词干为“A”，则词干向量为“1 00”；U矩阵为词干输入层与隐层的权重；

Stem_p(t)表示当前时刻t词干stem(t)的词干词性向量，例如“名词”、“动词”等，一般会有几十类，该词干属于哪一类则词干词性向量对应维置“1”，其余维数置“0”；例如词干词性属性有三类“名词”、“动词”、“形容词”，则对应词干词性向量为三维，假设当前整词为“AB”，则它的词干为“A”，若“A”是名词词干，则词干词性向量为“1 0 0”。

S₃(t-1)表示t-1时刻即上一时刻RNN隐层的输出。

S42：以所述词向量、所述词干词性向量和所述上一时刻RNN隐层的输出，作为当前时刻的输入进行RNN训练，生成词干对应的语言模型。

其中，训练网络可以如图4所示，各参数描述如下：

y₃(t)为当前时刻t当前词干出现的概率；

S₃(t)为当前时刻t隐层的输出；

U₃为词干输入与隐层的权重；

W₃为词干词性输入与隐层的权重；

T₃为上一时刻隐层输出S₃(t-1)与当前时刻隐层的权重；

V₃为隐层与输出层的权重。

因此，通过上述流程，可以以整词、子词或词干为建模单元构建语言模型，在得到上述三种语言模型后，在不考虑效果最优的情况下，可以选用其中的一种或多种。

图5是本发明一个实施例提出的语言模型的构建装置的结构示意图。

参见图5，本实施例的装置50包括：确定模块51、获取模块52和生成模块53。

确定模块51，用于确定建模单元；

获取模块52，用于获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；

生成模块53，用于根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

一些实施例中，参见图6，当所述建模单元为多个时，所述装置50还包括：

计算模块54，用于采用所述多个语言模型中的一个或者至少两个计算得到语言模型得分。

一些实施例中，当采用至少两个语言模型计算得到语言模型得分时，所述计算模块54得到的所述语言模型得分是根据所述至少两个语言模型中的每个语言模型对应的得分进行插值运算后得到的。

一些实施例中，当所述语言模型是黏着语语言模型时，所述建模单元和对应的其他特征向量包括：

当所述建模单元是整词时，所述其他特征向量是所述整词包括的词干对应的词干词性向量；或者，

当所述建模单元是子词时，所述其他特征向量是所述子词对应的子词属性向量；或者，

一些实施例中，所述获取模块52用于获取所述其他特征向量，包括：

根据对词干的词性标注信息和/或对词缀的构型属性标注信息，获取所述其他特征向量。

一些实施例中，所述生成模块53具体用于：

根据所述词向量和所述其他特征向量，通过如下项中的任一项的训练方式，生成对应的语言模型：

RNN、CNN、DNN、N-gram。

可以理解的是，本实施例的装置与方法实施例对应，具体内容可以参见方法实施例中的描述，在此不再详细说明。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现，和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语言模型的构建方法，其特征在于，包括：

确定建模单元；

获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；

根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

2.根据权利要求1所述的方法，其特征在于，当所述建模单元为多个时，所述方法还包括：

采用所述多个语言模型中的一个或者至少两个计算得到语言模型得分。

3.根据权利要求2所述的方法，其特征在于，当采用至少两个语言模型计算得到语言模型得分时，所述语言模型得分是根据所述至少两个语言模型中的每个语言模型对应的得分进行插值运算后得到的。

4.根据权利要求1-3任一项所述的方法，其特征在于，当所述语言模型是黏着语语言模型时，所述建模单元和对应的其他特征向量包括：

5.根据权利要求4所述的方法，其特征在于，获取所述其他特征向量，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型，包括：

RNN、CNN、DNN、N-gram。

7.一种语言模型的构建装置，其特征在于，包括：

确定模块，用于确定建模单元；

获取模块，用于获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；

生成模块，用于根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

8.根据权利要求7所述的装置，其特征在于，当所述建模单元为多个时，所述装置还包括：

计算模块，用于采用所述多个语言模型中的一个或者至少两个计算得到语言模型得分。

9.根据权利要求8所述的装置，其特征在于，当采用至少两个语言模型计算得到语言模型得分时，所述计算模块得到的所述语言模型得分是根据所述至少两个语言模型中的每个语言模型对应的得分进行插值运算后得到的。

10.根据权利要求7-9任一项所述的装置，其特征在于，当所述语言模型是黏着语语言模型时，所述建模单元和对应的其他特征向量包括：

11.根据权利要求10所述的装置，其特征在于，所述获取模块用于获取所述其他特征向量，包括：

12.根据权利要求7-9任一项所述的装置，其特征在于，所述生成模块具体用于：

RNN、CNN、DNN、N-gram。