CN110196894A

CN110196894A - 语言模型的训练方法和预测方法

Info

Publication number: CN110196894A
Application number: CN201910460896.4A
Authority: CN
Inventors: 罗希意; 邓卓彬; 赖佳伟; 付志宏; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-03
Anticipated expiration: 2039-05-30
Also published as: CN110196894B

Abstract

本申请提出一种语言模型训练方法和预测方法，其中，训练方法包括：获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。该方法在模型的解码端引入受限词表，模型训练时充分利用原词信息，使得语言模型对易混淆词更容易区分，提升了语言模型在错误检测或错误纠正等任务上的效果。

Description

语言模型的训练方法和预测方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种语言模型的训练方法和预测方法。

背景技术

目前，基于循环神经网络(Recurrent Neural Network，简称RNN)的语言模型解码端的解码候选集是整个词表空间(例如，基于汉字字典/分词词典)，语言模型的解码空间过大、导致模型复杂度高难以收敛，使得对易混淆词的区分度降低，降低了语言模型在错误检测或错误纠错等任务上的效果。

发明内容

本申请提出一种语言模型的训练方法和预测方法，用于解决相关技术中基于RNN语言模型对易混淆词的区分度降低、在错误检测或错误纠错等任务上的效果差的问题。

本申请一方面实施例提出了一种语言模型的训练方法，包括：

获取训练文本序列，并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置；

对所述目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列；

生成被替换的字或词的受限词表；

根据所述掩码替换后的文本序列和所述受限词表，生成在所述受限词表空间上的概率分布；以及

根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。

本申请实施例的语言模型的训练方法，通过获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。由此，通过在模型的解码端引入被替换字或词的受限词表，在模型训练时充分利用原词的信息，从而使得训练得到的语言模型对易混淆词更容易区分，大大提升了语言模型在错误检测或错误纠正等任务上的效果。

本申请另一方面实施例提出了一种语言模型的预测方法，包括：

获取待预测文本序列，并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置；

对所述目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列；

生成被替换的字或词的受限词表；

根据所述掩码替换后的文本序列和所述受限词表，生成所述语言模型在所述受限词表空间上的概率分布；以及

根据在所述受限词表空间上的概率分布生成预测结果。

本申请实施例的语言模型的预测方法，通过获取待预测文本序列，并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成语言模型在受限词表空间上的概率分布，根据在受限词表空间上的概率分布生成预测结果。由此，通过在语言模型解码端引入受限词表，在模型预测时充分利用了原词的信息，从而对易混淆词更容易区分，大大提高了预测的准确性。

本申请另一方面实施例提出了一种语言模型的训练装置，包括：

获取模块，用于获取训练文本序列，并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置；

替换模块，用于对所述目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列；

第一生成模块，用于生成被替换的字或词的受限词表；

第二生成模块，用于根据所述掩码替换后的文本序列和所述受限词表，生成在所述受限词表空间上的概率分布；以及

计算模块，用于根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。

本申请实施例的语言模型的训练装置，通过获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。由此，通过在模型的解码端引入被替换字或词的受限词表，在模型训练时充分利用原词的信息，从而使得训练得到的语言模型对易混淆词更容易区分，大大提升了语言模型在错误检测或错误纠正等任务上的效果。

本申请另一方面实施例提出了一种语言模型的预测装置，包括：

获取模块，用于获取待预测文本序列，并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置；

替换模块，用于对所述目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列；

第一生成模块，用于生成被替换的字或词的受限词表；

第二生成模块，用于根据所述掩码替换后的文本序列和所述受限词表，生成所述语言模型在所述受限词表空间上的概率分布；以及

第三生成模块，用于根据在所述受限词表空间上的概率分布生成预测结果。

本申请实施例的语言模型的预测装置，通过获取待预测文本序列，并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成语言模型在受限词表空间上的概率分布，根据在受限词表空间上的概率分布生成预测结果。由此，通过在语言模型解码端引入受限词表，在模型预测时充分利用了原词的信息，从而对易混淆词更容易区分，大大提高了预测的准确性。

本申请另一方面实施例提出了一种计算机设备，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述一方面实施例所述的语言模型的训练方法，或实现另一方面实施例所述的语言模型的预测方法。

本申请另一方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述一方面实施例所述的语言模型的训练方法，或实现另一方面实施例所述的语言模型的预测方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种语言模型的训练方法的流程示意图；

图2为本申请实施例提供的另一种语言模型的训练方法的流程示意图；

图3为深度双向转换编码器的一个示例Bert模型的结构示意图；

图4为本申请实施例提供的另一种语言模型的训练方法的流程示意图；

图5为本申请实施例提供的另一种语言模型的训练方法的流程示意图；

图6为本申请实施例提供的一种语言模型的预测方法的流程示意图；

图7为本申请实施例提供的另一种语言模型的预测方法的流程示意图；

图8为本申请实施例提供的另一种语言模型的预测方法的流程示意图；

图9为本申请实施例提供的另一种语言模型的预测方法的流程示意图；

图10为本申请实施例提供的一种语言模型的训练装置的结构示意图；

图11为本申请实施例提供的一种语言模型的预测装置的结构示意图；

图12示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的语言模型的训练方法和预测方法。

图1为本申请实施例提供的一种语言模型的训练方法的流程示意图。

如图1所示，该语言模型的训练方法包括：

步骤101，获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置。

本实施例中，可以从互联网上获取大量文本序列用于语言模型的训练。其中，一个文本序列中可包含一个或多个句子，例如，训练文本序列“你一半多长时间回家一次？”。

针对每个训练文本序列，随机生成训练文本序列中需要通过语言模型分析的字或词的目标位置。例如，将训练文本序列“你一半多长时间回家一次？”中“一半”的位置作为目标位置，或者，将“半”所在的位置作为目标位置。

在具体实现时，可从训练文本序列中每次选取一个字或词所在位置作为目标位置，也可根据训练文本序列的长度，按照一定的比例，如按照15％～20％的比例，在训练文本序列中随机生成目标位置。

步骤102，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列。

在确定目标位置后，用掩码对目标位置处的字或者词进行替换，得到掩码替换后的文本序列。例如，“你一半多长时间回家一次？”中的“一半”用掩码[MASK]替换，得到掩码替换后的文本序列“你[MASK]多长时间回家一次？”。

若每次仅选择一个字或词用掩码进行替换，得到掩码替换后的文本序列，由于一个训练文本序列中每个字或者每个词的位置都可以作为目标位置，那么对于一个训练文本序列，根据不同的目标位置，可以得到不同的掩码替换后的文本序列。由此，针对每个训练文本序列，可以得到多个掩码替换后的文本序列。当然，在一个训练文本序列中，也可以选择多个字或词用掩码进行替换。

需要说明的是，按照一定的比例生成目标位置时，比例不能太高，不然会导致训练文本序列中掩码的比例较高，训练时上下文包含了太多的掩码，就会影响对上下文的信息建模效果。

步骤103，生成被替换的字或词的受限词表。

本实施例中，受限词表是一个局限性词表，可包含与被替换的字或者词容易混淆的字或词。在生成受限词表时，可根据被替换的字或词所在的训练文本序列，以及结合词典，确定与被替换的字或者词比较容易混淆的词，这些词构成受限词表。

例如，与“半”容易混淆的字包括“般”、“搬”、“伴”、“斑”等等。

可以理解的是，训练文本序列中不同位置处的字或词被替换时，被替换的字或词对应的受限词表不同，即受限词表是动态的。

本实施例中，将受限词表作为当前被替换位置即目标位置经由语言模型建模输出后的解码空间，而相比相关技术中将整个词表(例如，基于汉字字典/分词词典)作为解码空间，本实施例的语言模型复杂度低、收敛速度快。

步骤104，根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布。

本实施例中，语言模型的输入需要以向量的形式输入，因此，根据掩码替换后的文本序列生成对应的向量数组表示，具体地，可根据每个字或词的向量表示，得到掩码替换后的文本序列的向量数组表示。

根据掩码替换后的文本序列的向量数组表示和受限词表，计算出受限词表中每个词的概率，由此，受限词表中每个词的概率构成受限词表空间上的概率分布。

步骤105，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。

本实施例中，对于目标位置，以被替换的字或分词作为监督标签，根据监督标签与受限词表中每个词对应的概率，计算交叉熵函数，并进行迭代优化。

这里的迭代优化是指利用其他被掩码替换的文本序列进行训练，进行不断的迭代优化，当交叉熵函数处于收敛状态时，训练结束。比如，可以采用自适应矩估计进行优化。

本申请实施例的语言模型的训练方法，通过获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。由此，通过模型的解码端引入被替换字或词的受限词表，在模型训练时充分利用原词的信息，从而使得训练得到的语言模型对易混淆词更容易区分，大大提升了语言模型在错误检测或错误纠正等任务上的效果。

在本申请的一个实施例中，可通过如下方式生成在受限词表空间上的概率分布。图2为本申请实施例提供的另一种语言模型的训练方法的流程示意图。

如图2所示，上述根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布，包括：

步骤201，根据掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示。

本实施例中，从大规模无监督语料中统计生成一个全局性的词表，并加入掩码[MASK]，该全局性的词表可包含常用汉字及其各种符号，也会包含一些用于特殊处理的字，[MASK]就是这样一种字(包含中括号)。而对于语言模型而言，[MASK]与正常的汉字是一样的。该全局性的词表的大小通常在万级别(参考汉语字典)，如设定为10000。显然，与全局性的词表相比，受限词表是一个局限性的词表，受限词表的大小可在10～50的量级。

本实施例中，词向量表与全局性的词表对应，词向量表可通过模型预先学习获取，初始时，词向量表会按照某种概率分布(如正态分布)随机生成，并在训练过程中随着梯度的更新而不断发生变化。

位置向量表也可以通过预先模型学习获取，其作用是对掩码替换后的文本序列的每个位置进行编码。其中，位置向量表的大小等于语言模型能够处理的文本序列的最大长度。

由于本申请中采用的是深度双向转换编码器与双向RNN网络结构不同，双向RNN网络结构模型结构并没有考虑序列的位置信息，因此本实施例中需要引入位置向量表。

本实施例中，在生成输入向量数组表示时，可先将词向量表与位置向量表进行融合，具体而言，可按对应位置分别相加，得到融合向量表，然后利用融合向量表对掩码替换后的文本序列进行映射，得到输入向量数组表示。

步骤202，将输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示。

由于本申请中的模型结构是深度双向转换编码器，如果对原词的信息不加以隐藏，则会存在标签泄露的问题，因此本申请用掩码替换训练文本中目标位置处的字或词的目的是为了隐藏原词的信息。

本实施例中，采用深度双向转换编码器对输入向量数组表示进行编码，生成与输入向量数组表示一一对应的编码向量数组表示。

深度双向转换编码器是一个Seq2Seq即序列到序列的结构，对于文本序列中的每个字或词，都会生成相应的状态输出，由于掩码和汉字一样，因此同样也会生成相应的状态输出。

双向转换编码器是语言模型的基本构成单元，多个双向转换编码器堆叠组合成为深度双向转换编码器。图3为深度双向转换编码器的一个示例Bert模型的结构示意图。图3中E₁,E₂,…,E_N为输入向量数组表示，Trm为中间编码向量数组表示，T₁,T₂,…,T_N为编码后输出的编码向量数组表示。由图3可以看出双向是在网络结构的每一层都进行了双向连接。

相关技术中基于RNN的语言模型采用的双向RNN网络结构仅将两个独立的单向RNN网络的输出层隐藏状态简单连接起来作为其上下文，其结构不能有效利用目标位置的上下文所包含的信息。相较于双向RNN网络的浅层上下文表示，深度双向转换编码器能够获取深度上下文信息，从而语言模型上下文理解的能力大幅度提升。

另外，基于RNN的语言模型，当前位置的计算依赖于之前所有位置的计算结果，即通过串行计算当前位置，训练效率低。而本申请中语言模型结构采用转换编码器实现可以并行计算，从而提高了模型训练速度。

步骤203，根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。

由于编码向量数组表示对应的是掩码替换后的文本序列，本实施例中，为了准确的对目标位置处的字或词进行解码，那么可根据目标位置从编码向量数组表示中提取与掩码对应的编码向量数组表示，称为目标编码向量数组表示。也就是说，根据训练文本序列中被替换的字或词的位置，从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。

步骤204，根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布。

在获取目标编码向量数组表示后，根据目标编码向量数组表示和受限词表，生成语言模型在受限词表空间上的概率分布，以作为目标位置的解码参考。

具体而言，根据受限词表和词向量表，提取受限词表中所有字或词对应的词向量表中的词向量(即浮点数向量)，然后将目标编码向量数组表示中每个向量(即浮点数向量)的维度转换为与提取出的词向量维度相同，再将每个转换后的目标编码向量与受限词表中所有字或词对应的词向量做向量内积，生成与受限词表大小数量相同个数的内积结果，即生成的内积结果的数量与受限词表中包含的字或词的数量相同，最后将生成的与受限词表大小数量相同个数的内积结果进行softmax归一化，以作为受限词表空间上的概率分布。其中，根据受限词表空间上的概率分布可以确定受限词表中每个字或词对应的概率，该概率用于表示字或词作为目标位置处的解码结果的可能性。

本申请实施例中，在生成在受限词表空间上的概率分布，通过根据词向量表和位置向量表，得到输入向量数组表示，再利用深度双向转换编码器进行编码得到编码向量数组表示，再根据目标位置从编码向量数组表示中提取出目标编码向量数组表示，最后根据目标编码向量数组表示和受限词表生成在受限词表空间上的概率分布。由此，利用深度双向转换编码器进行编码，不仅可以获取深度上下文信息，提高语言模型的上下文理解能力，而且可以并行计算，提高语言模型的训练速度。

图4为本申请实施例提供的另一种语言模型的训练方法的流程示意图。

如图4所示，该语言模型的训练方法包括：

步骤301，获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置。

步骤302，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列。

步骤303，生成被替换的字或词的受限词表。

本实施例中，步骤301-步骤303与上述步骤101-步骤103类似，故在此不再赘述。

步骤304，根据掩码替换后的文本序列和词向量表，生成掩码替换后的文本序列的词向量数组表示。

本实施例中，可利用词向量表对掩码替换后的文本序列进行映射，生成掩码替换后的文本序列的词向量数组表示。

步骤305，根据掩码替换后的文本序列的长度和位置向量表，生成掩码替换后的文本序列的位置向量数组表示。

本实施例中，可利用位置向量表对掩码替换后的文本序列进行映射，生成掩码替换后的文本序列的位置向量数组表示。

步骤306，根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示，生成输入向量数组表示。

本实施例中，在获取词向量数组表示和位置向量数组表示后，可将词向量数组表示和位置向量数组表示进行融合，具体而言，按对应位置分别相加，生成掩码替换后的文本序列对应的输入向量数组表示。

本实施例中，根据词向量表和位置向量表，分别生成掩码替换后的文本序列的词向量数组表示和位置向量数，再根据词向量数组表示和位置向量数生成输入向量数组表示。

步骤307，将输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示。

步骤308，根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。

步骤309，根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布。

本实施例中，步骤307-步骤309与上述202-步骤204类似，故在此不再赘述。

步骤310，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。

本申请实施例的语言模型的训练方法，通过获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置，对目标位置处的字或词进行掩码替换生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据词向量表和位置向量表分别生成掩码替换后的文本序列的词向量数组表示和位置向量数组表示，再根据词向量数组表示和位置向量数组表示生成输入向量数组表示，并通过深度双向转换编码器对输入向量数组表示进行编码得到编码向量数组表示，根据目标位置从编码向量数组表示中提取目标编码向量数组表示，再根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布，根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。由此，通过在模型的解码端引入被替换字或词的受限词表，在模型训练时充分利用原词的信息，从而使得训练得到的语言模型对易混淆词更容易区分，大大提升了语言模型在错误检测或错误纠正等任务上的效果，另外，利用深度双向转换编码器进行编码，不仅可以获取深度上下文信息，提高语言模型的上下文理解能力，而且可以并行计算，提高语言模型的训练速度。

本申请实施例中，通过在模型的解码端引入受限词表，提高语言模型的解码准确性，可见受限词表在语言模型的训练中起到至关重要的作用。在本申请的一个实施例中，在生成被替换的字或词的受限词表时，可以被替换的字或词为中心，结合上下文查询词典，得到与被替换的字或词容易混淆的字或词，根据这些字或词得到受限词表。

本实施例中，上述查询用到的词典可以是短语替换表(Phrase Table，简称PT)词典、音近词典和形近词典中的一种或多种。其中，PT词典反映的是利用历史错误行为，近词典和形近词典分别反映音近字、形近字的混淆情况。

PT词典是根据大量的用户点击搜索日志并辅以该映射词组在语料库中出现的频数，生成的原始字或词至候选字或词的映射表。其中，语料库，是指经科学取样和加工的大规模电子文本库，本实施例中，语料是指用户点击搜索日志数据。

比如，原始词为“去哪儿”到候选词为“去哪儿”的映射词组，出现在语料库中的频次为90，原始词语为“去哪儿”到候选词语为“去那儿”的映射词组，出现在语料库中的频次为10。

比如，文本序列“自己赚的钱一般分给父母”，被替换的字为“般”。根据“般”的上下信息，PT词典召回：半→本；音近词典召回：班→把→板→版→斑→瓣；形近词典召回：搬。最后，将上述召回结果首尾拼接起来，构成文本序列中字“般”的受限词表。

若查询所用的词典为一个，则根据该词典获取候选字或词，对获取的候选字或词进行排序，并选取受限词表的大小的数量的字或词，并构成被替换的字或词的受限词表。

图5为本申请实施例提供的另一种语言模型的训练方法的流程示意图。

若结合上下文查询的词典的数量至少为两个，如图5所示，上述以被替换的字或词为中心，结合上下文查询词典，生成受限词表，包括：

步骤401，以被替换的字或词为中心结合上下文，通过查询各词典得到受限词表的候选字或词集合。

本实施例中，以被替换的字或词为中心结合上下文，通过查询各词典得到受限词表的候选字或词集合。

比如，查询用的是音近词典和形近词典，那么在查询音近词典时，可根据拼音编辑距离分别为0，1，2，对目标位置处的字或词即训练文本序列中被替换的字或词的位置，进行候选召回。其中，拼音编辑距离为0表示拼音完全相同，拼音编辑距离为1和2可以是根据拼音编辑距离范围划分的，拼音编辑距离0、1、2对应容易混淆的程度越来越低。在查询形近词典时，根据字形上的差异，对目标位置的字或词进行候选召回。那么，根据查询音近字典和形近词典候选召回的字或词组成了被替换的字或词的受限词表中的候选字或词集合。

若查询用的是PT词典、音近词典和形近词典，那么三个词典的候选召回的字或词构成了被替换的字或词的受限词表中的候选字或词集合。

步骤402，根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表。

本实施例中，可根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的一个排序列表。其中，排序列表中越靠前的字或词，是与被替换字或词越容易混淆的字或词。

本实施例中，各词典的优先级可预先规定，如规定优先级为：PT词典>音近词典>形近词典；候选字或词集合中每个字或词的权重可根据其在对应词典中出现的频次计算，其中，字或词出现的频次越高对应的权重越大。具体而言，在计算出候选词或字对应的权重后，根据规定的各词典的优先级，将优先级高的词典召回的候选字或词排序在前，同一词典召回的候选字或词，根据候选字或词的权重的大小进行排序，将权重大的排序在前，由此可以得到排序列表。

在实际应用中，也可仅按照词典的优先级从高到低的顺序，得到候选字或词的排序列表，而对同一词典召回的字或词的内部优先级不限定。

步骤403，根据设定的受限词表的大小，从排序列表中选取前受限词表的大小数量的候选字或词，构成受限词表。

比如，设定的受限词表的大小为10，那么从排序列表中选取前10个字或词，构成受限词表。

在实际应用中，若排序列表中的候选字或词数量不足，则用缺省字或词进行填充，以保证受限词表的大小为预先设定的大小。

需要说明的是，被替换的字或词不同时，得到的受限词表也不相同，也就是说，不同的字、不同的上下文会生成大小相同但内容却不同的受限词表，故而受限词表是动态的。

本实施例中，PT词典反映的是历史错误行为，音近词典和形近词典分别反映音近字、形近字的混淆情况，以此受限词表作为语言模型解码端的求解依据，将大大降低模型的复杂度、提高模型收敛的效果，从而提高了错误检测、错误纠正等任务的效果。

为了实现上述实施例，本申请实施例还提出一种语言模型的预测方法。图6为本申请实施例提供的一种语言模型的预测方法的流程示意图。本申请实施例的语言模型的预测方法可利用上述训练得到的语言模型实现。

如图6所示，该语言模型的预测方法包括：

步骤501，获取待预测文本序列，并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置。

在实际应用中，可根据实际需要，从待预测文本序列中每次仅选定1个要需要通过语言模型预测的字或词位置作为目标位置。

例如，将待预测文本序列“你一半多长时间回国一次？”中“一半”的位置作为目标位置，或者，将“半”所在的位置作为目标位置。

步骤502，对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列。

在确定目标位置后，用掩码对目标位置处的字或者词进行替换，得到掩码替换后的文本序列。

例如，“你一半多长时间回国一次？”中的“一半”用掩码[MASK]替换，得到掩码替换后的文本序列“你[MASK]多长时间回家一次？”。

本实施例中，若每次仅选定一个字或词用掩码替换，那么一个待预测文本序列有多少个位置要预测，便会生成多少个带掩码的文本序列。

步骤503，生成被替换的字或词的受限词表。

可以理解的是，待预测文本序列中不同位置处的字或词被替换时，被替换的字或词对应的受限词表不同。

本实施例中，将受限词表作为当前被替换位置即目标位置经由语言模型输出后的解码空间，而相比相关技术中将整个词表(例如，基于汉字字典/分词词典)作为解码空间，本实施例的预测方法得到的预测结果准确性较高。

步骤504，根据掩码替换后的文本序列和受限词表，生成语言模型在受限词表空间上的概率分布。

根据掩码替换后的文本序列的向量数组表示和受限词表，计算出受限词表中每个字或词的概率，由此，受限词表中每个字或词的概率构成受限词表空间上的概率分布。

步骤505，根据在受限词表空间上的概率分布生成预测结果。

本实施例中，可根据受限词表中每个字或词对应的概率，选取概率最大的字或词，作为目标位置的解码结果，即作为预测结果。

本申请实施例的语言模型的预测方法，通过获取待预测文本序列，并随机生成待预测文本序列中需要通过语言模型分析的字或词的目标位置，对目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据掩码替换后的文本序列和受限词表，生成语言模型在受限词表空间上的概率分布，根据在受限词表空间上的概率分布生成预测结果。由此，通过在语言模型解码端引入受限词表，在模型预测时充分利用了原词的信息，从而对易混淆词更容易区分，大大提高了预测的准确性。

在本申请的一个实施例中，可通过如下方式生成在受限词表空间上的概率分布。图7为本申请实施例提供的另一种语言模型的预测方法的流程示意图。

如图7所示，上述根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布，包括：

步骤601，根据掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示。

步骤602，将输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示。

双向转换编码器是语言模型的基本构成单元，多个双向转换编码器堆叠组合成为深度双向转换编码器，。

图3为深度双向转换编码器的一个示例Bert模型的结构示意图。图3中E₁,E₂,…,E_N为输入向量数组表示，T₁,T₂,…,T_N为编码后输出的编码向量数组表示。由图3可以看出双向是在网络结构的每一层都进行了双向连接。

另外，基于RNN的语言模型，当前位置的计算依赖于之前所有位置的计算结果，即通过串行计算当前位置，预测效率低。而本申请中语言模型结构采用转换编码器实现，可以并行计算，从而提高了模型预测速度。

步骤603，根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。

由于编码向量数组表示对应的是掩码替换后的文本序列，本实施例中，为了准确的对目标位置处的字或词进行解码，那么可根据目标位置从编码向量数组表示中提取与掩码对应的编码向量数组表示，称为目标编码向量数组表示。也就是说，根据待预测文本序列中被替换的字或词的位置，从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。

步骤604，根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布。

本申请实施例中，在生成在受限词表空间上的概率分布，通过根据词向量表和位置向量表，得到输入向量数组表示，再利用深度双向转换编码器进行编码得到编码向量数组表示，再根据目标位置从编码向量数组表示中提取出目标编码向量数组表示，最后根据目标编码向量数组表示和受限词表生成在受限词表空间上的概率分布。由此，利用深度双向转换编码器进行编码，不仅可以获取深度上下文信息，提高语言模型的上下文理解能力，从而可以解决长依赖问题进一步提高了预测的准确度，而且可以并行计算，从而提高了语言模型的预测速度。

图8为本申请实施例提供的另一种语言模型的预测方法的流程示意图。

如图8所示，该语言模型的预测方法包括：

步骤701，获取待预测文本序列，并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置。

步骤702，对目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列。

步骤703，生成被替换的字或词的受限词表。

本实施例中，步骤701-步骤703与上述步骤501-步骤503类似，故在此不再赘述。

步骤704，根据掩码替换后的文本序列和词向量表，生成掩码替换后的文本序列的词向量数组表示。

步骤705，根据掩码替换后的文本序列的长度和位置向量表，生成掩码替换后的文本序列的位置向量数组表示。

步骤706，根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示，生成输入向量数组表示。

步骤707，将输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示。

步骤708，根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。

步骤709，根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布。

本实施例中，步骤707-步骤709与上述步骤602-步骤604类似，故在此不再赘述。

步骤710，根据在受限词表空间上的概率分布生成预测结果。

本申请实施例的语言模型的预测方法，通过获取待预测文本序列，并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置，对目标位置处的字或词进行掩码替换生成掩码替换后的文本序列，生成被替换的字或词的受限词表，根据词向量表和位置向量表分别生成掩码替换后的文本序列的词向量数组表示和位置向量数组表示，再根据词向量数组表示和位置向量数组表示生成输入向量数组表示，并通过深度双向转换编码器对输入向量数组表示进行编码得到编码向量数组表示，根据目标位置从编码向量数组表示中提取目标编码向量数组表示，再根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布，根据在受限词表空间上的概率分布生成预测结果。由此，通过在模型的解码端引入被替换字或词的受限词表，在模型预测时充分利用原词的信息，从而模型预测的结果准确度较高，大大提升了语言模型在错误检测或错误纠正等任务上的效果，另外，利用深度双向转换编码器进行编码，不仅可以获取深度上下文信息，提高语言模型的上下文理解能力，从而可以解决长依赖问题进一步提高预测的准确度，而且可以并行计算，从而提高了语言模型的预测速度。

本申请实施例中，通过在模型的解码端引入受限词表，提高语言模型的解码准确性，可见受限词表在语言模型的预测中起到至关重要的作用。在本申请的一个实施例中，在生成被替换的字或词的受限词表时，可以被替换的字或词为中心，结合上下文查询词典，得到与被替换的字或词容易混淆的字或词，根据这些字或词得到受限词表。

本实施例中，上述查询用到的词典可以是PT词典、音近词典和形近词典中的一种或多种。其中，PT词典反映的是利用历史错误行为，近词典和形近词典分别反映音近字、形近字的混淆情况。

图9为本申请实施例提供的另一种语言模型的预测方法的流程示意图。

若结合上下文查询的词典的数量至少为两个，如图9所示，上述以被替换的字或词为中心，结合上下文查询词典，生成受限词表，包括：

步骤801，以被替换的字或词为中心结合上下文，通过查询各词典得到受限词表的候选字或词集合。

比如，查询用的是音近词典和形近词典，那么在查询音近词典时，可根据拼音编辑距离分别为0，1，2，对目标位置处的字或词即待预测文本序列中被替换的字或词的位置，进行候选召回。其中，拼音编辑距离为0表示拼音完全相同，拼音编辑距离为1和2可以是根据拼音编辑距离范围划分的，拼音编辑距离0、1、2对应容易混淆的程度越来越低。在查询形近词典时，根据字形上的差异，对目标位置的字或词进行候选召回。那么，根据查询音近字典和形近词典候选召回的字或词组成了被替换的字或词的受限词表中的候选字或词集合。

步骤802，根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表。

本实施例中，各词典的优先级可预先规定，如规定优先级为：PT词典>音近词典>形近词典；候选字或词集合中每个字或词的权重可根据其在对应词典中出现的频次计算，其中，字或词出现的频次越高对应的权重越大。

具体而言，在计算出候选词或字对应的权重后，根据规定的各词典的优先级，将优先级高的词典召回的候选字或词排序在前，同一词典召回的候选字或词，根据候选字或词的权重的大小进行排序，将权重大的排序在前，由此可以得到排序列表。

步骤803，根据设定的受限词表的大小，从排序列表中选取前受限词表的大小数量的候选字或词，构成受限词表。

本实施例中，PT词典反映的是历史错误行为，音近词典和形近词典分别反映音近字、形近字的混淆情况，以此受限词表作为语言模型解码端的求解依据，将大大提高了预测结果的准确度，提高了错误检测、错误纠正等任务的效果。

为了实现上述实施例，本申请实施例还提出一种语言模型的训练装置。图10为本申请实施例提供的一种语言模型的训练装置的结构示意图。

如图10所示，该语言模型的训练装置包括：获取模块910、替换模块920、第一生成模块930、第二生成模块940、计算模块950。

获取模块910，用于获取训练文本序列，并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置；

替换模块920，用于对目标位置处的字或词进行掩码替换，生成掩码替换后的文本序列；

第一生成模块930，用于生成被替换的字或词的受限词表；

第二生成模块940，用于根据掩码替换后的文本序列和受限词表，生成在受限词表空间上的概率分布；以及

计算模块950，用于根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数，并进行迭代优化。

在本申请实施例一种可能的实现方式中，上述第二生成模块940，包括：

第一生成单元，用于根据掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示；

第二生成单元，用于将输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示；

提取单元，用于根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示；

第三生成单元，用于根据目标编码向量数组表示和受限词表，生成在受限词表空间上的概率分布。

在本申请实施例一种可能的实现方式中，上述第一生成单元，具体用于：

根据掩码替换后的文本序列和词向量表，生成掩码替换后的文本序列的词向量数组表示；

根据掩码替换后的文本序列的长度和位置向量表，生成掩码替换后的文本序列的位置向量数组表示；

根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示，生成输入向量数组表示。

在本申请实施例一种可能的实现方式中，上述第一生成模块930，具体用于：

以被替换的字或词为中心，结合上下文查询词典，生成受限词表，词典包括PT词典、音近词典和形近词典中的一种或多种。

在本申请实施例一种可能的实现方式中，若结合上下文查询的词典的数量至少为两个，上述第一生成模块930，具体用于：

以被替换的字或词为中心结合上下文，通过查询各词典得到受限词表的候选字或词集合；

根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表；

根据设定的受限词表的大小，从排序列表中选取前受限词表的大小数量的候选字或词，构成受限词表。

需要说明的是，上述对语言模型的训练方法实施例的解释说明，也适用于该实施例的语言模型的训练装置，故在此不再赘述。

为了实现上述实施例，本申请实施例还提出一种语言模型的预测装置。图11为本申请实施例提供的一种语言模型的预测装置的结构示意图。

如图11所示，该语言模型的预测装置包括：获取模块1010、替换模块1020、第一生成模块1030、第二生成模块1040、第三生成模块1050。

获取模块1010，用于获取待预测文本序列，并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置；

替换模块1020，用于对目标位置处的字或词进行掩码替换，以生成掩码替换后的文本序列；

第一生成模块1030，用于生成被替换的字或词的受限词表；

第二生成模块1040，用于根据掩码替换后的文本序列和受限词表，生成语言模型在受限词表空间上的概率分布；以及

第三生成模块1050，用于根据在受限词表空间上的概率分布生成预测结果。

在本申请实施例一种可能的实现方式中，上述第二生成模块1040，包括：

第一生成单元，用于根据所述掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示；

第二生成单元，用于将所述输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示；

根据掩码替换后的本序列的长度和位置向量表，生成掩码替换后的文本序列的位置向量数组表示；

在本申请实施例一种可能的实现方式中，上述第一生成模块1030，具体用于：

以被替换的字或词为中心，结合上下文查询词典，生成所述受限词表，所述词典包括PT词典、音近词典和形近词典中的一种或多种。

在本申请实施例一种可能的实现方式中，若结合上下文查询的词典的数量至少为两个，上述第一生成模块1030，具体用于：

以被替换的字或词为中心结合上下文，通过查询各词典得到生成受限词表的候选字或词集合；

需要说明的是，上述对语言模型的预测方法实施例的解释说明，也适用于该实施例的语言模型的预测装置，故在此不再赘述。

为了实现上述实施例，本申请实施例还提出一种计算机设备，包括处理器和存储器；

其中，处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述实施例所述的语言模型的训练方法或语言模型的预测方法。

图12示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图12显示的计算机设备13仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示，计算机设备13以通用计算设备的形式表现。计算机设备13的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备13典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备13访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备13可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图12未显示，通常称为“硬盘驱动器”)。尽管图12中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备13也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备13交互的设备通信，和/或与使得该计算机设备13能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备13还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备13的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备13使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本申请实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的语言模型的训练方法或语言模型的预测方法。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语言模型的训练方法，其特征在于，包括：

生成被替换的字或词的受限词表；

2.如权利要求1所述的语言模型的训练方法，其特征在于，所述根据所述掩码替换后的文本序列和所述受限词表，生成在所述受限词表空间上的概率分布，包括：

根据所述掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示；

将所述输入向量数组表示通过深度双向转换编码器，生成编码向量数组表示；

根据所述目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示；

根据所述目标编码向量数组表示和所述受限词表，生成在所述受限词表空间上的概率分布。

3.如权利要求2所述的语言模型的训练方法，其特征在于，所述根据所述掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示，包括：

根据所述掩码替换后的文本序列和词向量表，生成所述掩码替换后的文本序列的词向量数组表示；

根据所述掩码替换后的文本序列的长度和位置向量表，生成所述掩码替换后的文本序列的位置向量数组表示；

根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示，生成输入向量数组表示。

4.如权利要求1所述的语言模型的训练方法，其特征在于，所述生成被替换的字或词的受限词表，包括：

以所述被替换的字或词为中心，结合上下文查询词典，生成所述受限词表，所述词典包括PT词典、音近词典和形近词典中的一种或多种。

5.如权利要求4所述的语言模型的训练方法，其特征在于，若结合上下文查询的词典的数量至少为两个，所述以所述被替换的字或词为中心，结合上下文查询词典，生成所述受限词表，包括：

以所述被替换的字或词为中心结合上下文，通过查询各词典得到受限词表的候选字或词集合；

根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表；

根据设定的受限词表的大小，从所述排序列表中选取前受限词表的大小数量的候选字或词，构成受限词表。

6.一种语言模型的预测方法，其特征在于，包括：

生成被替换的字或词的受限词表；

根据在所述受限词表空间上的概率分布生成预测结果。

7.如权利要求6所述的语言模型的预测方法，其特征在于，所述根据所述掩码替换后的文本序列和所述受限词表，生成所述语言模型在所述受限词表空间上的概率分布，包括：

8.如权利要求7所述的语言模型的预测方法，其特征在于，所述根据所述掩码替换后的文本序列、词向量表和位置向量表，生成输入向量数组表示，包括：

根据所述掩码替换后的本序列的长度和位置向量表，生成所述掩码替换后的文本序列的位置向量数组表示；

9.如权利要求6所述的语言模型的预测方法，其特征在于，所述生成被替换的字或词的受限词表，包括：

10.如权利要求9所述的语言模型的预测方法，其特征在于，若结合上下文查询的词典的数量至少为两个，所述以所述被替换字或词为中心，结合上下文查询词典，生成所述受限词表，包括：

以所述被替换的字或词为中心结合上下文，通过查询各词典得到生成受限词表的候选字或词集合；

11.一种语言模型的训练装置，其特征在于，包括：

第一生成模块，用于生成被替换的字或词的受限词表；

12.如权利要求11所述的语言模型的训练装置，其特征在于，所述第二生成模块，包括：

提取单元，用于根据目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示；

第三生成单元，用于根据所述目标编码向量数组表示和所述受限词表，生成在所述受限词表空间上的概率分布。

13.如权利要求12所述的语言模型的训练装置，其特征在于，所述第一生成单元，具体用于：

14.如权利要求11所述的语言模型的训练装置，其特征在于，所述第一生成模块，具体用于：

15.如权利要求14所述的语言模型的训练装置，其特征在于，若结合上下文查询的词典的数量至少为两个，所述第一生成模块，具体用于：

16.一种语言模型的预测装置，其特征在于，包括：

第一生成模块，用于生成被替换的字或词的受限词表；

17.如权利要求16所述的语言模型的预测装置，其特征在于，所述第二生成模块，包括：

18.如权利要求17所述的语言模型的预测装置，其特征在于，所述第一生成单元，具体用于：

19.如权利要求16所述的语言模型的预测装置，其特征在于，所述第一生成模块，具体用于：

20.如权利要求19所述的语言模型的预测装置，其特征在于，若结合上下文查询的词典的数量至少为两个，所述第一生成模块，具体用于：

21.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一所述的语言模型的训练方法或者实现如权利要求6-10中任一所述的语言模型的预测方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的语言模型的训练方法或者实现如权利要求6-10中任一所述的语言模型的预测方法。