CN103871404A

CN103871404A - 一种语言模型的训练方法、查询方法和对应装置

Info

Publication number: CN103871404A
Application number: CN201210539598.2A
Authority: CN
Inventors: 贾磊; 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-18
Anticipated expiration: 2032-12-13
Also published as: CN103871404B

Abstract

本发明提供了一种语言模型的训练方法、查询方法和对应装置，其中训练方法包括：对训练语料进行分块得到N组训练语料，N为大于1的正整数；对分块得到的N组训练语料并行执行：进行递归的后缀树排序，分别得到反映各词语在各句子中倒序位置状况的排序结果，基于排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树，n为预设的一个或多个大于1的正整数；对得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为：句子中倒数第二个词、最后一个词、其他词语按照倒序排列。通过本发明能够实现语言模型的快速更新。

Description

一种语言模型的训练方法、查询方法和对应装置

【技术领域】

本发明涉及计算机应用中的语音识别技术领域，特别涉及一种语言模型的训练方法、查询方法和对应装置。

【背景技术】

语音识别是指让机器能够在不同的情况下准确地识别出语音的内容，从而根据识别出的信息来执行人的各种意图，例如执行语音搜索。目前，随着语音识别技术的不断发展，统计语言模型已经广泛地应用于各个不同领域，如语音识别、信息检索、口语理解等。对于大词汇连续语音识别来说，语言模型是整个识别系统中非常关键的一个环节，直接影响到整个识别系统的性能和识别效果。

在语音搜索等技术应用场合，语言模型信息需要根据时间顺序，经常性地进行更新，以反映最近发生的焦点事件和信息。传统的语言模型训练方法采用正序文法，即文法中的词按照时间发生的先后顺序组织训练语言模型。例如，先训练W₁(t)的文法，再训练W₁(t)W₂(t+1)，然后是W₁(t)W₂(t+1)W₃(t+2)，以此类推，其中W_x(y)表示词语W_x按照时间顺序排在第y个。但是这种训练语言模型的方式只能按照串行的方式依据训练语料进行语言模型的训练，会造成训练语料较多或者是语言模型体积过大时，训练速度缓慢，影响语音搜索系统的语言模型快速更新。

【发明内容】

有鉴于此，本发明提供了一种语言模型的训练方法、查询方法和对应装置，以便于实现语言模型的快速更新。

具体技术方案如下：

一种语言模型的训练方法，该训练方法包括：

S1、对训练语料进行分块得到N组训练语料，N为大于1的正整数；

S2、对分块得到的N组训练语料并行执行步骤S21和步骤S22；

S21、进行递归的后缀树排序，分别得到反映各词语在各句子中倒序位置状况的排序结果；

S22、基于步骤S21的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树，n为预设的一个或多个大于1的正整数；

S3、对得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为：句子中倒数第二个词、最后一个词、其他词语按照倒序排列。

根据本发明一优选实施例，所述步骤S21具体包括：

A1、将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，所述词号数组中为各词语的词号，再依据词号数组构建一个索引数组，所述索引数组中的各索引记录了各词语在词号数组中的序号；

A2、依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序；

A3、将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序；

A4、判断排序次数是否满足预设的文法阶数要求，如果是，结束递归的后缀树排序流程；否则，转至所述步骤A3进行下一次排序。

根据本发明一优选实施例，n为2时采用的所述第一词序结构为：W_i(t)W(t-1)，W_i(t)表示训练语料的句子中倒数第二个词，W(t-1)表示训练语料的句子中位于W_i(t)前面一位的任一词；

n为3时采用的所述第一词序结构为：W_i(t)W(t+1)W(t-1)，W(t+1)为在训练语料的句子中位于W_i(t)后面一位的任一词；

n为4时采用的所述第一词序结构为：W_i(t)W(t-1)W(t+1)W(t-2)，W(t-2)为在训练语料的句子中位于W_i(t)前面两位的任一词。

根据本发明一优选实施例，所述n元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。

根据本发明一优选实施例，所述步骤S3具体包括：

S31、将由各组训练语料得到的相同根节点的相同元的词序树进行合并；

S32、将相同根节点的不同元的词序树合并成一棵Trie树；

S33、将合并得到的Trie树转换为预设的第二词序结构，得到存放前向概率信息的Trie树；

所述预设的第二词序结构为：从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。

根据本发明一优选实施例，所述语言模型除了包含所述存放前向概率信息的Trie树之外，还包括：依据所述存放前向概率信息的Trie树生成的存放回退概率信息的Trie树。

一种语言模型的训练装置，该训练装置包括：分块处理单元、N个递归处理单元、N个词序树建立单元以及合并处理单元；

分块处理单元，用于对训练语料进行分块得到N组训练语料，将N组训练语料分别提供给各递归处理单元，N为大于1的正整数；

递归处理单元，用于对接收到的训练语料进行递归的后缀树排序，得到反映各词语在各句子中倒序位置状况的排序结果，并提供给对应的词序树建立单元；

词序树建立单元，用于基于接收到的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树，n为预设的一个或多个大于1的正整数；

合并处理单元，用于对各词序树建立单元得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为：句子中倒数第二个词、最后一个词、其他词按照倒序排列。

根据本发明一优选实施例，所述递归处理单元具体包括：

数组建立子单元，用于将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，所述词号数组中为各词语的词号，再依据词号数组构建一个索引数组，所述索引数组中的各索引记录了各词语在词号数组中的序号；

初始排序子单元，用于依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序，触发递归排序子单元；

递归排序子单元，用于受到触发后，将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序，触发次数控制子单元；

次数控制子单元，用于受到触发后，判断排序次数是否满足预设的文法阶数要求，如果是，将排序结果提供给对应的词序树建立单元；否则，触发递归排序子单元。

根据本发明一优选实施例，n为2时所述词序树建立单元采用的第一词序结构为：W_i(t)W(t-1)，W_i(t)表示训练语料的句子中倒数第二个词，W(t-1)表示训练语料的句子中位于W_i(t)前面一位的任一词；

n为3时所述词序树建立单元采用的第一词序结构为：W_i(t)W(t+1)W(t-1)，W(t+1)为在训练语料的句子中位于W_i(t)后面一位的任一词；

n为4时所述词序树建立单元采用的第一词序结构为：W_i(t)W(t-1)W(t+1)W(t-2)，W(t-2)为在训练语料的句子中位于W_i(t)前面两位的任一词。

根据本发明一优选实施例，所述合并处理单元具体包括：

第一合并子单元，用于将各词序树建立单元提供的相同根节点的相同元的词序树进行合并；

第二合并子单元，用于基于所述第一合并子单元的合并结果，将相同根节点的不同元的词序树合并成一棵Trie树；

词序转换子单元，用于将所述第二合并子单元合并得到的Trie树转换为预设的第二词序结构，得到存放前向概率信息的Trie树；

根据本发明一优选实施例，该训练装置还包括：回退树建立单元，用于依据所述存放前向概率信息的Trie树生成存放回退概率信息的Trie树。

一种语言模型的查询方法，该查询方法包括：

P1、获取待查询的词序列，将待查询的词序列作为当前输入的词序列执行步骤P2；

P2、将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序：当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列；

P3、将调整后的词序列在上述训练方法训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。

根据本发明一优选实施例，如果所述步骤P3中没有查询到出现概率，则执行回退处理；

所述回退处理为：将所述当前输入的词序列去掉开头词语后的词序列作为新的当前输入的词序列，转至所述步骤P2。

根据本发明一优选实施例，如果所述步骤P3中没有查询到出现概率，则进一步执行回退系数查询；

所述回退系数查询为：将步骤P2中所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；

如果对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与回退系数查询得到的回退系数相乘，得到所述待查询的词序列的出现概率。

一种语言模型的查询装置，该查询装置包括：

序列获取单元，用于获取待查询的词序列，将待查询的词序列作为词序调整单元当前输入的词序列；

词序调整单元，用于将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序：当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列；

前向查询单元，用于将所述词序调整单元得到的词序列在上述训练装置训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。

根据本发明一优选实施例，该装置还包括：回退控制单元，用于在所述前向查询单元未查询到出现概率时，执行回退处理，所述回退处理为：将所述当前输入的词序列去掉开头词语后的词序列作为所述词序调整单元新的当前输入的词序列。

根据本发明一优选实施例，该装置还包括：回退查询单元，用于在所述前向查询单元未查询到出现概率时，执行回退系数查询，所述回退系数查询为：将所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；

如果所述前向查询单元对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与所述回退查询单元得到的回退系数相乘，得到所述待查询的词序列的出现概率。

由以上技术方案可以看出，本发明提供了一种新的词序树结构，使得对训练语料进行分块并行的处理（并行的后缀树递归排序和词序树建立）成为可能，并对并行处理后得到的词序树进行合并和词序转换后，得到易于查询的存放前向概率信息的Trie树。由于引入了并行的处理，因此语言模型的训练更加快速，方便语言模型进行快速更新，这在训练语料较多时效果尤其显著。

【附图说明】

图1为本发明实施例一提供的语言模型的训练方法流程图；

图2为本发明实施例一提供的递归的后缀树排序方法流程图；

图3为本发明实施例二提供的语言模型的查询方法流程图；

图4为本发明实施例三提供的语言模型的训练装置结构图；

图5为本发明实施例三提供的递归处理单元的具体结构图；

图6为本发明实施例四提供的语言模型的查询装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的语言模型的训练方法流程图，如图1所示，该方法包括以下步骤：

步骤101：对训练语料进行分块分别得到N组训练语料，N为大于1的正整数。

为了提高语言模型的更新速度，本发明实施例中将原来对训练语料串行处理的方式变为并行处理，因此首先对训练语料进行分块后得到多组训练语料，以便后续对该多组训练语料进行并行处理。

在此对训练语料进行的分块可以按照任意的策略进行，只要能够将训练语料分成N组即可。另外，本步骤中采用的训练语料在初始训练时，可以是搜索文本中所有时间段的用户输入信息，也可以是搜索文本中设定时间段的用户输入信息；如果是在后续的更新过程中，可以是搜索文本中距离当前时间点最近的时间段的用户输入信息。

步骤102：对分块得到的N组训练语料并行进行递归的后缀树排序，得到反映各词语在各句子中倒序位置状况的排序结果。

本步骤实际上是采用递归的后缀树排序方式来实现倒序文法的精确定位。所谓倒序指的是词序中相对于正序的一种排序方式，词序指的是语料中按照一个文法各词的时间发生顺序，正序是按照一个文法中时间递增的顺序排列，即W(t)W(t+1)W(t+2)…，倒

序是按照一个文法中时间递减的顺序排列，即W(t)W(t-1)W(t-2)…，需要说明的是，在一个文法中的时间顺序实际上是各词先后排列的顺序，该时间是一个相对概念。

本步骤中递归的后缀树排序的具体实现方法可以如图2所示，主要包括步骤201至步骤204，这里执行的各操作是针对分块得到的N组训练语料分别执行的，下面的描述以其中一组训练语料为例，各组训练语料的处理方式相同。

步骤201：将该组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，该词号数组中的各词号为各词语的词号，再构建一个和词号数组一样大的索引数组，该索引数组中的各索引记录了各词语在词号数组中的序号。

在本步骤中构建的词号数组用于标识原始语料中各词语的词号，通常相同词语的具有相同的词号。构建的索引数组用于标识各词语在词号数组中的序号，即初始索引数组表征了各词语在词号数组中的位置状况。

步骤202：依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序，执行步骤203。

本步骤为第一次递归排序，进行第一次递归排序后，词号数组中各词号保持不变，索引数组中的索引将被排列成反映词号从小到大的顺序，此时，对应相同词号的索引在索引数组中被排在一起，这些排在一起且对应相同词号的索引称为同组索引。同组索引内部的索引之间顺序是可以随意调整的，不会对第一次递归排序结果造成影响。

步骤203：将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序。

在进行后续次数的排序时，不再是索引数组的整体排序，而是在索引数组当前排序结果中的同组索引内部进行排序，排序依据是其在词号数组中下一个位置的词语的词号，也就是说，在原始的训练语料中该索引所对应词语的前一个词语的词号。

步骤204：判断排序次数是否满足预设的文法阶数要求，如果否，转至步骤203进行下一次排序；如果是，结束递归的后缀树排序流程。

在本步骤中，递归排序一轮一轮执行，即进行第一次排序、第二次排序、第三次排序，等等，直到排序次数达到预设的文法阶数要求，最终得到的索引数组中各索引反映了对应词语在训练语料中各句子的倒序位置状况，处于相同位置的词语所对应的索引排列在一起。

继续参见图1，步骤103：基于步骤102的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树，n为预设的一个或多个大于1的正整数。

在按照图2所示流程分别并行的对各组训练语料进行递归的后缀树排序后，就可以准确定位出各句子中倒数第二个词的任意一个n元文法串的位置和发生次数，基于这些信息就能够实现n元词序树的建立，该n元词序树是以句子中倒数第二个词作为根节点的，下面对采用的第一词序结构进行重点描述。

采用二元文法时对应的第一词序结构为：W_i(t)W(t-1)，其中，W_i(t)为一个特定词，在本发明中为训练语料的句子中倒数第二个词，W(t-1)为在训练语料的句子中位于W_i(t)前面一位的任一词。

建立的二元词序树为：

W_{i} (t) \{\begin{matrix} W_{1} (t - 1) : Num (1 i) \\ W_{2} (t - 1) : Num (2 i) \\ \cdot \cdot \cdot \\ W_{N} (t - 1) : Num (Ni) \end{matrix}

Num(ji)表示词W_j与词W_i按照先后顺序连接在一起组成一个文法的发生次数。

采用三元文法时对应的第一词序结构为：W_i(t)W(t+1)W(t-1)，W(t+1)为在训练语料的句子中位于W_i(t)后面一位的任一词。

建立的三元词序树为：

W_{i} (t) \{\begin{matrix} W_{1} (t + 1) \{\begin{matrix} W_{1} (t - 1) : Num (1 i 1) \\ W_{2} (t - 1) : Num (2 i 1) \\ \cdot \cdot \cdot \\ W_{N} (t - 1) : Num (Ni 1) \end{matrix} \\ W_{2} (t + 1) \{\begin{matrix} W_{1} (t - 1) : Num (1 i 2) \\ W_{2} (t - 1) : Num (2 i 2) \\ \cdot \cdot \cdot \\ W_{N} (t - 1) : Num (Ni 2) \end{matrix} \\ \cdot \cdot \cdot \\ W_{N} (t + 1) \{\begin{matrix} W_{1} (t - 1) : Num (1 iN) \\ W_{2} (t - 1) : Num (2 iN) \\ \cdot \cdot \cdot \\ W_{N} (t - 1) : Num (NiN) \end{matrix} \end{matrix}

Num(jik)表示词W_j、词W_i和词W_k按照先后顺序连接在一起组成一个文法的发生次数。

采用四元文法时对应的第一词序结构为W_i(t)W(t-1)W(t+1)W(t-2)，同理，W(x)中的x表征对应词语在训练语料的句子中的序号，W(t-2)为在训练语料的句子中位于W_i(t)前面两位的任一词。

建立的四元词序树为：

Num(mjik)表示词W_m、词W_j、词W_i和词W_k按照先后顺序连接在一起组成一个文法的发生次数，也就是说，在叶节点上包含指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。

诸如此类，五元文法以上的文法对应的第一词序结构可以为：W_i(t)W(t-1)W(t-2)…W(t-n+3)W(t+1)W(t-n+2)，其中n为预设的文法阶数要求，例如五元文法对应的第一词序结构为W_i(t)W(t-1)W(t-2)W(t+1)W(t-3)，六元文法对应的第一词序结构为W_i(t)W(t-1)W(t-2)W(t-3)W(t+1)W(t-4)。

由于训练语料事先进行了分块，并且并行采用了递归的后缀树排序，因此任何一个词的词序树都可以高速抽取出来。

步骤104：对得到的相同根节点的词序树进行合并和词序转换，得到包含前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为：句子中倒数第二个词、最后一个词、其他词语按照倒序排列。

由于不同分块的训练语料之间，同一个词对应的词序树可能存在重复，因此，需要对相同根节点的词序树进行合并，消除重复并保证信息的完备。

本步骤中进行的合并包括：

首先将由各组训练语料得到的相同根节点的相同元的词序树进行合并。

本步骤的合并之后，得到任一个词W_i最终对应以该词为根节点的n棵词序树，n为文法阶数要求，即语言模型的阶数。词序树之间的合并实际上是一个归并排序过程，是计算机数据结构中的基本算法，在此处不再赘述。

然后将相同根节点的不同元的词序树合并成一棵Trie树。

如果训练的是n元语言模型，在进行上一合并步骤后，一个节点实际上存在n棵词序树，为了方便存储和最后的语言模型使用，需要将相同根节点的多棵词序树组织成一个Trie树。

本步骤中所谓的合并实际上是将相同根节点的不同元的词序树拼在一起，生成一棵大的Trie树。

Trie树又称为单词查找树或者键树，是一种哈希树的变种。特点是：根节点不包含字符，除根节点外每一个节点都只包含一个字符；从根节点到某一节点，路径上经过的字符串连接起来为该节点对应的字符串；每个节点的所有子节点包含的字符都不相同。在多棵词序树转换为一棵Trie树的过程为现有技术，在此不再赘述。

在执行上述合并处理之后，为了方便最后的语言模型查询，需要将合并得到的Trie树进行词序转换，得到存放前向概率信息的Trie树。在转换之前，Trie树的词序结构按照第一词序结构，转换之后按照第二词序结构，该第二词序结构为：从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。Trie树的词序结构转换为现有技术，在此不再具体描述。

最终存放前向概率信息的Trie树的词序顺序为：W(t)W(t+1)W(t-1)W(t-2)W(t-3)…。其中，W(t)为句子中倒数第二个词。

除了上述存放前向概率信息的Trie树之外，还需要形成另一棵Trie树，用于存放回退概率信息，该存放回退概率信息的Trie树可以由存放前向概率信息的Trie树生成，具体生成过程可以采用现有技术，在此不再详细赘述。与存放前向概率信息的Trie树不同的是，存放回退概率信息的Trie树的各节点从根到末是倒序顺序，目的是为了在某些文法的概率不存在或被裁减掉时进行回退。

由于本发明采用的特殊的词序树结构，同时训练过程采用深度优先的递归训练，我们能够保证在W(t)W(t+1)W(t-1)文法概率不存在或者被裁减掉时候，W(t)W(t+1)的文法一定存在；同理保证W(t)W(t+1)W(t-1)W(t-2)文法概率不存在的时候，W(t)W(t+1)W(t-1)一定存在。这种训练顺序能够使得在进行语言模型查询的时候，只进行一次回退就找到语言模型。

在训练得到上述结构的语言模型后，在语音识别过程中，查找该语言模型时，需要从待识别语音的句子中倒数第二个词开始查找，具体的查找过程通过实施例二进行描述。

实施例二、

图3为本发明实施例二提供的语言模型的查询方法流程图，如图3所示，该查询方法具体包括以下步骤：

步骤301：获取待查询的词序列，将待查询的词序列作为当前输入的词序列执行步骤302。

步骤302：将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序：当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列。

本步骤中对输入的词序列进行的词序结构调整是与存放概率信息的Trie树的词序结构相匹配的。

步骤303：将调整后的词序列在实施例一得到的存放前向概率信息的Trie树上进行查询。

步骤304：判断步骤303是否查找到当前输入的词序列的出现概率，如果是，执行步骤305：否则执行步骤307和步骤308。

步骤305：判断是否针对所述待查询的词序列执行了回退，如果是，则执行步骤306；否则，将查找到的出现概率作为所述待查询的词序列的出现概率，结束流程。

步骤306：将查找到的出现概率乘以回退系数查询得到的回退系数，得到所述待查询的词序列的出现概率，结束流程。

步骤307：执行回退处理：将当前输入的词序列去掉开头词语后的词序列作为新的当前输入词序列，转至步骤302。

步骤308：执行回退系数查询：将步骤302中当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到当前输入的词序列去掉结尾词语后的词序列的回退系数，等待执行步骤306。

举一个例子，假设待查询的词序列为w(t)w(t+1)w(t+2)w(t+3)w(t+4)，首先将该词序列作为当前输入词序列，调整成预设的词序结构后得到词序列为w(t+3)w(t+4)w(t+2)w(t+1)w(t)，将调整后的词序列在存放前向概率信息的Tire树上进行查询。如果查找到，则将查找到的概率确定为待查询的词序列的出现概率；如果查找不到，则执行回退处理和回退系数查询。

回退处理时，将当前输入的词序列w(t)w(t+1)w(t+2)w(t+3)w(t+4)去掉开头词语后得到的w(t+1)w(t+2)w(t+3)w(t+4)作为新的当前输入词序列，再调序成w(t+3)w(t+4)w(t+2)w(t+1)在存放前向概率信息的Tire树上进行查询。与此同时，在执行回退系数查询时，将w(t)w(t+1)w(t+2)w(t+3)w(t+4)去掉结尾词语后得到的w(t)w(t+1)w(t+2)w(t+3)进行倒序，得到词序列w(t+3)w(t+2)w(t+1)w(t)，将其在存放后退概率信息的Tire树上进行查询，得到回退系数。

如果w(t+3)w(t+4)w(t+2)w(t+1)在存放前向概率信息的Tire树上查询到出现概率，则将该出现概率与w(t+3)w(t+2)w(t+1)w(t)查询得到的回退系数相乘，得到待查询的词序列的出现概率。

如果w(t+3)w(t+4)w(t+2)w(t+1)在存放前向概率信息的Tire树上仍然没有查询到出现概率，则继续进行回退处理，将w(t+1)w(t+2)w(t+3)w(t+4)去掉开头词语后的词序列w(t+2)w(t+3)w(t+4)作为新的当前输入词序列，调序后得到w(t+3)w(t+4)w(t+2)在存放前向概率信息的Tire树上查询。

与此同时，将w(t+1)w(t+2)w(t+3)w(t+4)去掉结尾词语后的词序列w(t+1)w(t+2)w(t+3)进行倒序，得到w(t+3)w(t+2)w(t+1)，将其在存放后退概率信息的Tire树上进行查询，得到回退系数。

如果w(t+3)w(t+4)w(t+2)在存放前向概率信息的Tire树上查询到出现概率，则将该出现概率与w(t+3)w(t+2)w(t+1)查找到的回退系数相乘，得到待查询的词序列的出现概率。否则，继续回退，以此类推。

以上是对本发明所提供的方法进行的详细描述，下面对本发明所提供的装置进行详细描述。

实施例三、

图4为本发明实施例三提供的语言模型的训练装置结构图，如图4所示，该训练装置包括：分块处理单元400、N个递归处理单元410、N个词序树建立单元420以及合并处理单元430，其中N为大于1的正整数。

分块处理单元400对训练语料进行分块得到N组训练语料，将N组训练语料分别提供给各递归处理单元410。

本发明实施例中将原来对训练语料串行处理的方式变为并行处理，因此由分块处理单元400首先对训练语料进行分块后得到多组训练语料，以便后续对该多组训练语料进行并行处理。分块处理单元400采用的训练语料在初始训练时，可以是搜索文本中所有时间段的用户输入信息，也可以是搜索文本中设定时间段的用户输入信息；如果是在后续的更新过程中，可以是搜索文本中距离当前时间点最近的时间段的用户输入信息。

N个递归处理单元410和N个词序树建立单元420用于对分块得到的N组训练语料进行并行处理，即一个递归处理单元410和一个词序树建立单元420作为一组负责处理其中一组训练语料。

具体地，递归处理单元410对接收到的训练语料进行递归的后缀树排序，得到反映各词语在各句子中倒序位置状况的排序结果，并提供给对应的词序树建立单元420。

递归处理单元410的具体结构可以如图5所示，包括数组建立子单元411、初始排序子单元412、递归排序子单元413和次数控制子单元414。

数组建立子单元411将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，词号数组中为各词语的词号，再依据词号数组构建一个索引数组，索引数组中的各索引记录了各词语在词号数组中的序号。

构建的词号数组用于标识原始语料中各词语的词号，通常相同词语的具有相同的词号。构建的索引数组用于标识各词语在词号数组中的序号，即初始索引数组表征了各词语在词号数组中的位置状况。

初始排序子单元412依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序，触发递归排序子单元413。

初始排序子单元412首先进行第一次递归排序，进行第一次递归排序后，词号数组中各词号保持不变，索引数组中的索引将被排列成反映词号从小到大的顺序，此时，对应相同词号的索引在索引数组中被排在一起，这些排在一起且对应相同词号的索引称为同组索引。同组索引内部的索引之间顺序是可以随意调整的，不会对第一次递归排序结果造成影响。

递归排序子单元413受到触发后，将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序，触发次数控制子单元414。

递归排序子单元413进行的排序不再是索引数组的整体排序，而是在索引数组当前排序结果中的同组索引内部进行排序，排序依据是其在词号数组中下一个位置的词语的词号，也就是说，在原始的训练语料中该索引所对应词语的前一个词语的词号。

次数控制子单元414受到触发后，判断排序次数是否满足预设的文法阶数要求，如果是，将排序结果提供给对应的词序树建立单元420；否则，触发递归排序子单元413。

即由次数控制子单元414控制递归排序一轮一轮执行，即进行第二次排序、第三次排序，等等，直到排序次数达到预设的文法阶数要求，最终得到的索引数组中各索引反映了对应词语在训练语料中各句子的倒序位置状况，处于相同位置的词语所对应的索引排列在一起。

继续参见图4，词序树建立单元420基于接收到的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树，n为预设的一个或多个大于1的正整数。

具体地，n为2时词序树建立单元420采用的第一词序结构为：W_i(t)W(t-1)，W_i(t)表示训练语料的句子中倒数第二个词，W(t-1)表示训练语料的句子中位于W_i(t)前面一位的任一词。

n为3时词序树建立单元420采用的第一词序结构为：W_i(t)W(t+1)W(t-1)，W(t+1)为在训练语料的句子中位于W_i(t)后面一位的任一词。

n为4时词序树建立单元420采用的第一词序结构为：W_i(t)W(t-1)W(t+1)W(t-2)，W(t-2)为在训练语料的句子中位于W_i(t)前面两位的任一词。

相应地，依据上述第一词序结构分别建立的n元词序树可以参见实施例一中步骤204的相关描述，在此不再赘述，其中n元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。

在上述并行处理结束后，合并处理单元430对各词序树建立单元420得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为：句子中倒数第二个词、最后一个词、其他词按照倒序排列。

具体地，合并处理单元430可以实现两步合并操作和一步词序转换操作，具体包括：第一合并子单元431、第二合并子单元432和词序转换子单元433。

第一合并子单元431将各词序树建立单元420提供的相同根节点的相同元的词序树进行合并。合并之后，得到任一个词W_i最终对应以该词为根节点的n棵词序树，n为文法阶数要求，即语言模型的阶数。词序树之间的合并实际上是一个归并排序过程，是计算机数据结构中的基本算法，在此处不再赘述。

第二合并子单元432基于第一合并子单元431的合并结果，将相同根节点的不同元的词序树合并成一棵Trie树。如果训练的是n元语言模型，在第一合并子单元进行合并后，一个节点实际上存在n棵词序树，为了方便存储和最后的语言模型使用，需要将相同根节点的多棵词序树组织成一个Trie树。

词序转换子单元433将第二合并子单元432合并得到的Trie树转换为预设的第二词序结构，得到存放前向概率信息的Trie树。预设的第二词序结构为：从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。

除了上述存放前向概率信息的Trie树之外，还需要形成另一棵Trie树，用于存放回退概率信息，因此该训练装置还包括：回退树建立单元440，用于依据存放前向概率信息的Trie树生成存放回退概率信息的Trie树。

实施例四、

图6为本发明实施例四提供的语言模型的查询装置结构图，如图6所示，该查询装置具体包括：序列获取单元600、词序调整单元610和前向查询单元620。

序列获取单元600获取待查询的词序列，将待查询的词序列作为词序调整单元610当前输入的词序列。

词序调整单元610将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序：当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列。

前向查询单元620将词序调整单元610得到的词序列在实施例三中的训练装置训练得到的存放前向概率信息的Trie树上进行查询，得到当前输入的词序列的出现概率。也就是说，如果第一次查询就查询到出现概率，则能够直接确定待查询的词序列的出现概率。

如果未查询到出现概率，则进行回退。此时，该装置还包括：回退控制单元630，用于在前向查询单元620未查询到出现概率时，执行回退处理，回退处理为：将当前输入的词序列去掉开头词语后的词序列作为词序调整单元610新的当前输入的词序列。

与此同时，该装置还会包括：回退查询单元640，用于在前向查询单元620未查询到出现概率时，执行回退系数查询，回退系数查询为：将当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到当前输入的词序列去掉结尾词语后的词序列的回退系数。

如果前向查询单元620对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与回退查询单元640得到的回退系数相乘，得到待查询的词序列的出现概率。

如果仍未查询到出现概率，则继续进行回退，直至在存放前向概率信息的Trie树上查找到出现概率为止。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语言模型的训练方法，其特征在于，该训练方法包括：

S2、对分块得到的N组训练语料并行执行步骤S21和步骤S22；

2.根据权利要求1所述的训练方法，其特征在于，所述步骤S21具体包括：

3.根据权利要求1所述的方法，其特征在于，n为2时采用的所述第一词序结构为：W_i(t)W(t-1)，W_i(t)表示训练语料的句子中倒数第二个词，W(t-1)表示训练语料的句子中位于W_i(t)前面一位的任一词；

4.根据权利要求1所述的训练方法，其特征在于，所述n元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。

5.根据权利要求1所述的训练方法，其特征在于，所述步骤S3具体包括：

S32、将相同根节点的不同元的词序树合并成一棵Trie树；

6.根据权利要求1所述的训练方法，其特征在于，所述语言模型除了包含所述存放前向概率信息的Trie树之外，还包括：依据所述存放前向概率信息的Trie树生成的存放回退概率信息的Trie树。

7.一种语言模型的训练装置，其特征在于，该训练装置包括：分块处理单元、N个递归处理单元、N个词序树建立单元以及合并处理单元；

8.根据权利要求7所述的训练装置，其特征在于，所述递归处理单元具体包括：

9.根据权利要求7所述的训练装置，其特征在于，n为2时所述词序树建立单元采用的第一词序结构为：W_i(t)W(t-1)，W_i(t)表示训练语料的句子中倒数第二个词，W(t-1)表示训练语料的句子中位于W_i(t)前面一位的任一词；

10.根据权利要求7所述的训练装置，其特征在于，所述n元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。

11.根据权利要求7所述的训练装置，其特征在于，所述合并处理单元具体包括：

12.根据权利要求7所述的训练装置，其特征在于，该训练装置还包括：回退树建立单元，用于依据所述存放前向概率信息的Trie树生成存放回退概率信息的Trie树。

13.一种语言模型的查询方法，其特征在于，该查询方法包括：

P3、将调整后的词序列在权利要求1至6任一权项所述的训练方法训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。

14.根据权利要求13所述的查询方法，其特征在于，如果所述步骤P3中没有查询到出现概率，则执行回退处理；

15.根据权利要求14所述的查询方法，其特征在于，如果所述步骤P3中采用权利要求6所述训练方法训练得到的存放前向概率信息的Trie树，则如果所述步骤P3中没有查询到出现概率，则进一步执行回退系数查询；

16.一种语言模型的查询装置，其特征在于，该查询装置包括：

前向查询单元，用于将所述词序调整单元得到的词序列在权利要求7至12任一权项所述的训练装置训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。

17.根据权利要求16所述的查询装置，其特征在于，该装置还包括：回退控制单元，用于在所述前向查询单元未查询到出现概率时，执行回退处理，所述回退处理为：将所述当前输入的词序列去掉开头词语后的词序列作为所述词序调整单元新的当前输入的词序列。

18.根据权利要求17所述的查询装置，其特征在于，如果所述前向查询单元采用权利要求12所述训练装置训练得到的存放前向概率信息的Trie树，则

该装置还包括：回退查询单元，用于在所述前向查询单元未查询到出现概率时，执行回退系数查询，所述回退系数查询为：将所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；