CN102623010B

CN102623010B - 一种建立语言模型的方法、语音识别的方法及其装置

Info

Publication number: CN102623010B
Application number: CN201210050076.6A
Authority: CN
Inventors: 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-02-29
Filing date: 2012-02-29
Publication date: 2015-09-02
Anticipated expiration: 2032-02-29
Also published as: CN102623010A

Abstract

本发明提供了一种建立语言模型的方法、语音识别的方法及其装置，其中建立语言模型的方法包括：获取时效性搜索语料；利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型；将所述时效性语言模型与背景语言模型融合，以得到最终的识别语言模型，其中所述背景语言模型用于描述用户的长期检索行为。采用本发明的识别语言模型，当用户对突发事件发出语音检索请求时，能够准确地对用户的请求进行识别，进而能够为用户提供可靠的检索结果。

Description

一种建立语言模型的方法、语音识别的方法及其装置

【技术领域】

本发明涉及自然语言处理技术，特别涉及一种建立语言模型的方法、语音识别的方法及其装置。

【背景技术】

随着搜索引擎技术和移动通讯技术的发展，如今采用语音搜索的方式获取信息已经变得非常普遍。语音搜索不需要人们通过文字输入即可发出搜索请求，使得人们能够在运动状态时也轻易获取相关信息，给人们的生活带来了极大的便利。

语音搜索中，首先需要对用户的语音进行识别，只有准确地将用户的语音表述识别成一致的语义文本，才能向用户返回准确的检索结果。而语音识别的结果依赖于在语音识别中使用的语言模型，现有的语音搜索中的语音识别系统，使用的语言模型一旦被训练好，其中的参数通常不再改变，这样的语言模型难以反映用户检索行为的变化，因此在面对用户对一些热点事件的语音搜索行为时，容易出现识别结果不准确的现象。例如现实生活中突发的某种事件，常被用户冠名为“某某门”，这种“某某门”的搜索词由于过去从来没出现过，在现有的语言模型中出现的概率很低，因此最终语音识别系统对这种搜索词的识别率就会降低。

【发明内容】

本发明所要解决的技术问题是提供一种建立语言模型的方法、语音识别的方法及其装置，以解决现有的语音识别中语言模型不能随着用户的检索行为发生改变从而导致识别率降低的问题。

本发明为解决技术问题而采用的技术方案是提供一种建立语言模型的方法，包括：获取时效性搜索语料；利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型；将所述时效性语言模型与背景语言模型融合，以得到最终的识别语言模型，其中所述背景语言模型用于描述用户的长期检索行为。

根据本发明之一优选实施例，所述背景语言模型为已有的识别语言模型。

根据本发明之一优选实施例，获取时效性搜索语料的步骤包括：从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料；或者，将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。

根据本发明之一优选实施例，在将所述时效性语言模型与所述背景语言模型融合时，将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值，以得到所述识别语言模型中的参数，其中所述参数为各N元词组N-Gram的概率值。

根据本发明之一优选实施例，将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值时，对所述时效性语言模型中的参数进行加权。

本发明还提供了一种语音识别的方法，包括：获取用户的语音搜索查询；使用前文所述建立语言模型的方法建立的识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

根据本发明之一优选实施例，所述方法进一步包括：向用户返回与所述识别结果相关的检索结果。

根据本发明之一优选实施例，对用户的语音搜索查询进行识别的步骤包括：利用声学模型将用户的语音搜索查询转化为相应的音节序列；获取与所述音节序列对应的一个以上的候选词序列；使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

本发明还提供了一种建立语言模型的装置，包括：获取单元，用于获取时效性搜索语料；训练单元，用于利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型；融合单元，用于将所述时效性语言模型与背景语言模型融合，以得到最终的识别语言模型，其中背景语言模型用于描述用户的长期检索行为。

根据本发明之一优选实施例，所述获取单元获取时效性搜索语料时，从搜索引擎服务器上获取在最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料；或者，将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。

根据本发明之一优选实施例，所述融合单元在将所述时效性语言模型与所述背景语言模型融合时，将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值，以得到所述识别语言模型中的参数，其中所述参数为各N元词组N-Gram的概率值。

根据本发明之一优选实施例，所述融合单元在将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值时，对所述时效性语言模型中的参数进行加权。

本发明还提供了一种语音识别的装置，包括：接收单元，用于获取用户的语音搜索查询；识别单元，用于使用前文所述建立语言模型的装置建立的识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

根据本发明之一优选实施例，所述装置进一步包括：检索单元，用于向用户返回与所述识别结果相关的检索结果。

根据本发明之一优选实施例，所述识别单元包括：转化单元，用于利用声学模型将用户的语音搜索查询转化为相应的音节序列；词序列单元，用于获取与所述音节序列对应的一个以上的候选词序列；计算单元，用于使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

由以上技术方案可以看出，通过获取时效性语料训练能反映用户检索行为变化的时效性语言模型，并将时效性语言模型与反映用户长期检索行为的背景语言模型进行融合得到的识别语言模型，能够跟踪用户检索行为的变化，当用户对突发事件发出语音检索请求时，采用本发明的识别语言模型，能够准确地对用户的请求进行识别，进而能够为用户提供可靠的检索结果。

【附图说明】

图1为本发明中建立语言模型的方法的实施例的流程示意图；

图2为本发明中获取时效性搜索语料的一个实施例的示意图；

图3为本发明中获取时效性搜索语料的另一个实施例的示意图；

图4为本发明中语音识别的方法的实施例的流程示意图；

图5为本发明中词图的实施例的示意图；

图6为本发明中建立语言模型的装置及语音识别的装置的实施例的结构示意框图；

图7为本发明中识别单元的一个实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中建立语言模型的方法的实施例的流程示意图。如图1所示，该方法包括：

步骤S101：获取时效性搜索语料。

步骤S102：利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型。

步骤S103：将时效性语言模型与背景语言模型融合，以得到最终的识别语言模型。

下面对上述步骤进行具体说明。

步骤S101中，时效性搜索语料指的是能反映最近的一段时间长度内用户检索行为的搜索语料。其中的一段时间长度可以预先设置，例如，假如设定的时间长度为一个小时或一天，则最近一个小时或最近的一天内的搜索语料就可以作为时效性搜索语料。具体地，获取时效性搜索语料时，可以从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料，或者，获取时效性搜索语料时，可以将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。

请参考图2，图2为本发明中获取时效性搜索语料的一个实施例的示意图。用户的文本搜索查询通过网络传输到达搜索引擎服务器，在搜索引擎服务器上被记录，形成连续的日志文件。连续的日志文件就是从时间上连续记录各个用户的检索行为的文件，此外，搜索引擎服务器还可以对连续日志文件按照设定时间长度进行分割并将相同搜索字段进行合并整理，形成小粒度的日志文件，例如，可以以小时为级别，将连续日志文件分割为多个以小时为单位的日志文件并将相同搜索字段进行合并整理，形成小时级别的日志文件。

有了上述小粒度的日志文件，在步骤S101中就可以将最近的设定时间长度(如一小时)内的检索日志作为提供给步骤S102中训练语言模型的时效性搜索语料了。

请参考图3，图3为本发明中获取时效性搜索语料的另一个实施例的示意图。如图3所示，用户可以通过移动终端(如手机)输入语音搜索查询，该查询通过网络传输到搜索引擎服务器，搜索引擎服务器将对用户的语音搜索查询进行识别，识别结果可以记录为与文本检索日志类似的文本文件，从该文件上提取最近的设定时间长度内的识别结果，就可以得到时效性搜索语料。例如将最近一个小时内的语音搜索查询的识别结果作为时效性搜索语料。

请继续参考图1。

语言模型指的是N-Gram语言模型，该模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。训练语言模型的过程，就是从语料中统计N个词同时出现的次数，以得到各个N-Gram概率值的过程。通常使用较多的为二元的Bi-Gram模型和三元的Tri-Gram模型，本发明对此不做限制。

步骤S102中进行语言模型训练的过程，就是根据时效性搜索语料，确定时效性语言模型中的各个N-Gram概率值的过程。步骤S103中，背景语言模型是用于描述用户的长期检索行为的语言模型。例如：收集长期大量用户的搜索查询作为训练语料训练的语言模型就可以作为背景语言模型，与时效性语言模型相比，背景语言模型是比较稳定的语言模型，其更新速度通常远慢于时效性语言模型的更新速度，例如时效性语言模型一个小时或一天更新一次，而背景语言模型一个月更新一次。

在另一个实施例中，背景语言模型也可以是已有的识别语言模型，在这种方式下，每一次时效性语言模型与背景语言模型融合，实际上就是对已有的识别语言模型进行更新的过程。

步骤S103中，将时效性语言模型与背景语言模型融合时，可以对时效性语言模型中的参数与背景语言模型中的参数进行插值处理，以得到最终的语言模型中的参数，其中语言模型中的参数就是语言模型中的各个N元词组(N-Gram)概率值。

例如：在时效性语言模型中P(您好)是0.5，其中P(X)表示X的概率值，背景语言模型中词语P(您好)是0.8，如果给时效性语言模型与背景语言模型中的参数赋予相同的权值，则在插值后最终的识别语言模型中，P(您好)就是50％*0.5+50％*0.8＝0.65。

此外，在对时效性语言模型中的参数与背景语言模型中的参数进行插值处理时，还可以为时效性语言模型中的参数加权。例如上面的例子中，如果时效性语言模型的权重设置为70％，背景语言模型的权重设置为30％，则P(您好)就是70％*0.5+30％*0.2＝0.41。为时效性语言模型中的参数进行加权，可以使得最终的识别语言模型更贴近用户在最近时段的检索行为。

请参考图4，图4为本发明中语音识别的方法的实施例的流程示意图。如图4所示，该方法包括：

S201：获取用户的语音搜索查询。

S202：采用前文所述建立语言模型的方法建立的识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

由于前文所述的建立语言模型的方法得到的最终的识别语言模型能够更好地反映搜索的时效性，因此采用该语言模型对用户的语音搜索查询进行识别，也能对用户发出的与时效相关的语音搜索查询识别得更加准确。

进一步地，在得到对用户的语音搜索查询的识别结果后，还可以向用户返回与该识别结果相关的检索结果，这个过程与现有的搜索引擎返回与用户输入的查询内容相关的检索结果类似，在此不再进行具体描述。可以理解，与识别结果相关的检索结果，既可以是包含识别结果的检索结果，也可以是基于识别结果而进行扩展的检索结果，相应的扩展检索结果采用的扩展策略，可采用任意现有的扩展策略，本发明对此不做限制。由于采用的最终语言模型使得对与时效相关的语音搜索查询的识别更加准确，相应地，与该识别结果相关的检索结果也能够更符合用户的需求。

对用户的语音搜索查询进行识别，具体地，包括以下步骤：

S2021：利用声学模型将用户的语音搜索查询转化为相应的音节序列。

声学模型用于描述语音到音节概率大小。语音信号通过声学模型，可以转化为一个可能性最高的音节序列。例如“哪里的烤鸭好吃”对应的语音信号经过声学模型转化为“na li de kao ya hao chi”这样一个音节序列。

S2022：获取与所述音节序列对应的一个以上的候选词序列。

具体地，可以利用词表获取与音节对应的词语形成如图5所示的词图，词图中任意一条从前向后连通的路径均可作为候选词序列，应该理解，以上建立多个候选词序列的方式只是示意性说明，本发明对建立多个候选词序列的策略不做限定，可在本领域技术人员能够实现的方式中任意选择。如音节序列“na li de kao ya hao chi”可以表示为多个候选词序列：“那里的烤牙好吃”、“那里的烤鸭好吃”或“哪里的烤鸭好吃”等等。

S2023：使用识别语言模型计算每个候选词序列在识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

例如针对上述例子中的每个候选词序列，从识别语言模型中可以查找到其中每个词出现的概率以及相邻词语之间的转移概率，将每个词出现的概率以及相邻词语之间的转移概率相乘即可得到该候选词序列在识别语言模型中出现的概率，这样，出现概率最大的候选词序列就可以作为对用户的语音搜索查询的识别结果。以最终的语言模型为Bi-Gram语言模型为例，一个候选词序列在识别语言模型中出现的概率可以表示如下：

P(哪里的烤鸭好吃)＝

P(哪里的)*P(烤鸭|哪里的)*P(烤鸭)*P(好吃|烤鸭)*P(好吃)

其中P(哪里的)、P(烤鸭)、P(好吃)为候选词序列中每个词出现的概率，P(烤鸭|哪里的)、P(好吃|烤鸭)为相邻词语之间的转移概率。

请参考图6，图6为本发明中建立语言模型的装置及语音识别的装置的实施例的结构示意框图。如图6所示，建立语言模型的装置包括：获取单元301、训练单元302及融合单元303。

其中，获取单元301，用于获取时效性搜索语料。训练单元302，用于利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型。融合单元303，用于将时效性语言模型与背景语言模型融合，以得到最终的识别语言模型。

获取单元301获取时效性搜索语料的方式包括：

从搜索引擎服务器上获取在最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料；或者，将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。

本发明中的语言模型指的是N-Gram语言模型，该模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。训练语言模型的过程，就是从语料中统计N个词同时出现的次数，以得到各个N-Gram概率值的过程。通常使用较多的为二元的Bi-Gram模型和三元的Tri-Gram模型，本发明对此不做限制。训练单元302进行语言模型训练的过程，就是根据时效性搜索语料，确定时效性语言模型中的各个N-Gram概率值的过程。本发明中的背景语言模型是用于描述用户的长期检索行为的语言模型，与时效性语言模型相比，背景语言模型是比较稳定的语言模型。融合单元303将时效性语言模型与背景语言模型融合时，可以对时效性语言模型中的参数与背景语言模型中的参数进行插值处理，以得到最终的语言模型中的参数，其中语言模型中的参数就是语言模型中的各个N-Gram概率值。

例如：在时效性语言模型中P(您好)是0.5，其中P(X)表示X的概率值，背景语言模型中词语P(您好)是0.8，如果给时效性语言模型与背景语言模型中的参数赋予相同的权值，则融合单元303进行插值后，在识别语言模型中，P(您好)就是50％*0.5+50％*0.8＝0.65。

此外，融合单元303在对时效性语言模型中的参数与背景语言模型中的参数进行插值处理时，还可以为时效性语言模型中的参数加权。例如上面的例子中，如果时效性语言模型的权重设置为70％，背景语言模型的权重设置为30％，则P(您好)就是70％*0.5+30％*0.2＝0.41。融合单元303为时效性语言模型中的参数进行加权，可以使得识别语言模型更贴近用户在最近时段的检索行为。

如图6所示，语音识别的装置包括：接收单元401、识别单元402及检索单元403。

其中接收单元401用于获取用户的语音搜索查询。识别单元402用于采用前文介绍的建立语言模型的装置建立的识别语言模型对用户的语音搜索查询进行识别，得到识别结果。检索单元403用于向用户返回与识别结果相关的检索结果。

具体地，请参考图7，图7为本发明中识别单元的一个实施例的结构示意框图。如图7所示，识别单元402包括：转化单元4021、词序列单元4022及计算单元4023。其中转化单元4021用于利用声学模型将用户的语音搜索查询转化为相应的音节序列。词序列单元4022用于获取与音节序列对应的一个以上的候选词序列。计算单元4023用于使用识别语言模型计算每个候选词序列在识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

请继续参考图6。检索单元403的实现方式与现有的搜索引擎的检索单元类似，在此不再进行具体描述，应该理解，与识别结果相关的检索结果，既可以是包含识别结果的检索结果，也可以是基于识别结果而进行扩展的检索结果，相应的扩展检索结果采用的扩展策略，可采用任意现有的扩展策略，本发明对此不做限制。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立语言模型的方法，其特征在于，所述方法包括：

获取时效性搜索语料；

利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型；

将所述时效性语言模型与背景语言模型融合，以得到最终的识别语言模型，其中所述背景语言模型用于描述用户的长期检索行为。

2.根据权利要求1所述的方法，其特征在于，所述背景语言模型为已有的识别语言模型。

3.根据权利要求1所述的方法，其特征在于，获取时效性搜索语料的步骤包括：

从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料；或者，

将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。

4.根据权利要求1所述的方法，其特征在于，在将所述时效性语言模型与所述背景语言模型融合时，将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值，以得到所述识别语言模型中的参数，其中所述参数为各N元词组N-Gram的概率值。

5.根据权利要求4所述的方法，其特征在于，将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值时，对所述时效性语言模型中的参数进行加权。

6.一种语音识别的方法，其特征在于，所述方法包括：

获取用户的语音搜索查询；

使用权利要求1至5中任一权项所述建立语言模型的方法建立的识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

7.根据权利要求6所述的方法，其特征在于，所述方法进一步包括：

向用户返回与所述识别结果相关的检索结果。

8.根据权利要求6所述的方法，其特征在于，对用户的语音搜索查询进行识别的步骤包括：

利用声学模型将用户的语音搜索查询转化为相应的音节序列；

获取与所述音节序列对应的一个以上的候选词序列；

使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

9.一种建立语言模型的装置，其特征在于，所述装置包括：

获取单元，用于获取时效性搜索语料；

训练单元，用于利用获取到的时效性搜索语料进行语言模型训练，以得到时效性语言模型；

融合单元，用于将所述时效性语言模型与背景语言模型融合，以得到最终的识别语言模型，其中背景语言模型用于描述用户的长期检索行为。

10.根据权利要求9所述的装置，其特征在于，所述背景语言模型为已有的识别语言模型。

11.根据权利要求9所述的装置，其特征在于，所述获取单元获取时效性搜索语料时，从搜索引擎服务器上获取在最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料；或者，将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。

12.根据权利要求9所述的装置，其特征在于，所述融合单元在将所述时效性语言模型与所述背景语言模型融合时，将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值，以得到所述识别语言模型中的参数，其中所述参数为各N元词组N-Gram的概率值。

13.根据权利要求12所述的装置，其特征在于，所述融合单元在将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值时，对所述时效性语言模型中的参数进行加权。

14.一种语音识别的装置，其特征在于，所述装置包括：

接收单元，用于获取用户的语音搜索查询；

识别单元，用于使用权利要求9至13中任一权项所述建立语言模型的装置建立的识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

15.根据权利要求14所述的装置，其特征在于，所述装置进一步包括：

检索单元，用于向用户返回与所述识别结果相关的检索结果。

16.根据权利要求14所述的装置，其特征在于，所述识别单元包括：

转化单元，用于利用声学模型将用户的语音搜索查询转化为相应的音节序列；

词序列单元，用于获取与所述音节序列对应的一个以上的候选词序列；

计算单元，用于使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。