CN103871402A

CN103871402A - 语言模型训练系统、语音识别系统及相应方法

Info

Publication number: CN103871402A
Application number: CN201210533887.1A
Authority: CN
Inventors: 曹立新; 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2014-06-18
Anticipated expiration: 2032-12-11
Also published as: CN103871402B

Abstract

本发明提供了语言模型训练系统、语音识别系统及相应方法，涉及语音识别领域，用以解决现有语言模型训练技术及语音识别技术的识别准确率不够高的问题。语言模型训练系统包括：第一收集单元用于收集语音搜索的标注结果日志；第一训练单元用于对标注结果日志进行训练，并生成标注结果语言模型；第一语言模型库用于存储所述标注结果语言模型；第二收集单元用于收集文本搜索的检索日志；第二训练单元用于对检索日志进行训练，并生成检索日志语言模型；第二语言模型库用于存储所述检索日志语言模型；结合单元用于通过插值法，将标注结果语言模型以及检索日志语言模型相结合；第三语言模型库用于存储结合后得到的语言模型。

Description

语言模型训练系统、语音识别系统及相应方法

【技术领域】

本发明涉及语音识别领域，特别是涉及一种语言模型训练系统及方法，以及一种语音识别系统及方法。

【背景技术】

语言模型建模是语音识别技术中的组成部分，主要是通过统计文本语料中的文法分布，获得对于语言的统计模型，用于描述一个文本串成为自然语言的概率。语言模型建模的关键在于，用于训练的文本语料和需要识别的语音分布相近，基于此，训练得到的语言模型才能更好地描述用户语音输入，进而实现语音搜索等实际操作。

但是，现有的语言模型训练技术基于文本检索日志，但文本检索与语音检索在表达上毕竟存在一定差异，在此基础上进行的语音识别技术的识别准确率不够高，存在一定的失配情况。

【发明内容】

本发明提供了一种语言模型训练系统及方法，以及一种语音识别系统及方法，用以解决基于现有语言模型训练技术的语音识别技术的识别准确率不够高，存在一定失配情况的问题。

具体技术方案如下：

一种语言模型训练系统，包括：第一收集单元，用于收集语音搜索的标注结果日志；第一训练单元，用于对标注结果日志进行训练，并生成标注结果语言模型；第一语言模型库，用于存储所述标注结果语言模型；第二收集单元，用于收集文本搜索的检索日志；第二训练单元，用于对检索日志进行训练，并生成检索日志语言模型；第二语言模型库，用于存储所述检索日志语言模型；结合单元，用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合；第三语言模型库，用于存储结合后得到的语言模型。

根据本发明一优选实施例，还包括：第一日志预处理单元，用于预处理所述第一收集单元收集的标注结果日志，以及将预处理后的标注结果日志交由第一训练单元进行训练；第二日志预处理单元，用于预处理第二收集单元收集的检索日志，以及将预处理后的检索日志交由第二训练单元进行训练。

根据本发明一优选实施例，所述第一语言模型库存储的标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：其中P_a(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；C(w₁w₂...w_n)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；∑_wC(w₁...w_n-1w)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数；所述第二语言模型库存储的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：其中P_b(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；C(w₁w₂...w_n)为在检索日志文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；∑_wC(w₁...w_n-1w)为在检索日志文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

根据本发明一优选实施例，所述第三语言模型库存储的结合后得到的语言模型中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：P_c(w_n|w₁w₂...w_n-1)＝λ₁P_a(w_n|w₁w₂...w_n-1)+λ₂P_b(w_n|w₁w₂...w_n-1)；其中P_c(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；λ₁和λ₂为插值系数。

根据本发明一优选实施例，所述λ₂大于所述λ₁。

一种语言模型训练方法，包括下列步骤：S1、收集语音搜索的标注结果日志，对标注结果日志进行训练，生成并存储标注结果语言模型；以及，收集文本搜索的检索日志，对检索日志进行训练，生成并存储检索日志语言模型；S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合，存储结合后得到的语言模型。

根据本发明一优选实施例，还包括：步骤S1中，收集语音搜索的标注结果日志之后，对标注结果日志进行训练之前，预处理所述收集的标注结果日志；以及训练所述预处理后的标注结果日志；步骤S1中，收集文本搜索的检索日志之后，对检索日志进行训练之前，预处理所述的检索日志；以及训练所述预处理后的检索日志。

根据本发明一优选实施例，所述的标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：

其中P_a(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；C(w₁w₂...w_n)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；∑_wC(w₁...w_n-1w)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数；所述的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：

其中P_b(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；C(w₁w₂...w_n)为在检索日志文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；∑_wC(w₁...w_n-1w)为在检索日志文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

根据本发明一优选实施例，步骤S2中所述的结合后得到的语言模型中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：P_c(w_n|w₁w₂...w_n-1)＝λ₁P_a(w_n|w₁w₂...w_n-1)+λ₂P_b(w_n|w₁w₂...w_n-1)；其中P_c(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；λ₁和λ₂为插值系数。

根据本发明一优选实施例，所述λ₂大于所述λ₁。

一种语音识别系统，包括：客户端和服务器；所述客户端，用于接收用户发起的语音请求，将该语音请求发送给所述服务器；所述服务器，用于利用语言模型对所述语音请求进行识别，并向客户端反馈识别结果；其中，所述语言模型为上述语言模型训练系统训练出的所述结合后得到的语言模型。

一种语音识别方法，包括下列步骤：接收用户发起的语音请求；根据语言模型对所述语音请求进行识别，得出识别结果；根据所述识别结果执行相应的操作；其中，所述语言模型为上述语言模型训练系统训练出的所述结合后得到的语言模型。

由以上技术方案可以看出，本发明依据真实语音搜索行为，即收集语音搜索的标注结果日志作为文本语料，并对标注结果日志进行训练，进而生成标注结果语言模型，并将该标注结果语言模型采用与检索日志语言模型进行插值的方式融入最终的语言模型中。基于此进行的语音识别会获得较高的识别准确率，可见本发明通过较低的代价较好地解决了语言模型建模与用户语音输入存在不匹配的问题。

【附图说明】

图1为本发明实施例一的系统结构示意图；

图2为本发明实施例二的方法步骤流程图；

图3为本发明实施例三的系统结构示意图；

图4为本发明实施例四的方法步骤流程图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

发明人通过研究发现，每天都有大量的工作人员或/和计算机自动对用户语音搜索输入的语音进行标注。标注保存的文本，即标注结果日志，无疑是最真实，最能准确描述用户语音搜索行为的资源。如果将其加入语言模型训练，则可将识别准确率提升。

实施例一、本实施例提供了一种语言模型训练系统，参见图1所示，包括：第一收集单元10、第一训练单元11和第一语言模型库12、第一日志预处理单元13、第二收集单元14、第二训练单元15、第二语言模型库16、结合单元17、第三语言模型库18，以及第二日志预处理单元19。

具体地，用户可通过语音搜索引擎发起语音搜索请求，即对语音搜索引擎输入语音。第一收集单元10将用户的该语音收集后，由人工或计算机自动进行语音标注，并形成标注结果日志。第一收集单元10收集各种标注结果日志后，由第一日志预处理单元13对收集的标注结果日志进行预处理，例如合并相同标注结果，剔除敏感词汇等。第一训练单元11对预处理后的标注结果日志进行训练，并生成标注结果语言模型。第一语言模型库12将生成的标注结果语言模型保存。

标注结果语言模型中具体包括：各词语在标注结果文本中的文法概率关系，文法概率关系可以通过下述公式得出：

P_{a} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

其中P_a(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；分子C(w₁w₂...w_n)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；分母∑_wC(w₁...w_n-1w)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

另一方面，本实施例中用户可采用键盘等输入设备，通过网页搜索引擎（搜索框）发起文本的搜索请求。第二收集单元14将用户的检索日志收集后，由第二日志预处理单元19对收集的检索日志进行预处理，例如合并相同词汇，剔除敏感词汇等。第二训练单元15对行预处理后的检索日志进行训练，并生成检索日志语言模型。第二语言模型库16将生成的检索日志语言模型保存。

检索日志语言模型中具体包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：

P_{b} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

其中P_b(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；分子C(w₁w₂...w_n)为在检索日志文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；分母∑_wC(w₁...w_n-1w)为在检索日志文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

为了更加准确的描述语音搜索行为，发明人经研究发现如果以标注结果语言模型对检索日志语言模型进行自适应，即令检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率，可达到更优的效果。因此，本实施例中结合单元17通过但不限于插值法，将第一语言模型库12中存储的标注结果语言模型以及第二语言模型库16中存储的检索日志语言模型相结合，形成最终的语言模型，并存储于第三语言模型库18中，以备后续调用。

最终的语言模型（即结合后得到的语言模型）中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：

P_c(w_n|w₁w₂...w_n-1)＝λ₁P_a(w_n|w₁w₂...w_n-1)+λ₂P_b(w_n|w₁w₂...w_n-1)；

其中P_c(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；λ₁和λ₂为插值系数，用于调节标注结果语言模型和检索日志语言模型在P_c(w_n|w₁w₂...w_n-1)中的权重。

在具体实现中λ₂大于λ₁，即可以给标注结果语言模型较小的插值系数，给检索日志语言模型较大的插值系数，使得检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率。

可见，本实施例中参考了真实语音搜索行为，收集语音搜索的标注结果日志作为文本语料，并对标注结果日志进行训练，生成标注结果语言模型。进一步，还通过插值法将标注结果语言模型与检索日志语言模型相结合，插值的来源包括标注语言模型，所以和用户的真实语音搜索概率较为匹配，同时包含了检索日志语言模型，所以覆盖面较全，规避了标注语言模型覆盖面较小的问题，使得最终的语言模型更加完备。基于此进行的语音搜索可获得较高的识别准确率，并且以此循环操作，不断优化最终的语言模型库，可产生自适应的效果。

实施例二、本实施例提供了一种语言模型训练方法，参见图2所示，包括下列步骤：

S20、收集语音搜索的标注结果日志。

本步骤中，用户可通过语音搜索引擎发起语音搜索请求，即对语音搜索引擎输入语音，将用户的该语音收集后，由人工或计算机自动进行语音标注，并形成标注结果日志。之后，将各种标注结果日志收集起来。

S21、预处理收集的标注结果日志。

本步骤中，对收集的标注结果日志进行预处理，例如合并相同标注结果，剔除敏感词汇等。

S22、对预处理后的标注结果日志进行训练，并生成标注结果语言模型。

本步骤中，标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：

P_{a} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

其中P_a(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；C(w₁w₂...w_n)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；∑_wC(w₁...w_n-1w)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

S23、存储标注结果语言模型，并跳转至步骤S28。

S24、收集文本搜索的检索日志。

S25、预处理收集的检索日志。

本步骤中，对收集的检索日志进行预处理，例如合并相同词汇，剔除敏感词汇等。

S26、对预处理后的检索日志进行训练，并生成检索日志语言模型。

本步骤中，所述的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：

P_{b} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

S27、存储检索日志语言模型。

S28、通过但不限于插值法，将存储的所述标注结果语言模型以及所述检索日志语言模型相结合。

发明人经研究发现如果以标注结果语言模型对检索日志语言模型进行自适应，即令检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率，可达到更优的效果。因此，本步骤中通过但不限于插值法将标注结果语言模型以及检索日志语言模型结合成最终的语言模型。

S29、存储结合后得到的语言模型。

实施例三、本实施例提供了一种语音识别系统，以语音搜索请求中的语言作为识别对象为例，采用实施例一中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型。参见图3所示，包括：客户端31和服务器32。

用户发起语音搜索请求后，由客户端31接收该语音搜索请求。通过网络将该语音搜索请求传送给服务器32，其间可以由人工或计算机自动进行语音标注。服务器32收到该语音搜索请求后，利用实施例一或实施例二最终得到的语言模型对语音搜索请求进行识别，得到识别结果，即将其中的语音与最终得到的语言模型进行匹配，得到与该语音相匹配的文本。

更进一步地，服务器32能够利用识别结果进行搜索，例如网页搜索、应用搜索等，并将搜索结果返回给客户端31。当然，服务器32也可以利用识别结果进行其他进一步处理。

可见，采用实施例一中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型，即参考了真实语音搜索行为，使得后续的匹配更准确，识别率更高。另一方面，在通过网络将语音搜索请求传送给服务器的过程中还可由人工或计算机自动进行语音标注，并作为实施例一中的训练语料，不断使标注结果语言模型、结合后最终得到的语言模型与真实语音分布相接近，可产生自适应的效果。

实施例四、本实施例提供了一种语音识别方法，以语音搜索请求中的语言作为识别对象为例，采用实施例二中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型。参见图4所示，包括下列步骤：

S41、接收用户发起的语音搜索请求。

S42、根据语言模型对语音搜索请求进行识别，得到识别结果。

本步骤实际上讲语音搜索请求中的语音与实施例一或二最终得到的语言模型进行匹配，得到与该语音相匹配的文本。

S43、根据识别结果进行搜索，并返回搜索结果。

上述的搜索包括但不限于：网页搜索、应用搜索等，当然也可以利用识别结果进行其他进一步处理。

可见，采用实施例二中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型，即参考了真实语音搜索行为，使得后续的匹配更准确，识别率更高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语言模型训练系统，其特征在于，包括：

第一收集单元，用于收集语音搜索的标注结果日志；

第一训练单元，用于对标注结果日志进行训练，并生成标注结果语言模型；

第一语言模型库，用于存储所述标注结果语言模型；

第二收集单元，用于收集文本搜索的检索日志；

第二训练单元，用于对检索日志进行训练，并生成检索日志语言模型；

第二语言模型库，用于存储所述检索日志语言模型；

结合单元，用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合；

第三语言模型库，用于存储结合后得到的语言模型。

2.根据权利要求1所述的系统，其特征在于，还包括：

第一日志预处理单元，用于预处理所述第一收集单元收集的标注结果日志，以及将预处理后的标注结果日志交由第一训练单元进行训练；

第二日志预处理单元，用于预处理第二收集单元收集的检索日志，以及将预处理后的检索日志交由第二训练单元进行训练。

3.根据权利要求1所述的系统，其特征在于，所述第一语言模型库存储的标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：

P_{a} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

其中P_a(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；C(w₁w₂...w_n)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的次数；∑_wC(w₁...w_n-1w)为在标注结果文本中，词语w₁、w₂、…、w_n-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数；

所述第二语言模型库存储的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：

P_{b} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

4.根据权利要求3所述的系统，其特征在于，所述第三语言模型库存储的结合后得到的语言模型中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：

其中P_c(w_n|w₁w₂...w_n-1)为词语w₁、w₂、…、w_n-1按顺序出现之后文法接续词语w_n的条件概率；λ₁和λ₂为插值系数。

5.根据权利要求4所述的系统，其特征在于，所述λ₂大于所述λ₁。

6.一种语言模型训练方法，其特征在于，包括下列步骤：

S1、收集语音搜索的标注结果日志，对标注结果日志进行训练，生成并存储标注结果语言模型；以及，收集文本搜索的检索日志，对检索日志进行训练，生成并存储检索日志语言模型；

S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合，存储结合后得到的语言模型。

7.根据权利要求6所述的方法，其特征在于，还包括：

步骤S1中，收集语音搜索的标注结果日志之后，对标注结果日志进行训练之前，预处理所述收集的标注结果日志；以及训练所述预处理后的标注结果日志；

步骤S1中，收集文本搜索的检索日志之后，对检索日志进行训练之前，预处理所述的检索日志；以及训练所述预处理后的检索日志。

8.根据权利要求6所述的方法，其特征在于，所述的标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：

P_{a} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{{&Sum;}_{w} C (w_{1} . . . w_{n - 1} w)};

所述的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：

9.根据权利要求8所述的方法，其特征在于，步骤S2中所述的结合后得到的语言模型中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：

10.根据权利要求9所述的方法，其特征在于，所述λ₂大于所述λ₁。

11.一种语音识别系统，其特征在于，包括：客户端和服务器；

所述客户端，用于接收用户发起的语音请求，将该语音请求发送给所述服务器；

所述服务器，用于利用语言模型对所述语音请求进行识别，得到语音识别结果；

其中，所述语言模型为权利要求1至5任一项训练出的所述结合后得到的语言模型。

12.一种语音识别方法，其特征在于，包括下列步骤：

接收用户发起的语音请求；根据语言模型对所述语音请求进行识别，得出识别结果；

其中，所述语言模型为权利要求6至10任一项训练出的所述结合后得到的语言模型。