CN103794211A

CN103794211A - 一种语音识别方法及系统

Info

Publication number: CN103794211A
Application number: CN201210432359.7A
Authority: CN
Inventors: 苏丹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-11-02
Filing date: 2012-11-02
Publication date: 2014-05-14
Anticipated expiration: 2032-11-02
Also published as: CN103794211B

Abstract

本发明提供了一种语音识别方法及系统，其中语音识别方法包括：语音服务器利用统计语言模型对语音客户端发送的待识别语音进行识别，并将识别中得到的候选解码网络发送至所述语音客户端；所述语音客户端将所述候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将所述最优解码路径作为所述待识别语音的最终识别结果，其中所述本地解码网络是预先利用所述语音客户端中保存的命名实体信息并以规则文法的形式建立的。本发明能够提高语音识别的精度。

Description

一种语音识别方法及系统

【技术领域】

本发明涉及语音识别技术，特别涉及一种语音识别方法及系统。

【背景技术】

随着移动互联网的发展，语音识别越来越重要，它是很多其他应用能够实现的基础。例如，通过语音识别技术，可以实现语音拨号、语音导航等应用。语音识别结果越准确，以语音识别为基础的应用的效果就会越好。

大词汇量连续语音识别通常涉及到很大的数据计算量，只能通过具备很强计算能力的计算机来进行，通常由具备语音处理能力的语音服务器来实现。现有技术中，在不依靠语音服务器的前提下，采用手机一类的移动终端，只能实现孤立词识别之类比较简单的语音识别工作，由于移动终端本身的计算能力有限，这种方式的语音识别精度也不高。

为了实现大词汇量连续语音识别，现有技术在客户端涉及到语音识别的应用中，都需要将语音数据通过网络发送给语音服务器，并由语音服务器完成识别后将识别结果返回至客户端。虽然这种方式可以对任意语音进行识别，但是由于语音服务器不能对客户端中保存的数据进行有效利用，在用户发出的待识别语音与客户端中的数据相关时，这种方式不能取得很好的识别效果。

也就是说，在现有技术中，缺乏将服务器的计算资源和客户端中保存的信息结合起来提高语音识别精度的有效方案。

【发明内容】

本发明所要解决的技术问题是提供一种语音识别方法及系统，以充分利用语音服务器的计算资源和语音客户端中保存的信息来提高语音识别的精度。

本发明为解决技术问题而采用的技术方案是提供一种语音识别方法，其特征在于，所述方法包括：语音服务器利用统计语言模型对语音客户端发送的待识别语音进行识别，并将识别中得到的候选解码网络发送至所述语音客户端；所述语音客户端将所述候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将所述最优解码路径作为所述待识别语音的最终识别结果，其中所述本地解码网络是预先利用所述客户端中保存的命名实体信息并以规则文法的形式建立的。

根据本发明之一优选实施例，所述统计语言模型是使用大规模文本语料进行训练得到的。

根据本发明之一优选实施例，所述候选解码网络包括：词层次网络、音节层次网络或音素层次网络。

根据本发明之一优选实施例，所述规则文法包括：正则文法或上下文无关文法。

根据本发明之一优选实施例，将所述候选解码网络与本地解码网络进行匹配的步骤包括：将所述候选解码网络中的各条解码路径与本地解码网络中的各条解码路径依次进行比对，如果所述本地解码网络中存在匹配路径，则将该匹配路径作为最优解码路径，否则将所述候选解码网络中得分最高的解码路径作为最优解码路径。

本发明还提供了一种语音识别系统，包括语音服务器及语音客户端，其特征在于：所述语音服务器，用于利用统计语言模型对所述语音客户端发送的待识别语音进行识别，并将识别中得到的候选解码网络发送至所述语音客户端；所述语音客户端，用于将所述候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将所述最优解码路径作为所述待识别语音的最终识别结果，其中所述本地解码网络是预先利用所述语音客户端中保存的命名实体信息并以规则文法的形式建立的。

根据本发明之一优选实施例，所述语音客户端将所述候选解码网络与本地解码网络进行匹配的方式包括：将所述候选解码网络中的各条解码路径与所述本地解码网络中的各条解码路径进行比对，如果所述本地解码网络中存在匹配路径，则将该匹配路径作为最优解码路径，否则将所述候选解码网络中得分最高的解码路径作为最优解码路径。

由以上技术方案可以看出，本发明在语音客户端预先利用客户端中保存的命名实体信息建立本地解码网络，这样在语音服务器对待识别语音进行识别，得到候选解码网络并返回语音客户端后，语音客户端就可以通过将候选解码网络与本地解码网络进行匹配的方式来确定最优的解码路径作为待识别语音的最终识别结果。这种方式，可以充分利用服务器的计算资源，即无论待识别语音是什么类型，都能得到较为准确的识别结果，同时也能充分利用客户端中保存的本地信息来进一步提高识别精度，即如果待识别语音是本地解码网络确定的类型，本发明能得到比单纯由语音服务器返回的结果更为准确的识别结果。也就是说，本发明通过将语音服务器的计算资源和语音客户端中保存的信息相结合，实现了提高语音识别精度的技术效果。

【附图说明】

图1为本发明中语音识别系统的实施例的结构示意框图；

图2为本发明中语音识别单元的实施例的结构示意框图；

图3为本发明中候选解码网络的示意图；

图4为本发明中本地解码网络的示意图；

图5为本发明中语音识别方法的实施例的流程示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中语音识别系统的实施例的结构示意框图。如图1所示，该实施例中语音识别系统包括语音客户端100以及语音服务器200。

其中，语音客户端100可以是任意的终端，如手机、平板电脑、笔记本电脑、普通个人电脑等设备。语音服务器200可以是当作服务器使用的普通电脑设备或大型服务器设备，甚至是服务器集群设备。

其中语音客户端100包括客户端通讯单元101及匹配单元102。语音服务器201包括服务器通讯单元201及语音识别单元202。

其中客户端通讯单元101，用于接收用户输入的待识别语音，并将待识别语音发送至语音服务器200。

服务器通讯单元201，用于接收客户端通讯单元101发送的待识别语音，并将接收的待识别语音输出至语音识别单元202。

语音识别单元202，用于利用统计语言模型对输入的待识别语音进行识别，并将识别中得到的候选解码网络（lattice）返回至服务器通讯单元201。

服务器通讯单元201，还用于将语音识别单元202返回的候选解码网络发送至语音客户端100。

客户端通讯单元101，还用于接收服务器通讯单元201发送的候选解码网络，并将候选解码网络输出至匹配单元102。

匹配单元102，用于将候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将最优解码路径作为待识别语音的最终识别结果，其中本地解码网络是预先利用客户端中保存的命名实体信息并以规则文法的形式建立的。

下面对上述实施例进行详细描述。

上述实施例中，客户端通讯单元101及服务器通讯单元201，主要用于数据通讯，即从数据源获取数据，并将获取的数据传递至相应的处理单元，这与现有技术中具有数据通讯功能的处理单元类似，因此这里不再对这两个处理单元做过多介绍。下面重点介绍实施例中的语音识别单元202及匹配单元102的处理过程。

请参考图2，图2为本发明中语音识别单元的实施例的结构示意框图。如图2所示，语音识别单元202包括声学特征提取单元2021及语音解码单元2022。

其中，声学特征提取单元2021，用于提取待识别语音的声学特征，得到待识别语音的特征向量。这里，可提取的声学特征包括时域特征及频域特征。其中，时域特征可以是以下特征中的一种或多种：共振峰、短时平均能量和短时平均过零率。频域特征可以是以下特征中的一种或多种：线性预测系数、线性预测系数倒谱系数和梅尔频率倒谱系数。此外，可提取的声学特征还可以是任何可用于语音识别处理中的其他特征，本发明对此不加限制。

声学特征提取单元2021对待识别语音进行特征提取后，会得到各个语音帧的特征向量，然后输出至语音解码单元2022。

语音解码单元2022，用于对以特征向量表示的待识别语音进行解码，得到候选解码网络。

语音解码单元2022在解码过程中依赖两个模型，分别是声学模型和语言模型。其中，声学模型用于语音至音节概率的计算，语言模型用于音节到单词概率的计算。语言模型通常可分为规则语言模型和统计语言模型，本实施例中，语言模型采用统计语言模型，也称为N-Gram语言模型，其中对N的具体取值，本实施例不加限制，优选的，可采用二元统计语言模型（bigram）或三元统计语言模型（trigram）。采用统计语言模型对待识别语音进行识别，能够实现大词汇量连续语音识别，保证识别的准确度。

本发明中的统计语言模型，可以是一个现有的统计语言模型，也可以是预先收集大规模文本语料，并使用这些文本语料进行训练得到的统计语言模型。利用大规模文本语料对未知参数的统计语言模型进行训练，在现有技术中已有很多介绍，在此不再说明。

利用声学模型和统计语言模型，语音解码单元2022对以特征向量表示的待识别语音进行解码时，会动态生成候选解码网络，候选解码网络中的各条解码路径对应一个由声学模型和语言模型决定的分值，在本实施例中，语音解码单元2022不是仅仅将得分最高的解码路径返回至服务器通讯单元201，而是将包含得分最高的解码路径的整个候选解码网络一起返回至服务器通讯单元201，并由服务器通讯单元201发送至语音客户端101。

更详细的语音解码过程，可参考下列文献：Mehryar Mohri，FernandoPereira，Michael Riley，Weighted Finite-State Transducers in SpeechRecognition，Computer Speech&Language Volume 16，Issue 1，January 2002，Pages 69-88（下面称为文献1），在此不再赘述。

为了更好地理解语音解码过程，可参考图3，图3为本发明中候选解码网络的示意图。图3中，<s>表示开始符，</s>表示终止符，由图中箭头所指方向将数字节点连接起来，就可以得到一条解码路径。

根据声学模型的最小建模单位，本实施例中的候选解码网络可以是词层次网络（word lattice），也可以是子词层次网络，其中子词层次的网络包括音节层次网络（syllable lattice）或音素层次网络（phone lattice）。如果声学模型的最小建模单位为单词，则可以输出词层次的候选解码网络，如果声学模型的最小建模单位为子词，如音节或音素，则可以输出词层次的候选解码网络，也可以输出子词层次的候选解码网络。如果候选解码网络是词层次网络，则网络中的最小识别单元为单词，如果候选解码网络为子词层次网络，则网络中的最小识别单元为音节或音素。图3所示的候选解码网络属于音节层次网络。

在服务器通讯单元201将候选解码网络发送至语音客户端100后，客户端通讯单元101会将接收到的候选解码网络输出至匹配单元102。匹配单元102利用本地解码网络来确定的最优的解码路径。

本地解码网络是利用语音客户端中保存的命名实体信息建立的网络。语音客户端中保存的命名实体信息，指的是用户在语音客户端中保存的各种私人信息，例如手机通讯录中的人名、地址等信息，或者手机媒体库中保存的歌曲名等信息。

本地解码网络是预先以规则文法的形式建立的，其中规则文法可以是正则文法或上下文无关文法等。例如规则文法“打电话给（所有手机中存储的人名）”和“发短信给（所有手机中存储的人名）”，就可以建立如图4所示的本地解码网络。

根据一种实施方式，匹配单元102将候选解码网络与本地解码网络进行匹配的方式包括：将候选解码网络中的各条解码路径与本地解码网络中的各条解码路径依次进行比对，如果本地解码网络中存在匹配路径，则将该匹配路径作为最优解码路径，否则将候选解码网络中得分最高的解码路径作为最优解码路径。

请参考图3和图4，将图3所示的网络中的各条候选解码路径与图4所示的网络中的各条解码路径分别进行比对，可以看出，图3中由节点0、1、3、8、14相连接构成的解码路径与本地解码网络中的“<s>打电话给李建</s>”匹配，因此，匹配单元102就会将“打电话给李建”作为最终的语音识别结果。

实际上，虽然上述例子中，本地解码网络中的匹配路径与候选解码网络中的一条解码路径实现了完全文本匹配，但本实施例中进行比对时使用的匹配策略并不限于此。如果本地解码路径中由语音客户端中保存的命名实体信息限定的部分与候选解码路径之间能够实现读音匹配，而本地解码路径中的其他部分与候选解码路径中的其他部分能实现完全文本匹配，则也可以认为这条本地解码路径是匹配路径。例如在候选解码网络中有一条解码路径是“<s>发短信给王宏</s>”，那么可以认为图4所示的本地解码网络中的“<s>发短信给王红</s>”就是匹配路径。此外，还可以有其他更为宽松的匹配策略来确定两条路径是否匹配，在此不再赘述。应该理解，采用何种匹配策略并不影响本发明整体的实现。

请参考图5，图5为本发明中语音识别方法的实施例的流程示意框图。如图5所示，该方法包括：

步骤S301：语音服务器利用统计语言模型对语音客户端发送的待识别语音进行识别，并将识别中得到的候选解码网络发送至语音客户端。

步骤S302：语音客户端将候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将最优解码路径作为待识别语音的最终识别结果，其中本地解码网络是预先利用客户端中保存的命名实体信息并以规则文法的形式建立的。

步骤S301中对待识别语音进行识别，具体包括：

步骤S3011：提取待识别语音的声学特征，得到待识别语音的特征向量。

步骤S3012：对以特征向量表示的待识别语音进行解码，得到候选解码网络。

具体地，步骤S3012进行解码的过程中依赖两个模型，分别是声学模型和语言模型。其中，声学模型用于语音至音节概率的计算，语言模型用于音节到单词概率的计算。语言模型通常可分为规则语言模型和统计语言模型，本实施例中，语言模型采用统计语言模型，也称为N-Gram语言模型，其中对N的具体取值，本实施例不加限制，优选的，可采用二元统计语言模型（bigram）或三元统计语言模型（trigram）。采用统计语言模型对待识别语音进行识别，能够实现大词汇量连续语音识别，保证识别的准确度。

利用声学模型和统计语言模型，步骤S3012中对以特征向量表示的待识别语音进行解码时，会动态生成候选解码网络，候选解码网络中的各条解码路径对应一个由声学模型和语言模型决定的分值，在本实施例中，步骤S301不是仅仅将得分最高的解码路径发送至语音客户端，而是将包含得分最高的解码路径的整个候选解码网络一起发送至语音客户端。

更详细的语音解码过程，可参考文献1，在此不再赘述。

为了更好地理解语音解码过程，可参考图3，图3为本发明中候选解码网络的实施例的示意图。图3中，<s>表示开始符，</s>表示终止符，由图中箭头所指方向将数字节点连接起来，就可以得到一条解码路径。

步骤S302中，本地解码网络是利用语音客户端中保存的命名实体信息建立的网络。语音客户端中保存的命名实体信息，指的是用户在语音客户端中保存的各种私人信息，例如手机通讯录中的人名、地址等信息，或者手机媒体库中保存的歌曲名等信息。

具体地，步骤S302中将候选解码网络与本地解码网络进行匹配的方式包括：将候选解码网络中的各条解码路径与本地解码网络中的各条解码路径依次进行比对，如果本地解码网络中存在匹配路径，则将该匹配路径作为最优解码路径，否则将候选解码网络中得分最高的解码路径作为最优解码路径。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

语音服务器利用统计语言模型对语音客户端发送的待识别语音进行识别，并将识别中得到的候选解码网络发送至所述语音客户端；

所述语音客户端将所述候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将所述最优解码路径作为所述待识别语音的最终识别结果，其中所述本地解码网络是预先利用所述语音客户端中保存的命名实体信息并以规则文法的形式建立的。

2.根据权利要求1所述的方法，其特征在于，所述统计语言模型是使用大规模文本语料进行训练得到的。

3.根据权利要求1所述的方法，其特征在于，所述候选解码网络包括：词层次网络、音节层次网络或音素层次网络。

4.根据权利要求1所述的方法，其特征在于，所述规则文法包括：正则文法或上下文无关文法。

5.根据权利要求1所述的方法，其特征在于，将所述候选解码网络与本地解码网络进行匹配的步骤包括：

将所述候选解码网络中的各条解码路径与本地解码网络中的各条解码路径依次进行比对，如果所述本地解码网络中存在匹配路径，则将该匹配路径作为最优解码路径，否则将所述候选解码网络中得分最高的解码路径作为最优解码路径。

6.一种语音识别系统，包括语音服务器及语音客户端，其特征在于：

所述语音服务器，用于利用统计语言模型对所述语音客户端发送的待识别语音进行识别，并将识别中得到的候选解码网络发送至所述语音客户端；

所述语音客户端，用于将所述候选解码网络与本地解码网络进行匹配，以确定最优解码路径，并将所述最优解码路径作为所述待识别语音的最终识别结果，其中所述本地解码网络是预先利用所述语音客户端中保存的命名实体信息并以规则文法的形式建立的。

7.根据权利要求6所述的系统，其特征在于，所述统计语言模型是使用大规模文本语料进行训练得到的。

8.根据权利要求6所述的系统，所述候选解码网络包括：词层次网络、音节层次网络或音素层次网络。

9.根据权利要求6所述的系统，其特征在于，所述规则文法包括：正则文法或上下文无关文法。

10.根据权利要求6所述的系统，其特征在于，所述语音客户端将所述候选解码网络与本地解码网络进行匹配的方式包括：

将所述候选解码网络中的各条解码路径与所述本地解码网络中的各条解码路径进行比对，如果所述本地解码网络中存在匹配路径，则将该匹配路径作为最优解码路径，否则将所述候选解码网络中得分最高的解码路径作为最优解码路径。