CN104157285B

CN104157285B - 语音识别方法、装置及电子设备

Info

Publication number: CN104157285B
Application number: CN201310177246.1A
Authority: CN
Inventors: 李露; 卢鲤; 张翔; 饶丰; 岳帅; 陈波; 马建雄; 刘海波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-05-14
Filing date: 2013-05-14
Publication date: 2016-01-20
Anticipated expiration: 2033-05-14
Also published as: CN104157285A; WO2014183373A1; US20140350934A1; US9558741B2

Abstract

本发明公开了一种语音识别方法、装置及电子设备，属于音视频处理领域。所述方法包括：从获取到的语音信号中提取音频特征；根据所述音频特征识别出音节混淆网络；根据所述音节混淆网络和预设的标音词表生成词语网格；在所述词语网格中计算最优文字序列作为识别结果。本发明通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。

Description

语音识别方法、装置及电子设备

技术领域

本发明涉及音视频处理领域，特别涉及一种语音识别方法、装置及电子设备。

背景技术

语音识别是将语音信号识别为对应的文字序列的一种技术，广泛应用于人机交互、音视频检索等等领域。

现有的语音识别方法大多以词语或者句子作为基本识别单位，大概包括如下步骤：第一，首先提取语音信号中的音频特征；第二，通过维特比解码计算该音频特征在预设的解码搜索网络中的最优文字序列，并将该最优文字序列作为识别结果。具体来讲，该预设的解码搜索网络中通常包括声学模型、词典和语言模型，声学模型通常为基于单音素或者三音素的隐马尔可夫模型，词典包括词语与音素之间的对应关系，语言模型则包括词语与词语之间组合成文字序列时的概率关系。在音频特征输入解码搜索网络后，通过声学模型可以识别出与该音频特征对应的音素序列，通过该音素序列又可以在词典中查询出若干个候选词语，最后通过语言模型中的概率关系选择出具有最大概率的几个候选词语所构成的顺序组合作为最优文本序列。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：由于上述解码搜索网络是由词语直接参与构造的，一旦词表(也即所有可识别词语的集合)发生变化，就需要重新构造解码搜索空间，整个技术方案的灵活性较低。

发明内容

为了解决现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题，本发明实施例提供了一种语音识别方法、装置及电子设备。所述技术方案如下：

第一方面，提供了一种语音识别方法，所述方法包括：

从获取到的语音信号中提取音频特征；

根据所述音频特征识别出音节混淆网络；

根据所述音节混淆网络和预设的标音词表生成词语网格；

在所述词语网格中计算最优文字序列作为识别结果；

其中，所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径，所述在所述词语网格中计算最优文字序列作为识别结果，包括：

在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动；

在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；

在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。

第二方面，提供了一种语音识别装置，所述装置包括：

特征提取模块，用于从获取到的语音信号中提取音频特征；

音节识别模块，用于根据所述音频特征识别出音节混淆网络；

网格生成模块，用于根据所述音节混淆网络和预设的标音词表生成词语网格；

文字识别模块，用于在所述词语网格中计算最优文字序列作为识别结果；

其中，所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径，所述文字识别模块，包括：

令牌移动单元、得分计算单元和最优选择单元；

所述令牌移动单元，用于在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动；

所述得分计算单元，用于在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；

所述最优选择单元，用于在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。

第三方面，提供了一种电子设备，所述电子设备包括如第二方面所述的语音识别装置。

本发明实施例提供的技术方案带来的有益效果是：

通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的语音识别方法的方法流程图；

图2A是本发明实施例二提供的语音识别方法的方法流程图；

图2B是本发明实施例二所涉及的音节混淆网络的结构示意图；

图2C是本发明实施例二所涉及的生成词语网格过程的方法流程图；

图2D是本发明实施例二所涉及的词语网格的结构示意图；

图2E是本发明实施例二所涉及的在词语网格中计算最优文字序列过程的方法流程图；

图3是本发明实施例三提供的语音识别装置的结构示意图；

图4是本发明实施例四提供的语音识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例涉及的若干术语如下：

音素：根据语音的自然属性划分出的最小语音单位，比如在汉语中，声母y、l、k之类的均为一个音素，韵母i、o、e之类的也均为一个音素。在汉语中，拥有35个音素。

音节：由一个或者几个音素按照一定规则组合成的语音单位，汉语音节以韵母为中心，由声母、韵母和声调三部分组成；英语音节则以元音音素为中心，配合一个或多个辅音音素组成。汉语通常包括22个声母与38个韵母，400多个无调音节和1300个左右的有调音节。比如，“yu”、“xiao”等即为无调音节。

音节混淆网络：由一组有序的节点组成的网络结构，只有两个相邻的节点之间存在边(也称“弧”)，且两个相邻节点之间存在一条或者多条边。其中，两个节点之间的部分可以称之为一个切片，每个切片包含一组音节，一组音节包括至少一个音节，每个音节与该两个节点之间的一条边对应，同时每个音节还对应有一个得分。

标音词表：对词表中的每个字或者词语给出其对应的发音音节序列和音素序列。

语言模型：描述词语之间统计特性的数学模型，通常包括词语与词语之间组合成文字序列时的概率关系。

令牌：用于控制网格遍历状态的特殊数据结构，可以记录遍历过程中走过的路径。

实施例一

请参考图1，其示出了本发明实施例一提供的语音识别方法的方法流程图。该语音识别方法可以用于电子设备中，该电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端；该电子设备也可以是服务器，该服务器属于提供语音识别功能的电子系统，该电子系统不仅包括服务器，还包括至少一个位于前端的终端，终端与服务器之间通过有线或者无线网络相连。该语音识别方法，包括：

步骤102，从获取到的语音信号中提取音频特征；

音频特征可以采用PLP(PerceptualLinearPredictive，感知线性预测)特征、LPCC(LinearPredictionCepstrumCoefficient，线性预测倒谱系数)与MFCC(MelFrequencyCepstrumCoefficient，美尔频率倒谱系数)中的任意一种。

步骤104，根据音频特征识别出音节混淆网络；

步骤106，根据音节混淆网络和预设的标音词表生成词语网格；

步骤108，在词语网格中计算最优文字序列作为识别结果。

综上所述，本实施例的语音识别方法，通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。

实施例二

请参考图2A，其示出了本发明实施例二提供的语音识别方法的方法流程图。该语音识别方法可以用于电子设备中，该电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端；该电子设备也可以是服务器，该服务器属于提供语音识别功能的电子系统，该电子系统不仅包括服务器，还包括至少一个位于前端的终端，终端与服务器之间通过有线或者无线网络相连。该语音识别方法，包括：

步骤201，获取语音信号；

电子设备获取语音信号。具体来讲，电子设备通常通过如下三种方式获取语音信号：读取预先存储的语音信号、通过内置或者外置麦克风采集语音信号、和/或，通过网络接收其他设备传输的语音信号。当然，电子设备也可能采取其他方式获取语音信号，其他方式可以是蓝牙、红外之类的近距离通信技术等等。

比如：电子设备是终端，则终端可以获取预先存储的语音信号，也可以通过内置或者外置麦克风采集用户实时输入的语音信号。

又比如：电子设备是电子系统中的服务器，则服务器可以通过网络接收来自电子系统中的终端的语音信号，终端的语音信号可以是终端采集到的用户实时输入的语音信号。

步骤202，从获取到的语音信号中提取音频特征；

在电子设备获取到语音信号之后，电子设备从获取到的语音信号中提取音频特征。音频特征可以采用PLP(PerceptualLinearPredictive，感知线性预测)特征、LPCC(LinearPredictionCepstrumCoefficient，线性预测倒谱系数)与MFCC(MelFrequencyCepstrumCoefficient，美尔频率倒谱系数)中的任意一种。

本实施例中以音频特征为PLP特征为例来举例说明。提取PLP特征的过程可以包括：

1)对语音信号进行预处理，预处理包括：预加重、分帧及加窗；

2)对预处理后的语音信号进行离散傅里叶变换，得到短时频率谱；

3)对短时频率谱进行临界频带分析，得到临时带宽听觉谱；

4)对临时带宽听觉谱用模拟人耳的等响度曲线进行等响度曲线预加重；

5)对预加重后的频谱进行强度-响度转换；

6)对转换后的频谱做离散傅里叶反变换，并用德宾算法计算出全极点模型；

7)根据全极点模型进行倒谱计算，并最终输出PLP特征。

当然，其它实施例中，也可以采用其它提取音频特征的方法，本文对此不作限定。

步骤203，根据音频特征识别出音节混淆网络；

电子设备可以根据音频特征识别出音节混淆网络。一种实现下，电子设备可以根据音频特征识别出包括至少两条音节路径的音节混淆网络；另一种实现下，电子设备可以根据音频特征识别出只包括最优音节路径的音节混淆网络。

其中，包括至少两条音节路径的音节混淆网络可以认为是普通的音节混淆网络，而只包括最优音节路径的音节混淆网络可以认为是普通的音节混淆网络中的一种特例。

以电子设备根据音频特征识别出的包括至少两条音节路径的音节混淆网络为例，整个音节混淆网络的识别过程可以利用SRILM(StanfordResearchInstituteLanguageModelingToolkit，斯坦福研究所语言建模工具包)中相关的音节混淆网络工具来实现。其主要步骤包括：

1)根据音频特征和声学模型识别出相应的音节网格lattice，该声学模型可以是预设的隐马尔科夫模型；

2)在音节网格lattice上利用前向、后向算法计算节点的后验概率，每个节点的后验概率＝前向概率*后向概率；

3)对音节网格lattice进行概率剪枝，剪枝后重新计算每个节点的后验概率；

4)在音节网格lattice上寻找概率最大的节点，利用维特比算法生成一条包含起始和结束节点的最优音节路径，作为构建音节混淆网络的参照路径；

5)在音节网格lattice的剩余弧中寻找一个概率最大的节点，利用维特比算法生成一条最佳路径；

6)对于最佳路径中的所有弧节点，与音节混淆网络的每个切片进行比较，计算删除、插入、替代三种代价，取代价最小的一种方式将弧作为音节混淆网络中的一条边引入到参照路径中；

7)迭代执行5和6，直至所有弧都加入到音节混淆网络中。

当然，其它实施例中，也可以采用其它生成音节混淆网络的方法，本文对此不作限定。

在一个具体的例子中，假设语音信号的内容是“你知道了吧”，则识别出的音节混淆网络可以参考图2B所示。该音节混淆网络包括首节点0、第一节点1、第二节点2、第三节点3、第四节点4、第五节点5、第六节点6和尾节点7共8个节点。除首尾节点之外的每两个相邻节点之间可以认为是一个切片(也称混淆集合)，每个切片包括一组音节，每组音节包括1至多个音节，每个音节对应有一个得分，一组切片中的所有音节的得分相加结果为1。具体来讲，第一节点1和第二节点2之间是第一切片，该第一切片包括3个音节，分别是ni3、yi3和li4，各自对应的得分是0.9、0.07和0.03；第二节点2和第三节点之间是第二切片，该第二切片包括2个音节，分别是zhi1和chi2，各自对应的得分是0.95和0.05；、、、，依次类推，第五节点5和第六节点6之间是第五切片，第五切片包括2个音节，分别是ba4和ma1，各自对应的得分为0.8和0.2。

步骤204，根据音节混淆网络和预设的标音词表生成词语网格；

电子设备可以根据音节混淆网络和预设的标音词表生成词语网格。具体来讲，本步骤可以包括如下几个子步骤，如图2C所示：

204a，遍历音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；

音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分。电子设备需要遍历音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字。标音词表对词表中的每个字或者词语给出其对应的发音音节序列和音素序列，比如“你”对应的发音音节序列是“ni3”，“你好”对应的发音音节序列是“ni3hao3”。

在遍历到音节混淆网络中每个切片中的一个音节时，可以根据该音节在预设的标音词表中查询出所对应的候选文字。根据相邻切片间所对应的音节是否能够组成词语，分为如下204b和204c两种不同的处理操作：

204b，若当前切片中的音节与当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将该词语生成为一个网格节点，并将当前切片中的音节与当前切片之后的切片中的音节各自所对应的得分的乘积作为网格节点的得分；

结合参考图2B和图2D，假设当前切片为第二切片，当前切片中的音节为“zhi1”，当前切片之后的切片为第三切片，当前切片之后的切片中的音节为“dao4”，这两个音节“zhi1”和“dao4”各自在标音词表中所对应的候选文字组合后是一个词语“知道”，则将该词语“知道”生成为图2D所示的词语网格中的一个网格节点21，同时将音节“zhi1”所对应的得分“0.95”和音节“dao4”所对应的得分“0.7”的乘积“0.665”作为网格节点21的得分。

采用类似的处理，还可以生成图2D所示的词语“迟到”、“已知”和“荔枝”所对应的三个网格节点。

204c，若当前切片中的音节与当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将当前切片中的音节所对应的得分作为网格节点的得分；

继续参考图2B和图2D，假设当前切片是第一切片，当前切片中的音节为“ni3”，音节“ni3”在标音词表中所对应的候选文字“你”不能与当前切片之后的切片中的音节“zhi1”和“chi2”所对应的候选文字组合成为一个词语，则将当前切片中的音节所对应的候选文字“你”单独生成为一个网格节点，并将当前切片中的音节所对应的得分0.9作为这个网格节点的得分。

采用类似的处理，还可以生成图2D所示的候选文字“以”、“蚁”、“利”、“持”、“达”、“妖”、“套”、“到”、“了”、“吧”、“吗”和“爸”等等所对应的多个网格节点。

204d，将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。

由于各个切片中的音节存在前后顺序，对应地，可以将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点22和结束网格节点23一起生成为词语网格，该词语网格可以是图2D所示出的词语网格。

但需要说明的是，词语网格的生成过程可能还会结合其他的子步骤，而不局限于上述的子步骤。在其它一些实施例中，可能还在构建词语网格时考虑插入错误、删除错误及替换错误所带来的影响而进行优化，比如一个音节为“zhou1”，所对应的候选文字为“周”，考虑可能由方言发音不准引起的替换错误，而将“走”也作为一个网格节点。在另外一些实施例中，还可能预先为网格节点的得分设置惩罚因子，对由音节的得分直接计算出的网格节点的得分用惩罚因子做一定调整，而获得更优的网格节点的得分以便后续计算过程中使用。

步骤205，在词语网格中计算最优文字序列作为识别结果。

在生成词语网格后，词语网格包括有开始网格节点、结束网格节点和位于开始网格节点和结束网格节点之间的至少一条节点路径，电子设备在词语网格中计算最优文字序列作为识别结果。具体来讲，本步骤可以包括如下子步骤，如图2E所示：

205a，在开始网格节点和结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从开始网格节点开始向结束网格节点逐步移动；

具体实现时，可以先在开始网格节点22设置一个初始活跃令牌，并将初始活跃令牌的得分设为1。然后将初始活跃令牌向下一级网格节点移动，若下一级网格节点为两个或者两个以上，则将初始活跃令牌按照与下一级节点路径一一对应的关系复制为多个令牌来向下一级网格节点移动，后续逐步移动过程时的操作可以依次类推。

205b，在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；

设令牌T_p上的路径为S_p0S_p1S_p2…S_p3，网格节点S_pi上的词语为W_pi，那么令牌T_p的得分可用如下公式计算：

S c o r e (T_{p}) = \underset{p i}{Π} S c o r e (S_{p i}) \cdot P (W_{p 0} W_{p 1} ... W_{p k})

其中，Score(S_pi)为令牌T_p途经网格节点S_pi上的得分，p为令牌的标识，k为当前途经网格节点的标识，P(W_p0W_p1…W_p3)为网格节点S_pi上的词语在语言模型中的概率。以语言模型为二元模型为例，其计算公式如下：

P (W_{p 0} W_{p 1} ... W_{p k}) = P (W_{p 0}) \cdot Π_{i = 1}^{k} P (W_{p, i + 1} | W_{p i}) .

优选地，为了减少运算量，可以实时判断令牌是否活跃，若令牌不活跃则丢弃该令牌。此时，子步骤205b还可以包括：

1)对于每一个令牌，根据当前途经网格节点的得分和预设的语言模型的概率计算该令牌的得分；

2)检测该令牌的得分是否小于预设阈值；

3)若检测结果为该令牌的得分不小于预设阈值，认为该令牌是活跃令牌，则将该令牌移动到下一个网格节点并重复上述步骤。

若检测结果为该令牌的得分小于预设阈值，认为该令牌是不活跃令牌，则丢弃该令牌不进行后续计算过程。

该预设阈值可以自行调节，预设阈值高时，识别速度会加快；预设阈值低时，活跃令牌较多，识别结果相对更多、更准确。

205c，在抵达结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为最优文字序列。

最终抵达结束网格节点23的令牌可能是两个或者两个以上，此时选择得分最高的一个令牌所途经的节点路径上的各个网格节点所对应的候选文字组合作为最优文字序列。本实施例中，最优文字序列是“你+知道+了+吧”。

步骤206，将识别结果做后续处理，后续处理包括显示、执行识别结果所指示的指令、发送给其它设备、利用识别结果进行检索和分析中的至少一种。

比如电子设备是终端，则终端可以将识别结果进行显示，或者根据识别结果进行提醒设置、打开相应的应用、查询天气和查询地理位置等。

又比如电子设备是服务器，则可以将识别结果发送给相应的位于前端的终端，以便终端对识别结果进行后续利用。

补充说明的是，步骤205之前，电子设备可以根据不同的词表生成并保存至少一个语言模型。在实际使用过程中，若词表发生变化，只需要对语言模型做相应的调整即可。具体来讲：

若增加一个词表，则根据增加的词表生成新的语言模型，并增加入初始的至少一个语言模型中；

若删除一个词表，则根据删除的词表从初始的至少一个语言模型中删除相应的语言模型；

若修改一个词表，则根据修改的词表生成新的语言模型，并增加入初始的至少一个语言模型中，或者，根据修改的词表从初始的至少一个语言模型中修改相应的语言模型。

综上所述，本实施例的语音识别方法，与上一实施例相比，还通过采用计算令牌的得分来从词语网格中计算出最优文字序列，能够实现较快的识别解码速度。还通过检测令牌是否活跃，只在令牌处于活跃状态时继续后续计算过程，可以实现更快的识别解码速度。

并且，现有的语音识别方法在词表变化时，需要重新构建解码搜索网络，若词表增加，则解码搜索网络也会成倍增长，对硬件的存储性能和计算性能都有较高要求。而本实施例中的语音识别方法，通过词表发生变化时，只对初始的至少一个语言模型进行相应的调整即可，对硬件的存储性能和计算性能的要求都相对较低。

下面为本发明实施例中的装置实施例，对于装置实施例中未详尽描述的部分，可以结合参考上述对应的方法实施例。

实施例三

请参考图3，其示出了本发明实施例三提供的语音识别装置的结构方框图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或者部分，电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端；该电子设备也可以是服务器，该服务器属于提供语音识别功能的电子系统，该电子系统不仅包括服务器，还包括至少一个位于前端的终端，终端与服务器之间通过有线或者无线网络相连。该语音识别装置，包括：特征提取模块320、音节识别模块340、网格生成模块360和文字识别模块380。

特征提取模块320，用于从获取到的语音信号中提取音频特征；

音节识别模块340，用于根据所述特征提取模块320提取到的音频特征识别出音节混淆网络；

网格生成模块360，用于根据所述音节识别模块340识别出的音节混淆网络和预设的标音词表生成词语网格；

文字识别模块380，用于在所述网格生成模块360生成的词语网格中计算最优文字序列作为识别结果。

综上所述，本实施例的语音识别装置，通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。

实施例四

请参考图4，其示出了本发明实施例四提供的语音识别装置的结构方框图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或者部分，电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端；该电子设备也可以是服务器，该服务器属于提供语音识别功能的电子系统，该电子系统不仅包括服务器，还包括至少一个位于前端的终端，终端与服务器之间通过有线或者无线网络相连。作为基于实施例三提供的更为优选的实施例，该语音识别装置，包括：特征提取模块320、音节识别模块340、网格生成模块360和文字识别模块380。

更为优选地，所述音节识别模块340，用于根据所述音频特征识别出包括至少两条音节路径的音节混淆网络；或者，所述音节识别模块340，用于根据所述音频特征识别出只包括最优音节路径的音节混淆网络。

更为优选地，所述音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分，所述网格生成模块360，包括：网络遍历单元362、第一生成单元364、第二生成单元366和网格生成单元368；

所述网络遍历单元362，用于遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；

所述第一生成单元364，用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将所述词语生成为一个网格节点，并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分；

所述第二生成单元366，用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将所述当前切片中的音节所对应的得分作为所述网格节点的得分；

所述网格生成单元368，用于将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。

更为优选地，所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径，所述文字识别模块380，包括：令牌移动单元382、得分计算单元384和最优选择单元386；

所述令牌移动单元382，用于在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动；

所述得分计算单元384，用于在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；

所述最优选择单元386，用于在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。

更为优选地，所述得分计算单元384，包括：计算子单元、检测子单元和移动子单元；

所述计算子单元，用于对于每一个令牌，根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分；

所述检测子单元，用于检测所述令牌的得分是否小于预设阈值；

所述移动子单元，用于若检测结果为所述令牌的得分不小于所述预设阈值，则将所述令牌移动到下一个网格节点并重复上述步骤。

更为优选地，所述文字识别模块380，还包括：模型生成单元381a、模型增加单元381b、模型删除单元381c和模型修改单元381d；

所述模型生成单元381a，用于根据不同的词表生成并保存至少一个语言模型；

所述模型增加单元381b，用于若增加一个词表，则根据增加的所述词表生成新的语言模型，并增加入所述至少一个语言模型中；

所述模型删除单元381c，用于若删除一个所述词表，则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型；

所述模型修改单元381d，用于若修改一个所述词表，则根据修改的所述词表生成新的语言模型，并增加入所述至少一个语言模型中，或者，根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。

综上所述，本实施例的语音识别装置，与上一实施例相比，还通过采用计算令牌的得分来从词语网格中计算出最优文字序列，能够实现较快的识别解码速度。还通过检测令牌是否活跃，只在令牌处于活跃状态时继续后续计算过程，可以实现更快的识别解码速度。

并且，现有的语音识别方法在词表变化时，需要重新构建解码搜索网络，若词表增加，则解码搜索网络也会成倍增长，对硬件的存储性能和计算性能都有较高要求。而本实施例中的语音识别装置，通过词表发生变化时，只对初始的至少一个语言模型进行相应的调整即可，对硬件的存储性能和计算性能的要求都相对较低。

需要说明的是：上述实施例提供的语音识别装置在进行语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。对于方法实施例中详尽描述的细节，但装置实施例中未详尽描述的部分，本领域技术人员可以理解只需在装置实施例中增设与之一一对应的模块或单元即可实现，本文也不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

从获取到的语音信号中提取音频特征；

根据所述音频特征识别出音节混淆网络；

根据所述音节混淆网络和预设的标音词表生成词语网格；

在所述词语网格中计算最优文字序列作为识别结果；

2.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述音频特征识别出音节混淆网络，包括：

根据所述音频特征识别出包括至少两条音节路径的音节混淆网络；或者，

根据所述音频特征识别出只包括最优音节路径的音节混淆网络。

3.根据权利要求1所述的语音识别方法，其特征在于，所述音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分，所述根据所述音频混淆网络和预设的标音词表生成词语网格，包括：

遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；

若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将所述词语生成为一个网格节点，并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分；

若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将所述当前切片中的音节所对应的得分作为所述网格节点的得分；

将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。

4.根据权利要求1所述的语音识别方法，其特征在于，所述在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分，包括：

对于每一个令牌，根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分；

检测所述令牌的得分是否小于预设阈值；

若检测结果为所述令牌的得分不小于所述预设阈值，则将所述令牌移动到下一个网格节点并重复上述步骤。

5.根据权利要求4所述的语音识别方法，其特征在于，所述在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分之前，还包括：

根据不同的词表生成并保存至少一个语言模型；

若增加一个词表，则根据增加的所述词表生成新的语言模型，并增加入所述至少一个语言模型中；

若删除一个所述词表，则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型；

若修改一个所述词表，则根据修改的所述词表生成新的语言模型，并增加入所述至少一个语言模型中，或者，根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。

6.一种语音识别装置，其特征在于，所述装置包括：

特征提取模块，用于从获取到的语音信号中提取音频特征；

令牌移动单元、得分计算单元和最优选择单元；

7.根据权利要求6所述的装置，其特征在于，所述音节识别模块，用于根据所述音频特征识别出包括至少两条音节路径的音节混淆网络；或者，

所述音节识别模块，用于根据所述音频特征识别出只包括最优音节路径的音节混淆网络。

8.根据权利要求6所述的装置，其特征在于，所述音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分，所述网格生成模块，包括：网络遍历单元、第一生成单元、第二生成单元和网格生成单元；

所述网络遍历单元，用于遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；

所述第一生成单元，用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将所述词语生成为一个网格节点，并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分；

所述第二生成单元，用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将所述当前切片中的音节所对应的得分作为所述网格节点的得分；

所述网格生成单元，用于将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。

9.根据权利要求6所述的装置，其特征在于，所述得分计算单元，包括：

计算子单元、检测子单元和移动子单元；

10.根据权利要求9所述的装置，其特征在于，所述文字识别模块，还包括：模型生成单元、模型增加单元、模型删除单元和模型修改单元；

所述模型生成单元，用于根据不同的词表生成并保存至少一个语言模型；

所述模型增加单元，用于若增加一个词表，则根据增加的所述词表生成新的语言模型，并增加入所述至少一个语言模型中；

所述模型删除单元，用于若删除一个所述词表，则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型；

所述模型修改单元，用于若修改一个所述词表，则根据修改的所述词表生成新的语言模型，并增加入所述至少一个语言模型中，或者，根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。

11.一种电子设备，其特征在于，所述电子设备包括如权利要求6至10任一所述的语音识别装置。