CN103337241A

CN103337241A - 一种语音识别方法和装置

Info

Publication number: CN103337241A
Application number: CN2013102314992A
Authority: CN
Inventors: 苏牧; 李鹏; 李轶杰; 梁家恩
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2013-10-02
Anticipated expiration: 2033-06-09
Also published as: CN103337241B

Abstract

本发明实施例公开了一种语音识别方法和装置，接收输入的语音片段；根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；将得到的所述多个声学得分和移动终端词汇库中的词汇进行比对并累加每一帧比对后的声学得分，其中总分最高的为最优声学总分；所述语音片段每一帧的最高声学得分之和为背景声学总分；比对最优和背景声学总分是否满足预订阈值；如果否，则拒识所述语音片段，可以看出，将输入的语音片段的每一帧的最高声学得分之和，与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分比较后差值较大的判定为错误的语音输入并进行拒识，由此大大降低移动终端根据语音输入做出误操作的频率，提高了用户的体验度。

Description

一种语音识别方法和装置

技术领域

本发明涉及语音识别领域，特别是涉及一种语音识别方法和装置。

背景技术

目前，在智能手机或者说移动终端上通过语音进行输入和控制越来越被用户所熟悉和接受，而且随着移动终端硬件更新速度越来越快，高速CPU和大容量内存已经成为了大部分移动终端的基础配置，使得几万量级词汇量的嵌入式的语音识别技术应用在移动终端上成为可能，比如说，针对固定人名、地名或App应用名称等固定词汇量的语音识别就是属于此类，一般来说，对于应用在移动终端中的万级词汇量的语音识别系统，其本地识别的识别标准是根据最大似然原则，即是指将接收到的语音片段计算出对应的语音特征值，与语音词汇库中的已存的每个词汇对应的模型进行比较，找到语音特征值相似度最大的，判定接收到的语音片段即为该语音特征值相似度最大的已存词汇并执行对应的操作，或者举一个比较直观的例子，当用户说出“张三”，但是本地语音词汇库中并没有存有“张三”的词汇，当使用最大似然原则进行判断后，找出词汇库中的“李四”与用户说出的“张三”的语音特征值相似度最大，然后根据词汇“李四”做出了相应的操作比如说拨通了李四的电话，即便用户所说的语音根本不是“李四”，由此对用户的语音输入进行了误操作。由此可见，基于现有技术的语音识别，没有办法对词汇库中已存词汇以外的输入语音进行有效拒识，由此导致在用户语音操作中移动终端会常做出错误的反馈。

发明内容

为了解决上述移动终端的本地语音识别技术无法对输入的语音片段进行拒识的技术问题，本发明提供了一种语音识别方法和装置。

本发明实施例公开了如下技术方案：

由上述技术方案可以看出，将输入的语音片段的每一帧的最高声学得分之和，也就是一个只是理论上存在的完美匹配的声学总分作为评价依据，与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较，将比较后差值较大的判定为错误的语音输入并进行拒识，由此大大降低移动终端根据语音输入做出误操作的频率，其次，使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和，使得本技术方案的拒识方法在移动终端上的运行速度得到保证，提高了用户的体验度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种语音识别方法的方法流程图；

图2为本发明的系统框架图；

图3为本发明一种语音识别装置的装置结构图；

图4为本发明的计算背景声学总分的装置结构图。

具体实施方式

本发明实施例提供了一种语音识别方法和装置。首先，将输入的语音片段的每一帧的最高声学得分之和，也就是一个只是理论上存在的完美匹配的声学总分作为评价依据，与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较，将比较后差值较大的判定为错误的语音输入并进行拒识，由此大大降低移动终端根据语音输入做出误操作的频率。

其次，使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和，使得本技术方案的拒识方法在移动终端上的运行速度得到保证，提高了用户的体验度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例进行详细描述。

实施例一

请参阅图1，其为本发明一种语音识别方法的方法流程图，该方法包括以下步骤：

S101：接收输入的语音片段；

需要说明的是，本发明技术方案主要应用于移动终端上，也就是说是移动终端接收外接输入的声音片段，可以是用户说出的，也可以是机器播放的等。

S102：根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；

这种SDC算法属于本技术领域的常用计算声学得分的手段，在主流的语音识别系统中，通常采用状态共享三音子(state-tied triphone)作为发音单元，用HMM对其时序及统计特性进行建模，而HMM的每个状态的输出概率用高斯混合模型(GMM)表示，传统的计算公式为：

p (x | λ) = Σ_{i = 1}^{M} w_{i} N_{i} (x);

N_{i} (x) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})};

其中，N_i(x)为码本高斯模型，而通过N_i(x)计算每一帧输入的语音特征的码本高斯得分，需要对全空间GMM进行计算，这需要消耗大量的计算资源，这也是语音识别是计算密集型的原因，通常这种声学计算要占到总识别时间的60％到80％。虽然将传统计算手段直接应用于移动终端上对码本高斯进行计算也是可行的，但是计算量较为客观，所以，本方案还提供了一种优选的计算码本高斯得分的方法，为一种近似算法。

优选的，所述根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分，还包括：

使用近似算法计算声学得分，具体计算公式为：

p (x | λ) = \underset{m = 1, M}{Σ} w_{m} \underset{k = 1, K}{Π} N^{quan} (x_{k}, μ_{m, k}, σ_{m, k}^{2});

其中，w_m为每个码本高斯占总码本高斯的权重，

为每一维进行SDC后的码本高斯的近似计算码本高斯得分，K为每一维进行SDC后的码本高斯的个数(一般为128或256个)。

这种近似计算的计算结果与原计算方法计算得出的码本高斯得分的误差很小，而且所有的码本高斯得分都可以在每一帧语音特征进行识别前预先算出，保存起来，而且其计算负载很小，只需要进行连乘即可。

同时，针对这种连乘，本发明还提供了一种优选的对连乘运算使用log的辅助计算。

优选的，对所述

取log后进行加运算。

可见，这样取完log后就只需要进行连续加法即可，而运算log可以直接通过查表完成，由此进一步的减少了计算量，提高了本方案在移动终端上的运行速度。

S103：根据所述声音片段的输入长度，以帧为单位，将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分，得到n个声学总分，n为大于等于1的整数，其中总分最高的设定为所述语音片段的最优声学总分；

先介绍一下在SDC的基础上，进行快速拒识的算法。首先，在命令词系统里面，受到计算资源的限制，移动终端的语音识别不可能像大词汇连续语音识别那样，依靠生成词图的形式得到识别的置信度；其次，在命令词识别系统里面，不存在语言模型，词与词之间的差异完全体现的声学空间上，因为，将依据SDC声学打分，得到声学置信度，根据此数值进行有效的拒识。

获取最优声学得分的方法与现有技术中利用SDC进行声学得分的计算基本相同，先将输入的语音片段以时间长度为基础，依次对每一帧的语音特征带入SDC后的码本高斯模型中进行声学打分，然后根据移动终端中所保存的词汇库中的词汇的模型特征序列进行比对并累加每一帧的比对出的得分，从而确定得分最高的模型特征序列，也就是所述最优声学得分。

S104：计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分；

首先需要对背景声学总分进行说明，将输入的语音片段的每一帧的最高声学得分之和，也就是一个只是理论上存在的完美匹配的声学总分，这个理论存在的完美匹配往往是非法的，不在词汇库里的。

需要说明的是，正常方法获取每一帧的最高声学得分需要遍历所有的声学得分，计算量是比较大的，为了保证在移动终端上较高的运行速度，本发明还提供了一种优选的快速计算背景声学总分的方案。

优选的，所述计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分，还包括：

使用近似算法计算理论声学总分，具体为：

将高斯混合模型GMM回退到单高斯模型；

优选的，所述将高斯混合模型GMM回退到单高斯模型具体为：

\begin{matrix} μ_{reg} = (\underset{m = 1, M}{Σ} μ_{m}) / M; \\ σ_{reg}^{2} = (\underset{m = 1, M}{Σ} σ_{m}^{2} + μ_{m} * μ_{m} / M) - μ_{reg}^{2} . \end{matrix}

这里需要说明的是，本发明使用的是欧式距离聚类方法进行聚类的，当然也可以是其他可以完成同样效果的聚类方法，本发明对此并不进行限定。

对获得的单高斯模型进行聚类操作，得到多个聚类码本模型，并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID；

根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分；

确定每一帧声学得分最高的聚类码本模型，根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型；

根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分，确定每一帧最高的声学得分；

根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和，得到背景声学总分。

可以看出，这种优选的计算方式，可以通过较少的计算量获得较为精确的计算结果，并不会对本发明技术方案的拒识的有效程度产生影响。

S105：比对最优声学总分和背景声学总分是否满足预订阈值，

如果是，则确定所述语音片段为最优声学得分所对应的词汇；

如果否，则确定所述语音片段为错误的输入，拒识所述语音片段。

这里需要说明的是，所述预订阈值是可以进行设定的，主要是用来调整拒识的有效程度和精度，因为，如果这个值设定的过小，会使得一些有效的语音输入也被判定为错误输入被拒识，如果这个值设定的过大，则会降低拒识的有效性，使得有些错误的语音输入被判定为有效输入，由此导致了误操作的产生，本发明的默认预订阈值设为-4。

进一步的，通过一个比较直观的语音辨识流程图来对本发明进行进一步的说明，请参阅图2，请本发明的系统框架图，由图中可以看出，将接收到的语音输入进行特征提取，将提取出的语音特征使用解码器进行识别，而解码器通过解码网络中的SDC声学模型和命令词典对接收到的语音特征进行解码，从而从解码器中输出识别的结果，进而进行进一步的操作。

由本实施例可以看出，将输入的语音片段的每一帧的最高声学得分之和，也就是一个只是理论上存在的完美匹配的声学总分作为评价依据，与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较，将比较后差值较大的判定为错误的语音输入并进行拒识，由此大大降低移动终端根据语音输入做出误操作的频率，其次，使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和，使得本技术方案的拒识方法在移动终端上的运行速度得到保证，提高了用户的体验度。

实施例二

与上述一种语音识别方法相对应，本发明实施例还提供了一种语音识别装置。请参阅图3，其为本发明一种语音识别装置的装置结构图，该装置包括语音接收单元301、聚类计算单元302、比较累加单元303、背景声学总分计算单元304、比对判断单元305、识别单元306和拒识单元307：

所述语音接收单元301，用于接收输入的语音片段；

所述聚类计算单元302，用于根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；

优选的，所述聚类计算单元302还用于：

使用近似算法计算声学得分，具体计算公式为：

p (x | λ) = \underset{m = 1, M}{Σ} w_{m} \underset{k = 1, K}{Π} N^{quan} (x_{k}, μ_{m, k}, σ_{m, k}^{2});

其中，w_m为每个码本高斯占总码本高斯的权重，

为每一维进行SDC后的码本高斯的近似计算码本高斯得分，K为每一维进行SDC后的码本高斯的个数。

优选的，对所述

取log后进行加运算。

所述比较累加单元303，用于根据所述声音片段的输入长度，以帧为单位，将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分，得到n个声学总分，n为大于等于1的整数，其中总分最高的设定为所述语音片段的最优声学总分；

所述背景声学总分计算单元304，用于计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分；

优选的，所述背景声学总分计算单元304还包括：

请参阅图4，其为本发明的计算背景声学总分的装置结构图，包括：

使用近似算法计算理论声学总分，具体为：

单高斯回退子单元3041，用于将高斯混合模型GMM回退到单高斯模型；

优选的，所述将高斯混合模型GMM回退到单高斯模型具体为：

\begin{matrix} μ_{reg} = (\underset{m = 1, M}{Σ} μ_{m}) / M; \\ σ_{reg}^{2} = (\underset{m = 1, M}{Σ} σ_{m}^{2} + μ_{m} * μ_{m} / M) - μ_{reg}^{2} . \end{matrix}

聚类子单元3042，用于对获得的单高斯模型进行聚类操作，得到多个聚类码本模型，并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID；

计算声学得分子单元3043，用于根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分；

确定高斯混合子单元3044，用于确定每一帧声学得分最高的聚类码本模型，根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型；

最高声学得分获取子单元3045，用于根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分，确定每一帧最高的声学得分；

背景声学总分获取子单元3046，用于根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和，得到背景声学总分。

所述比对判断单元305，用于比对最优声学总分和背景声学总分是否满足预订阈值；

如果是，则执行识别单元；如果否，则执行拒识单元；

所述识别单元306，用于确定所述语音片段为最优声学得分所对应的词汇；

所述拒识单元307，用于确定所述语音片段为错误的输入，拒识所述语音片段。

由上述实施例可以看出，将输入的语音片段的每一帧的最高声学得分之和，也就是一个只是理论上存在的完美匹配的声学总分作为评价依据，与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较，将比较后差值较大的判定为错误的语音输入并进行拒识，由此大大降低移动终端根据语音输入做出误操作的频率，其次，使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和，使得本技术方案的拒识方法在移动终端上的运行速度得到保证，提高了用户的体验度。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上对本发明所提供的一种语音识别方法和装置进行了详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，应用于移动终端，其特征在于，包括：

接收输入的语音片段；

根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；

根据所述声音片段的输入长度，以帧为单位，将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分，得到n个声学总分，n为大于等于1的整数，其中总分最高的设定为所述语音片段的最优声学总分；

计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分；

比对最优声学总分和背景声学总分是否满足预订阈值；

2.根据权利要求1所述的方法，其特征在于，所述计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分，还包括：

使用近似算法计算背景声学总分，具体为：

将高斯混合模型GMM回退到单高斯模型；

3.根据权利要求2所述的方法，其特征在于，所述将高斯混合模型GMM回退到单高斯模型具体为：

4.根据权利要求1所述的方法，其特征在于，所述根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分，还包括：

使用近似算法计算声学得分，具体计算公式为：

其中，w_m为每个码本高斯占总码本高斯的权重

5.根据权利要求4所述的方法，其特征在于，对所述取log后进行加运算。

6.一种语音识别装置，应用于移动终端，其特征在于，包括：

语音接收单元，用于接收输入的语音片段；

聚类计算单元，用于根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；

比较累加单元，用于根据所述声音片段的输入长度，以帧为单位，将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分，得到n个声学总分，n为大于等于1的整数，其中总分最高的设定为所述语音片段的最优声学总分；

背景声学总分计算单元，用于计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分；

比对判断单元，用于比对最优声学总分和背景声学总分是否满足预订阈值；

如果是，则执行识别单元；如果否，则执行拒识单元；

所述识别单元，用于确定所述语音片段为最优声学得分所对应的词汇；

所述拒识单元，用于确定所述语音片段为错误的输入，拒识所述语音片段。

7.根据权利要求6所述的装置，其特征在于，所述背景声学总分计算单元还包括：

使用近似算法计算背景声学总分，具体为：

单高斯回退子单元，用于将高斯混合模型GMM回退到单高斯模型；

聚类子单元，用于对获得的单高斯模型进行聚类操作，得到多个聚类码本模型，并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID；

计算声学得分子单元，用于根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分；

确定高斯混合子单元，用于确定每一帧声学得分最高的聚类码本模型，根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型；

最高声学得分获取子单元，用于根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分，确定每一帧最高的声学得分；

背景声学总分获取子单元，用于根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和，得到背景声学总分。

8.根据权利要求7所述的装置，其特征在于，所述将高斯混合模型GMM回退到单高斯模型具体为：

9.根据权利要求6所述的装置，其特征在于，所述聚类计算单元还用于：

使用近似算法计算声学得分，具体计算公式为：

其中，w_m为每个码本高斯占总码本高斯的权重，为每一维进行SDC后的码本高斯的近似计算码本高斯得分，K为每一维进行SDC后的码本高斯的个数。

10.根据权利要求9所述的装置，其特征在于，对所述

取log后进行加运算。