CN103903619A

CN103903619A - 一种提高语音识别准确率的方法及系统

Info

Publication number: CN103903619A
Application number: CN201210584660.XA
Authority: CN
Inventors: 潘青华; 何婷婷; 余健; 鹿晓亮; 王智国; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2014-07-02
Anticipated expiration: 2032-12-28
Also published as: CN103903619B; WO2014101826A1

Abstract

本发明公开了一种提高语音识别准确率的方法及装置，其中，该方法包括：根据用户预置信息对通过语音解码获得的路径集合中的候选字词进行匹配，获得新的路径集合；通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正；根据校正后的候选字词的语言模型概率进行语音解码处理。通过采用本发明公开的方法，提高了对用户特定信息及该信息上下文内容的识别准确率。

Description

一种提高语音识别准确率的方法及系统

技术领域

本发明涉及语音信号处理领域，尤其涉及一种提高语音识别准确率的方法及系统。

背景技术

随着手机等智能终端上语音输入功能和应用的普及，用户在手机等智能终端上使用语音输入的需求越来越多，对用户个性化信息，尤其是通讯录中联系人的识别准确率也提出了更高的要求。而传统连续语音识别系统由于语言模型训练方式及识别方法的局限性，对存在多音字现象的汉语语音信号可能无法提供正确的字词结果，特别是在人名信息识别中，其识别准确率更受到了进一步的限制：首先，中文常见人名数量众多，对此连续语音识别的词典中通常将人名字词作为未登录词处理，导致训练语料中覆盖的人名数量极其有限；其次，中文人名同音字大量存在，常见人名有几十个甚至更多的汉字组合；再次，对每个用户来说，用户特有的个性化通讯录中联系人人名可能还会有一部分非常用人名，即每个个性化的人名列表在训练语料中无法均匀覆盖。基于以上原因，用于连续语音识别的语言模型不能很好的模拟人名字词特别是用户个性化联系人名字词，人名识别效果也往往明显低于其他内容的识别效果，在应用连续语音识别的语音输入法等应用中个性化人名的识别效果成为影响用户体验的重要瓶颈。

现有技术中，在连续语音识别系统中通过热词激励的方法提高用户预置热词所在解码路径概率，以提高该路径的存活率，获取热词的识别结果。具体过程为：语音识别系统首先计算接收到的每帧语音信号到达搜索网络中每个活跃节点的累积历史路径概率(包括声学模型概率和语言模型概率)；然后判断所述当前历史路径是否包括有热词词条或词条部分，若是则按照系统预设激励方案更新路径的累积历史概率，对路径得分采取固定激励加分的方法以提高热词所在路径的优先级；再将每条满足系统预设条件的路径向后扩展获取新的活跃节点；当对最后一帧音解码后通过路径回溯选择具有最大累积概率的历史路径即为解码结果。

然而，即使现有技术中通过提高热词所在路径的概率提高了热词的识别率，但依然无法解决连续语音信号的整体识别率。如图1所示，当用户语音输入“这是陈旭原来住的房间”时，传统语音识别系统在基于通用语言模型及声学模型的搜索网络中可能将其识别为更普适的“这是程序员楼主的房间”。而在基于热词激励的语音识别系统中，由于提高了“陈旭”热词词条所在的解码路径的概率，其识别结果将变更为“这是陈旭原楼主的房间”。由此可见，热词激励方法只是提高了热词节点的累积历史概率，提高了热词节点和同时刻其他活跃节点的区分度，而对由热词扩展出的路径的概率没有提升，即无法修正热词相关的上下文内容识别错误的问题，因而导致人名上下文的识别错误依然无法修正。

发明内容

本发明的目的是提供一种提高语音识别准确率的方法及系统，基于用户预置信息进行数据匹配与校正，提高了语音信息识别的准确率。

一种提高语音识别准确率的方法，包括：

根据用户预置信息对通过语音解码获得的路径集合中的候选字词进行匹配，获得新的路径集合；

通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正；

根据校正后的候选字词的语言模型概率进行语音解码处理。

一种提高语音识别准确率的系统，该系统包括：

匹配模块，用于根据用户预置信息对通过第一次解码获得的路径集合中的候选字词进行匹配，获得新的路径集合；

校正模块，用于通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正。

解码模块，用于根据校正后的候选字词的语言模型概率进行语音解码处理。

由上述本发明提供的技术方案可以看出，根据用户预置信息对语音解码获得的路径进行优化处理，以及对路径中候选字词的语言模型概率进行校正，提高了对用户特定信息及该信息上下文内容的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为现有技术中一种语音识别的示意图；

图2为本发明实施例一提供的一种提高语音识别准确率的方法的流程图；

图3为本发明实施例二提供的又一种提高语音识别准确率的方法的流程图；

图4为本发明实施例二提供的第一次解码的示意图；

图5为本发明实施例二提供的第二次解码的示意图；

图6为本发明实施例三提供的一种提高语音识别准确率的系统的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例一

图2为本发明实施例所提供的一种提高语音识别准确率的方法的流程图，该方法主要包括如下步骤：

步骤201、根据用户预置信息对通过语音解码获得的路径集合中的候选字词进行匹配，获得新的路径集合。

当接收到语音信息后，进行语音解码，并获得路径集合，该集合中可以包括若干路径，每个路径中可以包含若干个节点，每两个相邻的节点构成一个弧，每个弧对应一个候选字词。

由于中文中同音字大量存在，例如(“晨旭”与“陈旭”)，因此，需要根据用户预置信息对语音解码获得的路径集合中的候选字词进行匹配；若匹配成功，则在该候选字词对应的起止节点中增加新的路径及该新的路径对应的候选字词，从而获得新的路径集合。

步骤202、通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正。

根据步骤201获得新的路径集合后，该路径集合中各个候选字词路径语言模型的概率均会发生一定的变化。而为了针对性的提高语音信息的识别准确率，此时需要以用户预置信息为元素构建分类语言模型，并根据该模型对新的路径集合中的候选字词的语言模型概率进行校正。

步骤203、根据校正后的候选字词的语言模型概率进行语音解码处理。

本发明实施例根据用户预置信息对语音解码获得的路径进行优化处理，以及对路径中候选字词的语言模型概率进行校正，提高了对用户特定信息及该信息上下文内容的识别准确率。

实施例二

为了更具体的介绍本发明，下面结合附图3-5对本发明做进一步描述。如图3所示，包括以下步骤：

步骤301、第一次解码。此过程为常规语音解码，如图4所示为语音输入“这是陈旭原来住的房间”时第一次解码的结果。

首先，接收到语音信号，此时可将连续语音信号数字采样为一系列离散能量值存入数据缓存区。进一步的还可对采集到的原始语音信号做前端降噪预处理，消除语音信号中的噪音，以提高后续系统对该信号的处理能力。

然后，提取语音信号中的声学特征序列，并采用快速搜索算法在由简单声学模型和大规模不受限的低阶语言模型构成的搜索空间对提取的简单声学特征进行粗略匹配，过滤不合理的识别结果获取最优路径集合。进一步的，对输入的每帧语音对应的所有活跃节点都保留N(N为大于1的自然数)个最优历史路径(N-Path)，并在解码结束时通过堆栈式解码回溯N-Path获取多候选识别结果。

优选的，为了提高解码效率，在第一次解码中可采用相对简单的声学模型以及不高于二阶的语言模型(即某个词w_k出现的概率仅和其前n-1个词相关，记为

p (w_{k} | w_{1}^{k - 1}) = p (w_{k} | W_{k - n + 1}^{k - 1}) .

步骤302、第二次解码。如图5所示为对“这是陈旭原来住的房间”进行的二次解码的结果。

首先，读取用户预置信息，该预置信息可以是通讯录中的联系人(人名)、联系人所在地(地名)和/或通过其他软件预留的文字信息。为了便于理解，本步骤以通讯录中的联系人(人名)为例进行介绍。当读取到用户通讯录中联系人后，将读取到的人名转化为拼音，由于联系人中的人名一般不会改变，因此可以在初始化时一次性转化为拼音，以提高后续运算效率

然后，将第一次解码得到的路径集合中所有的候选字词转化为拼音，并与用户预留的人名拼音进行模糊匹配，获得新的路径集合。具体的：人名拼音关键词和路径集合拼音串的匹配，对用户联系人名列表中的每条人名拼音串在所述解码结果拼音串集合中进行子串匹配，确定匹配关系。进一步的，为了尽可能提高匹配效果，可采用了模糊匹配算法，接收南方模糊音等不完全匹配。如联系人名“陈旭”的拼音串“chen xu”将和路径集合中“程”“旭”的拼音串“cheng xu”相匹配。

另外，集合中包括若干路径，每个路径中可以包含若干个节点，每两个相邻的节点构成一个弧，每个弧对应一个候选字词。此处匹配获得一个新的路径，而新的路径一般位于匹配成功的候选字词对应起始节点和终止节点之间，如图5所示，新的路径为2-8。

其次，通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正。

在此之前需预先建立分类(人名)语言模型。其建立步骤为：首先整理获取一个较大规模的人名数据库(包括用户预置信息中的人名)，随后根据该人名数据库检测语言模型训练语料中的人名，对语料中的“人名”信息进行标注或者对将所有具体人名替换为“人名”单元，再将更新后的语料按照常规语言模型训练算法获取人名语言模型。

当上述分类(人名)模型建立完毕后，则通过该分类(人名)语言模型查询所述新的路径集合中候选字词的语言模型概率。以图5中的路径为例介绍语言模型概率的查询，一般以一个候选字词为单位进行查询，如：

“这”(从节点0到节点1)的语言模型概率为P1(“这”)；

“是”(从节点1到节点2)的语言模型概率为P2(“是”|“这”)；

“程序员”(从节点2到节点3)的语言模型概率为P3(“程序员”|“这”“是”)；

“程”(从节点2到节点7)的语言模型概率为P4(“程”|“这”“是”)；

“人名”(从节点2到节点8)的语言模型概率为P5(“人名”|“这”“是”)；

其余候选字词的概率依次类推即可，需要强调是由于针对第一次解码获得的路径集合中的候选字词进行匹配从而增加了路径2-8，因此对于节点8而言，通过三阶语言模型(三阶语言模型表示语言模型概率最多由三个词确定)查询后可得到三个语言模型概率，其分别为概率P6(“原来”|“是”“人名”)、P7(“原来”|“程”“轩”)和P8(“原来”|“程”“旭”)，此时，节点8分裂成了三个不同节点，将上述查询到的概率分别赋予至对应的路径上，完成语言模型概率的校正。

另外，若接收到的语音信号为连续语音时，则路径可能较长或较为复杂，为提高效率可以优先查询匹配成功的候选字词及其相邻字词的语言模型的概率。

进一步的，可采用更高阶的声学模型扩展第二次解码网络以提高模型的区分性，进而提高识别准确率，即根据词典获得每一个候选字词的声学发音，将此声学发音对应的声学模型标注在对应的路径上。例如采用与相邻音素相关的tri-phone声学模型，即声学模型中，某个发音音素的声学模型不仅仅和自身有关，还和前后的发音音素有关。

以“陈旭原来”为例构建声学模型，若使用低阶声学模型时，可能的模型序列是：

ch en x u y uan l ai

若使用triphone声学模型，扩展后的模型序列是：

s-ch+en ch-en+x en-x+u x-u+y u-y+uan y-uan+l uan-l+ai l-ai+z

显然，通过高阶声学模型，可以将相邻的字词关联起来，更有利于进行语音的识别。

最后，根据校正后的候选字词的语言模型概率进行语音解码处理。根据上述步骤将增大用户特定信息及该信息上下文内容的语言模型概率，从而提高其识别准确率。

本发明实施例通过对语音信息进行两次解码，并在第二次解码时根据用户预留的信息对第一次解码的结果进行优化，以及对路径中候选字词的语言模型概率进行校正，提高了对用户特定信息及该信息上下文内容的识别准确率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例三

图6为本发明实施例三提供的一种提高语音识别准确率的系统的示意图，该系统主要包括：

匹配模块61，用于根据用户预置信息对通过语音解码获得的路径集合中的候选字词进行匹配，获得新的路径集合；

校正模块62，用于通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正；

解码模块63，用于根据校正后的候选字词的语言模型概率进行语音解码处理。

其中，所述匹配模块61可以包括：

转化子模块611，用于将所述用户预置信息与路径集合中所有的候选字词串转化为拼音；

模糊匹配子模块612，用于将路径集合中的候选字词的拼音串与预置信息中拼音串进行模糊匹配。

构建子模块613，用于根据所述模糊匹配子模块的模糊匹配结果获得新的路径集合；并具体用于若所述模糊匹配子模块执行的模糊匹配成功，则在该候选字词对应的起止节点间增加新的路径及该新的路径对应的候选字词。

该系统还可以包括：

数据库构建模块64，用于构建与所述用户预置信息的类型相应的语言数据库，并将该用户预置信息加入该语言数据库中；

检测模块65，根据该语言数据库检测语言模型训练语料中与所述预置信息的类型相应的字词；

标注模块66，将检测到的字词分别标注为独立单元，获得更新后的语言模型训练语料；

计算模块67，将该训练语料按照训练算法转换为分类语言模型，以提供给所述校正模块。

所述校正模块62具体包括：

查验子模块625，通过所述分类语言模型查新的路径集合中候选字词的语言模型概率，并根据该结果对其原始的概率进行校正。

需要说明的是，上述装置中包含的各个处理单元所实现的功能的具体实现方式在前面的各个实施例中已经有详细描述，故在这里不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种提高语音识别准确率的方法，其特征在于，包括：

根据校正后的候选字词的语言模型概率进行语音解码处理。

2.根据权利要求2所述的方法，其特征在于，所述根据用户预置信息对通过第一次解码获得的路径集合进行匹配的步骤包括：

将所述用户预置信息与路径集合中所有的候选字词串转化为拼音；

将路径集合中的候选字词的拼音与预置信息中的拼音进行模糊匹配，获得新的路径集合。

3.根据权利要求2所述的方法，其特征在于，所述获得新的路径集合为：

若匹配成功，则在该候选字词对应的起止节点间增加新的路径及该新的路径对应的候选字词。

4.根据权利要求1所述的方法，其特征在于，以所述用户预留信息为元素构建语言模型的步骤包括：

构建与所述用户预留信息的类型相应的语言数据库，并将该用户预留信息加入该语言数据库中；

根据该语言数据库检测语言模型训练语料中与所述预留信息的类型相应的字词；

将检测到的字词分别标注为独立单元，获得更新后的语言模型训练语料；

将该训练语料按照训练算法转换为分类语言模型。

5.根据权利要求1所述的方法，其特征在于，所述对所述新的路径集合中语言模型的概率进行校正包括：

通过所述分类语言模型查询新的路径集合中候选字词的语言模型概率，并根据该结果对其原始的概率进行校正。

6.一种提高语音识别准确率的系统，其特征在于，该系统包括：

匹配模块，用于根据用户预置信息对通过语音解码获得的路径集合中的候选字词进行匹配，获得新的路径集合；

校正模块，用于通过以所述用户预置信息为元素构建的分类语言模型对所述新的路径集合中候选字词的语言模型概率进行校正；

7.根据权利要求6所述的系统，其特征在于，所述匹配模块包括：

转化子模块，用于将所述用户预置信息与路径集合中所有的候选字词串转化为拼音；

模糊匹配子模块，用于将路径集合中的候选字词的拼音串与预置信息中拼音串进行模糊匹配；

构建子模块，用于根据所述模糊匹配子模块的模糊匹配结果获得新的路径集合。

8.根据权利要求7所述的系统，其特征在于，所述构建子模块具体用于若所述模糊匹配子模块执行的模糊匹配成功，则在该候选字词对应的起止节点间增加新的路径及该新的路径对应的候选字词。

9.根据权利要求6所述的系统，其特征在于，该系统包括：

数据库构建模块，用于构建与所述用户预留信息的类型相应的语言数据库，并将该用户预留信息加入该语言数据库中；

检测模块，根据该语言数据库检测语言模型训练语料中与所述预留信息的类型相应的字词；

标注模块，将检测到的字词分别标注为独立单元，获得更新后的语言模型训练语料；

计算模块，将该训练语料按照训练算法转换为分类语言模型，以提供给所述校正模块。

10.根据权利要求6所述的系统，其特征在于，所述校正模块具体包括：

查验子模块，用于通过所述分类语言模型查询新的路径集合中候选字词的语言模型概率，并根据该结果对其原始的概率进行校正。