CN103680505A

CN103680505A - 语音识别方法及系统

Info

Publication number: CN103680505A
Application number: CN201310589827.6A
Authority: CN
Inventors: 陈盛; 于振华; 赵志伟; 刘俊峰; 马冰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2013-09-03
Filing date: 2013-11-20
Publication date: 2014-03-26

Abstract

本发明涉及语音识别技术领域，公开了一种语音识别方法及系统，该方法包括：持续接收录音输入；利用小词汇量语音识别网络对所述录音进行语音识别，以检查所述录音中是否包含预设的关键词；如果所述录音中包含所述关键词，则利用大词汇量语音识别网络对所述关键词后的录音进行识别，得到识别结果。利用本发明，可以在保证语音识别质量的前提下，提高大词汇量语音识别的智能性。

Description

语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别方法及系统。

背景技术

语音识别技术是机器通过识别和理解过程将人发出的声音、音节或短语转换为相应的文字或符号，或者给出响应，如执行控制、做出回答等，它的应用领域非常广泛，几乎涉及生活的每个领域，比如计算机控制、工业控制、信息网络查询等等。

语音识别系统按照不同识别系统的要求，可以划分成很多不同的种类。比如，根据识别对象的不同，可分为：孤立字（词）识别、连接词识别、连续语音识别；根据词汇量的大小，可分为：小词汇量语音识别系统（通常指能识别小于100个词汇的系统）和大词汇量语音识别系统（通常指包括上千至几万个词汇的系统）；按照说话人的限定范围可以分为：特定人和非特定人语音识别系统；按照识别方法分，主要有：模板匹配法、概率模型法、基于人工神经网络等系统。

通常，语音识别系统都会设置一个词汇表，系统对包含于该词汇表中的词条进行识别。在现有技术中，大词汇量语音识别技术都需要触发后才能够开始识别，因为如果识别系统一直监听录音，由于大词汇量语音识别系统词汇量过多，受到的录音干扰较大，容易发生虚警，导致用户根本没有说话就会输出识别结果。

而这种通过触发实现大词汇量识别的方法不仅智能化低，而且会为用户带来诸多不便，比如在行车过程中用手进行触发操作会导致安全性问题。

发明内容

本发明提供一种语音识别方法及系统，在保证语音识别质量的前提下，提高大词汇量语音识别的智能性。

为此，本发明提供如下技术方案：

一种语音识别方法，包括：

持续接收录音输入；

利用小词汇量语音识别网络对所述录音进行语音识别，得到第一识别结果；

如果所述第一识别结果中包含预设的命令词，则利用大词汇量语音识别网络对所述命令词后的录音进行识别，得到第二识别结果。

优选地，所述利用小词汇量语音识别网络对所述录音进行语音识别，得到第一识别结果包括：

利用小词汇量语音识别网络对所述录音进行语音识别，得到候选关键词及所述候选关键词的置信度得分；

如果所述候选关键词的置信度得分大于设定阈值，则将所述候选关键词作为第一识别结果。

优选地，所述方法还包括：

构建所述小词汇量语音识别网络。

优选地，所述方法还包括：

构建所述大词汇量语音识别网络。

优选地，所述方法还包括：

根据所述第一识别结果和第二识别结果执行对应操作。

一种语音识别系统，包括：

接收模块，用于持续接收录音输入；

小词汇量识别模块，用于利用小词汇量语音识别网络对所述录音进行语音识别，得到第一识别结果；

判断模块，用于判断所述第一识别结果中是否包含预设的命令词；

大词汇量识别模块，用于在所述判断模块判断所述第一识别结果中包含预设的命令词后，利用大词汇量语音识别网络对所述命令词后的录音进行识别，得到第二识别结果。

优选地，所述小词汇量识别模块包括：

输出单元，用于利用小词汇量语音识别网络对所述录音进行语音识别，得到候选关键词及所述候选关键词的置信度得分；

选择单元，用于在所述候选关键词的置信度得分大于设定阈值时，将所述候选关键词作为第一识别结果。

优选地，所述系统还包括：

第一构建模块，用于构建所述小词汇量语音识别网络。

优选地，所述系统还包括：

第二构建模块，用于构建所述大词汇量语音识别网络。

优选地，所述系统还包括：

执行模块，用于根据所述第一识别结果和第二识别结果执行对应操作。

本发明实施例提供的语音识别方法及系统，综合小词汇量语音识别系统和大词汇量语音识别系统各自的优点，针对持续接收的录音输入，先利用小词汇量语音识别网络对所述录音进行语音识别，以检查所述录音中是否包含预设的关键词，在检查到该录音中包含相应的关键词后，再利用大词汇量语音识别网络对该关键词后的录音进行识别，得到识别结果，从而实现了无需触发一次性完成多命令词语音识别，在保证语音识别质量的前提下，提高了大词汇量语音识别的智能性。利用本发明实施例提供的语音识别方法及系统，可以大大改善用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是现有技术中小词汇量语音识别过程示意图；

图2是现有技术中大词汇量语音识别过程示意图；

图3是本发明实施例语音识别方法的流程图；

图4是本发明实施例语音识别系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

下面首先对现有技术中小词汇量语音识别及大词汇量语音识别的触发及识别过程作简单介绍。

如图1所示，是现有技术中小词汇量语音识别过程示意图。

现有技术中，小词汇量语音识别系统通常是指词汇量在100以下的语音识别系统，它的应用极其广泛，如语音指令控制等。小词汇量语音识别系统在算法复杂度和实现难度上比大词汇量语音识别系统小许多，比较容易在脱机系统比如PDA等手持设备上实现。

由于词汇量有限，因此在识别时，语音识别系统可以一直监听录音，有识别结果后进行置信度判别以确定是否输出结果。小词汇量语音识别系统对较少的命令词识别时，能得到较好的识别效果。

如图2所示，是现有技术中大词汇量语音识别过程示意图。

在现有技术中，对于大词汇量语音识别都需要用户触发操作才会开启识别过程。

为此，本发明实施例提供一种语音识别方法及系统，综合小词汇量语音识别系统和大词汇量语音识别系统各自的优点，实现无需触发一次性完成多命令词语音识别，在保证语音识别质量的前提下，提高大词汇量语音识别的智能性。

如图3所示，是本发明实施例语音识别方法的流程图，包括以下步骤：

步骤301，持续接收录音输入；

步骤302，利用小词汇量语音识别网络对所述录音进行语音识别，得到第一识别结果；

步骤303，如果所述第一识别结果中包含预设的命令词，则利用大词汇量语音识别网络对所述命令词后的录音进行识别，得到第二识别结果。

本发明实施例的语音识别方法，利用小词汇量语音识别网络和大词汇量语音识别网络，对录音输入的语音信号进行连续识别解码，从而利用小词汇量的无需触发识别召回率高和虚警率低的特点，通过判定小词汇量语音识别结果的置信度来决定是否输出大词汇量语音识别的结果。

在本发明实施例中，利用小词汇量语音识别网络对所述录音进行语音识别的过程主要包括：语音信号预处理、特征提取、特征建模、模式匹配等过程。其中：

预处理主要是对输入的语音进行一些前期处理，主要包括采样量化、预加重、加窗、端点检测等操作。

特征提取是指从语音信号中提取有效的特征矢量，进一步地，为了提高识别精度，还需要去除语音信号中的噪声信息。

特征建模的过程主要是指建立声学模型及语言模型，其中，声学模型是语音识别系统的底层模型，主要用于刻画语音信号的声学特征；声学模型的设计和语音发音特点密切相关。通过声学模型，可以估计待识别语音特征矢量序列所对应的语音识别单元，从而完成特征矢量序列到语音单元的识别转换。在语音识别中，仅仅只利用声学模型对语音信号进行描述或表征是不够的，还需要利用诸如语法知识、句法知识、语义知识等语言学知识，而这些信息的利用是通过语言模型建模来实现的。

模式匹配的过程就是在一个由特征矢量序列、声学模型、语言模型构建的空间中到最佳匹配路径的过程。

在本发明实施例中，首先利用小词汇量语音识别网络对所述录音进行语音识别，得到多个候选关键词。其中，小词汇量语音识别网络的构建过程大致如下:先将关键词转为拼音，再将拼音转为音素序列，选取每个音素对应的声学模型形成声学模型序列，将多个关键词对应的声学模型序列并联起来即形成了小词汇量语音识别网络。

相应地，对应每个候选关键词，可以有一个置信度得分，各候选关键词的置信度得分的高低直接反映了该关键词的可靠程度。因此，在本发明实施例中，可以预先设定一阈值（比如，置信度区间为0～100分，阈值设为70分），如果所述候选关键词的置信度得分大于该阈值，则将该候选关键词作为第一识别结果。

由于影响置信度的因素很多，比如，识别结果自身的信息、路径搜索过程中的竞争路径信息、辅助模型给出的对比信息等，这些都对置信度的计算有不同程度的影响。因此，在本发明实施例中，置信度可以看作是这些因素的函数，用于衡量识别结果的可靠程度。

当然，在实际应用中，所述置信度也可以按照现有技术中的一些方法进行计算，比如，基于特征分类器的置信度、基于似然比检验的置信度、基于后验概率的置信度等，具体可以根据实际应用环境来选用，对此本发明实施例不做限定。

利用小词汇量语音识别网络进行识别得到第一识别结果后，需要判断所述第一识别结果中是否包含预设的命令词，具体地，可以将具体应用环境中所需的命令词保存在一个命令词列表中，比如，对应于车载系统，命令词列表中可以有：导航、收音机、MP3播放、视频播放等命令词。

在第一识别结果中包含预设的命令词的情况下，继续利用大词汇量语音识别网络对所述命令词后的录音进行识别，得到第二识别结果。

上述大词汇量语音识别网络的构建过程与小词汇量语音识别网络的构建过程类似，在此不再赘述。

继续以前面提到的车载系统为例，比如，接收到的录音输入为“导航到天安门”，则利用小词汇量语音识别网络识别得到第一识别结果为“导航”，然后由大词汇量语音识别网络继续对“导航”后的录音信号“到天安门”进行识别，得到大词汇量识别结果，即第二识别结果。

再比如，在手机应用中，要让系统识别“打电话给刘德华”并输出结果，则过程如下：

（1）对识别系统说“打电话给刘德华”，系统会进行录音，将录音发送给识别网络。

（2）由小词汇量语音识别网络对“打电话给”进行识别，得到小词汇量识别结果。

（3）如果小词汇量识别结果通过置信度门限，即其置信度大于设定的阈值时，则无需触发，进入步骤（4）

（4）大词汇量网络中对联系人姓名“刘德华”，得到大词汇量识别结果。

本发明无需其他方式的触发一次语音交互即可实现语音命令控制，解决了语音识别需要按键、触屏等其他方式触发问题。比如：1.现有技术中用语音识别打电话需要按钮，利用本发明则无需按按钮即可实现；2.现有技术中通过触发方式进行语音识别时需要二次语音交互，而利用本发明则一次语音交互即可达到操控目的。比如现有技术中第一次交互需要用户说“拨打电话”触发识别，然后再让用户说人名“刘德华”，而利用本发明，只需要用户说“拨打电话刘德华”无需任何按键触发一次交互就达到目的。

本发明实施例提供的语音识别方法，结合小词汇量语音识别系统和大词汇量语音识别系统各自的优点，针对持续接收的录音输入，先利用小词汇量语音识别网络对所述录音进行语音识别，以检查所述录音中是否包含预设的关键词，在检查到该录音中包含相应的关键词后，再利用大词汇量语音识别网络对该关键词后的录音进行识别，得到识别结果，从而实现了无需触发一次性完成多命令词语音识别，在保证语音识别质量的前提下，提高了大词汇量语音识别的智能性。

相应地，本发明实施例还提供一种语音识别系统，如图4所示，是本发明实施例语音识别系统的结构示意图。

在该实施例中，所述语音识别系统包括：

接收模块401，用于持续接收录音输入；

小词汇量识别模块402，用于利用小词汇量语音识别网络对所述录音进行语音识别，得到第一识别结果；

判断模块403，用于判断所述第一识别结果中是否包含预设的命令词；

大词汇量识别模块404，用于在所述判断模块403判断所述第一识别结果中包含预设的命令词后，利用大词汇量语音识别网络对所述命令词后的录音进行识别，得到第二识别结果。

上述小词汇量识别模块402可以包括：输出单元和选择单元（未图示）。其中：所述输出单元用于利用小词汇量语音识别网络对所述录音进行语音识别，得到候选关键词及所述候选关键词的置信度得分；所述选择单元用于在所述候选关键词的置信度得分大于设定阈值时，将所述候选关键词作为第一识别结果。

所述候选关键词的置信度得分的计算可以有多种方式，对此本发明实施例不做限定。

另外，所述系统还包括：第一构建模块和第二构建模块（未图示）。其中：所述第一构建模块，用于构建所述小词汇量语音识别网络。所述第二构建模块用于构建所述大词汇量语音识别网络。

语音识别网络的构建过程可参照前面的描述，在此不再赘述。

本发明实施例的语音识别系统可以应用于多种语音输入控制环境，比如，打电话、听音乐、导航等各种不同操作的语音控制。

为此，在实际应用中，所述系统还可进一步包括：执行模块（未图示），用于根据所述第一识别结果和第二识别结果执行对应操作。

本发明实施例提供的语音识别系统，结合小词汇量语音识别系统和大词汇量语音识别系统各自的优点，针对持续接收的录音输入，先利用小词汇量语音识别网络对所述录音进行语音识别，以检查所述录音中是否包含预设的关键词，在检查到该录音中包含相应的关键词后，再利用大词汇量语音识别网络对该关键词后的录音进行识别，得到识别结果，从而实现了无需触发一次性完成多命令词语音识别，在保证语音识别质量的前提下，提高了大词汇量语音识别的智能性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

持续接收录音输入；

2.根据权利要求1所述的方法，其特征在于，所述利用小词汇量语音识别网络对所述录音进行语音识别，得到第一识别结果包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建所述小词汇量语音识别网络。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建所述大词汇量语音识别网络。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

根据所述第一识别结果和第二识别结果执行对应操作。

6.一种语音识别系统，其特征在于，包括：

接收模块，用于持续接收录音输入；

7.根据权利要求6所述的系统，其特征在于，所述小词汇量识别模块包括：

8.根据权利要求6所述的系统，其特征在于，所述系统还包括：

第一构建模块，用于构建所述小词汇量语音识别网络。

9.根据权利要求6所述的系统，其特征在于，所述系统还包括：

第二构建模块，用于构建所述大词汇量语音识别网络。

10.根据权利要求6至9任一项所述的系统，其特征在于，所述系统还包括：