CN103236261B

CN103236261B - 一种特定人语音识别的方法

Info

Publication number: CN103236261B
Application number: CN201310111491.2A
Authority: CN
Inventors: 吴桐
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2013-04-02
Filing date: 2013-04-02
Publication date: 2015-09-16
Anticipated expiration: 2033-04-02
Also published as: CN103236261A

Abstract

本发明公开了一种特定人语音识别方法，其特征在于：预先定义一个语音数据缓存和一个基准语音数据库，将原始语音信号存入语音数据缓存，同时送入语音信号识别引擎进行处理、识别，得到识别结果，结果附带声学特征和识别因子。随后判断是否已有基准语音数据。对于没有基准语音数据的，利用语音信号识别引擎结果初始化基准语音数据；对于已有基准语音数据的，根据不同的语音识别引擎结果选择相应的处理方式进行处理，从而更新基准语音数据或者修正语音识别引擎的识别结果。最后特定人多次发出同一识别词，迭代使用前面所诉步骤，不断更新基准语音数据，使其趋于最优。本发明的有益效果在于：提高了特定人语音识别效率，降低了语音误识拒识度，并且随着用户使用次数的增多，基准语音数据库内的基准语音数据越来越可靠，识别准确度和效率越来越高，很好地提升了用户的体验效果。

Description

一种特定人语音识别的方法

技术领域

本发明属于计算机软件技术领域，特别涉及一种嵌入式环境下的特定人语音识别软件应用技术。

背景技术

如今，随着信息技术的高速发展，越来越多的智能技术被广泛应用到家用电器及其它设备上。智能，可以说是未来家电的发展趋势，近些年，智能家电在我们身边随处可见，如可上网的电视等等，可智能控温、自动调速的空调等等，在市场场上已不鲜见。语音识别亦是一种重要的智能技术，越来越多地应用到各种设备中。

语音识别是一门交叉学科，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，它已逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。苹果公司的iPhone4S采用的Siri语音控制功能则是成功的代表之作。语音识别所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

这样做的缺点在于：当发音不准确，或用户带有各种口音，或在外界干扰较强的环境下使用时，语音识别引擎往往会给出错误识别，大大降低了用户的使用体验，给用户带来困扰和不便。

发明内容

本发明的目的在于：针对上述问题，本发明提供一种特定人语音识别的方法，能有效避免语音识别引擎的拒绝识别，提高准确度和二次识别率，给带各种口音的用户或在外界干扰较大环境中使用的用户带来方便。

本发明目的通过下述技术方案来实现：一种特定人语音识别的方法，包括以下步骤：

步骤1、预先定义一个语音数据缓存和一个基准语音数据库；

步骤2、语音信号采集模块采集语音数据；

步骤3、送入语音信号识别引擎；

步骤4、进行步骤3的同时，将原始语音数据存入语音数据缓存；

步骤5、搜寻基准语音数据库，判断是否已有基准语音数据，若是，进行步骤7；若否，进行步骤6；

步骤6、利用语音信号识别引擎结果初始化基准语音数据；

步骤7、根据不同的语音信号识别引擎结果选择相应的处理方式进行处理；

步骤8、特定人多次发出同一识别词，迭代步骤2、3、4、5、6、7，不断更新基准语音数据，使其趋于最优。

具体的，步骤3中，语音信号识别引擎的结果附带识别因子，识别因子表示语音数据与引擎内部包括文字、声学模型之类的资源文件的相似度。

具体的，步骤3中，语音信号识别引擎的结果附带声学特征。

具体的，步骤1中，基准语音数据库内的基准语音数据对应一个识别词。

具体的，步骤1中，基准语音数据库内的基准语音数据包含原始语音数据、其识别因子和声学特征。

具体的，步骤6中，初始化基准语音数据，按照以下规则进行：

1）若语音信号识别引擎的结果正确，则将其识别因子、声学特征和语音信号缓存中的该原始语音数据作为基准语音数据；

2）若语音信号识别引擎的结果错误，则舍弃语音数据缓存中的数据，再次输入语音信号，回到步骤2，直到得到正确结果。

具体的，步骤7，具体按以下进行：

1）对于语音信号的识别引擎的结果正确的，比较语音识别引擎结果的识别因子与其对应的基准语音数据的识别因子，识别因子高的作为新的基准语音数据；

2）对于语音信号的识别引擎的结果错误的，计算该原始语音数据与基准语音数据的原始语音数据相关系数，然后，进行识别结果修复。

再进一步的，进行识别结果修复的规则如下：

1）如其相关系数大于90%，则修正识别结果为正确；

2）如其相关系数小于90%，则识别结果仍判定为错误。

本发明的有益效果：基准语音数据中包含声学特征，方便寻找，提高了寻找速度。择优保留原始语音数据，不断的更新据准语音数据库，提高了特定人语音识别效率，降低了语音误识拒识度，并且随着用户使用次数的增多，识别准确度和效率越来越高，很好地提升了用户的体验效果。

具体实施方式

下列非限制性实施例用于说明本发明。

本发明中的一种特定人语音识别的方法，下面对本方法的每一个步骤一一说明。

步骤1、首先预先定义一个语音数据缓存和一个基准语音数据库。其中，语音数据缓存用于保留原始语音数据，方便后面操作的调用；基准语音数据库作为再次识别的判别标准，一个基准语音数据对应一个识别词，并且包含原始语音数据、声学特征和识别因子。

步骤2、特定人读出识别库内的识别词，发出语音信号，然后，语音信号采集模块采集语音数据。语音信号采集模块用于采集语音信号和对采集到的语音信号进行预处理，首先通过放大器，放大语音信号，然后，将模拟语音信号采样编码，形成数字信号，再进行滤波处理，消除杂音，对语音信号进行分帧和加窗处理，方便后面的语音特征提取和语音识别。

步骤3、将原始语音信号存入语音数据缓存，等待步骤7的处理。

步骤4、在进行步骤3的同时进行，送入语音信号识别引擎。在语音信号识别引擎内部，先进行语音声学特征提取，虽然语音信号已经具有其区别于其它的所有特征，但提取语音声学特征可以大大的减少计算量，进行更加精准的识别。再进行语音模板训练，提高模板识别率。然后，进行模式匹配，将语音信号与内部语音模板进行对比，给待识别语音与语音模板的相似度评分，从而得到识别因子。最后根据模式匹配的相似度评分，进行识别判决，得到识别结果。识别结果附带声学特征和识别因子，一起输出。

步骤5、根据每个识别词的声学特征搜寻基准语音数据库，判断是否已有基准语音数据。若是，进行步骤7；若否，进行步骤6。

步骤6、利用语音信号识别引擎结果初始化基准语音数据，按照以下规则进行：

步骤7、根据不同的语音识别引擎结果选择相应的处理方式进行处理，从而优化基准数据库或修复识别结果，提高系统的识别率，具体按以下进行：

1)对于语音信号的识别引擎的结果正确的，以采集到的语音数据的声学特征和基准语音数据的声学特征为对象，采用语音识别引擎所用的语音模式匹配方法，在基准语音数据库寻找到对应基准语音数据，然后，比较语音识别引擎结果的识别因子与其对应的基准语音数据的识别因子，识别因子高的作为新的基准语音数据；

2)对于语音信号的识别引擎的结果错误的，计算该原始语音数据与对应基准语音数据的原始语音数据相关系数，公式如下：

上式中为相关系数，为原始语音数据的第个数据，为原始语音数据的数据平均值，为基准语音数据的原是语音数据第个数据，为基准语音数据的原始语音数据的数据平均值，为原是语音数据和基准语音数据的数据的总个数。

然后，进行识别结果修复，规则如下：

1）如其相关系数大于90%，则修正识别结果为正确；

2）如其相关系数小于90%，则识别结果仍判定为错误。

对于识别库内的每个识别均由特定人多次发出，迭代使用上述步骤，使基准语音数据库的每个基准语音数据趋于最优。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特定人语音识别的方法，包括以下步骤：

步骤1、预先定义一个语音数据缓存和一个基准语音数据库；

步骤2、语音信号采集模块采集特定人发出的识别词的语音数据；

步骤3、送入语音信号识别引擎；

步骤6、利用语音信号识别引擎结果初始化基准语音数据；所述初始化基准语音数据，按照以下规则进行：1)若语音信号识别引擎的结果正确，则将其识别因子、声学特征和语音信号缓存中的该原始语音数据作为基准语音数据；2)若语音信号识别引擎的结果错误，则舍弃语音数据缓存中的数据，再次输入语音信号，回到步骤2，直到得到正确结果；

步骤7、根据不同的语音信号识别引擎结果选择相应的处理方式进行处理，具体按以下进行：1)对于语音信号的识别引擎的结果正确的，比较语音识别引擎结果的识别因子与其对应的基准语音数据的识别因子，识别因子高的作为新的基准语音数据；2)对于语音信号的识别引擎的结果错误的，计算该原始语音数据与基准语音数据的原始语音数据相关系数，然后，进行识别结果修复；所述进行识别结果修复的规则如下：1)如其相关系数大于90％，则修正识别结果为正确；2)如其相关系数小于90％，则识别结果仍判定为错误；

2.如权利要求1所述的一种特定人语音识别的方法，其特征在于：所述语音信号识别引擎结果附带识别因子，识别因子表示语音数据与引擎内部包括文字、声学模型之类的资源文件的相似度。

3.如权利要求1或2所述的一种特定人语音识别的方法，其特征在于：所述语音信号识别引擎的结果附带声学特征。

4.如权利要求1所述的一种特定人语音识别的方法，其特征在于：所述基准语音数据库内的一个基准语音数据对应一个识别词。

5.如权利要求1或4所述的一种特定人语音识别的方法，其特征在于：所述基准语音数据库内的基准语音数据包含原始语音数据、识别因子和声学特征。