CN110610695B

CN110610695B - 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机

Info

Publication number: CN110610695B
Application number: CN201810525203.0A
Authority: CN
Inventors: 杜杉杉
Original assignee: Ningbo Fotile Kitchen Ware Co Ltd
Current assignee: Ningbo Fotile Kitchen Ware Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2022-05-17
Anticipated expiration: 2038-05-28
Also published as: CN110610695A

Abstract

本发明涉及一种基于孤立词的语音识别方法，包括以下步骤：对模板语音进行训练形成语音模板库；将待识别语音与语音模板库进行比较计算，实现待识别语音的识别。利用端点检测算法提取出模板语音、待识别语音中的各孤立词语音，计算获得各孤立词的特征参数。将模板语音中各不同孤立词的特征参数进行存储构成孤立词语音特征参数库。将各模板语音对应的特征参数向量进行存储，进而构成语音模板库。获取待识别语音对应的特征参数向量，判断待识别语音对应的特征参数向量是否存在于语音模板库中，如果是，则实现待识别语音的识别。该基于孤立词的语音识别方法能够大大减小数据处理量。应用了该孤立词的语音识别方法的吸油烟机，成本低且指令语音识别率高。

Description

一种基于孤立词的语音识别方法及应用有该方法的吸油烟机

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于孤立词的语音识别方法，还涉及应用有该语音识别方法的吸油烟机。

背景技术

随着语音识别技术的蓬勃发展，拥有语音控制功能的家电越来越多。另外，由于使用地域的不同，各地的方言众多，地方民众的普通话也并不标准。现有语音芯片往往生成固定的模板库来识别语音，这就导致常见的语音识别模块在识别方言效果并不理想。通常情况下，这种语义识别模板库由于数据量大还需要外挂存储模块，增加了额外的成本。

申请公布号为CN106997762A(申请号为201710134617.6)的中国发明专利申请《家用电器的语音控制方法以及装置》，其中公开的方案中，根据用户指令，从预先训练的多个语音识别引擎中选取目标语音识别引擎，根据目标语音是被引擎对家用电器进行语音控制。该方法根据用户需求从预先训练的多个语音识别引擎中来选择出能够识别用户自身常用或管用语言的目标语音识别引擎，并通过该目标语音识别引擎识别用户输入的语音，以实现家用电器的语音控制，使得家用电器支持不同方言的语音控制，更进一步地扩大了使用家用电器的用户群体，提高了家用电器与用户之间的粘性。但是该方法在实施前需要设置多个语音识别引擎，对数据的存储要求较高，相应会提高家电的成本。并且相同地区的不同人之间的发音也存在加大的差异，在语音识别的准确性上也无法得到有效的保证。

申请公布号为CN106971721A(申请号为201710198053.2)的中国发明专利申请《一种基于嵌入式移动设备的地方口音语音识别系统》，其中公开的语音识别系统包括了模型训练模块、特征提取模块以及模式匹配模块，在使用时，利用模型训练模块对地方口音语音进行收集并训练，得到地方口音的词条模型，特征提取模块用于对输入的地方口音中的语音特征进行提取，模式匹配模块则根据词条模型对语音特征进行语音匹配计算，得到语音识别结果。该方法可以对孤立字词和连接字进行语音识别，还可以对特定人和非特定人进行语音识别。但是该方案中仅仅公开了该方法的实现原理，并没有提出具体的实现方案。在具体操作时，如果采用现有的训练、特征提取以及特征匹配的方法，仍然存在数据处理量大的情况，成本高，不适合在大量使用的普通家电中使用。

发明内容

本发明所要解决的第一个技术问题是针对上述现有技术提供一种能够在兼顾识别准确性的基础上，能够大大减小数据处理量的基于孤立词的语音识别方法。

本发明所要解决的第二个技术问题是针对上述现有技术提供一种能够在较低成本下实现语音控制的吸油烟机。

本发明解决上述第一个技术问题所采用的技术方案为：一种基于孤立词的语音识别方法，包括以下步骤：

录入各模板语音，并训练形成语音模板库；

采集待识别语音；

将待识别语音与语音模板库进行比较计算，识别待识别语音对应的模板语音内容；

其特征在于：

对于录入的模板语音、采集的待识别语音，利用端点检测算法检测获取模板语音、待识别语音中各孤立词语音的起点和终点，进而提取出模板语音、待识别语音中的各孤立词语音，针对各孤立词语音进行计算处理，进而获得各孤立词的特征参数；

训练语音模板库时，将各不同孤立词的特征参数进行存储，进而构成孤立词语音特征参数库；

针对每个模板语音获取对应的孤立词语音特征参数，计算构成对应模板语音的特征参数向量，将各模板语音对应的特征参数向量进行存储，进而构成语音模板库；

获取待识别语音中各孤立词语音的特征参数并与孤立词语音特征参数库中各孤立词语音特征参数进行比较计算，进而获取待识别语音中各孤立词语音在孤立词语音特征参数库中对应的孤立词语音特征参数，进一步获取待识别语音对应的特征参数向量，判断待识别语音对应的特征参数向量是否存在于语音模板库中，如果是，则实现待识别语音的识别。

为了减少数据存储，训练语音模板库时，获取当前模板语音对应的孤立词语音特征参数，将该模板语音中各孤立词语音特征参数与当前孤立词语音特征参数库中已存储的孤立词语音特征参数进行比较计算，如果存在新的孤立词语音特征参数，则将新的孤立词语音特征参数存入到孤立词语音特征参数库中。

优选地，通过DTW算法进行孤立词语音特征参数的比较计算。

优选地，对提取出的各孤立词语音分别进行处理，获取各孤立词语音对应的Mel频谱，进而对各孤立词语音对应的Mel频谱进行倒谱分析，获得各孤立词语音对应的Mel频谱倒谱系数MFCC，将各孤立词语音对应的MFCC作为各孤立词对应的特征参数。

为了提高识别的准确性，在进行语音模板库的训练过程中，对一段模板语音是否检测完进行判断，进而针对各段模板语音分别进行训练；

在进行待识别语音的识别过程中，对一段待识别语音检测完进行判断，进而针对各待识别语音分别进行识别。

简单地，在进行一段模板语音或待识别语音的特征参数向量的计算前，需判断是否完成一段模板语音或待识别语音中的所有孤立词语音的特征参数的计算，如果是，再进行一段模板语音或待识别语音的特征参数向量的计算；

判断是否完成一段模板语音或待识别语音中的所有孤立词语音的特征参数计算的方法为：

检测模板语音或待识别语音中当前孤立词语音后是否还存在孤立词语音；

如果否，则判断完成一段模板语音或待识别语音中的所有孤立词语音的特征参数的计算；

如果是，则计算当前孤立词语音距离下一个孤立词语音之间的时间间隔t；

如果t小于等于设定时间T，则判断未完成一段模板语音或待识别语音中的所有孤立词语音的特征参数的计算；

如果t大于设定时间T，则判断完成一段模板语音或待识别语音中的所有孤立词语音的特征参数的计算。

本发明解决上述第二个技术问题所采用的技术方案为：一种应用有基于孤立词的语音识别方法的吸油烟机，其特征在于：包括吸油烟机本体，设置在吸油烟机本体上的声音采集单元、控制电路板，所述声音采集单元与控制电路板电连接。

与现有技术相比，本发明的优点在于：本发明中的基于孤立词的语音识别方法，将各孤立词语音对应的特征参数进行存储以形成孤立词语音特征参数库，再将每个模板语音对应的孤立词语音特征参数形成的向量数据作为语音模板库。如此，无需将每条模板语音对应的所有特征数据进行存储，大大减少了数据存储量，对数据存储要求低，相应使用的硬件成本低，方便该基于孤立词的语音识别方法的广泛应用，特别适合在实现指令语音等每段语音中孤立词数较少的家电中应用，语音识别率高，且使用成本低，方便量产。而应用了该基于孤立词的语音识别方法的吸油烟机，可以对家庭中成员各种语音的模板语音进行训练，并可实现有效识别，语音的识别能力强。在使用者在进行烹饪操作时，无需再用手进行吸油烟机的控制，通过语音进行控制，方便操作，卫生实用。

附图说明

图1为本发明实施例中语音模板库中模板语音的训练方法的流程图；

图2为本发明实施例中待识别语音的识别方法流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本实施例中的基于孤立词的语音识别方法的整体实现步骤为：录入各模板语音，并训练形成语音模板库；

采集待识别语音；

将待识别语音与语音模板库进行比较计算，识别待识别语音对应的模板语音内容。

该方法适用于各种应用场合，但是该方法更适用于语音中孤立词数量较少的指令类语音识别场合应用。如可以应用在各种家电产品中，通常需要识别的语音有“打开”、“关闭”、“升高”、“降低”等，其中涉及的孤立词数量较少，识别正确率更高。本实施例以该基于孤立词的语音识别方法在吸油烟机中的使用为例进行说明。该吸油烟机包括吸油烟机本体，设置在吸油烟机本体上的声音采集单元、控制电路板，声音采集单元与控制电路板电连接。采用声音采集单元采集录入的模板语音以及待识别语音，在控制电路板的控制器中实现语音模板库的训练以及识别待识别语音的工作。在吸油烟机使用时，用户输入的命令语音即为待识别的语音，完成识别工作后，然后控制电路板控制吸油烟机上对应部件进行相应的响应操作。

吸油烟机中基于孤立词的语音识别方法的具体实现方法如下所述。

如图1所示，其中语音模板库中模板语音的训练方法包括以下步骤：

S1、启动训练模式后，吸油烟机本身可以提示用户录入相应的语音指令，如吸油烟机提示用户录入“打开烟机”、“关闭烟机”等指令语音，用户则对应录入相应的指令语音作为对应指令的模板语音，录入的模板语音可以是任何种类语音，如可以是普通话或者方言等；

S2、控制器利用端点检测算法开始检索模板语音中各孤立词语音的起点和终点；如“打开烟机”中则包含4个孤立词语音，“关闭烟机”中也包含4个孤立词语音；

S3、按照模板语音的时间顺序提取出检测到的孤立词语音，并对提取出的当前的孤立词语音分别进行数学变换处理，获取该孤立词语音对应的Mel频谱，进而对该孤立词语音对应的Mel频谱进行倒谱分析，获得该孤立词语音对应的Mel频谱倒谱系数MFCC，将该孤立词语音对应的MFCC作为该孤立词对应的特征参数A_i，i为自然数，i表示当前孤立词语音的标号，A_i中包括有多个参数数据；

S4、通过DTW算法对当前进行孤立词语音特征参数A_i与当前孤立词语音特征参数库中所有的孤立词语音特征参数进行比较计算，当然初始状态下孤立词语音特征参数库未存储任何孤立词语音特征参数，如果当前孤立词语音特征参数库中未存在该孤立词语音特征参数A_i，则将该孤立词语音特征参数A_i存储至孤立词语音特征参数库中，并且记录该孤立词语音在孤立词语音特征参数库中对应的特征参数A_i的标号；如果当前孤立词语音特征参数库中存在该孤立词语音特征参数A_i，则记录该孤立词语音在孤立词语音特征参数库中对应的特征参数A_b的标号，b∈i；

例如当孤立词语音特征参数库中已经存储了“打”“开”“烟”“机”这几个孤立词语音的特征参数后，则在对“关闭烟机”该模板语音中的“关”或“闭”对应的孤立词语音的特征参数仍然存储至孤立词语音特征参数库中，而对“关闭烟机”该模板语音中的“烟”或“机”对应的孤立词语音的特征参数则无需再存储于孤立词语音特征参数库中；

S5、检测当前孤立词语音后是否还存在孤立词语音；

如果否，则判断完成此段模板语音中的所有孤立词语音的特征参数的计算，进行S6；

如果t小于等于设定时间T，则判断未完成此段模板语音中的所有孤立词语音的特征参数的计算，返回S3；

如果t大于设定时间T，则判断完成此段模板语音中的所有孤立词语音的特征参数的计算，进行S6；

S6、获取此段模板语音对应的特征参数向量B_m，B_m＝[A_s1,A_s2,A_s3,……,A_si,……,A_sn]，m、si、sn均为自然数，m表示当前模板语音的标号，sn表示第m个模板语音中孤立词语音的个数，s1≤si≤sn，si∈i；其中模板语音对应的特征参数向量B_m中的孤立词语音特征参数的标号可以有重复的情况；

例如：“打”这个孤立词语音对应的特征参数为A₁，“开”这个孤立词语音对应的特征参数为A₂，“烟”这个孤立词语音对应的特征参数为A₃，“机”这个孤立词语音对应的特征参数为A₄，“关”这个孤立词语音对应的特征参数为A₅，“闭”这个孤立词语音对应的特征参数为A₆，则“打开烟机”这个模板语音对应的特征参数向量可记为B₁＝[A₁,A₂,A₃,A₄]，“关闭烟机”这个模板语音对应的特征参数向量可记为B₁＝[A₅,A₆,A₃,A₄]，在特征参数向量B_m中仅存储器包含的各特征参数A_i这些标记数据本身，不再存储各特征参数A_i中包含的多个参数数据，这样会大大减少数据的存储量，相应会降低产品成本，方便该语音识别方法的普遍使用；

S7、判断此段模板语音对应的特征参数向量B_m在当前的语音模板库中是否存在，如果否，将此段模板语音对应的特征参数向量B_m存储至语音模板库中；

S8、循环进行S1至S7，进而完成孤立词语音特征参数库的训练以及各直至完成各模板语音的训练。

由于家电使用的人比较固定，不同的人可以分别录入个人的模板语音，完成各个特定人的模板语音的训练，以方便各个特定人进行语音控制操作。

如图2所示，完成孤立词语音特征参数库和语音模板库的训练后，则在使用吸油烟机时，向吸油烟机发送指令语音，控制电路板中的控制器对作为待识别语音的指令语音进行识别，识别待识别语音的方法包括以下步骤：

S10、吸油烟机中的声音采集单元采集用户发出的待识别语音，如用户可以发出“打开烟机”的待识别语音，该待识别语音采用与进行模板语音训练时相同的种类语音，如当进行模板语音训练时录入的模板语音是普通话，则待识别的语音也采用普通话。当进行模板语音训练时录入的模板语音是方言，则待识别的语音也采用方言；

S20、控制器利用端点检测算法开始检索待识别语音中各孤立词语音的起点和终点；如“打开烟机”中则包含4个孤立词语音；

S30、按照待识别语音的时间顺序提取出检测到的孤立词语音，并对提取出的当前的孤立词语音分别进行数学变换处理，获取该孤立词语音对应的Mel频谱，进而对该孤立词语音对应的Mel频谱进行倒谱分析，获得该孤立词语音对应的Mel频谱倒谱系数MFCC，将该孤立词语音对应的MFCC作为该孤立词对应的特征参数C_k，k为自然数，k表示当前孤立词语音的标号，C_k中包括有多个参数数据；

S40、通过DTW算法对当前进行孤立词语音特征参数C_k与孤立词语音特征参数库中所有的孤立词语音特征参数进行比较计算，判断该孤立词语音在孤立词语音特征参数库中对应的孤立词语音特征参数A_ai，ai∈i，并记录该孤立词语音对应的孤立词语音特征参数A_ai的标号；

S50、检测当前孤立词语音后是否还存在孤立词语音；

如果否，则完成此段待识别语音中的所有孤立词语音在孤立词语音特征参数库中对应的孤立词语音特征参数的判断，进行S60；

如果是，则计算当前孤立词语音距离下一个孤立词语音之间的时间间隔t0；

如果t0小于等于设定时间T，则未完成此段待识别语音中的所有孤立词语音在孤立词语音特征参数库中对应的孤立词语音特征参数的判断，返回S30；

如果t0大于设定时间T，则完成此段待识别语音中的所有孤立词语音在孤立词语音特征参数库中对应的孤立词语音特征参数的判断，进行S60；

S60、获取此段待识别语音对应的特征参数向量D，D＝[A_a1,A_a2,A_a3,……,A_ai,……,A_al]，al为自然数，al表示此段待识别语音中孤立词语音的个数，a1≤ai≤al；其中待识别语音对应的特征参数向量D中的孤立词语音特征参数的标号可以有重复的情况；

S70、将此段待识别语音对应的特征参数向量D与语音模板库中各模板语音对应的特征参数向量B_m进行比较计算，判断此段待识别语音对应的特征参数向量D是否存在于语音模板库中；如果是，则按照对应的模板语音的内容实现待识别语音的识别，进而控制吸油烟机中相应的部件进行工作，如当识别为“打开烟机”该模板语音的内容时，控制器则控制风机工作，进行吸油烟工作；如果否，则判断为无效指令，等待下段待识别语音的采集。

Claims

1.一种基于孤立词的语音识别方法，包括以下步骤：

录入各模板语音，并训练形成语音模板库；

采集待识别语音；

其特征在于：

训练语音模板库时，将各不同孤立词的特征参数进行存储，进而构成孤立词语音特征参数库；在进行语音模板库的训练过程中，对一段模板语音是否检测完进行判断，进而针对各段模板语音分别进行训练；

在进行待识别语音的识别过程中，对一段待识别语音检测完进行判断，进而针对各待识别语音分别进行识别；

获取待识别语音中各孤立词语音的特征参数并与孤立词语音特征参数库中各孤立词语音特征参数进行比较计算，进而获取待识别语音中各孤立词语音在孤立词语音特征参数库中对应的孤立词语音特征参数，进一步获取待识别语音对应的特征参数向量，判断待识别语音对应的特征参数向量是否存在于语音模板库中，如果是，则实现待识别语音的识别；

在进行一段模板语音或待识别语音的特征参数向量的计算前，需判断是否完成一段模板语音或待识别语音中的所有孤立词语音的特征参数的计算，如果是，再进行一段模板语音或待识别语音的特征参数向量的计算；

2.根据权利要求1所述的基于孤立词的语音识别方法，其特征在于：训练语音模板库时，获取当前模板语音对应的孤立词语音特征参数，将该模板语音中各孤立词语音特征参数与当前孤立词语音特征参数库中已存储的孤立词语音特征参数进行比较计算，如果存在新的孤立词语音特征参数，则将新的孤立词语音特征参数存入到孤立词语音特征参数库中。

3.根据权利要求1或2所述的基于孤立词的语音识别方法，其特征在于：通过DTW算法进行孤立词语音特征参数的比较计算。

4.根据权利要求1或2所述的基于孤立词的语音识别方法，其特征在于：对提取出的各孤立词语音分别进行处理，获取各孤立词语音对应的Mel频谱，进而对各孤立词语音对应的Mel频谱进行倒谱分析，获得各孤立词语音对应的Mel频谱倒谱系数MFCC，将各孤立词语音对应的MFCC作为各孤立词对应的特征参数。

5.一种应用有如权利要求1至4任一权利要求所述的基于孤立词的语音识别方法的吸油烟机，其特征在于：包括吸油烟机本体，设置在吸油烟机本体上的声音采集单元、控制电路板，所述声音采集单元与控制电路板电连接。