CN110875034B

CN110875034B - 用于语音识别的模板训练方法、语音识别方法及其系统

Info

Publication number: CN110875034B
Application number: CN201811019915.1A
Authority: CN
Inventors: 吴威; 张楠赓
Original assignee: Canaan Bright Sight Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2024-03-22
Anticipated expiration: 2038-09-03
Also published as: CN110875034A

Abstract

本发明的实施方式提供了一种用于语音识别的模板训练方法、语音识别方法及其系统，训练方法包括：针对预设命令词，采集多个语音样本以构建训练样本集；通过基于训练样本集的迭代训练获取语音识别模板；根据迭代训练中获取的相似度为语音识别模板设置匹配阈值。本发明通过采用在训练模板中为语音识别模板设置匹配阈值，以及在语音识别时对具有最佳匹配度的语音识别模板进行阈值验证的技术方案，保证了识别的正确率，并因此显著降低了误识别率。

Description

用于语音识别的模板训练方法、语音识别方法及其系统

技术领域

本发明涉及语音识别领域，具体涉及一种用于语音识别的模板训练方法、语音识别方法及其系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在整个语音识别过程中，一个重要的问题就是如何选取语音识别模板。语音识别的过程是将待识别的语音特征，依次与每个预先训练好的语音识别模板进行匹配，找出匹配最佳的那个语音识别模板作为识别结果。但是，若所说的命令实际上并不包含在所有模板当中，语音识别系统仍然能够找到一个相对匹配最佳的模板作为匹配模板输出，并因此造成误识别。

针对上述误识别问题，现有技术中主要采用以下方法：预先训练获得多个垃圾词条的模板并参与到语音识别过程。例如，对于应用于人机交互应用场景中的识别系统而言，语音识别系统往往会接收到用户口头禅，例如“哎呦”等无实际意义的语音信号，那么可以将上述无实际意义的语音信号作为模板参与到语音识别，当无意义的识别语音发生时，系统就可以正确识别其为无意义词汇。但采用这种方式存在以下缺陷:(a)增加工作量；(b)难以覆盖所有的无意义词汇。因此，针对上述语音识别过程中可能产生的误识别错误，现有技术中还没有有效的解决方案。

发明内容

针对现有技术中的语音识别过程中可能产生的误识别问题，本发明提供了用于语音识别的模板训练方法、语音识别方法及其系统，优化了用于语音识别的语音识别模板，并因此有效降低了误识别率。

在本发明实施方式的第一方面，提出一种用于语音识别的模板训练方法，所述方法包括：

采集与预设命令词相对应的多个语音样本以构建训练样本集；

通过基于所述训练样本集的迭代训练获取所述预设命令词的语音识别模板；以及

根据所述迭代训练中获取的所述语音样本之间的相似度为所述语音识别模板设置匹配阈值。

在一种实施方式中，其中，所述通过基于所述训练样本集的迭代训练获取语音识别模板具体包括：

从所述训练样本集中选取第一语音样本作为初始的中间模板；

从所述训练样本集中依次选取未经训练的第二语音样本执行所述迭代训练以更新所述中间模板；

响应于迭代训练结束条件，将所述中间模板作为所述预设命令词的语音识别模板进行存储。

在一种实施方式中，其中，所述从所述训练样本集中依次选取未经训练的第二语音样本执行所述迭代训练以更新所述中间模板具体包括：

针对每一次迭代训练，根据动态时间规整算法将选取的第二语音样本向所述中间模板进行规整；

根据规整后的所述第二语音样本与所述中间模板的矢量均值更新所述中间模板。

在一种实施方式中，其中，所述根据所述迭代训练中获取的所述语音样本之间的相似度为所述语音识别模板设置匹配阈值具体包括：

针对每一次迭代训练，根据更新前的中间模板与所述第二语音样本的相似度创建并更新阈值；以及

响应于迭代训练的结束，根据所述阈值为所述预设命令词的语音识别模板设置匹配阈值。

在一种实施方式中，其中，所述第一语音样本的帧数为所述训练样本集中全部语音样本的帧数中位值。

在一种实施方式中，其中，所述迭代训练结束条件为所述训练样本集中的全部语音样本均被训练完毕。

在一种实施方式中，其中，所述方法还包括：

根据聚类算法对所述多个语音样本进行聚类以获取多个所述训练样本集；以及

针对每一个所述训练样本集独立执行所述模板训练方法。

在本发明实施方式的第二方面，提出一种用于语音识别的模板训练系统，所述系统包括：

训练样本集模块，用于，采集与预设命令词相对应的多个语音样本以构建训练样本集；

模板训练模块，用于通过基于所述训练样本集的迭代训练获取所述预设命令词的语音识别模板；以及

阈值训练模块，根据所述迭代训练中获取的所述语音样本之间的相似度为所述语音识别模板设置匹配阈值。

在一种实施方式中，其中，模板训练模块具体用于：

在一种实施方式中，其中，所述阈值训练模块用于：

针对每一次迭代训练，根据更新前的中间模板与所述第二语音样本的相似度距离创建并更新阈值；以及

在一种实施方式中，其中，所述系统还包括：

聚类模块，用于根据聚类算法对所述多个语音样本进行聚类以获取多个所述训练样本集；以及

所述模板训练模块与所述阈值训练模块针对每一个所述训练样本集独立执行所述模板训练方法。

在本发明实施方式的第三方面，提出一种语音识别方法，所述方法包括：

接收待识别语音；

将所述待识别语音与全部语音识别模板进行匹配，以获取具有最高匹配度的目标语音识别模板；

通过判断所述最高匹配度是否超过所述目标语音识别模板的匹配阈值对所述待识别语音进行识别；

其中，所述全部语音识别模板中的每一个语音识别模板为第一方面及其各种实施方式中任一项训练获得的语音识别模板。

在一种实施方式中，其中，若所述最高匹配度超过所述目标语音识别模板的匹配阈值，所述方法进一步包括：

根据所述待识别语音更新所述目标语音识别模板；以及

根据所述待识别语音更新所述目标语音识别模板的匹配阈值。

在本发明实施方式的第四方面，提出一种语音识别系统，所述系统包括：

接收模块，用于接收待识别语音；

模板匹配模块，用于将所述待识别语音与全部语音识别模板进行匹配，以获取具有最高匹配度的目标语音识别模板；

阈值匹配模块，用于通过判断所述最高匹配度是否超过所述目标语音识别模板的匹配阈值对所述待识别语音进行识别；

在一种实施方式中，其中，所述系统进一步包括：

模板更新模块，用于根据所述待识别语音更新所述目标语音识别模板；以及

阈值更新模块，用于根据所述待识别语音更新所述目标语音识别模板的匹配阈值。

本发明实施例通过采用在训练模板的过程中为每一个语音识别模板设置匹配阈值的技术方案，得到更为优化的语音识别模板，以及当采用通过本发明实施例中所训练得到的语音识别模板用于语音识别时，可以在匹配到最相似的语音识别模板的基础上进一步通过匹配阈值进行二次验证，保证了识别的正确率，并因此显著降低了误识别率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了根据本发明实施例的用于语音识别的模板训练方法流程图；

图2示出了根据本发明实施例的另一种用于语音识别的模板训练方法流程图；

图3示出了根据本发明实施例的又一种用于语音识别的模板训练方法流程图；

图4示出了根据本发明实施例的用于语音识别的模板训练系统结构示意图；

图5示出了根据本发明实施例的语音识别方法流程图；

图6示出了根据本发明实施例的另一种语音识别方法流程图；

图7示出了根据本发明实施例的语音识别系统结构示意图。

图8示出了根据本发明实施例的用于语音识别的模板训练示意图；

图9示出了根据本发明实施例的基于DTW(动态时间规整)的模板更新示意图；

图10示出了根据本发明实施例的语音识别过程中的模板/阈值更新示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

示例性方法

本发明实施例提出一种用于语音识别的模板训练方法。

图1示出了本发明实施例的一种用于语音识别的模板训练方法流程图。如图1所示，该方法包括但不限于S110～S130，具体地，该步骤包括：

S110：采集与预设命令词相对应的多个语音样本以构建训练样本集。

S120：通过基于所述训练样本集的迭代训练获取语音识别模板。

S130：根据所述迭代训练中获取的所述语音样本之间的相似度为所述语音识别模板设置匹配阈值。

以下结合具体实施例对上述步骤S110～S130进行详细描述。

(1)语音样本录制

在一个具体的实施例中，为一个指定命令词录制Q个用于训练的语音样本，该Q个语音样本构成上述指定命令词的一个训练集。

本领域技术人员可以理解的是，针对上述Q个语音样本中的每一个，其从录制到作为语音样本进行训练的过程中，需要经过一系列预处理过程与声音特征提取过程，其中，上述预处理过程可以包括：对语音信号的预滤波、预加重、采样与量化、分帧加窗和端点检测等。上述特征向量提取过程可以是对经过预处理后的多帧语音信号提取声音特征，如：声音特征MFCC(Mel-Frequency Cepstral Coefficients)，以获得特征矢量序列作为语音样本进行后续运算。

(2)选取初始中间模板

在一个实施例中，上述步骤S120进一步可以包括从所述训练样本集中选取第一语音样本作为初始的中间模板。

在一个具体的实施例中，上述第一语音样本的帧数可以为所述训练样本集中全部语音样本的帧数中位值。

例如，对于获取的语音样本，可以通过比较上述训练集中的Q个语音样本的特征矢量序列的时间长度(帧数)，找出帧数处于上述Q个语音样本中的中位值的语音样本作为初始中间模板。

在一个具体的实施例中，当所述Q为奇数时，可以直接找到具有帧数中位值的样本，并直接将其定义为初始中间模板。

在一个具体的实施例中，当所述Q为偶数时，此时需要计算出该训练集中处于中位的两个语音样本的平均值，并将其定义为初始中间模板。

在一个具体的实施例中，当所述Q为偶数时，可以从处于中位的两个语音样本中任选一个，并将其定义为初始中间模板。

本领域技术人员可以理解的是，初始中间模块的选取过程中，需要选取长度适中的样本作为初始中间模板。而在实际样本录制过程中，可能存在帧数过长或过短的语音样本，而这些过长或过短的帧数均会在求平均值时产生不利影响，导致最终获得的平均值帧数与样本集的实际适中长度产生偏差。因此，相较于现有技术中通常采用的“选取与全训练集语音样本的帧数平均值最接近的语音样本作为初始中间模板”这一技术方案，本发明实施例通过采用上述帧数处于训练样本集的中位值位置的语音样本作为初始中间模板的技术方案可以获取更为合适(帧数长度适中)的初始中间模板。

在一个具体的实施例中，在上述初始中间模板的选择方式中，也可以使用多种参数作为评判标准进行选择，例如可以选取具有与全训练集时间长度(帧数)的平均值最相近的时间长度(帧数)的语音样本作为初始中间模板，又例如可以选取具有全训练集的时间长度(帧数)的中位值的语音样本作为初始中间模板。在这里，对上述选择初始中间模板的方式不做具体限定，其可以根据实际应用场景以及工业需要具体设定，本发明实施例中采用选取时间长度(帧数)处于全训练集中的中位值的样本作为初始中间模板为例，但是并不限于此。

(3)模板迭代训练

在一个实施例中，上述步骤S120进一步可以包括：

S122：从所述训练样本集中依次选取未经训练的第二语音样本执行所述迭代训练以更新所述中间模板。

S123：响应于迭代训练结束条件，将所述中间模板作为所述预设命令词的语音识别模板存储至模板库。

以下结合图2与图9对上述实施例中的S122～S123进行示例性描述：

在上述选取初始中间模板后，训练样本集中还含有Q-1个未经训练的语音样本，本阶段模板迭代训练过程也即将上述Q-1个语音样本依次输入训练过程以不断更新中间模板，直至所有样本训练完毕后，输出训练完毕后的中间模板作为语音识别模板存储到模板库中。

具体地，由训练样本集输出一个语音样本U，与中间模板V基于DTW(动态时间规整)进行模板训练，本次训练完成后，根据模板训练获得的新模板更新中间模板；接下来，由训练样本集输入下一个语音样本，重复执行上述训练与更新操作。该重复执行训练与更新的过程被称为迭代训练。

在一个具体的实施例中，该迭代训练的结束条件可以为：训练样本集中的全部语音样本均被输出并训练完毕。

进一步地，当上述迭代训练完毕后，将经过数次更新后的中间模板定义为语音识别模板输出并存储至模板库，以供后续的识别使用。

在一个具体的实施例中，在模板的迭代训练过程中，若某一样本的失真度超过一阈值，则可以将该语音样本舍弃不用。例如：对于录制的样本语音而言，其相似度一般是较高的，但可能会存在模板录制中出现误录入的情况，以及存在录制人的语速过快或者过慢的情况，上述情况下获得的语音样本的实际训练价值不大。

在一个具体的实施例中，上述S122可以进一步包括：针对每一次迭代训练，根据动态时间规整算法将选取的第二语音样本向所述中间模板进行规整；根据规整后的所述第二语音样本与所述中间模板的矢量均值更新所述中间模板。

本领域技术人员可以理解的是，DTW(动态时间归整)的原理为：假设中间模板和输入样本分别用V和U表示。为了比较它们的相似度，需要计算它们之间的总失真D。设n和m分别是V和U中任意选择的帧号，那么d[V(n)，U(m)]表示这两帧特征矢量之间的失真(d)。采用最佳匹配路径上的帧间失真累计值作为总失真D，使得沿该路径的累积失真D达到最小值。

以下结合图8对基于动态时间规整算法的模板训练方法进行示例性描述：

图8中，其中，分布于X轴的V＝(V₁,V₂,..,V_N)代表中间模板的N帧语音特征矢量组成的序列，分布于Y轴的U＝(U₁,U₂,…,U_M)代表输入的第二语音样本的M帧语音特征矢量组成的序列。

根据现有技术对中间模板V与第二语音样本U进行动态时间规整运算，以获取最优匹配路径以及最优匹配路径所对应的相似度值，其中，所述最优匹配路径也即图8中示出的从终点(V_N，U_M)指向起点(V₁，U₁)的路线。

将语音样本根据上述获取的最优匹配路径规整到中间模板的每一帧，并求出规整后的语音样本与中间模板在每一帧的矢量均值。

具体地，例如，对于中间模板的第n帧V_n而言，其在最优匹配路径下所匹配的语音样本帧为U_m，则训练后的中间样本的第n帧特征矢量为V_n与U_m的矢量特征均值。又例如，对于中间模板的第n+1帧特征矢量V_n+1而言，其在最优匹配路径下所匹配的第二语音样本帧为U_m+2，则训练后的中间样本的第n+1帧特征矢量为V_n+1与U_m+2的矢量特征均值。

其中，由于声音特征矢量为多维特征向量，因此，在上述求取矢量特征均值时，需要对特征矢量的每一维特征分别求均值。根据矢量均值更新所述中间模板。

通过采用上述规整方式以及均值计算方式，保证每一次更新的中间模板始终保持与初始中间模板相同的时间长度(帧数)，进一步地，由上述初始中间模板的选取方式可知，保证了最终形成的语音识别模板可以保持于适中的时间长度，有利于后续的语音识别。

(4)阈值迭代训练

在一个具体的实施例中，上述步骤S130进一步可以包括：

S131：针对每一次迭代训练，根据更新前的中间模板与所述第二语音样本的相似度距离创建并更新阈值；以及

S132:响应于迭代训练的结束，根据所述阈值为所述预设命令词的语音识别模板设置匹配阈值。

以下结合图3与图9对上述针对阈值的迭代训练进行详细描述：

所述语音样本之间的相似度具体采用以下方式进行计算：在上述模板迭代训练过程中，需要根据每一次模板训练中获取的中间模板与输入第二语音样本之间的相似度值设置并更新阈值。具体地，在上述第一次训练过程中，需要计算获得初始中间模板与输入语音样本之间在最匹配路径下的总失真D₁。以及，在后续的迭代训练过程中，将每一次训练过程中所获取的总失真D与现有的阈值参数进行求均值运算以更新阈值。

在一个具体的实施例中，可以在训练完毕后根据实时使用场景对经过多次更新的阈值乘以预设值，以作为语音识别模板的阈值参数输出并存储在模板库中，例如，可以将上述获取的阈值乘以150％作为语音识别模板的阈值参数存储在模板库中。

在一个具体的实施例中，上述预设值可以根据实际使用场景进行具体设置，例如，可以在对识别率要求较高的语音识别系统中采用较小的预设值，例如90％。又例如，可以在对识别率要求不高或对语音的响应度要求较高的语音识别系统中采用较大的预设值，例如200％。又例如，上述预设值可以由用户或系统进行自适应地调整，以满足具体使用条件。本发明实施例仅以上述预设值150％为例，但并不限于此。

综上可知，在本发明实施例中，在迭代训练阶段两次利用了动态时间规整算法，具体包括：

一、通过根据DTW(动态时间规整)算法对中间模板进行连续更新。

二、通过根据DTW(动态时间规整)运算中获得的语音模板和输入样本之间的相似度值(总失真)对阈值进行连续更新。

通过上述一系列迭代训练获得了该指定命令词的语音模板以及该语音模板的匹配阈值，将上述语音模板和匹配阈值作为一个整体存储到模板库当中，以用于后续的语音识别。

具体地，上述为语音识别模板设置阈值参数的技术意义在于，针对不同的命令词，特征提取的效果是不相同的，例如，对于爆破音的提取就较为困难，相应地，在模板训练中获得的阈值就会较大。进一步地，在常规的语音识别过程中，需要完成以下两个步骤才能实现匹配:(1)在模板库中，待语音识别模板与目标语音识别模板具有最高的匹配度；(2)待语音识别模板与该目标语音识别模板的匹配度超过该目标语音识别模板的匹配阈值。

此时，若某一无意义待识别词输入系统进行识别时，即使其从模板库中找到一语音识别模板，也会因为匹配度无法超过该语音识别模板的匹配阈值而不会进行匹配，也即不会产生误识别。

本领域技术人员可以理解的是，由于在每一次训练中，模板/阈值的更新运算都是根据新输入的语音样本进行求均值运算，因此在上述迭代训练过程中，越是靠后进行训练的语音样本，对最终获得的语音识别模板的的影响程度越大。由此，若训练样本集中的样本的差异度较大，或在后进行训练的样本与训练样本集中其他样本的相似程度不高，就会导致最终获得的语音识别模板准确度较低，阈值参数过高，难以在后续的语音识别中达到较高的准确度。

在一个具体的实施例中，在上述模板训练之前，可以同一命令词的多个语音样本进行预处理，所述预处理可以包括：

(1)根据聚类算法对所述多个语音样本进行聚类以获取多个所述训练样本集。

(2)针对每一个所述训练样本集，独立执行所述模板训练方法以获取对应的语音识别模板与阈值参数，并存储在模板库中。

其中，每一个训练子集的语音识别模板与预置参数对应到同一命令词。

上述聚类具体为对训练样本集中全部样本进行预分类。从而将训练集划分为若干个子集，各子集中的样本具有相似性.因而能用训练出的一个具有代表性的模板来表示.

在一个具体的实施例中，给定一个含有Q个样本的训练集对于上述训练样本集中的任一个样本，计算出该样本与其他所有样本之间的相似度值，共得到Q×(Q-1)个相似度值。进一步地，根据上述获得的相似度值，将上述Q个样本进行分组，使得每一个子集中的各个样本之间的相似度均不超过指定阈值。

本发明实施例中，通过采用上述对同一命令词的训练样本集进行聚类，并对每一子集分别训练以获得多个语音识别模板与阈值参数进行后续的语音识别的技术方案，实现了对训练样本集进行区分性训练，显著提高了识别错误率。

综上，本发明通过采用在训练模板的过程中为每一个语音识别模板设置匹配阈值的技术方案，得到更为优化的语音识别模板，以及当采用通过本发明实施例中所训练得到的语音识别模板用于语音识别时，可以显著降低误识别率。

示例性设备

本发明实施例提出一种用于语音识别的模板训练系统。

图4示出了本发明实施例的一种用于语音识别的模板训练系统结构示意图400。如图4所示，该系统包括：

训练样本集模块410，用于采集与预设命令词相对应的多个语音样本以构建训练样本集。

模板训练模块420，用于通过基于所述训练样本集的迭代训练获取语音识别模板。

阈值训练模块430，用于根据所述迭代训练中获取的样本相似度为所述语音识别模板设置匹配阈值。

以下结合具体实施例对上述系统进行详细描述。

(1)语音样本录制

在一个具体的实施例中，为一个指定命令词录制Q个用于训练的语音样本，训练样本集模块410用于该Q个语音样本构成上述指定命令词的一个训练集。

本领域技术人员可以理解的是，针对上述Q个语音样本中的每一个，其从录制到作为语音样本进行训练的过程中，需要经过一系列预处理过程与声音特征提取过程，其中，上述预处理过程可以包括：对语音信号的预滤波、预加重、采样与量化、分帧加窗和端点检测等。上述特征向量提取过程可以是对经过预处理后的多帧语音信号提取声音特征，如：声音特征MFCC，以获得特征矢量序列作为语音样本进行后续运算。

(2)选取初始中间模板

在一个实施例中，上述模板训练模块420进一步可以用于从所述训练样本集中选取第一语音样本作为初始的中间模板。

在一个具体的实施例中，上述第一语音样本的帧数可以为所述训练样本集中全部语音样本的帧数中位值

本领域技术人员可以理解的是，初始中间模块的选取过程中，需要选取长度适中的样本作为初始中间模板。而在实际样本录制过程中，可能存在帧数过长或过短的语音样本，而这些过长或过短的帧数均会在求平均值时产生不利影响，导致最终获得的平均值帧数与样本集的实际适中长度产生偏差。因此，相较于现有技术中通常采用的“选取与全训练集语音样本的帧数平均值最接近的语音样本作为初始中间模板”这一技术方案。

本发明实施例通过采用上述帧数处于训练样本集的中位值位置的语音样本作为初始中间模板的技术方案可以获取更为合适(帧数长度适中)的初始中间模板。

(3)模板迭代训练

在一个实施例中，上述模板训练模块420进一步可以用于：

A、从所述训练样本集中依次选取未经训练的第二语音样本执行所述迭代训练以更新所述中间模板。

B、响应于迭代训练结束条件，将所述中间模板作为所述预设命令词的语音识别模板存储至模板库。

以下结合图2与图9对上述实施例中的模板训练模块420所执行的迭代训练的具体过程进行详细描述：

在一个具体的实施例中，上述模板训练模块420可以进一步用于：针对每一次迭代训练，根据动态时间规整算法将选取的第二语音样本向所述中间模板进行规整；根据规整后的所述第二语音样本与所述中间模板的矢量均值更新所述中间模板。

以下结合图8对基于动态时间规整算法的模板训练系统进行示例性描述：

具体地，例如，对于中间模板的第n帧V_n而言，其在最优匹配路径下所匹配的语音样本帧为U_m，则训练后的中间样本的第n帧特征矢量为V_n与U_m的矢量特征均值。又例如，对于中间模板的第n+1帧特征矢量V_n+1而言，其在最优匹配路径下所匹配的的第二语音样本帧为U_m+2，则训练后的中间样本的第n+1帧特征矢量为V_n+1与U_m+2的矢量特征均值。

(4)阈值迭代训练

在一个具体的实施例中，上述阈值训练模块430进一步可以用于：

A：针对每一次迭代训练，根据更新前的中间模板与所述第二语音样本的相似度距离创建并更新阈值；以及

B:响应于迭代训练的结束，根据所述阈值为所述预设命令词的语音识别模板设置匹配阈值。

在上述模板迭代训练过程中，需要根据每一次模板训练中获取的中间模板与输入第二语音样本之间的相似度值设置并更新阈值。具体地，在上述第一次训练过程中，需要计算获得初始中间模板与输入语音样本之间在最匹配路径下的总失真D₁。以及，在后续的迭代训练过程中，将每一次训练过程中所获取的总失真D与现有的阈值参数进行求均值运算以更新阈值。

(2)针对每一个所述训练样本集，独立执行所述模板训练系统以获取对应的语音识别模板与阈值参数，并存储在模板库中。

示例性方法

本发明实施例提出一种语音识别方法。

图5示出了本发明实施例的语音识别方法流程图，上述方法具体包括：

S510：接收待识别语音；

S520：将所述待识别语音与模板库中的全部语音识别模板进行匹配，以获取具有最高匹配度的目标语音识别模板；

S530：通过判断所述最高匹配度是否超过所述目标语音识别模板的匹配阈值对所述待识别语音进行识别；

其中，所述目标语音识别模板为上述示例性方法中示出的任一项模板训练中获得的语音识别模板。

在一具体的实施例中，如图6所示，上述方法之后，若所述最高匹配度超过所述目标语音识别模板的匹配阈值，本发明实施例可以进一步包括：

S540：根据所述待识别语音更新所述目标语音识别模板。

S550：根据所述待识别语音更新所述目标语音识别模板的匹配阈值。

以下结合图5、图6与图10对上述S510～S530以及S540～S550进行示例性描述。其中，S510～S530具体可以包括下列(1)与(2)；S540～S550具体可以包括下列(3)与(4)。

(1)模板匹配

将获取的待识别语音与模板库中的全部语音识别模板依次进行DTW(动态时间规整)运算以获得该待识别语音与模板库中的每一个语音识别模板之间的相似度。

进一步地，从上述语音识别模板中选取具有最大相似度的目标语音识别模板进行后续的阈值验证过程。

(2)阈值验证

获取该目标语音识别模板的匹配阈值，该匹配阈值的获取已经在上文中进行具体描述。将上一步模板匹配过程中获取的目标语音识别模板与待识别语音之间的相似度值与该目标语音识别模板的匹配阈值进行比较。

若该相似度值未超过目标语音识别模板的匹配阈值，则该待识别语音成功匹配到目标语音识别模板，进一步匹配到该目标语音识别模板所对应的命令词。

若该相似度值超过目标语音识别模板的匹配阈值，则该待识别语音未能成功匹配到目标语音识别模板，进一步可以判定该待识别语音为无效语音。

本领域技术人员可以理解的是，上述模板训练过程通常发生在产品出售前，开发人员利用录制不同人的语音样本来训练获得语音识别模板，样本量较大，但是在实际语音识别过程中，识别人存在有限数量的。

在一个具体的实施例中，若该待识别语音成功匹配到目标语音识别模板，如图6所示，本发明实施例可以进一步执行以下步骤(3)和(4)。

(3)更新模板

在一个具体的实施例中，上述更新模板过程可以包括根据DTW(动态时间规整)将该待识别语音向目标语音识别模板进行规整；根据规整后的所述待识别语音与目标语音识别模板的矢量均值更新所述目标语音识别模板。

以下结合图8对基于DTW(动态时间规整)对目标语音识别模板进行更新进行具体描述。

图8中，其中，分布于X轴的V＝(V₁,V₂,..,V_N)也可以代表目标语音识别模板的N帧语音特征矢量组成的序列，分布于Y轴的U＝(U₁,U₂,…,U_M)也可以代表输入的待识别语音的M帧语音特征矢量组成的序列。

根据现有技术对目标语音识别模板V与待识别语音U进行动态时间规整运算，以获取最优匹配路径以及最优匹配路径所对应的相似度值，其中，所述最优匹配路径也即图8中示出的从终点(V_N，U_M)指向起点(V₁，U₁)的路线。

将语音样本根据上述获取的最优匹配路径规整到目标语音识别模板的每一帧，并求出规整后的语音样本与目标语音识别模板在每一帧的矢量均值。

具体地，例如，对于目标语音识别模板的第n帧V_n而言，其在最优匹配路径下所匹配的语音样本帧为U_m，则训练后的中间样本的第n帧特征矢量为V_n与U_m的矢量特征均值。又例如，对于目标语音识别模板的第n+1帧特征矢量V_n+1而言，其在最优匹配路径下所匹配的待识别语音帧为U_m+2，则训练后的中间样本的第n+1帧特征矢量为V_n+1与U_m+2的矢量特征均值。

其中，由于声音特征矢量为多维特征向量，因此，在上述求取矢量特征均值时，需要对特征矢量的每一维特征分别求均值。根据矢量均值更新所述目标语音识别模板。

通过采用上述规整方式以及均值计算方式，保证更新后的目标语音识别模板始终保持与目标语音识别模板相同的时间长度(帧数)，进一步地，由上述初始语音识别模板的选取方式可知，保证了最终形成的语音识别模板可以保持于适中的时间长度，有利于后续的语音识别。

本发明实施例也可以采用其他模板更新方式，本发明实施例仅以上述基于DTW的模板更新方式为例，但不限于此。

(4)阈值更新

在一个具体的实施例中，可以根据语音识别过程中获取的相似度值对目标语音识别模板的匹配阈值进行更新。

在一个具体的实施例中，上述更新可以为识别过程获取的相似度值与匹配阈值加权组合获得新的匹配阈值。

例如，若上述模板训练过程中，采用“在训练完毕后根据实时使用场景对经过多次更新的阈值乘以预设值，以作为语音识别模板的阈值参数输出并存储在模板库中”这一技术方案，那么在语音识别过程中的阈值更新时，同样需要将相似度值乘以相同的预设值后再与匹配阈值求均值，以获得更新的匹配阈值。

本发明实施例通过采用上述“更新模板”与“更新阈值”的技术方案，可以在语音识别过程中自适应优化语音识别模板，进一步提高了识别率。

以下结合具体示例对上述技术效果进行描述。例如，当本发明实施例上述技术方案应用到家用智能音箱领域时，采用特定家庭成员的语音片段作为语音样本进行训练实际更有利于获得识别率高的语音识别模板，然而，实际生产过程中难以针对实际使用用户进行针对性地模板训练，因此，采用在识别过程中基于匹配到某一特定命令词的待识别语音对该特定命令词所对应的语音识别模板进行重复训练，以获取更具有针对性的语音识别模板。

综上，本发明实施例通过采用在待识别语音与语音识别模板的匹配过程中引入阈值验证步骤这一技术方案降低了无效的待识别语音的影响，这相当于在语音识别过程中采用双重匹配，并因此显著降低了语音识别中的误识别率。

示例性设备

本发明实施例提出一种语音识别系统。

图7示出了本发明实施例的语音识别系统结构示意图700，上述系统具体包括：

接收模块710，用于接收待识别语音；

模板匹配模块720，用于将所述待识别语音与模板库中的全部语音识别模板进行匹配，以获取具有最高匹配度的目标语音识别模板；

阈值匹配模块730，用于通过判断所述最高匹配度是否超过所述目标语音识别模板的匹配阈值对所述待识别语音进行识别；

其中，所述目标语音识别模板为上述示例性系统中示出的任一项模板训练中获得的语音识别模板。

在一具体的实施例中，上述系统之中，若所述最高匹配度超过所述目标语音识别模板的匹配阈值，本发明实施例可以进一步包括(未在附图中示出)：

模板更新模块，用于根据所述待识别语音更新所述目标语音识别模板。

以下结合图7与图10对上述系统进行示例性描述。

(1)模板匹配模块720执行模板匹配

(2)阈值匹配模块730执行阈值验证

(3)模板更新模块740执行更新模板

本发明实施例也可以采用其他模板更新方式，本发明实施例仅以上述基于DTW(动态时间规整)的模板更新方式为例，但不限于此。

(4)阈值更新模块750执行阈值更新

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.用于语音识别的模板训练方法，其特征在于，所述方法包括：

通过基于所述训练样本集的迭代训练获取所述预设命令词的语音识别模板；所述训练样本集的迭代训练是基于所述训练样本集对选取的初始中间模板进行更新进行的，所述初始中间模板对应的语音样本的帧数为所述训练样本集中全部语音样本的帧数中位值；以及

根据每一次迭代训练中更新前的中间模板与获取的所述语音样本之间的相似度进行阈值更新，为所述语音识别模板设置匹配阈值。

2.根据权利要求1所述的方法，其特征在于，所述通过基于所述训练样本集的迭代训练获取所述预设命令词的语音识别模板具体包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述训练样本集中依次选取未经训练的第二语音样本执行所述迭代训练以更新所述中间模板具体包括：

4.根据权利要求2所述的方法，其特征在于，所述为所述语音识别模板设置匹配阈值具体包括：

5.根据权利要求2所述的方法，其特征在于，所述第一语音样本的帧数为所述训练样本集中全部语音样本的帧数中位值。

6.根据权利要求2所述的方法，其特征在于，所述迭代训练结束条件为所述训练样本集中的全部语音样本均被训练完毕。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对每一个所述训练样本集独立执行所述模板训练方法。

8.用于语音识别的模板训练系统，其特征在于，所述系统包括：

训练样本集模块，用于采集与预设命令词相对应的多个语音样本以构建训练样本集；

模板训练模块，用于通过基于所述训练样本集的迭代训练获取所述预设命令词的语音识别模板；所述训练样本集的迭代训练是基于所述训练样本集对选取的初始中间模板进行更新进行的，所述初始中间模板对应的语音样本的帧数为所述训练样本集中全部语音样本的帧数中位值；以及

阈值训练模块，根据每一次迭代训练中更新前的中间模板与获取的所述语音样本之间的相似度进行阈值更新，为所述语音识别模板设置匹配阈值。

9.根据权利要求8所述的系统，其特征在于，模板训练模块具体用于：

10.根据权利要求9所述的系统，其特征在于，所述从所述训练样本集中依次选取未经训练的第二语音样本执行所述迭代训练以更新所述中间模板具体包括：

11.根据权利要求9所述的系统，其特征在于，所述阈值训练模块用于：

12.根据权利要求9所述的系统，其特征在于，所述第一语音样本的帧数为所述训练样本集中全部语音样本的帧数中位值。

13.根据权利要求9所述的系统，其特征在于，所述迭代训练结束条件为所述训练样本集中的全部语音样本均被训练完毕。

14.根据权利要求9所述的系统，其特征在于，所述系统还包括：

所述模板训练模块与所述阈值训练模块针对每一个所述训练样本集独立执行权利要求1至7中任一项所述的模板训练方法。

15.语音识别方法，其特征在于，所述方法包括：

接收待识别语音；

其中，所述全部语音识别模板中的每一个语音识别模板为权利要求1至7中任一项训练获得的语音识别模板。

16.根据权利要求15所述的方法，其特征在于，若所述最高匹配度超过所述目标语音识别模板的匹配阈值，所述方法进一步包括：

根据所述待识别语音更新所述目标语音识别模板；以及

17.语音识别系统，其特征在于，所述系统包括：

接收模块，用于接收待识别语音；

18.根据权利要求17所述的系统，其特征在于，所述系统进一步包括：