CN111768761A

CN111768761A - 一种语音识别模型的训练方法和装置

Info

Publication number: CN111768761A
Application number: CN201910193085.2A
Authority: CN
Inventors: 穆玉芝; 王虎
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-10-13
Anticipated expiration: 2039-03-14
Also published as: CN111768761B

Abstract

本发明提供了一种语音识别模型的训练方法和装置，该方法中，按照各建模项在语音样本中的出现频率从高到低排序构成频率表，利用滑动窗口在频率表上滑动，对每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断，将语音识别模型的训练过程分为两个训练阶段，在第一训练阶段以高频建模项为学习目标实施简单的语音识别模型训练，在第二训练阶段以低频建模项为学习目标，对出现频率较低的建模项通过重用相关低频语音数据来增加被学习的次数。本发明能够在参与训练的语音数据不充足或语音数据类别不均衡的情况下，提高训练得到的语音识别模型的语音识别准确率。

Description

一种语音识别模型的训练方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别模型的训练方法和装置。

背景技术

语音识别是当前人工智能研究的热点，其涉及的场景包括智能家居，智能问答以及智能客服等领域。随着人们对便捷生活诉求的增加，语音识别技术正不断地发展和完善。例如LAS[1]和RNN-Transducer[2]等端到端方法均在语音识别领域取得了较高的准确率。另外，针对语音质量较差的语料还引入了课程学习等方法，使得在噪声污染严重的语音中取得较高的识别准确率和泛化性能。

上述方法可以将输入的语音特征直接转化为期望的文本，减少了传统方法中各个模块建模的复杂度，同时在大量数据的支撑下取得很高的准确率和泛化性。然而，上述方法是以充足的样本数据的基础的，如果样本数据不充足或语音数据类别不均衡时，则存在识别准确率低的问题。

发明内容

有鉴于此，本发明的目的在于提供一种语音识别模型的训练方法和装置，能够在参与训练的语音数据不充足或语音数据类别不均衡的情况下，提高训练得到的语音识别模型的语音识别准确率。

为了达到上述目的，本发明提供了如下技术方案：

一种语音识别模型的训练方法，预先基于设定的建模粒度配置建模字典，建模字典中包括该建模粒度下的所有建模项；该方法包括：

获取多条语音数据及每条语音数据的语音文本；

提取每条语音数据的声音特征信息，并根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重，将所有建模项按照出现频率从高到低排序构成频率表；

利用滑动窗口在所述频率表中按照预设步长滑动，并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断；

如果该滑动窗口适用于第一训练阶段，则根据该滑动窗口中所有建模项的权重确定一权重参数，将所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练；

如果该滑动窗口适用于第二训练阶段，则根据该滑动窗口确定低频语音数据及其重用次数，根据低频语音数据的重用次数调整建模字典中所有建模项的权重，根据该滑动窗口中所有建模项调整后的权重确定一权重参数，将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。

一种语音识别模型的训练装置，包括：

配置单元,用于预先基于设定的建模粒度配置建模字典，建模字典中包括该建模粒度下的所有建模项；

获取单元，用于获取多条语音数据及每条语音数据的语音文本；

提取单元，用于提取每条语音数据的声音特征信息；

统计单元，用于根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重，将所有建模项按照出现频率从高到低排序构成频率表；

判断单元，用于利用滑动窗口在所述频率表中按照预设步长滑动，并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断；

第一训练单元，用于如果判断单元判断该滑动窗口适用于第一训练阶段，则根据该滑动窗口中所有建模项的权重确定一权重参数，将所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练；

第二训练单元，用于如果判断单元判断该滑动窗口适用于第二训练阶段，则根据该滑动窗口确定低频语音数据及其重用次数，根据低频语音数据的重用次数调整建模字典中所有建模项的权重，根据该滑动窗口中所有建模项调整后的权重确定一权重参数，将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；所述至少一个处理器执行所述一个或多个计算机程序时实现上述语音识别模型的训练方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述语音识别模型的训练方法。

由上面的技术方案可知，本发明中，将所有建模项按照各建模项在语音样本中的出现频率从高到低排序构成频率表，利用滑动窗口在频率表上滑动，并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断，从而将语音识别模型的训练过程分为两个训练阶段，在第一训练阶段以高频建模项为学习目标实施简单的语音识别模型训练，在第二训练阶段以低频建模项进行相关低频语音数据的重用训练，使得出现频率较低的建模项在训练过程中的被学习次数增加，从而可以提高训练得到的语音识别模型对此类建模项的语音识别准确率。因此，在参与训练的语音数据不充足或语音数据类别不均衡的情况下，应用本发明的技术方案可以提高训练得到的语音识别模型的语音识别准确率。

附图说明

图1是本发明实施例语音识别模型的训练方法流程图；

图2是本发明实施例语音识别模型的第二训练阶段的训练流程图；

图3是本发明实施例语音识别模型的训练装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并据实施例，对本发明的技术方案进行详细说明。

参见图1，图1是本发明实施例语音识别模型的训练方法流程图，如图1所示，该方法包括以下步骤：

步骤101、预先基于设定的建模粒度配置建模字典，建模字典中包括该建模粒度下的所有建模项。

本发明中，在训练语音识别模型时，需要基于设定的建模粒度，例如音素、音节、字等。针对设定的建模粒度可以配置相应的建模字典，例如设定的建模粒度是音节时，需要配置包括有全部音节的建模字典，建模字典中的每个音节称为一个建模项。

步骤102、获取多条语音数据及每条语音数据的语音文本。

这里，获取的多条语音数据作为语音样本，之后对这些语音数据提取得到的声音特征信息将作为语音识别模型的训练样本。

步骤103、提取每条语音数据的声音特征信息，并根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重，将所有建模项按照出现频率从高到低排序构成频率表。

本发明实施例中，提取每条语音数据的FilterBank特征作为该条语音数据的声音特征信息。

本发明实施例中，根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重，可采用以下方式：

对每个建模项，统计语音样本中包含该建模项的语音数据的条数，将统计结果作为该建模项的出现频率，记为class_per_count；

采用公式weight＝n_sample/class_per_count计算每个建模项的权重；其中，weight为该建模项的权重，n_sample为语音样本中语音数据的总条数，class_per_count为该建模项的出现频率。

本发明实施例中，将所有建模项按照出现频率从高到低排序得到一频率表，该频率表将用于后续的语音识别模型训练。

步骤104、利用滑动窗口在所述频率表中按照预设步长滑动，并对滑动到的每个滑动窗口进行判断，如果该滑动窗口适用于第一训练阶段，则执行步骤105，如果该滑动窗口适用于第二训练阶段，则执行步骤106。

本发明实施例中，对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断，包括：

统计语音样本中包含该滑动窗口中至少一个建模项的语音数据的条数，计算统计结果与语音样本中语音数据的总条数的比值，如果比值大于预设比例阈值(例如0.5)，则确定该滑动窗口适用于第一训练阶段，否则，确定该滑动窗口适用于第二训练阶段。

在实际应用中，由于频率表是按照建模项的出现频率从高到低排序的，因此，在滑动窗口从频率表的初始点开始向后滑动时，滑动窗口中的建模项的出现频率会越来越低，这意味着语音样本中包括这些建模项的语音数据越来越少，因此，频率表中必定存在一个滑动窗口，以该滑动窗口为临界，在该滑动窗口之前经过的各滑动窗口均适用于第一训练阶段，该滑动窗口以及在该滑动窗口之后滑动到的各滑动窗口均适用于第二训练阶段。因此，在实际实现中，可以在滑动到每滑动窗口时，对该滑动窗口进行本步骤S104的判断，并根据判断结果执行S105或S106，也可以先找到该作为临界的滑动窗口，然后对滑动到的每个滑动窗口，如果位于该临界滑动窗口之前，则直接确定该滑动窗口适用于第一训练阶段，否则，可以直接确定该滑动窗口适用于第二训练阶段。

本发明实施例中，对于出现频率较高的部分建模项，比较容易识别，因此，在训练语音识别模型时，不需要进行复杂的训练过程即可达到较高的识别率，因此，在利用滑动窗口在频率表中滑动确定适用于第一训练阶段的滑动窗口时，可以采用相同大小的滑动窗口，也可以采用大小不同的滑动窗口，例如，可以先利用较大的滑动窗口在频率表中滑动确定预设个数(例如2个)的适用于第一训练阶段的滑动窗口并基于每个滑动窗口执行步骤S105的训练过程，然后再采用较小的滑动窗口在频率表中滑动确定其它适用于第一训练阶段的滑动窗口并基于根据每个滑动执行步骤S105的训练过程。这里的较大的滑动窗口的尺寸(大小)可以设置为150，较小的滑动窗口的尺寸(大小)可设置为100。

步骤105、根据该滑动窗口中所有建模项的权重确定一权重参数，将语音样本中所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练。

在基于深度神经网络的语音识别模型的训练过程中，一般采用针对给定的目标损失函数的梯度下降算法，上述权重参数是计算目标损失函数的一个可选参数(默认设置为1)，主要用于解决正负样本不均衡问题。例如，在判断给定建模项是否出现在一段语音的语音识别模型中，如果用于训练的语音样本中分别包含存在和不存在给定建模项的样本数量为N1和N2，那么目标损失函数(例如交叉熵函数)针对该建模项的权重参数可设置为N2/N1。

本发明实施例中，权重参数可以是一个标量，也可以是一个向量，下面分别针对权重参数是标量及向量时的权重参数确定方法进行说明：

本步骤105中，当权重参数是一个标量时，根据该滑动窗口中所有建模项的权重确定权重参数时，可以将该滑动窗口中所有建模项的权重的平均值作为确定的权重参数。

本步骤105中，当权重参数是一个向量时，该向量中包括建模字典中每个建模项对应的权重参数，根据该滑动窗口中所有建模项的权重确定一权重参数时可以采用如下方法：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将该向量中该建模项的权重参数设置为该建模项的权重，如果该建模项不属于该滑动窗口，则若该建模项的权重小于预设权重阈值(例如20)，则将该向量中该建模项的权重参数设置为该建模项的权重，若该建模项的权重不小于预设权重阈值，则将该向量中该建模项的权重参数设置为预设权重阈值。上述确定权重参数的过程将较大的权重降低到预设权重阈值，从而避免了较大权重导致语音识别模型训练过程不稳定的现象。

本步骤105中，在训练语音识别模型时，在针对所有语音数据的一轮训练过程中，可以通过将所有语音数据分成多组进行多次迭代训练(分批次训练)。可以预先设定每次迭代中参与训练的语音数据条数(batch_size)，根据语音样本数量(即语音样本中语音数据的总条数)和每次迭代中参与训练的语音数据条数batch_size确定对所有语音样本执行一轮训练所需的迭代次数(即语音样本数量/batch_size)。

确定了对所有语音数据的一轮训练所需的迭代次数之后，就可以根据该迭代次数将语音样本中的所有语音数据划分成多组，然后针对每组语音数据，根据本步骤确定的权重参数和该组语音数据对语音识别模型执行一次迭代训练，具体地，当权重参数是一标量时，可以将该权重参数作为本次迭代过程中所有建模项的权重参数，将该组语音数据的声音特征信息作为训练样本，对语音识别模型进行一次迭代训练。当权重参数是一向量时，将该向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数，将该组语音数据的声音特征信息作为训练样本，对语音识别模型进行一次迭代训练。

步骤106、根据该滑动窗口确定低频语音数据及其重用次数，根据低频语音数据的重用次数调整每个建模项的权重，根据该滑动窗口中每个建模项调整后的权重确定一权重参数，将语音样本中所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。

步骤106按照图2所示的第二训练阶段的训练流程实现，如图2所示，主要包括以下步骤：

步骤1061、确定语音样本的低频语音数据。

本发明中，适用于第二训练阶段的每个滑动窗口中，各建模项的出现频率较低，为了提高对这些建模项的识别准确率，需要在语音样本中增加包含这些建模项的语音数据，具体可以通过在一轮训练中重复使用包含这些建模项的语音数据实现。

为了重复使用包含出现频率较低的语音数据，可以在针对所有语音样本进行一轮训练前，将语音样本中的所有语音数据划分为低频语音数据和高频语音数据，然后对语音样本进行多次迭代训练，每次迭代训练过程中使用部分高频语音数据和低频语音数据，且要保证一轮训练中所有高频语音数据仅参与一次迭代训练，而低频语音数据则可以参与多次迭代训练。

本发明实施例中，根据该滑动窗口确定低频语音数据，具体地，将语音样本中包含该建模集合中的至少一个建模项的各语音数据确定为低频语音数据，语音样本中的其它各语音数据则作为高频语音数据。随着滑动窗口的滑动，滑动窗口中包括的建模项也随之变化，因此，本发明中，高频语音数据和低频语音数据的划分是随着滑动窗口的变化而变化的。

步骤1062、确定低频语音数据的重用次数。

本发明实施例中，预先设置每次迭代中参与训练的语音样本数量为batch_size，其中高频语音数据条数为NH(NH≥1),低频语音数据条数NL(NL＝batch_size-NH≥1)。

在确定了低频语音数据之后，高频语音数据也随之确定，而语音样本中的高频语音数据和低频语音数据被确定之后，可以根据高频语音数据条数和低频语音数据条数确定低频语音数据的重用次数，具体方法如下：

计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数NH的商QH；

计算被划分为低频语音数据的语音数据条数与每次迭代中参与训练的低频语音数据条数NL的商QL；

计算QH与QL的商，将该商值向上取整后得到的值确定为低频语音数据的重用次数。

步骤1063、根据低频语音数据的重用次数调整每个建模项的权重。

在确定了低频语音数据的重用次数之后，由于语音样本中的各低频语音数据需要参与多次迭代(根据重用次数确定)，因此，相当于在语音样本中增加了多份低频语音数据，这使得参与训练的语音样本中，各建模项的出现频率和权重发生变化，因此，需要对各建模项的权重进行调整。

本发明实施例总，根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后，根据低频语音数据的重用次数调整建模字典中所有建模项的权重的方法具体如下：

对建模字典中的每个建模项，统计包含该建模项的语音数据条数，如果该建模项属于该滑动窗口，则将包含该建模项的语音数据条数与低频语音数据的重用次数的乘积作为该建模项的出现频率，否则，将包含该建模项的语音数据条数作为该建模项的出现频率；

采用公式weight’＝(m_count+N×n_count)/class_per_count’计算该建模项调整后的权重；其中，weight’为该建模项调整后的权重，m_count为被划分为高频语音数据的语音数据条数，n_count为被划分为低频语音数据的语音数据条数，N表示低频语音数据的重用次数，class_per_count’为该建模项的出现频率。

步骤1064、根据该滑动窗口中每个建模项调整后的权重确定一权重参数，将语音样本中所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。

本步骤中，根据该滑动窗口中每个建模项调整后的权重确定一权重参数时，需要根据权重是向量或标量采用不同的实现方法，下面分别进行说明：

1)权重参数为一标量

当权重参数是一标量时，根据该滑动窗口中每个建模项调整后的权重确定权重参数的方法与上述步骤S105确定权重参数的方法类似，即均是将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数。

权重参数是标量的情况下，将语音样本中所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的具体实现方法如下：

计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH，将所有高频语音数据平均划分为QH组；

针对每组高频语音数据，选择NL条语音数据加入到该组高频语音数据，将该权重参数作为本次迭代过程中所有建模项的权重参数，将该组语音数据的声音特征信息作为训练样本，对语音识别模型进行一次迭代训练；其中，每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数，且每次迭代中参与训练的NL条低频语音数据互不相同。

2)权重参数为一向量

当权重参数是一向量时，根据该滑动窗口中每个建模项调整后的权重确定权重参数的方法与上述步骤S105确定权重参数的方法类似(仅权重阈值不同，S105中是预设权重阈值，本步骤S106中权重阈值W是根据该滑动窗口中各建模项调整后的权重确定的)，具体为：针对每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，如果该建模项不属于该滑动窗口，则若该建模项调整后的权重小于W，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，若该建模项的权重不小于W，则将所述向量中该建模项的权重参数设置为W；W是该滑动窗口中各建模项调整后的权重中的最大值。

权重参数是向量的情况下，将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的方法如下：

针对每组高频语音数据，选择NL条低频语音数据加入到该组高频语音数据中，将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数，将该组语音数据的声音特征信息作为训练样本，对语音识别模型进行一次迭代训练；其中，每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数，且每次迭代中参与训练的NL条低频语音数据互不相同。

以上对本发明实施例语音识别模型的训练方法进行了详细说明，本发明还提供了一种语音识别模型的训练装置，以下结合图3进行详细说明。

参见图3，图3是本发明实施例语音识别模型的训练装置的结构示意图，如图3所示，该装置包括：

配置单元301,用于预先基于设定的建模粒度配置建模字典，建模字典中包括该建模粒度下的所有建模项；

获取单元302，用于获取多条语音数据及每条语音数据的语音文本；

提取单元303，用于提取每条语音数据的声音特征信息；

统计单元304，用于根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重，将所有建模项按照出现频率从高到低排序构成频率表；

判断单元305，用于利用滑动窗口在所述频率表中按照预设步长滑动，并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断；

第一训练单元306，用于如果判断单元305判断该滑动窗口适用于第一训练阶段，则根据该滑动窗口中所有建模项的权重确定一权重参数，将所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练；

第二训练单元307，用于如果判断单元305判断该滑动窗口确定低频语音数据及其重用次数，根据低频语音数据的重用次数调整建模字典中所有建模项的权重，根据该滑动窗口中所有建模项调整后的权重确定一权重参数，将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。

图3所示装置中，

所述统计单元304，根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重时，用于：

对每个建模项，统计语音样本中包含该建模项的语音数据的条数，将统计结果作为该建模项的出现频率，并采用公式weight＝n_sample/class_per_count计算该建模项的权重；其中，weight为该建模项的权重，n_sample为语音数据总条数，class_per_count为该建模项的出现频率。

图3所示装置中，

所述判断单元305，对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断，包括：

统计包含该滑动窗口中至少一个建模项的语音数据的条数，计算统计结果与语音数据总条数的比值，如果该比值大于预设比例阈值，则确定该滑动窗口适用于第一训练阶段，否则，确定该滑动窗口适用于第二训练阶段。

图3所示装置中，

所述第二训练单元307，根据该滑动窗口确定低频语音数据时，用于：将包含该滑动窗口中的至少一个建模项的各语音数据确定为低频语音数据，其它各语音数据则作为高频语音数据。

图3所示装置中，

所述配置单元301，用于预先设置每次迭代中参与训练的高频语音数据条数和低频语音数据条数；

所述第二训练单元307，确定低频语音数据的重用次数时，用于：

计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH；

计算被划分为低频语音数据的语音数据条数与每次迭代中参与训练的低频语音数据条数的商QL；

图3所示装置中，

所述第二训练单元307，根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后，根据低频语音数据的重用次数调整建模字典中所有建模项的权重时，用于：

对每个建模项，统计包含该建模项的语音数据条数，如果该建模项属于该滑动窗口，则将包含该建模项的语音数据条数与低频语音数据的重用次数的乘积作为该建模项的出现频率，否则，将包含该建模项的语音数据条数作为该建模项的出现频率；

采用公式weight’＝(m_count+N×n_count)/class_per_count’计算该建模项调整后的权重；其中，weight’为该建模项调整后的权重，m_count为被划分为高频语音数据的语音数据条数，N为低频语音数据的重用次数，n_count为被划分为低频语音数据的语音数据条数，class_per_count’为该建模项的出现频率。

图3所示装置中，

所述配置单元301，预先设置每次迭代中参与训练的语音数据条数batch_size；

所述权重参数为一标量；

所述第一训练单元306，根据该滑动窗口中所有建模项的权重确定一权重参数的方法为：将该滑动窗口中所有建模项的权重的平均值确定为该权重参数；

所述第一训练单元306，将所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练时，用于：

根据语音数据的总条数和预先设置的batch_size确定一轮训练所需的迭代次数，根据该迭代次数将所有语音数据平均划分为多组；

针对每组语音数据，将该权重参数作为本次迭代过程中所有建模项的权重参数，将该组语音数据的声音特征信息作为训练样本对语音识别模型进行一次迭代训练。

图3所示装置中，

所述配置单元301，用于预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL；

所述权重参数为一标量；

所述第二训练单元307，根据该滑动窗口中所有建模项调整后的权重确定一权重参数时，用于：将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数；

所述第二训练单元307，将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练时，用于：

图3所示装置中，

所述配置单元301，用于预先设置每次迭代中参与训练的语音数据条数batch_size；

所述权重参数为一向量，该向量中包括建模字典中所有建模项的权重参数；

所述第一训练单元306，根据该滑动窗口中所有建模项的权重确定一权重参数时，用于：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项的权重，如果该建模项不属于该滑动窗口，则若该建模项的权重小于预设权重阈值，则将所述向量中该建模项的权重参数设置为该建模项的权重，若该建模项的权重不小于预设权重阈值，则将所述向量中该建模项的权重参数设置为预设权重阈值；

根据语音数据总条数和预先设置的batch_size确定一轮训练所需的迭代次数，根据该迭代次数将所有语音数据平均划分为多组；

针对每组语音数据，将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数，将该组语音数据的声音特征信息作为训练样本，对语音识别模型进行一次迭代训练。

图3所示装置中，

所述第二训练单元307，根据该滑动窗口中所有建模项调整后的权重确定权重参数时，用于：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，如果该建模项不属于该滑动窗口，则若该建模项调整后的权重小于W，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，若该建模项的权重不小于W，则将所述向量中该建模项的权重参数设置为权重值W；其中，W是该滑动窗口中各建模项调整后的权重中的最大值；

图3所示装置中，所述建模粒度为音素、音节、或字。

本发明实施例还提供了一种电子设备，如图4所示，电子设备400包括：至少一个处理器401，以及与所述至少一个处理器401通过总线相连的存储器402；所述存储器402存储有可被所述至少一个处理器401执行的一个或多个计算机程序；所述至少一个处理器401执行所述一个或多个计算机程序时实现上述图1所示的语音识别模型的训练方法中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述图1所示的语音识别模型的训练方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，预先基于设定的建模粒度配置建模字典，建模字典中包括该建模粒度下的所有建模项；该方法包括：

获取多条语音数据及每条语音数据的语音文本；

2.根据权利要求1所述的方法，其特征在于，

根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重的方法为：

3.根据权利要求1所述的方法，其特征在于，

对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断，包括：

4.根据权利要求3所述的方法，其特征在于，

根据该滑动窗口确定低频语音数据的方法为：将包含该滑动窗口中的至少一个建模项的各语音数据确定为低频语音数据，其它各语音数据则作为高频语音数据。

5.根据权利要求4所述的方法，其特征在于，

预先设置每次迭代中参与训练的高频语音数据条数和低频语音数据条数；

确定低频语音数据的重用次数的方法为：

6.根据权利要求5所述的方法，其特征在于，

根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后，根据低频语音数据的重用次数调整建模字典中所有建模项的权重的方法为：

7.根据权利要求1所述的方法，其特征在于，

预先设置每次迭代中参与训练的语音数据条数batch_size；

所述权重参数为一标量；

根据该滑动窗口中所有建模项的权重确定一权重参数的方法为：将该滑动窗口中所有建模项的权重的平均值确定为该权重参数；

将所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练的方法为：

8.根据权利要求1所述的方法，其特征在于，

预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL；

所述权重参数为一标量；

根据该滑动窗口中所有建模项调整后的权重确定一权重参数的方法为：将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数；

将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的方法为：

9.根据权利要求1所述的方法，其特征在于，

预先设置每次迭代中参与训练的语音数据条数batch_size；

根据该滑动窗口中所有建模项的权重确定一权重参数的方法为：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项的权重，如果该建模项不属于该滑动窗口，则若该建模项的权重小于预设权重阈值，则将所述向量中该建模项的权重参数设置为该建模项的权重，若该建模项的权重不小于预设权重阈值，则将所述向量中该建模项的权重参数设置为预设权重阈值；

10.根据权利要求1所述的方法，其特征在于，

根据该滑动窗口中所有建模项调整后的权重确定权重参数的方法为：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，如果该建模项不属于该滑动窗口，则若该建模项调整后的权重小于W，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，若该建模项的权重不小于W，则将所述向量中该建模项的权重参数设置为权重值W；其中，W是该滑动窗口中各建模项调整后的权重中的最大值；

11.根据权利要求1-10任一权项所述的方法，其特征在于，

所述建模粒度为音素、音节、或字。

12.一种语音识别模型的训练装置，其特征在于，该装置包括：

提取单元，用于提取每条语音数据的声音特征信息；

13.根据权利要求12所述的装置，其特征在于，

所述统计单元，根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重时，用于：

14.根据权利要求12所述的装置，其特征在于，

所述判断单元，对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断，包括：

15.根据权利要求14所述的装置，其特征在于，

所述第二训练单元，根据该滑动窗口确定低频语音数据时，用于：将包含该滑动窗口中的至少一个建模项的各语音数据确定为低频语音数据，其它各语音数据则作为高频语音数据。

16.根据权利要求15所述的装置，其特征在于，

所述配置单元，用于预先设置每次迭代中参与训练的高频语音数据条数和低频语音数据条数；

所述第二训练单元，确定低频语音数据的重用次数时，用于：

17.根据权利要求16所述的装置，其特征在于，

所述第二训练单元，根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后，根据低频语音数据的重用次数调整建模字典中所有建模项的权重时，用于：

18.根据权利要求12所述的装置，其特征在于，

所述配置单元，预先设置每次迭代中参与训练的语音数据条数batch_size；

所述权重参数为一标量；

所述第一训练单元，根据该滑动窗口中所有建模项的权重确定一权重参数的方法为：将该滑动窗口中所有建模项的权重的平均值确定为该权重参数；

所述第一训练单元，将所有语音数据的声音特征信息作为训练样本，执行基于该权重参数的语音识别模型训练时，用于：

19.根据权利要求12所述的装置，其特征在于，

所述配置单元，用于预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL；

所述权重参数为一标量；

所述第二训练单元，根据该滑动窗口中所有建模项调整后的权重确定一权重参数时，用于：将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数；

所述第二训练单元，将所有语音数据的声音特征信息作为训练样本，根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练时，用于：

20.根据权利要求12所述的装置，其特征在于，

所述配置单元，用于预先设置每次迭代中参与训练的语音数据条数batch_size；

所述第一训练单元，根据该滑动窗口中所有建模项的权重确定一权重参数时，用于：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项的权重，如果该建模项不属于该滑动窗口，则若该建模项的权重小于预设权重阈值，则将所述向量中该建模项的权重参数设置为该建模项的权重，若该建模项的权重不小于预设权重阈值，则将所述向量中该建模项的权重参数设置为预设权重阈值；

21.根据权利要求12所述的装置，其特征在于，

所述第二训练单元，根据该滑动窗口中所有建模项调整后的权重确定权重参数时，用于：针对建模字典中的每个建模项，如果该建模项属于该滑动窗口，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，如果该建模项不属于该滑动窗口，则若该建模项调整后的权重小于W，则将所述向量中该建模项的权重参数设置为该建模项调整后的权重，若该建模项的权重不小于W，则将所述向量中该建模项的权重参数设置为权重值W；其中，W是该滑动窗口中各建模项调整后的权重中的最大值；

22.根据权利要求12-21任一权项所述的装置，其特征在于，

所述建模粒度为音素、音节、或字。

23.一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；其特征在于，所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求1至11任一权项所述的方法步骤。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现权利要求1至11中任一权项所述的方法。