CN116137149A

CN116137149A - 语音识别方法、装置和设备

Info

Publication number: CN116137149A
Application number: CN202310411684.3A
Authority: CN
Inventors: 王金桥; 孔清培; 黄文俊; 曾关生; 朱贵波; 谭大伦
Original assignee: Nexwise Intelligence China Ltd
Current assignee: Nexwise Intelligence China Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-05-19
Anticipated expiration: 2043-04-18
Also published as: CN116137149B

Abstract

本发明提供一种语音识别方法、装置和设备，属于语音识别领域，该方法包括：获取待识别的语音数据；将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；语音识别模型，包括：预处理层；预处理层用于获取语音数据的频域特征；编码层；编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；解码层；解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本。本发明的方法实现了语音数据的准确识别。

Description

语音识别方法、装置和设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置和设备。

背景技术

随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。一般来讲,人与机器的语言通信大致分为两种情况:第一种情况就是机器讲话,人听话。这就是“人工嘴巴”即语音的人工合成;第二种情况就是人讲话,机器听话。这即是“人工耳朵”,即语音的人工识别和理解。

相关技术中，语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。因而如此准确地进行语音识别是本领域技术人员亟需解决的技术问题。

发明内容

针对现有技术中的问题，本发明实施例提供一种语音识别方法、装置和设备。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，包括：

获取待识别的语音数据；

将所述语音数据输入训练后的语音识别模型，得到所述语音数据对应的目标文本；

所述语音识别模型，包括：

预处理层；所述预处理层用于获取语音数据的频域特征；

编码层；所述编码层用于对所述语音数据的频域特征进行编码，得到所述语音数据对应的局部特征和上下文时序特征；所述编码层基于卷积神经网络CNN和循环神经网络RNN构建；所述CNN基于门控线性单元GLU构建；

解码层；所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码，得到所述语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定所述语音数据对应的目标文本。

进一步地，所述语音识别模型基于如下方式进行训练：

将语音数据样本输入初始语音识别模型，得到预测文本样本；

根据所述预测文本样本和所述语音数据样本对应的字符序列进行训练，得到训练后的所述语音识别模型。

进一步地，所述解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；

根据语音数据样本生成多个词组；各个词组包括第一字符和第二字符；将多个词组根据第一字符进行分组，将第一字符作为键，将第一字符对应的第二字符所组成的第一序列作为键值，根据键和键值生成词语集合；

根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重，组成权重集合；

将目标文本中第一个字符对应的各个候选字的概率值进行降序排列，将概率值最大的候选字作为目标文本中第一个字符的识别结果；将第一个字符的识别结果作为已识别字符；

步骤a、将已识别字符和词语集合中的键进行匹配，得到已识别字符对应的第一序列;

步骤b、根据目标文本中各个字符的各个候选字的概率值，确定待识别字符所对应的各个候选字的概率值；待识别字符为已识别字符之后紧邻的一个字符；

步骤c、根据待识别字符所对应的各个候选字的概率值，确定待识别字符对应的K个候选字，生成候选字序列；

步骤d、将候选字序列中的K个候选字分别与第一序列中的字符进行比对，根据权重集合更新待识别字符的各个目标候选字的概率值，得到待识别字符的各个目标候选字的目标概率值；

步骤e、根据待识别字符的各个目标候选字的目标概率值，得到待识别字符的识别结果；

将待识别字符的识别结果，作为已识别字符，重复执行步骤a-e，直至已识别字符为目标文本中的最后一个字符。

进一步地，所述根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重，包括：

基于如下公式确定词组的权重：

；

其中，ρ(x)表示词组的权重；ε代表初始权重；µ表示一个比例系数，表示词组出现频率对词组权重的影响程度；β表示权重阈值；x表示词组的出现次数。

进一步地，所述根据权重集合更新待识别字符的各个目标候选字的概率值，得到待识别字符的各个目标候选字的目标概率值，包括：

利用如下公式确定目标候选字的目标概率值：

；

其中，

表示目标候选字的目标概率值；/>

表示权重集合中目标候选词组的权重；/>

表示更新前的目标候选字的概率值。

第二方面，本发明实施例还提供了一种语音识别装置，包括：

获取模块，用于获取待识别的语音数据；

识别模块，用于将所述语音数据输入训练后的语音识别模型，得到所述语音数据对应的目标文本；

所述语音识别模型，包括：

预处理层；所述预处理层用于获取语音数据的频域特征；

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述语音识别方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述语音识别方法。

第五方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述语音识别方法。

本发明实施例提供的语音识别方法、装置和设备，通过获取待识别的语音数据，并通过语音识别模型提取语音数据的局部特征和上下文时序特征，并对语音数据的局部特征和上下文时序特征进行解码，也就可以得到语音数据对应的各个字符的各个候选字的概率，进而根据各个字符的各个候选字的概率，也就可以得到语音数据对应的目标文本。另一方面，本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层，相较于Relu效果要好，使得语音识别模型的收敛速度比其他模型和激活函数更快，从而使得语音识别模型可以更加准确地进行用户语音数据的识别。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音识别方法的流程示意图；

图2是本发明实施例提供的语音识别装置的结构示意图；

图3是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的方法可以应用于语音识别场景中，实现用户语音的准确识别。

本发明实施例的语音识别方法，通过获取待识别的语音数据，并通过语音识别模型提取语音数据的局部特征和上下文时序特征，并对语音数据的局部特征和上下文时序特征进行解码，也就可以得到语音数据对应的各个字符的各个候选字的概率，进而根据各个字符的各个候选字的概率，也就可以得到语音数据对应的目标文本。另一方面，本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层，相较于Relu效果要好，使得语音识别模型的收敛速度比其他模型和激活函数更快，从而使得语音识别模型可以更加准确地进行用户语音数据的识别。

下面结合图1-图3以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明实施例提供的语音识别方法一实施例的流程示意图。如图1所示，本实施例提供的方法，包括：

步骤101、获取待识别的语音数据；

具体地，为了实现对用户语音的准确识别，本发明实施例中首先获取待识别的语音数据；可选地，待识别的语音数据可以是预先存储的语音数据，也可以是实时采集的用户的语音数据；可选地，用户的语音数据可以是中文语音数据，也可以是英文语音数据或其他类型的语音数据，本发明实施例中不做具体限定。

步骤102、将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；

语音识别模型，包括：

预处理层；预处理层用于获取语音数据的频域特征；

编码层；编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；编码层基于卷积神经网络CNN和循环神经网络RNN构建；CNN基于门控线性单元GLU构建；

解码层；解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本。

具体地，在获取待识别的语音数据后，本发明实施例中将获取到的待识别的语音数据输入至语音识别模型，得到语音数据对应的目标文本；也就是语音识别模型用于识别语音数据，并将语音数据转换为对应的包括字符序列的目标文本。

可选地，本发明实施例中的语音识别模型包括预处理层、编码层和解码层；其中，预处理层用于对获取的语音数据进行预处理，包括选择合适的采样率对语音数据进行模数转换，进行声音文件的压缩，并对音频数据进行振幅的归一化处理，进行幅频变换得到信号的频域特征；例如，把连续的语音数据转为离散的数据进行模数转化，处理过程中最关键的参数就是“采样率”，即每秒钟用多少份数据表达声音信号。此外每份数据大小以及声道数，与采样率一起，决定了保存后声音和原声间的差距。

可选地，编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；其中，局部特征包括语音信号的强度、频率、响度和时延；上下文时序特征包括语音信号的振幅信息；可选地，本发明实施例中的编码层基于卷积神经网络（Convolutional Neural Networks, CNN）和循环神经网络（Recurrent Neural Network,RNN）构建；CNN基于门控线性单元(Gated Linear Unit,GLU)构建；可选地，卷积神经网络堆叠的卷积层里面嵌套了两个自定义的卷积ConvBn层，ConvBn层的卷积核大小都为3，步长是2，输出的通道数为32。可选地，循环神经网络包括卷积层组、循环层组还有输出层三大模块，卷积层组由两层二维卷积组成，基于门控线性单元GLU构建，激活函数为GLU。循环层组默认使用5层的单向的GRU层。本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层，相较于矫正线性函数Relu效果要好，使得语音识别模型的收敛速度比其他模型和激活函数更快，从而使得语音识别模型可以更加准确地进行用户语音数据的识别。

可选地，本发明在通过解码器对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率后，基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本；其中，本发明实施例中的基于马尔可夫假设的中文同音字辅助识别算法是本发明中的发明点，具体在后续实施中进行介绍，本发明实施例中基于马尔可夫假设的中文同音字辅助识别算法用于对各个候选字的概率值进行更新，从而基于更新后的概率值可以更加准确的识别语音数据对应的目标文本。

上述实施例的方法，通过获取待识别的语音数据，并通过语音识别模型提取语音数据的局部特征和上下文时序特征，并对语音数据的局部特征和上下文时序特征进行解码，也就可以得到语音数据对应的各个字符的各个候选字的概率，进而根据各个字符的各个候选字的更新后的概率，也就可以得到语音数据对应的目标文本。另一方面，本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层，相较于Relu效果要好，使得语音识别模型的收敛速度比其他模型和激活函数更快，从而使得语音识别模型可以更加准确地进行用户语音数据的识别。

在一实施例中，语音识别模型基于如下方式进行训练：

根据预测文本样本和语音数据样本对应的字符序列进行训练，得到训练后的语音识别模型。

具体地，本发明实施例中的语音识别模型用于识别语音数据，并将语音数据转换为对应的包括字符序列的目标文本。可选地，语音模型训练过程中，是通过将语音数据样本输入初始语音识别模型，得到预测文本样本，进而根据预测文本样本和语音数据样本对应的字符序列进行训练，得到训练后的语音识别模型；其中，预测文本样本为预测出的语音数据对应的字符序列；语音数据样本对应的字符序列为用户语音数据对应的真实的字符序列，也就是将用户语音数据对应的真实的字符序列作为标签信息进行有监督的训练，从而使得训练出的语音识别模型可以准确的输出用户语音数据对应的字符序列。

上述实施例的方法，通过初始语音识别模型预测出语音数据对应的字符序列，并通过用户语音数据对应的真实的字符序列作为标签信息进行有监督的训练，从而使得训练出的语音识别模型可以准确的输出用户语音数据对应的字符序列，提高了语音识别模型的识别准确性。

在一实施例中，解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；

具体地，语音识别模型的解码层对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值后，为了准确的确定目标文本中的各个字符，本发明实施例中，基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本，具体如下：第一方面，根据语音数据样本生成多个词组，各个词组包括第一字符和第二字符，并将多个词组根据第一字符进行分组，得到词语集合；词语集合中键为各个第一字符，词语集合中的键值为第一字符对应的各个第二字符组成的第一序列；第二方面，根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重；根据各个词组和各个词组的权重，得到权重集合。可选地，语音数据样本为真实应用场景、真实语言场景中的语音数据的字符序列。

例如，将语音数据样本中的任意两个字符组成词组，并将词组根据第一字符进行分组，从而得到词语集合。如语音数据样本中的任意两个字符组成词组包括：词组1（字符1，字符2）；词组2（字符1，字符3）；词组3（字符2，字符3），然后将词组根据第一字符进行分组，从而得到词语集合，如词组1和词组2中的第一字符都是字符1，则词语集合中包括的键包括字符1和字符2；其中，键为字符1时，对应的键值为字符2和字符3组成的序列；键为字符2时，对应的键值为字符3。

例如，根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重；根据各个词组和各个词组的权重，得到权重集合，如基于语音数据样本共生成了100个词组，词组1出现了2次；可选地，词组的权重可以通过词组的概率大小进行确定，也可以按照预设的规则进行确定；可选地，词组的概率越大，对应的词组的权重也就越大；如词组2出现了5次，则词组1的概率为0.02，权重为w1,词组2的概率为0.05，权重为w2,从而根据词组1、词组2和词组1的权重、词组2的权重，就可以得到权重集合。

根据语音识别模型的解码层得到语音数据对应的各个候选字的概率值（初始概率）后，将目标文本中第一个字符对应的各个候选字的概率值进行降序排列，将概率值最大的候选字作为目标文本中第一个字符的识别结果，如解码层得到的第一个字符有10个候选字，其中第二个候选字的概率最大，其中第一个字符的第二个候选字为“天”，则将第二个候选字为“天”作为待识别语音数据所识别的第一个字符，也就是将“天”作为待识别语音数据中的已识别字符。

可选地，在确定待识别语音数据的第一个已识别字符的情况下，则执行步骤a-步骤e，确定待识别语音数据对应的第二个字符，具体如下：

例如，已识别字符为“天”，词语集合中键为“天”的情况下，对应的键值为对应的第一序列（妻、气、七、起、期、其），则将已识别字符“天”和词语集合中的键“天”进行匹配，已识别字符“天”与词语集合中的键“天”匹配成功，从而得到已识别字符“天”对应的第一序列（妻、气、七、起、期、其）；

例如，语音识别模型的解码层得到各个字符的各个候选字的概率值后，已识别字符“天”之后紧邻的一个字符即为待识别字符，如语音识别模型的解码层得到第二个字符的候选字分别为气、七、起、晴、听，其对应的概率值分别为30%、30%、20%、10%、10%。

例如，可以将待识别字符对应的候选字的概率值进行降序排序，选取降序排序后前四位的候选字生成候选字序列，即候选字序列为气、七、起、晴，将听从候选字序列中舍弃掉；也就是基于待识别字符所对应的各个候选字的概率值，对候选字进行初步筛查，保留概率较大的候选字，将概率较小的候选字进行排除，从而在保证识别准确性的基础上，提高待识别字符的识别效率，从而也就提高了待识别语音数据的识别效率。

例如，将候选字序列中的候选字气、七、起、晴分别与第一序列中的字符（妻、气、七、起、期、其）进行比对，得到比对一致的候选字将其作为目标候选字，目标候选字为气、七、起，根据权重集合中词组“天气”、“天七”、“天起”的权重，将目标候选字“气、七、起”三个字符的概率值会进行调整，得到目标候选字“气、七、起”的目标概率值。

例如，将待识别字符的各个目标候选字的目标概率进行降序排列，并将降序排列后概率最高的目标候选字作为待识别字符的识别结果。如基于权重集合中词组的概率（权重）X1、X2、X3和待识别字符的各个候选字的概率值30%、30%、20%，确定目标候选字“气”的对应的目标概率最大，则将目标候选字“气”作为待识别字符的识别结果，也就是确定出了待识别语音数据对应的第二个字符为“气”。

可选地，将待识别字符的识别结果，作为已识别字符，重复执行步骤a-h，直至已识别字符为目标文本中的最后一个字符。

例如，将待识别字符的识别结果“气”，也就是将待识别语音数据对应的第二个字符为“气”作为已识别字符，重复执行步骤a-h，从而识别出语音数据对应的第三个字符，依此方法，也就可以准确的识别出语音数据对应的各个字符，从而也就可以准确的得到待识别语音数据对应的字符序列，也就可以得到待识别语音数据对应的目标文本。

上述实施例的方法，在语音识别模型的解码层对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值后，不是简单的根据各个候选字的概率值去进行字符的识别，而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合，从而使得最终识别出的字符更加贴合实际的语言场景，从而也就使得字符的识别效率和识别准确性更高。

在一实施例中，根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重，包括：

基于如下公式确定词组的权重：

；

具体地，本发明实施例中不是简单的根据各个候选字的概率值去进行字符的识别，而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合，从而使得最终识别出的字符更加贴合实际的语言场景，从而也就使得字符的识别效率和识别准确性更高。其中，权重集合是根据各个词组和各个词组的权重得到的；各个词组的权重是根据各个词组在语音数据样本中的概率确定的，可选地，词组的权重可以基于如下公式确定：

；

其中，ρ(x)表示词组的权重；ε代表初始权重；µ表示一个比例系数，表示词组出现频率对词组权重的影响程度；β表示权重阈值；x表示词组的出现次数，从而实现了基于词组在语音数据样本中的概率准确确定词组的权重。通过上述公式确定每个词组的权重有两个优势：一方面可以解决内存溢出的问题，另一方面可以方便交叉熵损失函数的求导计算，加快反向传播的速度。

上述实施例的方法，基于词组在语音数据样本中的概率准确确定词组的权重，从而使得确定出的词组权重可以准确的反映各个词组在实际应用场景中的重要程度和使用频繁程度，进而在进行语音数据的识别过程中不仅仅是简单的根据各个候选字的概率值去进行字符的识别，而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合，从而使得最终识别出的字符更加贴合实际的语言场景，从而也就使得字符的识别效率和识别准确性更高。

在一实施例中，根据权重集合更新待识别字符的各个目标候选字的概率值，得到待识别字符的各个目标候选字的目标概率值，包括：

利用如下公式确定目标候选字的目标概率值：

；/>

其中，

表示目标候选字的目标概率值；/>

表示权重集合中目标候选词组的权重；/>

表示更新前的目标候选字的概率值。

具体地，本发明实施例中不是简单的根据各个候选字的概率值去进行字符的识别，而是结合实际应用场景中的语音数据样本对应的词语集合和权重集合，从而使得最终识别出的字符更加贴合实际的语言场景，从而也就使得字符的识别效率和识别准确性更高。可选地，利用如下公式确定目标候选字的目标概率：

其中，

表示目标候选字的目标概率；/>

表示目标候选词组的权重；/>

表示目标候选字的概率值；可选地，目标候选字是通过将候选字序列中的候选字与第一序列中的字符进行比对得到的，如将候选字序列中的候选字气、七、起、晴分别与第一序列中的字符（妻、气、七、起、期、其）进行比对，得到目标候选字气、七、起；/>

表示目标候选字气、七、起的概率值；目标候选词组是通过待识别字符的目标候选字与已识别字符确定的；如通过已识别字符“天”与待识别的第二字符的目标候选字“气、七、起”得到目标候选词组“天气”、“天七”、“天起”，/>

表示目标候选词组“天气”、“天七”、“天起”的权重，也就是在进行语音数据对应的字符的识别过程中，不仅仅简单的基于解码器输出的各个字符的各个候选字的概率值，而且也参考了实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度，将解码器输出的各个字符的各个候选字的概率值与实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度对应的词组权重的乘积，作为语音数据对应的字符的各个目标候选字的目标概率。可选地，在确定语音数据对应的字符的各个目标候选字的目标概率后，可以将目标概率最大的候选字作为识别出的语音数据的字符。

上述实施例的方法，在在进行语音数据对应的字符的识别过程中，不仅仅简单的基于解码器输出的各个字符的各个候选字的概率值，而且也参考了实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度，将解码器输出的各个字符的各个候选字的概率值与实际的应用场景和实际语言场景中各个词组的重要程度和使用频繁程度对应的词组权重的乘积，作为语音数据对应的字符的各个目标候选字的目标概率，从而使得最终基于目标概率确定出的的语音数据的字符更加的准确合理和有效。

示例性的，本发明实施例中的语音识别方法具体流程如下：

选择合适的采样率对输入的声音进行模数转换，并进行声音文件的压缩；读取音频文件，并对音频数据进行振幅的归一化处理，进行幅频变换得到信号的频域特征。将前面预处理好的声谱信号输入，通过CNN层对相关特征进行提取，并对输入的长度进行缩减；使用门控卷积GLU学习其上下文时序特征；可选地，语音识别模型结构使用已有的深度语音模型结构，分别是卷积层组、循环层组还有输出层三大模块。可选地，本发明实施例中解码层得到语音数据对应的各个字符的各个候选字的概率值的过程与已有的深度语音模型中得到各个字符的各个候选字的概率值的过程一致，但需要说明的是，本发明实施例中采用GLU门控线性单元和GLU激活函数构建编码层，相较于Relu效果要好，使得语音识别模型的收敛速度比其他模型和激活函数更快，从而使得语音识别模型可以更加准确地进行用户语音数据的识别。并且基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，从而基于更新后的各个候选字的概率值可以更加准确的确定语音数据对应的目标文本。

可选地，根据字符的概率分布生成转录文本，包括：

将语音数据样本训练集中所有字符都提取出来，组成候选词组的集合。

提取过程中，以句子为单位，将两个连续的字符构成如（a _i ,a _i+1）的词组，其中i为任意一个大于0的整数，a _i代表一个句子中的第i个字符。每个词组都分为两个位置，即前置位（如上例中的a _i）和后置位（如上例中的a _i+1）。

上述词组的集合，组成了列表M，即所有的（a _i ,a _i+1）∈M。在列表M的词组中，a _i表示一个特定的汉字，不同词组中前置位的字符可能相同。也就是说，假设i、j都为任意一个大于0的整数，在i不等于j的情况下，a _i和a _j可能代表相同的汉字。在不同的句子中，也可能出现前置位相同的汉字。如果存在两个或多个不同词组，且它们前置位的字符相同，那么就将它们合并起来。例如：假设有词组(a _i1,a _i1+1),(a _i2,a _i2+1),(a _i3,a _i3+1)。如果a _i1=a _i2=a _i3，则将这三个词组合并，合并结果表示为{a _i1:L}，其中L=[a _i1+1,a _i2+1,a _i3+1]。像上述例子这样，将M中所有前置位相同的词组合并完后，便可获得词语集合D1。

此外，本实施例中还需要通过计算每个词组出现的频率，建立一个权重集合D2。在D2中，每一个词组(a _i1,a _i+1)会有一个其对应的权重ρ,用于调整神经网络最终的预测结果。每个词组的权重ρ都是通过列表M得到，其计算公式如下：

在上述公式中，ε代表初始权重，即一个词组在整个数据集中只出现一次时，对该词组赋予的权重；µ是一个比例系数，用于调整词组频率对权重影响的大小。此外，为了防止最终权重无休止地增加，设定了最大值β来限制最终权重，即一个词组在整个数据集中出现了一定次数后，其对应的的权重也不再改变。x是相应词组的出现次数。通过上述公式确定每个词组的权重有两个优势：一方面可以解决溢出的问题，另一方面可以方便交叉熵损失函数的求导计算，加快反向传播的速度。

在权重集合D2中，每一个词组(a _i1,a _i+1)被当作一个键（key），其对应的权重ρ被当作这个键的值（value）。因此集合D2可以表示为{(a _i1,a _i1+1):ρ}∈D2。

至此，词语集合D1和权重集合D2完成建立。模型基于词语集合D1和权重集合D2可以逐个字符进行预测。并且，当前正准备预测的字符是基于前一个预测出来的字符。可以根据前一个预测出来的字符来调整当前需要预测的字符。输出序列Y代表整个语音识别的最终结果，也就是最终输出的字符序列。这个序列不是一次性输出，而是逐个输出。也就是说，在输出前一个字符后，把前一个字符当作后一个字符输入的一部分，才能继续识别下一个字符。在输出序列Y中，y _i 代表当前正准备预测的字符，

代表前一个输出的字符。根据

，在集合D1中找出其对应的词组序列L。

另一方面，在经过神经网络模型识别后，对于当前准备预测的字符，会有n个候选字，在这之后会根据每个候选字对应的概率得分p来确定最终的预测字符。这些候选字表示为C，C=((c ₁,p ₁),(c ₂,p ₂),(c _n,p _n))。其中c _i代表候选字符，p _i代表其对应的概率得分。神经网络将概率最高的一项选中，作为第i位的输出结果y _i,并在C中提取概率高的k个样本（表示为Cˆ）:Cˆ=top_k(C);

在上述公式中，top_k(·)是选择其中概率最高的k个候选字的函数。

数值k的选择对MAR的性能和效果有着一定影响。一方面，如果候选字符太少，就不能发挥好的作用。另一方面，当k的值过大时，会削弱编码器和解码器的作用，这可能对实验结果产生负面影响。多次实验表明，k=5时可以达到最佳效果在获取概率分数高的候选字序列Cˆ后，将其中的每一个候选字与上文中获取的序列L一一作对比，判断两个个序列是否有相同的字符。设当前候选字序列Cˆ=[(c ₁,p ₁),(c ₂,p ₂),…,(c _k,p _k)]。以

为关键字，在集合D1中查找到的序列L=[a ₁, a ₂,···,a _l]。若存在c _u=a _j（u<k,j<l），则在集合D2中，以(

,a _j)为关键字，查找其对应的权重ρ。如此循环操作，将Cˆ中所有的字符都放入L中进行查找比对，若成功匹配到相同的字符，则集合D2中寻找对应的ρ。在这一步完成后，Cˆ将根据所有的ρ，对其序列中的每个字概率得分p进行更新：

；/>

；

特别地，如果c _i∈/L，那么将其对应的权重设为ρ _i=1，也就是不改变这个字符的概率得分。在更新完Cˆ中各个候选字的权重后，将选出其中权重最高的候选字作为当前预测的输出y _i。至此，该轮预测结束，

和y _i向前移动一位，进行下一轮预测（每轮预测识别出一个字），如此循环直至这个句子全部识别完成。

下面对本发明提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

图2是本发明提供的语音识别装置的结构示意图。本实施例提供的语音识别装置，包括：

获取模块710，用于获取待识别的语音数据；

识别模块720，用于将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；

语音识别模型，包括：

预处理层；预处理层用于获取语音数据的频域特征；

可选地，语音识别模型基于如下方式进行训练：

可选地，解码层用于

对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；

可选地，所述识别模块720，具体用于：基于如下公式确定词组的权重：

；

可选地，所述识别模块720，具体用于：利用如下公式确定目标候选字的目标概率值：

；

其中，

表示目标候选字的目标概率值；/>

表示权重集合中目标候选词组的权重；/>

表示更新前的目标候选字的概率值。本发明实施例的装置，其用于执行前述任一方法实施例中的方法，其实现原理和技术效果类似，此次不再赘述。

图3示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音识别方法，该方法包括：获取待识别的语音数据；将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；语音识别模型，包括：预处理层；预处理层用于获取语音数据的频域特征；编码层；编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；编码层基于卷积神经网络CNN和循环神经网络RNN构建；CNN基于门控线性单元GLU构建；解码层；解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音识别方法，该方法包括：获取待识别的语音数据；将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；语音识别模型，包括：预处理层；预处理层用于获取语音数据的频域特征；编码层；编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；编码层基于卷积神经网络CNN和循环神经网络RNN构建；CNN基于门控线性单元GLU构建；解码层；解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音识别方法，该方法包括：获取待识别的语音数据；将语音数据输入训练后的语音识别模型，得到语音数据对应的目标文本；语音识别模型，包括：预处理层；预处理层用于获取语音数据的频域特征；编码层；编码层用于对语音数据的频域特征进行编码，得到语音数据对应的局部特征和上下文时序特征；编码层基于卷积神经网络CNN和循环神经网络RNN构建；CNN基于门控线性单元GLU构建；解码层；解码层用于对语音数据对应的局部特征和上下文时序特征进行解码，得到语音数据对应的各个字符的各个候选字的概率值；基于马尔可夫假设的中文同音字辅助识别算法，更新各个候选字的概率值，确定语音数据对应的目标文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的语音数据；

所述语音识别模型，包括：

预处理层；所述预处理层用于获取语音数据的频域特征；

2.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别模型基于如下方式进行训练：

3.根据权利要求2所述的语音识别方法，其特征在于，所述解码层用于对所述语音数据对应的局部特征和上下文时序特征进行解码，得到所述语音数据对应的各个字符的各个候选字的概率值；

根据语音数据样本生成多个词组；各个所述词组包括第一字符和第二字符；将多个所述词组根据第一字符进行分组，将第一字符作为键，将第一字符对应的第二字符所组成的第一序列作为键值，根据所述键和键值生成词语集合；

将目标文本中第一个字符对应的各个候选字的概率值进行降序排列，将概率值最大的候选字作为目标文本中第一个字符的识别结果；将所述第一个字符的识别结果作为已识别字符；

步骤a、将已识别字符和所述词语集合中的键进行匹配，得到所述已识别字符对应的第一序列;

步骤b、根据目标文本中各个字符的各个候选字的概率值，确定待识别字符所对应的各个候选字的概率值；所述待识别字符为所述已识别字符之后紧邻的一个字符；

步骤c、根据所述待识别字符所对应的各个候选字的概率值，确定所述待识别字符对应的K个候选字，生成候选字序列；

步骤d、将所述候选字序列中的K个候选字分别与所述第一序列中的字符进行比对，根据权重集合更新待识别字符的各个目标候选字的概率值，得到待识别字符的各个目标候选字的目标概率值；

步骤e、根据待识别字符的各个目标候选字的目标概率值，得到所述待识别字符的识别结果；

将所述待识别字符的识别结果，作为已识别字符，重复执行步骤a-e，直至所述已识别字符为所述目标文本中的最后一个字符。

4.根据权利要求3所述的语音识别方法，其特征在于，所述根据各个词组和各个词组在语音数据样本中的概率，得到各个词组的权重，包括：

基于如下公式确定词组的权重：

；

5.根据权利要求4所述的语音识别方法，其特征在于，所述根据权重集合更新待识别字符的各个目标候选字的概率值，得到待识别字符的各个目标候选字的目标概率值，包括：

利用如下公式确定目标候选字的目标概率值：

；

其中，

表示目标候选字的目标概率值；/>

表示权重集合中目标候选词组的权重；/>

表示更新前的目标候选字的概率值。

6.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别的语音数据；

所述语音识别模型，包括：

预处理层；所述预处理层用于获取语音数据的频域特征；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的语音识别方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述的语音识别方法。