CN115910046A

CN115910046A - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN115910046A
Application number: CN202211353975.3A
Authority: CN
Inventors: 王磊; 马志强; 李永超; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-04-04

Abstract

本申请提出一种语音识别方法、装置、电子设备及存储介质，方法包括：对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果；对注意力编码结果进行解码，得到语音识别结果。采用本申请的技术方案，可以从所有语音编码特征中提取需要进行识别的目标编码特征序列，以便对该目标编码特征序列进行注意力编码与解码，无需等一句话说完之后再对全部的语音编码特征序列进行注意力编码与解码，实现了对语音的流式识别。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音识别技术的任务是实现人与机器进行语音交流，是利用智能算法将人类的语音转换为文本或控制信号的过程。现今，自动语音识别技术已经被广泛地应用在各个领域中，也给人类社会带来了极大便利，比如车载语音系统、智能语音客服等。

近年来，随着端到端语音识别技术的提出与发展，在语音识别任务中，端到端建模方法具有声学和语言联合建模的优点，已经超越了声学和语言分开建模的传统语音识别。但是，现有的端到端语音识别技术通常是对离线语音进行识别，或者是在用户说完一句话之后才能对语音进行识别，并不能进行实时语音识别，无法实现对语音的流式识别。

发明内容

基于上述现有技术的缺陷和不足，本申请提出一种语音识别方法、装置、电子设备及存储介质，能够实现对语音的流式识别。

本申请第一方面提供了一种语音识别方法，包括：

对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；

从所述语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对所述目标编码特征序列进行注意力编码，得到注意力编码结果；

对所述注意力编码结果进行解码，得到语音识别结果。

可选的，从所述语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对所述目标编码特征序列进行注意力编码，得到注意力编码结果，包括：

将所述语音编码特征序列输入预先训练的注意力编码网络，以使所述注意力编码网络从所述语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对所述目标编码特征序列进行注意力编码，得到注意力编码结果；

所述注意力编码网络，基于样本语音编码特征序列以及所述样本语音编码特征序列对应的注意力标签，对样本语音编码特征序列进行注意力编码训练得到，其中，所述样本语音编码特征序列对应的注意力标签，包括所述样本语音编码特征序列对应的识别文本中的各个文本字符各自对应的样本语音编码特征序列区间。

可选的，所述注意力编码网络的训练过程包括：

根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与所述词标签中每个词对应的待识别编码特征序列；所述样本语音编码特征所携带的词标签为所述样本语音编码特征对应的语音帧相匹配的文本；

根据所述词标签，以及与所述词标签中每个词对应的待识别编码特征序列，构建携带注意力标签的样本编码特征矩阵；

将所述样本编码特征矩阵输入到所述注意力编码网络中，得到样本注意力编码结果；

利用样本注意力编码结果解码后的识别结果与样本编码特征矩阵对应的注意力标签之间的损失函数，对所述注意力编码网络的参数进行调整。

可选的，根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与所述词标签中每个词对应的待识别编码特征序列，包括：

根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与所述词标签中每个词对应的样本语音编码特征；

对应所述词标签中的每个词，从样本语音编码特征序列中，提取第一样本语音编码特征序列，作为该词对应的待识别编码特征序列，所述第一样本语音编码特征序列至少包含该词对应的样本语音编码特征中的部分样本语音编码特征。

可选的，所述第一样本语音编码特征序列为至少包含该词对应的样本语音编码特征中的部分样本语音编码特征的设定长度的样本语音编码特征序列；

或者，

所述第一样本语音编码特征序列为该词对应的样本语音编码特征，以及该词对应的样本语音编码特征之前的样本语音编码特征组成的样本语音编码特征序列。

可选的，根据所述待识别编码特征序列，构建携带注意力标签的样本编码特征矩阵，包括：

将所述样本语音编码特征序列中所述待识别编码特征序列以外的样本语音编码特征进行掩膜操作，得到所述待识别编码特征序列对应的样本编码特征矩阵，并将所述待识别编码特征序列在所述样本语音编码特征序列中的序列区间以及所述序列区间对应的所有词标签作为所述样本编码特征矩阵对应的注意力标签。

可选的，所述对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列，包括：

将待识别语音对应的语音特征序列输入到预先训练的语音编码器中，得到所述待识别语音对应的语音编码特征序列；

所述语音编码器基于样本语音特征序列，以及所述样本语音特征序列中的各个语音特征对应的文本标注，对所述样本语音特征序列进行基于注意力机制的编码训练得到。

可选的，所述语音编码器的训练过程包括：

提取预先采集的样本语音数据中各个语音帧的语音特征，得到样本语音特征序列，并根据所述样本语音数据对应的文本标注，确定所述样本语音特征序列对应的文本标注序列；

将所述样本语音特征序列输入到所述语音编码器中，利用所述语音编码器对所述样本语音特征序列中的各个语音特征进行基于注意力机制的编码处理，得到样本语音编码特征序列；

识别所述样本语音编码特征序列中的各个语音编码特征对应的词标签；所述语音编码特征对应的词标签为所述语音编码特征对应的语音帧相匹配的文本；

基于所述样本语音编码特征序列对应的词标签与所述文本标注序列之间的损失函数，对所述语音编码器的参数进行调整。

可选的，识别所述样本语音编码特征序列中的各个语音编码特征对应的词标签，包括：

利用声学模型对所述样本语音编码特征序列中的所有语音编码特征进行强制对齐，得到各个语音编码特征对应的音素标签；所述语音编码特征对应的音素标签为所述语音编码特征对应的语音帧相匹配的音素；

将所述语音编码特征对应的音素标签映射为词标签。

本申请第二方面提供了一种语音识别装置，包括：

语音编码模块，用于对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；

注意力编码模块，用于从所述语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对所述目标编码特征序列进行注意力编码，得到注意力编码结果；

解码模块，用于对所述注意力编码结果进行解码，得到语音识别结果。

本申请第三方面提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述语音识别方法。

本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述语音识别方法。

本申请提出的语音识别方法，对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果；对注意力编码结果进行解码，得到语音识别结果。采用本申请的技术方案，可以从所有语音编码特征中提取需要进行识别的目标编码特征序列，以便对该目标编码特征序列进行注意力编码与解码，无需等一句话说完之后再对全部的语音编码特征序列进行注意力编码与解码，实现了对语音的流式识别。

并且，本申请提出的基于注意力机制的语音识别方法，能够从所有语音编码特征中确定对应当前待确定识别结果的编码特征序列，并对该编码特征序列进行基于注意力机制的编码，也就是能够准确把握每一识别步的注意力范围，从而不仅能够适应流式识别的快速识别需求，还能够借助合理的注意力范围，保证识别准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法的流程示意图；

图2是本申请实施例提供的训练注意力编码网络的处理流程示意图；

图3是本申请实施例提供的一种待识别编码特征序列的提取示意图；

图4是本申请实施例提供的另一种待识别编码特征序列的提取示意图；

图5是本申请实施例提供的训练语音编码器的处理流程示意图；

图6是本申请实施例提供的一种语音识别装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于语音识别的应用场景，尤其适用于端到端的语音识别。采用本申请实施例技术方案，能够实现语音的流式识别。

语音识别是指通过计算机把语音信号转换为对应的文本的过程，是实现人与机器交互的主要途径之一。传统的语音识别技术分别建立声学模型和语言模型，声学模型负责将音频序列转化为音素序列，常见的音素比如汉语拼音、英文音标等，语言模型则负责将这些音素序列转化成文字序列。但是声学模型与语言模型之间需要利用发音词典确定声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。

随着端到端语音识别技术的提出与发展，在语音识别任务中，端到端建模方法具有声学和语言联合建模的优点，无需利用发音词典，可以直接实现语音特征序列到文字序列的转换。但是，现有的端到端语音识别技术通常是对离线语音进行识别，或者在用户说完一句话之后才能对语音进行识别，并不能进行实时语音识别，无法实现对语音的流式识别。

鉴于上述的现有技术的不足以及现实存在的端到端语音识别技术并不能进行实时语音识别，无法实现对语音的流式识别的问题，本申请发明人经过研究和试验，提出一种语音识别方法，该方法能够实现对语音的流式识别。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种语音识别方法，参见图1所示，该方法包括：

S101、对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列。

具体的，对于语音采集设备采集到的待识别语音，首先需要对待识别语音中的各个语音帧进行语音特征提取，从而得到各个语音帧对应的语音特征，待识别语音中所有语音帧对应的语音特征组成的语音特征序列为该待识别语音对应的语音特征序列。其中，待识别语音可以为一段离线语音，那么语音特征序列则为该离线语音中所有语音帧的语音特征，本实施例可以对离线语音进行非流式识别；待识别语音还可以为采集的实时语音，该实时语音可以包括当前采集到的一帧或几帧语音帧以及之前采集的、与当前采集到的语音帧连续的一段语音，本实施例可以对实时语音进行实时语音识别，从而实现语音的流式识别。本实施例中提取出的各个语音帧的语音特征可以为PLP、MFCC、FilterBank等语音特征。

本实施例提取出待识别语音对应的语音特征序列之后，对该语音特征序列中的各个语音特征进行编码，得到各个语音特征对应的语音编码特征，从而得到由编码后的语音编码特征组成的语音编码特征序列。本实施例中，可以利用预先训练的语音编码器对语音特征序列进行编码操作，也可以利用现有的线性预测声码器、共振峰声码器或者余弦声码器等对语音特征训练进行编码操作。其中，预先训练的语音编码器是基于预先采集的样本语音对应的样本语音特征序列，该样本语音对应的文本标注序列，对该样本语音特征序列进行基于注意力机制的编码训练得到的。样本语音对应的文本标注序列中包括样本语音对应的样本语音特征序列中的各个语音特征对应的文本标注。例如，样本语音对应的样本语音特征序列可以表示为：

X＝{x₁，...，x_j，...，x_J}

样本语音对应的文本标注序列可以表示为：

Y＝{y₀，…，y_i，...，y_I}

利用语音编码器对样本语音特征序列中的各个样本语音特征进行编码后得到的样本语音编码特征序列可以表示为：

H＝{h₁，...，h_j，...，h_J}

其中，x_j表示样本语音特征序列X中第j帧样本语音帧对应的样本语音特征，J为样本语音中样本语音帧的总帧数，y_i表示文本标注序列Y中第i个字符，I+1为样本语音对应的文本标注的总字符数，y₀为样本语音对应的语句的开始符“<s>”，y_I为样本语音对应的语句的结束符“</s>”，h_j表示样本语音编码特征序列H中第j帧样本语音帧对应的样本语音特征编码后的样本语音编码特征。

本实施例可以将提取得到的待识别语音的语音特征序列输入到预先训练的语音编码器中，利用该语音编码器对语音特征序列中的各个语音特征进行编码，从而得到语音编码特征序列。

S102、从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果。

具体的，由于现有技术中利用注意力机制对编码特征序列进行解码时，注意力机制为全局注意力机制，因此，需要对语音编码器针对一整句语音的所有输出进行加权求和，这就意味着需要等用户说完整句话之后才能开始解码，无法进行语音的实时识别，即无法实现语音的流式识别。

因此，本实施例首先需要从语音编码特征序列的所有语音编码特征中提取与当前待确定识别结果相对应的目标编码特征序列，其中，当前待确定识别结果对应的目标编码特征序列为可以利用注意力机制进行注意力编码并识别结果的编码特征序列。例如，用户发出了“早上”以及“好”的一部分语音之后，由于“好”字的语音并未完全发出，则将“早上”作为当前待确定识别结果，而对“早上”对应的所有语音帧的语音特征编码后的语音编码特征组成的语音编码特征序列则为目标编码特征序列。

本实施例在从语音编码特征序列中提取出目标编码特征序列后，针对目标编码特征序列进行注意力编码，此时可以对目标编码特征序列采用全局注意力机制进行注意力编码，从而得到注意力编码结果。

本实施例还可以直接训练注意力编码网络，然后将语音编码特征序列输入到预先训练的注意力编码网络，注意力编码网络从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果。其中，注意力编码网络是基于预先采集的样本语音的样本语音特征序列编码后的样本语音编码特征序列，以及该样本语音编码特征序列对应的注意力标签，对该样本语音编码特征序列进行注意力编码训练得到的。样本语音编码特征序列对应的注意力标签包括该样本语音编码特征序列对应的识别文本中的各个文本字符对应的词标签，以及各个文本字符各自对应的样本语音编码特征序列区间。例如，对于样本语音“早上好”，样本语音编码特征序列包括：“早”对应的样本语音帧的样本语音特征编码后的样本语音编码特征、“上”对应的样本语音帧的样本语音特征编码后的样本语音编码特征和“好”对应的样本语音帧的样本语音特征编码后的样本语音编码特征。样本语音编码特征序列对应的注意力标签包括：“早”对应的样本语音编码特征在样本语音编码特征序列中的序列区间以及“早”对应的词标签、“上”对应的样本语音编码特征在样本语音编码特征序列中的序列区间以及“上”对应的词标签、“好”对应的样本语音编码特征在样本语音编码特征序列中的序列区间以及“好”对应的词标签。

S103、对注意力编码结果进行解码，得到语音识别结果。

具体的，本实施例得到注意力编码结果后，需要对该注意力编码结果进行解码，从而得到待识别语音对应的语音识别结果。其中，对目标编码特征序列进行注意力编码(即进行soft attention计算)以及对注意力编码结果进行解码的计算步骤如下所述：

e_i，j＝a(s_i-1，h_j)

s_i＝f(s_i-1，y_i-1，c_i)

y_i＝g(s_i，c_i)

其中，e_i，j表示注意力机制的打分结果，相当于一个相关性计算，计算e_i，j的函数a()是一种计算余弦距离的函数，其反映了上一时刻(i-1时刻)解码网络的隐层状态s_i-1和目标编码特征序列中的语音编码特征h_j之间的相关性，α_i，j表示注意力权重，T_i表示当前时刻(i时刻)的目标编码特征序列中最后一个语音编码特征在语音编码特征序列中的位置，c_i表示注意力编码结果，s_i表示解码网络当前时刻(i时刻)的隐状态，计算s_i的函数f()为tanh函数，y_i为解码网络当前时刻(i时刻)的输出，表示当前时刻(i时刻)字符的后验概率分布，计算y_i的函数g()为softmax函数。其中，后验概率维度是词典大小，后验概率反映了当前帧解码出词典中每个词的一种可能性。

解码网络输出了当前时刻的目标编码特征序列对应的字符的后验概率分布数据后，需要对解码网络输出的后验概率分布数据进行搜索解码，从而得到最终的语音识别结果。其中，本实施例可以采用的搜索解码方式包括greedy search解码或者Beam Search解码等方式。

本实施例中，对于解码网络也可以预先训练，以保证解码网络输出数据的准确度，利用携带文本标签的样本编码特征序列进行soft attention计算得到样本注意力编码结果后，将样本注意力编码结果输入到解码网络中，得到解码网络输出的样本后验概率分布数据，然后通过对解码网络输出的样本后验概率分布数据与样本编码特征序列携带的文本标签进行attention loss的计算，根据attention loss的计算结果反传梯度，对解码网络进行参数更新。

通过上述介绍可见，本申请实施例提出的语音识别方法，对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果；对注意力编码结果进行解码，得到语音识别结果。采用本实施例的技术方案，可以从所有语音编码特征中提取需要进行识别的目标编码特征序列，以便对该目标编码特征序列进行注意力编码与解码，无需等一句话说完之后再对全部的语音编码特征序列进行注意力编码与解码，实现了对语音的流式识别。

作为一种可选的实施方式，参见图2所示，本申请另一实施例公开了，注意力编码网络的训练过程包括如下步骤：

S201、根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与词标签中每个词对应的待识别编码特征序列。

具体的，为了对注意力编码网络进行训练，首先需要获取样本语音编码特征序列，其中，样本语音编码特征序列可以对预先采集的样本语音数据进行语音特征提取与语音特征编码得到，具体方式为：首先，对预先采集的样本语音数据中的各个样本语音帧进行语音特征提取，得到各个样本语音帧对应的样本语音特征；然后，对各个样本语音帧对应的样本语音特征进行编码，得到各个样本语音帧对应的样本语音编码特征，从而组合成样本语音编码特征序列。对语音特征进行编码的方式在上述实施例中已提供，本实施例不再具体阐述。

获取到样本语音编码特征序列后，需要对样本语音编码特征序列中的各个样本语音编码特征进行强制对齐，确定各个样本语音编码特征对应的词标签，即，将相同词标签的样本语音编码特征对齐。其中，强制对齐可以采用声学模型中的viterbi算法进行强制对齐，其中声学模型可以采用DNN-HMM模型。当样本语音为英文时，词标签中的每个词为英文单词，当样本语音为中文时，词标签中的每个词为中文字符。

本实施例需要从所有样本语音编码特征中确定出与词标签中每个词对应的待识别编码特征序列。例如，样本语音数据为“早上好”的语音，样本语音编码特征序列对应的词标签中包含“早”对应的词标签、“上”对应的词标签和“好”对应的词标签，那么从所有样本语音编码特征中确定出与词标签中每个词对应的待识别编码特征序列，即为从所有样本语音编码特征中确定出“早”对应的词标签所对应的待识别编码特征序列、“上”对应的词标签所对应的待识别编码特征序列，以及“好”对应的词标签所对应的待识别编码特征序列。

进一步地，具体步骤如下所述：

第一，根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与词标签中每个词对应的样本语音编码特征。

通过强制对齐将样本语音编码特征序列中的各个样本语音编码特征按照词标签中各个词进行强制对齐，从而能够确定词标签中每个词对应的样本语音编码特征。例如，对于词标签中的“早”、“上”、“好”三个词，从样本语音编码特征序列中所有的样本语音编码特征中提取出“早”对应的样本语音编码特征、“上”对应的样本语音编码特征，以及“好”对应的样本语音编码特征。如图3和图4所示，每一行均表示样本语音数据“早上好”对应的样本语音编码特征序列，每个圆形标识一个样本语音编码特征，图3和图4两个图的每个图中的第一行的实线矩形框内的样本语音编码特征为词标签中“早”这个词对应的样本语音编码特征，第二行的实线矩形框内的样本语音编码特征为词标签中“上”这个词对应的样本语音编码特征，第三行的实线矩形框内的样本语音编码特征为词标签中“好”这个词对应的样本语音编码特征。

第二，对应所述词标签中的每个词，从样本语音编码特征序列中，提取第一样本语音编码特征序列，作为该词对应的待识别编码特征序列。

本实施例可以根据词标签中每个词对应的样本语音编码特征，从样本语音编码特征序列中提取出第一样本语音编码特征序列作为每个词对应的待识别编码特征序列。其中，词标签中的词对应的第一样本语音编码特征序列中至少包含该词对应的样本语音编码特征中的部分样本语音编码特征。对于从样本语音编码特征序列中提取词标签中每个词对应的待识别编码特征序列，本实施例提供了两种方式：

第一种方式，词标签中的词对应的第一样本语音编码特征序列可以为至少包含该词对应的样本语音编码特征中的部分样本语音编码特征的设定长度的样本语音编码特征序列。

如果样本语音编码特征序列中该词对应的所有样本语音编码特征组成的序列的长度小于设定长度，则可以从该词对应的样本语音编码特征以及与该词对应的样本语音编码特征相邻的样本语音编码特征中提取设定长度的样本语音编码特征作为第一样本语音编码特征序列，此时该第一样本语音编码特征序列中包括该词对应的所有样本语音编码特征以及与其相邻的样本语音编码特征，如图3中，设定长度为3，但“早”对应的样本语音编码特征仅有2个，此时将“早”对应的样本语音编码特征以及与该样本语音编码特征相邻的一个样本语音编码特征提取出来作为“早”对应的第一样本语音编码特征序列，即第一行的虚线矩形框中的样本语音编码特征序列为“早”对应的待识别编码特征序列。

如果样本语音编码特征序列中该词对应的所有样本语音编码特征组成的序列的长度大于设定长度，当该词对应的所有样本语音编码特征的数量为奇数时，则确定该词对应的所有样本语音编码特征的中心点的样本语音编码特征，将中心点的样本语音编码特征以及中心点的样本语音编码特征左右各取(w-1)/2数量的样本语音编码特征作为该词对应的第一样本语音编码特征序列，其中w为设定长度。如图3中，“上”对应的样本语音编码特征有5个，组成的序列的长度大于设定长度，将中心点的样本语音编码特征和该中心点的样本语音编码特征左右各取一个样本语音编码特征作为“上”对应的第一样本语音编码特征序列，即第二行的虚线矩形框中的样本语音编码特征序列为“上”对应的待识别编码特征序列。当该词对应的所有样本语音编码特征的数量为偶数时，将该词对应的所有样本语音编码特征中心的两个样本语音编码特征中的右边那个作为中心点的样本语音编码特征，然后按照上述方式将中心点的样本语音编码特征以及中心点的样本语音编码特征左右各取(w-1)/2数量的样本语音编码特征作为该词对应的第一样本语音编码特征序列，即待识别编码特征序列。

如果样本语音编码特征序列中该词对应的所有样本语音编码特征组成的序列的长度等于设定长度，则直接将该词对应的所有样本语音编码特征组成的序列作为第一样本语音编码特征序列，即待识别编码特征序列。如图3中，“好”对应的样本语音编码特征有3个，组成的序列的长度与设定长度相同，直接将“好”对应的样本语音编码特征组成的序列作为“好”对应的第一样本语音编码特征序列，即第三行的虚线矩形框中的样本语音编码特征序列为“好”对应的待识别编码特征序列。

第二种方式，词标签中的词对应的第一样本语音编码特征序列可以为该词对应的样本语音编码特征，以及该词对应的样本语音编码特征之前的样本语音编码特征组成的样本语音编码特征序列，即该词对应的样本语音编码特征中的最后一个样本语音编码特征以及其之前的样本语音编码特征组成的样本语音编码特征序列。

如图4所示，第一行的虚线矩形框中的样本语音编码特征序列为“早”对应的第一样本语音编码特征序列，即“早”对应的待识别编码特征序列。第二行的虚线矩形框中的样本语音编码特征序列为“上”对应的第一样本语音编码特征序列，即“上”对应的待识别编码特征序列。第三行的虚线矩形框中的样本语音编码特征序列为“好”对应的第一样本语音编码特征序列，即“好”对应的待识别编码特征序列。

S202、根据词标签，以及与词标签中每个词对应的待识别编码特征序列，构建携带注意力标签的样本编码特征矩阵。

根据样本语音编码特征序列中的词标签，以及上述步骤确定的与词标签中每个词对应的待识别编码特征序列，构建携带注意力标签的样本编码特征矩阵。具体的，针对词标签中的词，本实施例可以将样本语音编码特征序列中该词对应的待识别编码特征序列以外的样本语音编码特征进行掩膜操作，从而得到该词对应的掩膜序列，将词标签中所有词对应的掩膜序列组成为掩膜矩阵，将该掩膜矩阵作为样本编码特征矩阵。如图3和图4，将图中每一行的待识别编码特征序列以外的样本语音编码特征(即并未在虚线矩形框内的样本语音编码特征)进行掩膜操作后，得到的矩阵为掩膜矩阵。其中，对图3进行掩膜操作后得到的矩阵为上述步骤中第一种方式下得到的样本编码特征矩阵，对图4进行掩膜操作后得到的矩阵为上述步骤中第二种方式下得到的样本编码特征矩阵。

本实施例还将每个词对应的待识别编码特征序列在样本语音编码特征序列中的序列区间以及各序列区间对应的词标签作为该样本编码特征矩阵对应的注意力标签。

S203、将样本编码特征矩阵输入到注意力编码网络中，得到样本注意力编码结果。

具体的，本实施例需要将样本编码特征矩阵输入到注意力编码网络中，以使注意力编码网络进行soft attention计算，得到样本注意力编码结果。soft attention计算步骤在上述实施例中已提供，本实施例不再具体阐述。

S204、利用样本注意力编码结果解码后的识别结果与样本编码特征矩阵对应的注意力标签之间的损失函数，对注意力编码网络的参数进行调整。

将样本注意力编码结果输入到解码网络中，对解码网络输出的样本后验概率分布数据进行搜索解码，得到解码后的识别结果，计算该识别结果与样本编码特征矩阵对应的注意力标签之间的损失函数，利用该损失函数对注意力编码网络参数进行调整，还可以利用该损失函数对解码网络的参数进行调整。本实施例还可以直接计算解码网络输出的样本后验概率分布数据与注意力标签之间的attention loss，利用该attention loss对注意力编码网络的参数与解码网络的参数进行调整。

由于输入到注意力编码网络中的样本编码特征矩阵中，对待识别编码特征序列以外的样本语音编码特征进行了掩膜操作，因此，可以训练注意力编码网络在进行softattention计算时，确定进行soft attention计算的语音编码特征更准确，也就是提取的目标编码特征序列更准确，从而提高注意力编码的准确度。

作为一种可选的实施方式，参见图5所示，本申请另一实施例公开了，语音编码器的训练过程包括如下步骤：

S501、提取预先采集的样本语音数据中各个语音帧的语音特征，得到样本语音特征序列，并根据样本语音数据对应的文本标注，确定样本语音特征序列对应的文本标注序列。

具体的，为了对语音编码器进行训练，本实施例首先需要采集样本语音数据，然后对样本语音数据中的各个语音帧进行语音特征提取，从而得到各个语音帧对应的语音特征，组合得到样本语音数据对应的样本语音特征序列，如果上述实施例中的样本语音特征序列X。预先采集的样本语音数据携带有该样本语音对应的文本标注，将该文本标注中的各个字符组成样本语音特征序列对应的文本标注序列，如上述实施例中的文本标注序列Y。

S502、将样本语音特征序列输入到语音编码器中，利用语音编码器对样本语音特征序列中的各个语音特征进行基于注意力机制的编码处理，得到样本语音编码特征序列。

具体的，本实施例将样本语音特征序列输入到语音编码器中，语音编码器可以对样本语音特征序列中的各个语音特征进行基于注意力机制的编码处理，从而得到各个语音特征编码后的样本语音编码特征，所有样本语音编码特征组合得到样本语音编码特征序列，如上述实施例中的样本语音编码特征序列H。

S503、识别样本语音编码特征序列中的各个语音编码特征对应的词标签。

本实施例需要识别出样本语音编码特征序列中各个语音编码特征对应的词标签。具体的，本实施例可以采用声学模型，对样本语音编码特征序列中的所有语音编码特征进行强制对齐，得到各个语音编码特征对应的音素标签，其中，语音编码特征对应的音素标签为该语音编码特征对应的语音帧相匹配的音素。声学模型可以采用DNN-HMM模型，该模型可以利用viterbi算法对样本语音编码特征序列中的所有语音编码特征进行强制对齐。DNN-HMM模型为现有模型，那么对于DNN-HMM模型的训练与应用均属于现有技术，本实施例不再具体阐述。

本实施例还需要根据音素与词之间的映射关系，将各个语音编码特征对应的音素标签映射为词标签。例如，在中文识别环境中，“早”对应的音素包括：z、ao两个，那么需要将语音编码特征中音素标签为z和音素标签为ao的所有语音编码特征的音素标签映射为“早”对应的词标签。

S504、基于样本语音编码特征序列对应的词标签与文本标注序列之间的损失函数，对语音编码器的参数进行调整。

具体的，本实施例计算出样本语音编码特征序列对应的词标签与文本标注序列之间的交叉熵损失函数，然后利用该交叉熵损失函数对语音编码器的参数进行调整，以提高语音编码器的编码准确率。

与上述的语音识别方法相对应的，本申请实施例还提出一种语音识别装置，参见图6所示，该装置包括：

语音编码模块100，用于对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；

注意力编码模块110，用于从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果；

解码模块120，用于对注意力编码结果进行解码，得到语音识别结果。

本申请实施例提出的语音识别装置，利用语音编码模块100对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列；利用注意力编码模块110从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果；利用解码模块120对注意力编码结果进行解码，得到语音识别结果。采用本实施例的技术方案，可以从所有语音编码特征中提取需要进行识别的目标编码特征序列，以便对该目标编码特征序列进行注意力编码与解码，无需等一句话说完之后再对全部的语音编码特征序列进行注意力编码与解码，实现了对语音的流式识别。

作为一种可选的实现方式，本申请另一实施例还公开了，注意力编码模块110，具体用于：

将语音编码特征序列输入预先训练的注意力编码网络，以使注意力编码网络从语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对目标编码特征序列进行注意力编码，得到注意力编码结果；

注意力编码网络，基于样本语音编码特征序列以及样本语音编码特征序列对应的注意力标签，对样本语音编码特征序列进行注意力编码训练得到，其中，样本语音编码特征序列对应的注意力标签，包括样本语音编码特征序列对应的识别文本中的各个文本字符各自对应的样本语音编码特征序列区间。

作为一种可选的实现方式，本申请另一实施例还公开了，本实施例的语音识别装置还包括：第一确定模块、矩阵构建模块、第一输入模块和第一参数调整模块。

第一确定模块，用于根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与词标签中每个词对应的待识别编码特征序列；样本语音编码特征所携带的词标签为样本语音编码特征对应的语音帧相匹配的文本；

矩阵构建模块，用于根据词标签，以及与词标签中每个词对应的待识别编码特征序列，构建携带注意力标签的样本编码特征矩阵；

第一输入模块，用于将样本编码特征矩阵输入到注意力编码网络中，得到样本注意力编码结果；

第一参数调整模块，用于利用样本注意力编码结果解码后的识别结杲与样本编码特征矩阵对应的注意力标签之间的损失函数，对注意力编码网络的参数进行调整。

作为一种可选的实现方式，本申请另一实施例还公开了，第一确定模块，具体用于：

根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与词标签中每个词对应的样本语音编码特征；

对应词标签中的每个词，从样本语音编码特征序列中，提取第一样本语音编码特征序列，作为该词对应的待识别编码特征序列，第一样本语音编码特征序列至少包含该词对应的样本语音编码特征中的部分样本语音编码特征。

作为一种可选的实现方式，本申请另一实施例还公开了，第一样本语音编码特征序列为至少包含该词对应的样本语音编码特征中的部分样本语音编码特征的设定长度的样本语音编码特征序列；

或者，

第一样本语音编码特征序列为该词对应的样本语音编码特征，以及该词对应的样本语音编码特征之前的样本语音编码特征组成的样本语音编码特征序列。

作为一种可选的实现方式，本申请另一实施例还公开了，矩阵构建模块，具体用于：

将样本语音编码特征序列中待识别编码特征序列以外的样本语音编码特征进行掩膜操作，得到待识别编码特征序列对应的样本编码特征矩阵，并将待识别编码特征序列在样本语音编码特征序列中的序列区间以及序列区间对应的所有词标签作为样本编码特征矩阵对应的注意力标签。

作为一种可选的实现方式，本申请另一实施例还公开了，语音编码模块100，具体用于：

将待识别语音对应的语音特征序列输入到预先训练的语音编码器中，得到待识别语音对应的语音编码特征序列；

语音编码器基于样本语音特征序列，以及样本语音特征序列中的各个语音特征对应的文本标注，对样本语音特征序列进行基于注意力机制的编码训练得到。

作为一种可选的实现方式，本申请另一实施例还公开了，本实施例的语音识别装置还包括：第二确定模块、第二输入模块、标签识别模块和第二参数调整模块。

第二确定模块，用于提取预先采集的样本语音数据中各个语音帧的语音特征，得到样本语音特征序列，并根据样本语音数据对应的文本标注，确定样本语音特征序列对应的文本标注序列；

第二输入模块，用于将样本语音特征序列输入到语音编码器中，利用语音编码器对样本语音特征序列中的各个语音特征进行基于注意力机制的编码处理，得到样本语音编码特征序列；

标签识别模块，用于识别样本语音编码特征序列中的各个语音编码特征对应的词标签；语音编码特征对应的词标签为语音编码特征对应的语音帧相匹配的文本；

第二参数调整模块，用于基于样本语音编码特征序列对应的词标签与文本标注序列之间的损失函数，对语音编码器的参数进行调整。

作为一种可选的实现方式，本申请另一实施例还公开了，标签识别模块，具体用于：

利用声学模型对样本语音编码特征序列中的所有语音编码特征进行强制对齐，得到各个语音编码特征对应的音素标签；语音编码特征对应的音素标签为语音编码特征对应的语音帧相匹配的音素；

将语音编码特征对应的音素标签映射为词标签。

本实施例提供的语音识别装置，与本申请上述实施例所提供的语音识别方法属于同一申请构思，可执行本申请上述任意实施例所提供的语音识别方法，具备执行该语音识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的语音识别方法的具体处理内容，此处不再加以赘述。

本申请另一实施例还公开了一种电子设备，参见图7所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音识别方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-onlly memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音识别方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的语音识别方法的各个步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

对所述注意力编码结果进行解码，得到语音识别结果。

2.根据权利要求1所述的方法，其特征在于，从所述语音编码特征序列的所有语音编码特征中提取对应当前待确定识别结果的目标编码特征序列，并对所述目标编码特征序列进行注意力编码，得到注意力编码结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述注意力编码网络的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，根据样本语音编码特征序列中各个样本语音编码特征所携带的词标签，从所有样本语音编码特征中确定出与所述词标签中每个词对应的待识别编码特征序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一样本语音编码特征序列为至少包含该词对应的样本语音编码特征中的部分样本语音编码特征的设定长度的样本语音编码特征序列；

或者，

6.根据权利要求3所述的方法，其特征在于，根据所述待识别编码特征序列，构建携带注意力标签的样本编码特征矩阵，包括：

7.根据权利要求1所述的方法，其特征在于，所述对待识别语音对应的语音特征序列进行编码，得到语音编码特征序列，包括：

8.根据权利要求7所述的方法，其特征在于，所述语音编码器的训练过程包括：

9.根据权利要求8所述的方法，其特征在于，识别所述样本语音编码特征序列中的各个语音编码特征对应的词标签，包括：

将所述语音编码特征对应的音素标签映射为词标签。

10.一种语音识别装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至9中任一项所述的语音识别方法。

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至9中任一项所述的语音识别方法。