CN113129869B

CN113129869B - 语音识别模型的训练与语音识别的方法、装置

Info

Publication number: CN113129869B
Application number: CN202110301598.8A
Authority: CN
Inventors: 梁鸣心; 付晓寅; 邵俊尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-01-28
Anticipated expiration: 2041-03-22
Also published as: CN113129869A

Abstract

本公开公开了一种语音识别模型的训练与语音识别的方法，涉及深度学习与语音处理技术领域。语音识别模型的训练方法包括：获取训练数据；构建包含第一识别模型与第二识别模型的神经网络模型；将各语音数据作为第一输入序列输入第一识别模型，根据第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；根据各语音数据的第二输入序列与标签序列，训练第二识别模型，直至第二识别模型收敛，将第一识别模型与训练得到的第二识别模型作为语音识别模型。语音识别的方法包括：获取待识别语音数据；将待识别语音数据作为语音识别模型的输入，将语音识别模型的输出结果作为待识别语音数据的识别结果。

Description

语音识别模型的训练与语音识别的方法、装置

技术领域

本公开涉及数据处理技术领域，尤其涉及深度学习与语音处理技术领域。提供了一种语音识别模型的训练与语音识别的方法、装置、电子设备和可读存储介质。

背景技术

语音识别是将声音信号转换为对应的文本，其是实现人机交互非常重要的途径之一。近年来，随着语音识别准确率的极大提升和智能设备的不断普及，语音输入已经成为文字输入的主要方式之一，语音交互也已经在越来越多的场景得到应用。语音识别的响应速度和准确率都是影响语音输入和语音交互用户体验的关键因素。

从场景上，语音识别可以分为流式场景和非流式场景。非流式语音识别是指在用户说完一句话或一段话之后再进行识别，而流式语音识别则是指在用户还在说话的时候便同步进行语音识别。

流式语音识别因为其延时低的特点，在工业界中有着广泛的应用。但是，相对于非流式语音识别来说，因为需要在未说完一句或者一段话就开始识别，流式识别的准确率相对更低。

发明内容

本公开提供了一种语音识别模型的训练与语音识别的方法、装置、电子设备和可读存储介质，用于建立能够适应于流式识别场景的语音识别模型，从而提升语音识别模型在任何场景下的识别准确性。

根据本公开的第一方面，提供了一种语音识别模型的训练方法，包括：获取训练数据，所述训练数据中包含多个语音数据以及各语音数据的标签序列；构建包含第一识别模型与第二识别模型的神经网络模型，所述第二识别模型由多个transformer块构成；将各语音数据作为第一输入序列输入所述第一识别模型，根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛，将所述第一识别模型与训练得到的第二识别模型作为语音识别模型。

根据本公开的第二方面，提供了一种语音识别的方法，包括：获取待识别语音数据；将所述待识别语音数据输入语音识别模型，将所述语音识别模型的输出结果作为所述待识别语音数据的识别结果。

根据本公开的第三方面，提供了一种语音识别模型的训练装置，包括：第一获取单元，用于获取训练数据，所述训练数据中包含多个语音数据以及各语音数据的标签序列；构建单元，用于构建包含第一识别模型与第二识别模型的神经网络模型，所述第二识别模型由多个transformer块构成；处理单元，用于将各语音数据作为第一输入序列输入所述第一识别模型，根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；训练单元，用于根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛，将所述第一识别模型与训练得到的第二识别模型作为语音识别模型。

根据本公开的第四方面，提供了一种语音识别的装置，包括：第二获取单元，用于获取待识别语音数据；识别单元，用于将所述待识别语音数据输入语音识别模型，将所述语音识别模型的输出结果作为所述待识别语音数据的识别结果。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

由以上技术方案可以看出，通过训练来构建包含第一识别模型与第二识别模型的神经网络模型，使得神经网络模型能够根据两次识别来得到语音数据的识别结果，能够降低神经网络模型在进行第二次语音识别时的计算量与延时，从而提升训练得到的语音识别模型在进行语音识别时的识别效率与识别准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是用来实现本公开实施例的语音识别模型的训练与语音识别的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和机构的描述。

图1是根据本公开第一实施例的示意图。如图1所示，本实施例的语音识别模型的训练方法，具体可以包括如下步骤：

S101、获取训练数据，所述训练数据中包含多个语音数据以及各语音数据的标签序列；

S102、构建包含第一识别模型与第二识别模型的神经网络模型，所述第二识别模型由多个transformer块构成；

S103、将各语音数据作为第一输入序列输入所述第一识别模型，根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；

S104、根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛，将所述第一识别模型与训练得到的第二识别模型作为语音识别模型。

本实施例的语音识别模型的训练方法，通过构建包含第一识别模型与第二识别模型的神经网络模型，使得神经网络能够根据两次识别来得到识别结果，由于第二识别模型是根据第一识别模型输出的第一输出序列与特征序列所得到的第二输入序列来重新对语音数据进行识别，降低了神经网络模型在重新识别语音数据时的计算量，且第二识别模型由多个transformer块构成，避免了在重新识别语音数据时所需的自回归迭代，降低了神经网络模型在重新识别语音数据时的延时，从而提升了训练得到的语音识别模型在对语音数据进行识别时的识别效率与识别准确性。

本实施例执行S101所获取的对应于语音数据的标签序列，即为该语音数据的正确识别结果所对应的文本序列，文本序列可以为字的序列或者单词的序列。举例来说，若所获取的语音数据为语音数据1，则对应该语音数据1的标签序列为“今天天气不错”。

本实施例在执行S101获取了多个语音数据以及各语音数据的标签序列之后，执行S102构建包含第一识别模型与第二识别模型的神经网络模型，其中，神经网络模型中的第二识别模型由多个transformer块构成。

可以理解的是，本实施例中神经网络模型的第一识别模型用于对语音数据进行第一次识别，神经网络模型的第二识别模型则用于根据第一识别模型的识别结果进行第二次识别，通过第二识别模型进行重新识别的方式，提升了神经网络模型对于语音数据的识别准确性。

因此，本实施例训练得到的包含第一识别模型与第二识别模型的语音识别模型，特别适应于语音识别的流式场景，在保证了流式场景下语音识别具有低延时的基础上，还能够极大地提升流式场景下语音识别的准确性。

本实施例中的第一识别模型为能够根据语音数据来得到输出序列与特征序列的神经网络模型。例如，本实施例中的第一识别模型为流式截断的多层注意力(StreamingTruncated Multi-layer Attention，SMLTA)模型，该SMLTA模型通过其注意力层对输入的语音数据进行特征提取得到特征序列，进而由解码器层根据该特征序列进行预测来得到输出序列，该输出序列即为语音数据的第一次识别结果。

本实施例中第二识别模型包含的每个transformer块，依次由多头注意力层(multi-head attention)、残差连接&归一化层(add&norm)、前馈神经层(feed forward)与残差连接&归一化层(add&norm)构成，输入至第二识别模型的输入序列经过多个transformer块的处理之后，输出结果即为语音数据的第二次识别结果。

本实施例在执行S102构建包含第一识别模型与第二识别模型的神经网络模型之后，执行S103将各语音数据作为第一输入序列输入第一识别模型，根据第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列。

其中，本实施例执行S103得到的由第一识别模型针对各语音数据输出的第一输出序列，即为对应于各语音数据的第一次识别结果，该第一输出序列由多个字或者单词的文本组成，例如在进行中文语音识别时，本实施例得到的第一输出序列是由多个字所组成的，在进行英文语音识别时，本实施例得到的第一输出序列是由多个单词组成的；本实施例执行S103得到的由第一识别模型针对各语音数据输出的特征序列，即为第一识别模型从语音数据中所提取的、用于识别得到第一输出序列中每个字或者单词的特征所构成的序列。

可以理解的是，本实施例中的第一识别模型针对语音数据可能会得到多个输出序列，因此本实施例可以根据各输出序列的分值进行采样，从而将采样得到的一个输出序列作为第一输出序列。

举例来说，若第一识别模型的输入为语音数据1，若第一识别模型从语音数据1提取得到的特征序列为C＝{C₁，C₂，C₃，C₄，C₅}，若第一识别模型根据所提取的特征序列得到的第一输出序列为Y＝{Y₁，Y₂，Y₃，Y₄，Y₅}，则C₁为识别得到“Y₁”时所使用的特征，C₂为识别得到“Y₂”时所使用的特征，以此类推。

具体地，本实施例在执行S103根据第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列时，可以采用的可选实现方式为：对各语音数据的第一输出序列进行编码，得到各语音数据的输出向量序列，即分别对第一输出序列中的每个字或者单词进行编码，依次组合各字或者各单词的编码结果来得到输出向量序列；对各语音数据的特征序列进行编码，得到各语音数据特征向量序列，即分别对特征序列中的每个特征进行编码，依次组合各特征的编码结果来得到特征向量序列；分别将各语音数据的输出向量序列与特征向量序列中位于相同位置处的两个向量进行拼接，得到各语音数据拼接向量序列；对各语音数据拼接向量序列进行位置编码，将编码结果作为各语音数据的第二输入序列，本实施例在进行位置编码时可以采用绝对位置编码或者相对位置编码。

也就是说，本实施例通过将第一识别模型在进行第一次识别时所提取的特征序列与输出序列来得到第二识别模型的输入，丰富了第二识别模型在进行识别时所使用的信息，进一步提升了第二识别模型的识别效果。

举例来说，若语音数据的第一输出序列为Y＝{Y₁，Y₂，Y₃，Y₄，Y₅}，特征序列为C＝{C₁，C₂，C₃，C₄，C₅}，则本实施例经过编码得到输出向量序列

以及特征向量序列

之后，再根据位置关系将输出向量序列与特征向量序列进行拼接，具体为将

与

进行拼接得到

将

与

进行拼接得到

以此类推，根据拼接结果得到拼接向量序列

最后再对

进行位置编码，若

的位置编码结果为E₁，若

的位置编码结果为E₂，以此类推，最终得到输入序列为E＝{E₁，E₂，E₃，E₄，E₅}。

本实施例在执行S103得到各语音数据的第二输入序列之后，执行S104根据各语音数据的第二输入序列与标签序列，训练第二识别模型，直至第二识别模型收敛，将第一识别模型与训练得到的第二识别模型作为语音识别模型。

也就是说，本实施例仅对神经网络模型中的第二识别模型进行训练，而不会训练神经网络模型中的第一识别模型，在将第二识别模型训练至收敛之后，即完成了对整个神经网络模型的训练，得到语音识别模型。

具体地，本实施例在执行S104根据各语音数据的第二输入序列与标签序列，训练第二识别模型时，可以采用的可选实现方式为：将各语音数据的第二输入序列输入第二识别模型，得到第二识别模型针对各语音数据输出的第二输出序列；根据各语音数据的第二输出序列与各语音数据的标签序列计算损失函数，根据计算得到的损失函数调整第二识别模型中的参数，直至第二识别模型收敛。

本实施例在完成对第二识别模型的训练之后，将第一识别模型与训练得到的第二识别模型构成语音识别模型，利用该语音识别模型，能够根据所输入的语音数据，输出对应该语音数据的识别结果。

本实施例根据上述方法，通过构建包含第一识别模型与第二识别模型的神经网络模型，使得第二识别模型能够根据第一识别模型输出的第一输出序列与特征序列所得到的第二输入序列来重新对语音数据进行识别，降低了神经网络模型在重新识别语音数据时的计算量，且第二识别模型由多个transformer块构成，避免了在重新识别语音数据时所需的自回归迭代，降低了神经网络模型在重新识别语音数据时的延时，从而提升了训练得到的语音识别模型在对语音数据进行重新识别时的识别效率与识别准确性。

图2是根据本公开第二实施例的示意图。如图2所示，本实施例在执行S104“根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛”时，具体可以包括如下步骤：

S201、将各语音数据的第二输入序列输入所述第二识别模型，得到所述第二识别模型针对各语音数据输出的第二输出序列；

S202、根据各语音数据的第二输出序列与各语音数据的标签序列，分别确定各语音数据的预测错误类型；

S203、利用与所述预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与各语音数据的标签序列进行对齐之后计算损失函数，根据计算得到的损失函数调整所述第二识别模型中的参数，直至所述第二识别模型收敛。

也就是说，本实施例在对第二识别模型进行训练时，对进行计算损失函数时所使用的第二输出序列与标签序列进行对齐，使得两者具有相同的长度，从而提升第二识别模型的训练准确性。

由于第二识别模型会发生预测错误的问题，使得预测得到第二输出序列与标签序列具有不同的长度，导致训练与预测之间的不匹配，从而降低了语音识别模型在进行语音识别时的准确性。

因此，本实施例根据第二识别模型在进行识别时可能会发生的删除错误或者插入错误，来将第二输出序列与标签序列进行对齐，从而减小第二识别模型在训练与预测时的差异，提升模型的预测性能。

本实施例在执行S203利用与预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与各语音数据的标签序列进行对齐时，可以采用的可选实现方式为：响应于所确定的预测错误类型为删除错误，在第二输出序列中的删除位置处添加空白符。

举例来说，若第二输出序列为Y’＝{Y₁’，Y₂’，Y₃’，Y₄’，Y₅’}，若标签序列为{文本₁，文本₂，文本₃，文本₄，文本₅，文本₆}，则确定出现了删除错误，将空白符添加至第二输出序列中的删除位置处，例如Y₂’与Y₃’之间，对齐之后的第二输出序列为{Y₁’，Y₂’，空白符，Y₃’，Y₄’，Y₅’}，使得与标签序列的长度一致。

本实施例在执行S203利用与预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与各语音数据的标签序列进行对齐时，可以采用的可选实现方式为：响应于所确定的预测错误类型为插入错误，在标签序列中的插入位置处添加空白符。

举例来说，若第二输出序列为Y’＝{Y₁’，Y₂’，Y₃’，Y₄’，Y₅’，Y₆’，Y₇’}，若标签序列为{文本₁，文本₂，文本₃，文本₄，文本₅，文本₆}，则确定出现了插入错误，将空白符添加至标签序列中的插入位置处，例如文本₃与文本₄之间，对齐之后的标签序列为{文本₁，文本₂，文本₃，空白符，文本₄，文本₅，文本₆}，使得与第二输出序列的长度一致。

可以理解的是，若本实施例在第二输出序列或者标签序列中添加了空白符，则本实例在计算损失函数时，仅计算第二输出序列与标签序列中除空白符的位置之外的字或者单词的误差，即空白符所在位置处的误差不进行传递。

图3是根据本公开第三实施例的示意图，如图3中所示，本实施例的语音识别的方法，具体包括如下步骤：

S301、获取待识别语音数据：

S302、将所述待识别语音数据作为语音识别模型的输入，将所述语音识别模型的输出结果作为所述待识别语音数据的识别结果。

本实施例的语音识别的方法，使用上述实施例预先训练得到的语音识别模型来得到识别结果，由于该语音识别模型中包含第一识别模型与第二识别模型，从而对待识别语音数据实现两次识别。

本实施例执行S301所获取的待识别语音数据，可以为已存在的语音数据，也可以为实时录制的语音数据。

因此，本实施例在进行语音识别，尤其是流式场景下的语音识别时，通过预先训练得到的语音识别模型进行语音识别，在能够实现语音识别低延时的基础上，进一步提升了语音识别的准确性。

图4是根据本公开第四实施例的示意图。如图4所示，本实施例示出了训练语音识别模型时的流程示意图：将语音数据输入第一识别模型之后，若该第一识别模型输出了“今天儿天气不错”、“金天天气不错”与“今天气不错”三个序列，通过采样选取“今天气不错”作为第一输出序列，则将该第一输出序列与特征序列(C₁，C₂，C₃，C₄，C₅)作为第二识别模型的输入，第二识别模型根据输入得到的第二输出序列若为(y’₁，y’₂，y’₃，y’₄，y’₅)，通过与该语音数据的标签序列进行比较，确定第二输出序列出现了删除错误(缺少了天与气之间的天)，则通过在第二输出序列中添加空白符的方式与标签序列进行对齐，得到(y’₁，y’₂，空白符，y’₃，y’₄，y’₅)，进而根据对齐之后的第二输出序列与标签序列进行损失函数的计算，并根据损失函数的计算结果来调整第二识别模型的参数，直至收敛。

图5是根据本公开第五实施例的示意图。本实施例的语音识别模型的结构图如图5中所示：语音识别模型包含第一识别模型与第二识别模型；第一识别模型将语音数据作为输入，根据语音数据得到第一输出序列(y₁，y₂，y₃……y_N)与特征序列(C₁，C₂，C₃……C_N)；第二识别模型包含M个transformer块，除第一个transformer块的输入为对第一输出序列与特征序列进行编码与位置编码所得到的第二输入序列(E₁，E₂，E₃……E_N)之外，其他transformer块的输入为前一个transformer块的输出，第二识别模型根据输入所得到的第二输出序列(y’₁，y’₂，y’₃……y’_N)即为语音数据的最终识别结果。

图6是根据本公开第六实施例的示意图。如图6所示，本实施例的语音识别模型的训练装置600，包括：

第一获取单元601、用于获取训练数据，所述训练数据中包含多个语音数据以及各语音数据的标签序列；

构建单元602、用于构建包含第一识别模型与第二识别模型的神经网络模型，所述第二识别模型由多个transformer块构成；

处理单元603、用于将各语音数据作为第一输入序列输入所述第一识别模型，根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；

训练单元604、用于根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛，将所述第一识别模型与训练得到的第二识别模型作为语音识别模型。

第一获取单元601所获取的对应于语音数据的标签序列，即为该语音数据的正确识别结果所对应的文本序列。

本实施例在由第一获取单元601获取了多个语音数据以及各语音数据的标签序列之后，由构建单元602构建包含第一识别模型与第二识别模型的神经网络模型，其中，神经网络模型中的第二识别模型由多个transformer块构成。

可以理解的是，构建单元602所构建的神经网络模型中的第一识别模型用于对语音数据进行第一次识别，神经网络模型的第二识别模型则用于根据第一识别模型的识别结果进行第二次识别，通过第二识别模型进行重新识别的方式，提升神经网络模型对于语音数据的识别准确性。

构建单元602所构建的第一识别模型为能够根据语音数据来得到输出序列与特征序列的神经网络模型。例如，本实施例中的第一识别模型为流式截断的多层注意力(Streaming Truncated Multi-layer Attention，SMLTA)模型，该SMLTA模型通过其注意力层对输入的语音数据进行特征提取得到特征序列，进而由解码器层根据该特征序列进行预测来得到输出序列，该输出序列即为语音数据的第一次识别结果。

构建单元602所构建的第二识别模型包含的每个transformer块，依次由多头注意力层(multi-head attention)、残差连接&归一化层(add&norm)、前馈神经层(feedforward)与残差连接&归一化层(add&norm)构成，输入至第二识别模型的输入序列经过多个transformer块的处理之后，输出结果即为语音数据的第二次识别结果。

本实施例在由构建单元602所构建的构建包含第一识别模型与第二识别模型的神经网络模型之后，由处理单元603将各语音数据作为第一输入序列输入第一识别模型，根据第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列。

其中，处理单元603得到的由第一识别模型针对各语音数据输出的第一输出序列，即为对应各语音数据的第一次识别结果，该第一输出序列由多个字或者单词组成，例如在进行中文语音识别时，所得到的第一输出序列是由多个字所组成的，在进行英文语音识别时，所得到的第一输出序列是由多个单词组成的；处理单元603得到的由第一识别模型针对各语音数据输出的特征序列，即为第一识别模型从语音数据中所提取的、用于识别得到第一输出序列中每个字或者单词的特征所构成的序列。

可以理解的是，处理单元603中的第一识别模型针对语音数据可能会得到多个输出序列，因此本实施例可以根据各输出序列的分值进行采样，从而将采样得到的输出序列作为第一输出序列。

具体地，处理单元603在根据第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列时，可以采用的可选实现方式为：对各语音数据的第一输出序列进行编码，得到各语音数据的输出向量序列；对各语音数据的特征序列进行编码，得到各语音数据特征向量序列；分别将各语音数据的输出向量序列与特征向量序列中位于相同位置处的两个向量进行拼接，得到各语音数据拼接向量序列；对各语音数据拼接向量序列进行位置编码，将编码结果作为各语音数据的第二输入序列。

本实施例在由处理单元603得到各语音数据的第二输入序列之后，由训练单元604根据各语音数据的第二输入序列与标签序列，训练第二识别模型，直至第二识别模型收敛，将第一识别模型与训练得到的第二识别模型作为语音识别模型。

也就是说，训练单元604仅对神经网络模型中的第二识别模型进行训练，而不会训练神经网络模型中的第一识别模型，在将第二识别模型训练至收敛之后，即完成了对整个神经网络模型的训练，得到语音识别模型。

具体地，训练单元604在根据各语音数据的第二输入序列与标签序列，训练第二识别模型时，可以采用的可选实现方式为：将各语音数据的第二输入序列输入第二识别模型，得到第二识别模型针对各语音数据输出的第二输出序列；根据各语音数据的第二输出序列与各语音数据的标签序列计算损失函数，根据计算得到的损失函数调整第二识别模型中的参数，直至第二识别模型收敛。

训练单元604在完成对第二识别模型的训练之后，将第一识别模型与训练得到的第二识别模型构成语音识别模型，利用该语音识别模型，能够根据所输入的语音数据，输出对应该语音数据的识别结果。

另外，训练单元604在根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛时，还可以采用以下方式：将各语音数据的第二输入序列输入第二识别模型，得到第二识别模型针对各语音数据输出的第二输出序列；根据各语音数据的第二输出序列与各语音数据的标签序列，分别确定各语音数据的预测错误类型；利用与所确定的预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐之后计算损失函数，根据计算得到的损失函数调整第二识别模型中的参数，直至第二识别模型收敛。

也就是说，训练单元604在对第二识别模型进行训练时，对进行计算损失函数时所使用的第二输出序列与标签序列进行对齐，使得两者具有相同的长度，从而提升第二识别模型的训练准确性。

因此，训练单元604根据第二识别模型时可能会发生的删除错误与插入错误，来将第二输出序列与标签序列进行对齐，从而减小第二识别模型在训练与预测时的差异，提升模型的预测性能。

训练单元604在利用与预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐时，可以采用的可选实现方式为：响应于所确定的预测错误类型为删除错误，在第二输出序列中的删除位置处添加空白符。

训练单元604在利用与预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐时，可以采用的可选实现方式为：响应于所确定的预测错误类型为插入错误，在标签序列中的插入位置处添加空白符。

可以理解的是，若训练单元604在第二输出序列或者标签序列中添加了空白符，则训练单元604在计算损失函数时，仅计算第二输出序列与标签序列中除空白符的位置之外的字或者单词的误差，即空白符所在位置处的误差不进行传递。

图7是根据本公开第七实施例的示意图，如图7中所示，本实施例的语音识别的装置700，包括：

第二获取单元701、用于获取待识别语音数据：

识别单元702、用于将所述待识别语音数据作为语音识别模型的输入，将所述语音识别模型的输出结果作为所述待识别语音数据的识别结果。

第二获取单元701所获取的待识别语音数据，可以为已存在的语音数据，也可以为实时录制的语音数据。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图8所示，是根据本公开实施例的语音识别模型的训练与语音识别的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如语音识别模型的训练与语音识别的方法。例如，在一些实施例中，语音识别模型的训练与语音识别的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。

在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的语音识别模型的训练与语音识别的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音识别模型的训练与语音识别的方法。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音识别模型的训练方法，包括：

获取训练数据，所述训练数据中包含多个语音数据以及各语音数据的标签序列；

构建包含第一识别模型与第二识别模型的神经网络模型，所述第二识别模型由多个transformer块构成；

将各语音数据作为第一输入序列输入所述第一识别模型，根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；

根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛，将所述第一识别模型与训练得到的第二识别模型作为语音识别模型。

2.根据权利要求1所述的方法，其中，所述根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列包括：

对各语音数据的第一输出序列进行编码，得到各语音数据的输出向量序列；

对各语音数据的特征序列进行编码，得到各语音数据的特征向量序列；

分别将各语音数据的输出向量序列与特征向量序列中位于相同位置处的两个向量进行拼接，得到各语音数据的拼接向量序列；

对各语音数据的拼接向量序列进行位置编码，将编码结果作为各语音数据的第二输入序列。

3.根据权利要求1所述的方法，其中，所述根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛包括：

将各语音数据的第二输入序列输入所述第二识别模型，得到所述第二识别模型针对各语音数据输出的第二输出序列；

根据各语音数据的第二输出序列与各语音数据的标签序列，分别确定各语音数据的预测错误类型；

利用与所述预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与各语音数据的标签序列进行对齐之后计算损失函数，根据计算得到的损失函数调整所述第二识别模型中的参数，直至所述第二识别模型收敛。

4.根据权利要求3所述的方法，其中，所述利用与所述预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐包括：

响应于所述预测错误类型为删除错误，在所述第二输出序列中的删除位置处添加空白符。

5.根据权利要求3所述的方法，其中，所述利用与所述预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐包括：

响应于所述预测错误类型为插入错误，在所述标签序列中的插入位置处添加空白符。

6.一种语音识别的方法，包括：

获取待识别语音数据；

将所述待识别语音数据作为语音识别模型的输入，将所述语音识别模型的输出结果作为所述待识别语音数据的识别结果；

其中，所述语音识别模型是根据权利要求1至5中任一项权利要求预先训练得到的。

7.一种语音识别模型的训练装置，包括：

第一获取单元，用于获取训练数据，所述训练数据中包含多个语音数据以及各语音数据的标签序列；

构建单元，用于构建包含第一识别模型与第二识别模型的神经网络模型，所述第二识别模型由多个transformer块构成；

处理单元，用于将各语音数据作为第一输入序列输入所述第一识别模型，根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列；

训练单元，用于根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛，将所述第一识别模型与训练得到的第二识别模型作为语音识别模型。

8.根据权利要求7所述的装置，其中，所述处理单元在根据所述第一识别模型针对各语音数据输出的第一输出序列与特征序列，得到各语音数据的第二输入序列时，具体执行：

9.根据权利要求7所述的装置，其中，所述训练单元在根据各语音数据的第二输入序列与标签序列，训练所述第二识别模型，直至所述第二识别模型收敛时，具体执行：

10.根据权利要求9所述的装置，其中，所述训练单元在利用与所述预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐时，具体执行：

11.根据权利要求9所述的装置，其中，所述训练单元在利用与所述预测错误类型对应的对齐方法，分别将各语音数据的第二输出序列与对应各语音数据的标签序列进行对齐时，具体执行：

12.一种语音识别的装置，包括：

第二获取单元，用于获取待识别语音数据；

识别单元，用于将所述待识别语音数据作为语音识别模型的输入，将所述语音识别模型的输出结果作为所述待识别语音数据的识别结果；

其中，所述语音识别模型是根据权利要求7至11中任一项权利要求预先训练得到的。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至6中任一项所述的方法。