CN114863916A

CN114863916A - 语音识别模型训练方法、语音识别方法、装置及存储介质

Info

Publication number: CN114863916A
Application number: CN202210445742.XA
Authority: CN
Inventors: 王全东; 梁玉权; 高鹏; 庄伟基
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-05

Abstract

本公开是关于一种语音识别模型训练方法、语音识别方法、装置及存储介质。其中，语音识别模型训练方法包括：获取多通道语音样本集，将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集，对所述多通道语音样本集进行转换处理，得到单通道语音样本集，将所述单通道语音样本集输入到第二深度残差网络编码器中，得到第二样本特征集；从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集；将所述目标样本特征集输入至预设的递归神经网络模型，对所述递归神经网络模型进行训练直至收敛，得到语音识别模型。通过本公开的语音识别模型训练方法进行语音识别，能够提高语音识别性能。

Description

语音识别模型训练方法、语音识别方法、装置及存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及语音识别模型训练方法、语音识别方法、装置及存储介质。

背景技术

语音识别技术飞速发展，使得语音识别结果越来越好。

相关技术中，语音识别过程分为前端处理以及后端识别处理。前端处理包括回声消除、降噪、去混响、方位估计和波束形成等一个或多个模块，前端处理后输出一个通道的信号或特征表示，后端则根据前端输出，进一步进行语音识别。然而，在实际应用中，语音识别的结果仍然不尽如人意，并非全局最优。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音识别模型训练方法、语音识别方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种语音识别模型训练方法，包括：

获取多通道语音样本集，其中，所述多通道语音样本集包括多个多通道语音样本，每个多通道语音样本包括一段多通道语音数据以及对应的文本数据，所述文本数据为所述多通道语音数据中所包含的文字形式自然语言；每段所述多通道语音数据包含一个扬声器的信号参考通道和至少一个麦克风的信号通道；

将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集，其中，所述第一深度残差网络编码器用于将不同维度的多通道语音样本转化为相同维度的特征，所述第一样本特征集包含多个第一样本特征，每个样本特征对应一个所述多通道语音样本；

对所述多通道语音样本集进行转换处理，得到单通道语音样本集，其中，所述单通道语音样本集包括多个单通道语音样本，每个单通道语音样本包括：一段单通道语音数据以及对应的文本数据，所述文本数据为所述多通道语音数据中所包含的文字形式自然语言，每段单通道语音样本对应于所述单通道语音样本中包含的自然语言含义相同的多通道语音样本；

将所述单通道语音样本集输入到第二深度残差网络编码器中，得到第二样本特征集；

从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集；

将所述目标样本特征集输入至预设的递归神经网络模型，对所述递归神经网络模型进行训练直至收敛，得到语音识别模型。

在一种实施方式中，从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集，包括：在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集；其中，所述目标深度残差网络编码器为所述第一深度残差网络编码器中的一个，或为所述第二深度残差网络编码器。

在一种实施方式中，在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集，包括：确定所述第一深度残差网络编码器中各深度残差网络编码器所输出第一样本特征集在全部样本特征集中的第一占比，并确定所述第二深度残差网络编码器所输出第二样本特征集在全部样本特征集中的第二占比；

基于所述第一占比和所述第二占比，为所述第一深度残差网络编码器中各深度残差网络编码器，以及所述第二深度残差网络编码器分配概率分布函数；

基于所述概率分布函数分别确定所述第一深度残差网络编码器中各深度残差网络编码器的概率值，以及所述第二深度残差网络编码器的概率值；

选择概率值最大的深度残差网络编码器作为目标深度残差网络编码器，并将所述目标深度残差网络编码器输出的样本特征集，作为目标样本特征集。

在一种实施方式中，所述多通道语音样本集包括多个多通道语音样本集，所述将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集，包括：

将所述多个多通道样本集中分别输入至多个第一深度残差网络编码器中，得到多个第一样本特征集，其中，多通道样本集、第一深度残差网络编码器以及第一样本特征集之间具有一一对应关系。

在一种实施方式中，所述语音识别模型训练方法还包括：将所述语音识别模型分离为一个或多个语音识别子模型；

其中，每一语音识别子模型中包括一个深度残差网络编码器以及所述递归神经网络模型，其中，语音识别子模型中包括的一个深度残差网络编码器为所述第一深度残差网络编码器中的一个，或为所述第二深度残差网络编码器，不同语音识别子模型共享所述递归神经网络模型。

在一种实施方式中，所述转换处理包括：

回声消除、降噪、去混响、方位估计和波束形成。

根据本公开实施例的第二方面，提供一种语音识别方法，包括：

获取待识别语音数据；

调用语音识别模型，所述语音识别模型为上述第一方面或者第一方面任意一种实施方式中所述的语音识别模型；

基于所述语音识别模型，对所述待识别语音数据进行语音识别，得到所述待识别语音数据的文字形式自然语言。

在一种实施方式中，所述基于所述语音识别模型，对所述待识别语音数据进行语音识别，得到所述待识别语音数据的文字形式自然语言，包括：

确定所述待识别语音数据的通道类型，所述通道类型包括单通道或多通道；

在所述语音识别模型中确定匹配所述通道类型的目标语音识别子模型；

其中，若所述通道类型为多通道，则所述目标语音识别子模型包括通道数量与所述多通道数量一致的第一深度残差网络编码器以及递归神经网络模型；若所述通道类型为单通道，则所述目标语音识别子模型包括第二深度残差网络编码器以及所述递归神经网络模型；

将所述待识别语音数据输入至目标语音识别子模型，基于所述目标语音识别子模型的输出结果，确定所述待识别语音数据的文字形式自然语言。

根据本公开实施例的第三方面，提供一种语音识别模型训练装置，包括：

获取单元，用于获取多通道语音样本集，其中，所述多通道语音样本集包括多个多通道语音样本，每个多通道语音样本包括一段多通道语音数据以及对应的文本数据，所述文本数据为所述多通道语音数据中所包含的文字形式自然语言；每段所述多通道语音数据包含一个扬声器的信号参考通道和至少一个麦克风的信号通道；

处理单元，用于将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集，其中，所述第一深度残差网络编码器用于将不同维度的多通道语音样本转化为相同维度的特征，所述第一样本特征集包含多个第一样本特征，每个样本特征对应一个所述多通道语音样本；对所述多通道语音样本集进行转换处理，得到单通道语音样本集，其中，所述单通道语音样本集包括多个单通道语音样本，每个单通道语音样本包括：一段单通道语音数据以及对应的文本数据，所述文本数据为所述多通道语音数据中所包含的文字形式自然语言，每段单通道语音样本对应于所述单通道语音样本中包含的自然语言含义相同的多通道语音样本；将所述单通道语音样本集输入到第二深度残差网络编码器中，得到第二样本特征集；

选择单元，用于从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集；

递归单元，用于将所述目标样本特征集输入至预设的递归神经网络模型，对所述递归神经网络模型进行训练直至收敛，得到语音识别模型

在一种实施方式中，所述选择单元采用如下方式从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集：

在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集；其中，所述目标深度残差网络编码器为所述第一深度残差网络编码器中的一个，或为所述第二深度残差网络编码器。

在一种实施方式中，所述选择单元采用如下方式在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集：

确定所述第一深度残差网络编码器中各深度残差网络编码器所输出第一样本特征集在全部样本特征集中的第一占比，并确定所述第二深度残差网络编码器所输出第二样本特征集在全部样本特征集中的第二占比；基于所述第一占比和所述第二占比，为所述第一深度残差网络编码器中各深度残差网络编码器，以及所述第二深度残差网络编码器分配概率分布函数；基于所述概率分布函数分别确定所述第一深度残差网络编码器中各深度残差网络编码器的概率值，以及所述第二深度残差网络编码器的概率值；选择概率值最大的深度残差网络编码器作为目标深度残差网络编码器，并将所述目标深度残差网络编码器输出的样本特征集，作为目标样本特征集。

在一种实施方式中，所述多通道语音样本集包括多个多通道语音样本集，所述处理单元采用如下方式将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集：

在一种实施方式中，所述处理单元还用于：

将所述语音识别模型分离为一个或多个语音识别子模型；

在一种实施方式中，所述转换处理包括：

回声消除、降噪、去混响、方位估计和波束形成。

根据本公开实施例的第四方面，提供一种语音识别装置，包括：

采集模块，用于获取待识别语音数据；

调用模块，用于调用语音识别模型，所述语音识别模型为第一方面或者第一方面任意一种实施方式中所述的语音识别模型；

识别模块，用于对所述待识别语音数据基于所述语音识别模型进行语音识别，得到所述待识别语音数据的文字形式自然语言。

在一种实施方式中，所述识别模块采用如下方式基于所述语音识别模型，对所述待识别语音数据进行语音识别，得到所述待识别语音数据的文字形式自然语言：

确定所述待识别语音数据的通道类型，所述通道类型包括单通道或多通道；在所述语音识别模型中确定匹配所述通道类型的目标语音识别子模型；

根据本公开实施例的第五方面，提供一种语音识别装置，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第一方面或者第一方面任意一种实施方式中所述的语音识别模型训练方法。

根据本公开实施例第六方面，提供一种语音识别装置，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第二方面或者第二方面任意一种实施方式中所述的语音识别方法。

根据本公开实施例第七方面，提供一种存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行第一方面或者第一方面任意一种实施方式中所述的语音识别模型训练方法。

根据本公开实施例第八方面，提供一种存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行第二方面或者第二方面任意一种实施方式中所述的语音识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：语音识别模型将获得的语音样本为多通道语音样本，多通道语音样本包括一段多通道语音数据以及对应的文本数据，将多通道语音样本经过转换处理，得到单通道语音样本，单通道语音样本包括一段单通道语音数据和对应的文本数据。将多通道语音样本与单通道语音样本分别输入第一深度残差网络与第二深度残差网络，得到第一样本特征集与第二样本特征集，从第一样本特征集与第二样本特征集中选择目标样本特征集，输入至预设的递归神经网络模型，对该模型训练直至收敛，得到语音识别模型。本公开实施例提供的语音识别模型实现了单通道语音样本和多通道语音样本的混合训练，故适用于单通道语音识别，也适用于多通道语音识别，是更通用的模型，能够缩减前端处理时延，更快识别用户语音内容，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音识别模型训练方法的流程图。

图2是根据一示例性实施例示出的一种选择目标样本特征集的方法流程图。

图3示出了本公开一示例性实施例中示出的一种语音识别模型训练过程示意图。

图4示出了本公开一示例性实施例中示出的一种选择目标样本特征集的实施过程示意图。

图5是根据一示例性实施例示出的一种从第一样本特征集和所述第二样本特征集中选择目标样本特征集的方法流程图。

图6示出了本公开一示例性实施例中示出的选择概率分布函数与递归神经网络模型网络的过程示意图。

图7示出了本公开一示例性实施例中示出的一种分离得到的通道类型为多通道的语音识别子模型示例图。

图8示出了本公开一示例性实施例中示出的一种分离得到的通道类型为单通道的语音识别子模型示例图。

图9是根据一示例性实施例示出的一种语音识别方法的流程图。

图10是根据一示例性实施例示出的一种语音识别方法的流程图。

图11是根据一示例性实施例示出的一种语音识别模型训练装置框图。

图12是根据一示例性实施例示出的一种语音识别装置框图。

图13是根据一示例性实施例示出的一种用于语音识别的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开实施例提供的语音识别模型训练方法、语音识别方法可应用于语音识别场景。例如，可以是回声场景下的多通道语音识别。其中，语音识别主要是将语音转化为文字。

相关技术中，语音识别技术主要包括前端处理和后端处理两大部分。

其中，前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。例如，前端处理包括回声消除、降噪、去混响、方位估计和波束形成等一个或多个模块，前端处理后输出一个通道的信号或特征表示。其中，后端处理主要是根据前端的输出，做进一步的语音识别。例如，基于声学及语言模型进行语音到音节概率的计算和音节到文字概率的计算。其中，后端处理中又包括适应强健与性能指标。

其中，适应强健是指语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。

其中，前端模块的优化目标是单通道语音信号，后端语音识别的目标是提高语音识别准确率，前端模块的优化目标与最终语音识别准确率的目标不完全统一，导致性能非全局最优。

可以理解的是，本公开中所涉及到语音信号中的单通道是指在音频获取过程中，只用一个麦克风录音通道获得的音频数据。

本公开所涉及到语音信号中的多通道是指在音频获取过程中，用一个扬声器的信号参考通道和至少一个麦克风的录音通道获得的音频数据。

目前，语音识别技术还存在着研究的进步空间，例如可以提升语音识别的速度与精确度，提升用户体验。

在实际应用中，语音识别的前端处理结果满足了人为主观认为的舒适程度，导致后端进行文字识别以及输出的时候缺乏了语言可懂性，导致整体语音识别结果并非最佳。因此，前后端统一的语音识别模型混合训练显得尤为重要。

有鉴于此，本公开实施例提供一种语音识别方法，在该语音识别方法中，使用基于前后端混合训练生成的前后端一体化语音识别模型，进行语音识别，实现多通道输入然后直接得到文字输出的效果。进而实现语音识别模型的训练是以最终提高语音到文字的识别准确率为同一的优化目标。

一种实施方式中，本公开实施例提供一种语音识别模型训练方法，在该语音识别模型训练方法中，将前端处理通过语音识别模型中的网络结构表示，实现前端和后端的混合训练。该语音识别模型是指，获取到语音数据之后，获取多通道语音样本，将该多通道语音样本集输入到深度残差网络编码器(以下称为度残差网络编码器)中，得到样本特征集(以下称为第一样本特征集)。每个样本特征对应一个所述多通道语音样本，对该多通道语音样本集进行转换处理，得到单通道语音样本集。该单通道语音样本集输入到深度残差网络编码器(以下称为第二深度残差网络编码器)中，得到样本特征集，以下称为第二样本特征集。从该第一样本特征集和该第二样本特征集中选择目标样本特征集，将该目标样本特征集输入至预设的递归神经网络模型，对该递归神经网络模型进行训练直至收敛，得到语音识别模型。根据该语音识别模型，对待识别语音数据进行语音识别，得到待识别语音数据的文字形式自然语言。从而实现前端后端一体化，摆脱前端处理的优化准则、算法、参数等影响，通过训练得到能够处理包括单通道语音信号和多通道语音信号的更通用的模型，达到更快识别用户语音内容、提升最终语音识别准确率的用户体验。

图1是根据一示例性实施例示出的一种语音识别模型训练方法的流程图，如图1所示，包括以下步骤。

在步骤S11中，获取多通道语音样本集。

其中，本公开实施例中获取的多通道语音样本集中包括多个多通道语音样本，每个多通道语音样本包括一段多通道语音数据以及对应的文本数据。其中，多通道语音数据对应的文本数据为多通道语音数据中所包含的文字形式自然语言；每段多通道语音数据包含一个扬声器的信号参考通道和至少一个麦克风的信号通道。

在步骤S12中，将多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集。

其中，第一深度残差网络编码器用于将不同维度的多通道语音样本转化为相同维度的特征，第一样本特征集包含多个第一样本特征，每个样本特征对应一个多通道语音样本。

其中，可以理解的是，多通道语音样本集可以包含多个多通道语音样本。多通道语音转化样本存在多个不同的维度，其中，维度指的是包含但不限于对于语音音频的时频分析和分帧。这里语音样本的维度可以进一步理解为，一个通道的特征有N个维度，m个通道的语音数据转化为特征样本，该样本特征具有m*N个维度。

将不同维度的多通道语音样本转化为相同维度的特征，比如，在第一深度残差网络编码器中进行编码的语音，均为维度为80的语音，存在一段即将输入第一深度残差网络编码器的多通道语音，输入的语音原始维度为120，对该音频进行维度特征相同化的处理，将其维度映射为80，再对其进行后续的模型训练。

在步骤S13中，对多通道语音样本集进行转换处理，得到单通道语音样本集。

其中，单通道语音样本集包括多个单通道语音样本，每个单通道语音样本包括：一段单通道语音数据以及对应的文本数据，文本数据为多通道语音数据中所包含的文字形式自然语言。

其中，每段单通道语音样本对应于单通道语音样本中包含的自然语言含义相同的多通道语音样本。

本公开实施例中，语音识别模型训练方法的转换处理包括：回声消除、降噪、去混响、方位估计和波束形成。

本公开实施例中，对多通道语音样本集进行转换处理，得到单通道语音样本集。

在步骤S14中，将单通道语音样本集输入到第二深度残差网络编码器中，得到第二样本特征集。

本公开实施例中，将单通道语音样本集输入到第二深度残差网络编码器中，得到第二样本特征集。

可以理解的是，以上步骤是对于多通道语音样本集中的多通道语音样本进行语音识别的初步处理以及训练，多通道语音样本集中的多通道语音样本可以经过处理获得单通道语音样本。

在步骤S15中，从第一样本特征集和第二样本特征集中选择目标样本特征集。

本公开实施例中，为得到通用的语音识别训练模型，从第一样本集和第二样本集中选择目标样本特征集，将目标样本特征集输入至预设的递归神经网络模型，对该递归神经网络模型进行训练直至收敛，得到语音识别模型。

在步骤S16中，将目标样本特征集输入至预设的递归神经网络模型，对递归神经网络模型进行训练直至收敛，得到语音识别模型。

其中，本公开实施例中在语音识别模型训练过程中，使用共享的递归神经网络模型。在语音识别模型的训练过程中，目标样本特征集所输入的递归神经网络模型，指的是多通道语音识别与单通道语音识别所共享的递归神经网络模型。

例如，获得一个多通道语音样本集，其中包含多个多通道语音样本，多通道语音样本和经过处理所得到的单通道语音样本分别对应两种不同的深度残差网络编码器。

可以理解的是，单通道语音样本的特征维度与多通道语音样本的特征维度不同，但经过模型训练后，样本基于相同特征维度的编码进行输出，输出到递归神经网络模型，进行进一步的语音识别模型训练。

本公开实施例中，提供的语音识别模型训练方法，是利用大量单通道的语音数据来训练语音识别模型，补足了多通道语音数据存在质和量不足的情况，同时提升了语音识别模型的准确率。

进一步地，本公开实施例中，训练语音识别模型方法中，需要选择目标样本特征集，以进行语音识别模型的训练。

图2是根据一示例性实施例示出的一种选择目标样本特征集的方法流程图，如图2所示，从第一样本特征集和所述第二样本特征集中选择目标样本特征集，包括以下步骤。

在步骤S21中，确定第一样本特征集和第二样本特征集。

其中，第一样本特征集和第二样本特征集可以采用上述实施方式中涉及的方法进行确定。

在步骤S22中，在第一样本特征集和第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集；

目标深度残差网络编码器为第一深度残差网络编码器中的一个，或为第二深度残差网络编码器。

本公开实施例中，多通道语音样本深度残差网络编码器可以不止一个，不同的设备或不同通道数对应不同的深度残差网络编码器。多通道语音样本的通道数量并非一致，则多通道深度残差网络编码器有多种类型。

图3示出了本公开一示例性实施例中示出的一种语音识别模型训练过程示意图。参阅图3所示，Ch0为参考通道，Ch1～ChN为N个传声器通道。Ch0～ChN输出至深度残差网络编码器的语音样本数据包括两种类型：第一种是N个麦克风接收通道和1个设备扬声器发声的参考通道组成的多通道信号或信号特征，第二种是多通道信号经过传统前端(回声消除、降噪、去混响、方位估计和波束形成等)信号处理后得到的单通道信号或特征。也可以理解为是本公开实施例中涉及的第一样本特征和第二样本特征。其中，第一样本特征和第二样本特征分别对应各自的深度残差网络编码器。

本公开中，若多通道语音样本集包括多个多通道语音样本集，则可以将多个多通道样本集中分别输入至多个第一深度残差网络编码器中，得到多个第一样本特征集，其中，多通道样本集、第一深度残差网络编码器以及第一样本特征集之间具有一一对应关系。

可以理解的是，多通道语音样本包含通道个数的数量不同，多通道语音样本的种类不同，多通道深度残差网络编码器的类型不同。比如，当获取的多通道语音样本数据输入是由2麦、4麦和6麦组成，则多通道的深度残差网络编码器有三个，再加上一个单通道的深度残差网络编码器，则一共有四个深度残差网络编码器输出给递归神经网络模型。

类似地，当加入更多不同设备或不同通道数的数据时，多通道的编码器相应增加。

进一步的，本公开实施例中单通道语音样本输入至深度残差网络编码器之前，需要进行回声消除、降噪、去混响、方位估计和波束形成等转化处理。

本公开实施例中，深度残差网络编码器可以理解为是将输入特征A转化为另外一种特征B表示的网络结构。第一样本特征和第二样本特征的特征维度是不同的，但输出特征B的维度相同，基于相同维度的特征编码输出，两种编码器共享后端网络(即，共享递归神经网络模型)。

本公开实施例中，基于各深度残差网络编码器输出的样本特征集，需要执行目标样本特征集的选择过程，然后将目标样本特征集输入至共享的递归神经网络模型中，进行模型训练，以得到输出为文字形式的自然语言，完成语音识别模型的训练。

进一步地，本公开实施例以下对从第一样本特征集和第二样本特征集中选择目标样本特征集的实施过程进行说明。

本公开一示例性实施例中，可以在从第一样本特征集和第二样本特征集中选择一个样本特征集作为目标样本特征集。例如，可以采用多选一的选择机制，在第一样本特征集和第二样本特征集中选择一个样本特征集作为目标样本特征集。换言之，本公开实施例中提供的语音识别模型训练过程中第一深度残差网络编码器输出的第一样本特征集和第二深度残差网络编码器输出的第二样本特征集并非同时传递给后端网络模型，而是按照数据规模设置一个多选1的选择机制，例如可以采用多选1的开关机制，进行目标样本特征集的选择。

图4示出了本公开一示例性实施例中示出的一种选择目标样本特征集的实施过程示意图。其中，参阅图4所示，多通道语音样本对应的第一深度残差网络编码器的数量为M个。单通道语音样本对应的第二深度残差网络编码器的数量为1个。一共有M+1个深度残差网络编码器输出给后端的递归神经网络模型，进行后端处理。

本公开实施例中，在图4所示的网络模型结构的基础上，需要在多个深度残差网络编码器中选择出一个深度残差网络编码器作为目标深度残差网络编码器，并将目标深度残差网络编码器输出的样本特征集作为目标样本特征集，以保证每次迭代只有一个深度残差网络编码器与后端网络贯通。

一种实施方式中，本公开实施例中可以基于概率分布函数，确定M+1个深度残差网络编码器中各深度残差网络编码器的概率分布，进而基于该概率分布选择概率值最大的深度残差网络编码器作为目标深度残差网络编码器，并将目标深度残差网络编码器输出的样本特征集作为目标样本特征集。

图5是根据一示例性实施例示出的一种从第一样本特征集和所述第二样本特征集中选择目标样本特征集的方法流程图，如图5所示包括以下步骤。

在步骤S31中，确定各深度残差网络编码器中深度残差网络编码器所输出样本特征集在全部样本特征集中的占比。

在步骤S32中，为深度残差网络编码器分配概率分布函数。

在步骤S33中，确定深度残差网络编码器中各深度残差网络编码器的概率值。

在步骤S34中，确定目标样本特征集。

本公开实施例中，需要确定第一深度残差网络编码器中各深度残差网络编码器所输出第一样本特征集在全部样本特征集中的第一占比，并确定第二深度残差网络编码器所输出第二样本特征集在全部样本特征集中的第二占比。

基于第一占比和第二占比，为第一深度残差网络编码器中各深度残差网络编码器，以及第二深度残差网络编码器分配概率分布函数。

基于概率分布函数分别确定第一深度残差网络编码器中各深度残差网络编码器的概率值，以及第二深度残差网络编码器的概率值。

选择概率值最大的深度残差网络编码器作为目标深度残差网络编码器，并将目标深度残差网络编码器输出的样本特征集，作为目标样本特征集。

其中，概率分布函数原理是，根据单通道语音样本与多通道语音样本的数据量相对总数据量的比例，记为{p(m)|m＝0,1,…M}，给M+1个选择分别分配一个选择的概率分布函数，其概率分布函数满足高斯函数，高斯函数满足均值为{p(m)|m＝0,1,…M}，方差为1。

对于深度残差网络编码器概率分布值分别用符号pdf(m)，m＝0,1,…M表示。

每次训练语音识别模型，根据M+1个概率分布，随机产生M+1个概率值，取最大值对应的深度残差网络编码器与递归神经网络模型网络贯通，完成一次深度残差网络编码器和递归神经网络模型的更新。

可以理解的是，选择个数为M+1的原因是，多通道语音样本中有一个扬声器的信号参考通道和至少一个麦克风录音通道。

可以理解的是，选择概率最大值的深度残差网络编码器作为目标深度残差网络编码器，是指在所有多通道深度残差网络编码器中选择的概率最大值。其中，所有多通道深度残差网络编码器包括了单通道深度残差网络编码器，保证每次语音识别模型的迭代，只有一个深度残差网络编码器与递归神经网络模型贯通。

接续上述图4所示的示例，本公开实施例中基于概率分布函数选择输入至递归神经网络模型的目标深度残差网络编码器时，可以将各深度残差网络编码器的概率分布值用pdf(m)表示。

图6示出了本公开一示例性实施例中示出的选择概率分布函数与递归神经网络模型网络的过程示意图。参阅图6所示，一共有四个深度残差网络编码器与四个深度残差网络编码器概率分布值，其中，最大的概率分布值为pdf(3)，则选择pdf(3)对应的深度残差网络编码器，并输出pdf(3)对应的深度残差网络编码器的样本特征集，作为目标样本特征集。

参阅图6所示，在多个深度残差网络编码器中选择出一个深度残差网络编码器作为目标深度残差网络编码器，并将目标深度残差网络编码器输出的样本特征集作为目标样本特征集，以保证每次迭代只有一个深度残差网络编码器与后端网络贯通。

进一步地，本公开实施例提供的基于多通道语音样本和单通道语音样本进行模型训练所得到的语音识别模型训练的网络结构中包括多个多通道语音识别模型结构，以及一个单通道语音识别模型结构。故，本公开实施例一种实施方式中，在语音识别模型训练结束后，可以将语音识别模型分离为一个或多个语音识别子模型。

图7示出了本公开一示例性实施例中示出的一种分离得到的通道类型为多通道的语音识别子模型示例图。其中，Ch0代表一个扬声器的信号参考通道，ChN代表麦克风信号通道。

图8示出了本公开一示例性实施例中示出的一种分离得到的通道类型为单通道的语音识别子模型示例图。其中，Ch0代表一个扬声器的信号参考通道，ChN代表麦克风信号通道。

可以理解的是，本公开实施例中可以分离出多个图7所示的通道类型为多通道的语音识别子模型。本公开实施例中可以分离出1个图8所示的通道类型为单通道的语音识别子模型

参阅图7和图8所示，本公开实施例中，将语音识别模型分离为一个或多个语音识别子模型中的每一语音识别子模型中包括一个深度残差网络编码器以及递归神经网络模型。

其中，语音识别子模型中包括的一个深度残差网络编码器为第一深度残差网络编码器中的一个，或为第二深度残差网络编码器，不同语音识别子模型共享递归神经网络模型。

比如，多通道样本集中，包含一个由2麦、4麦和一个扬声器的信号参考通道输入的样本，同时包含一个由3麦、4麦、6麦和一个扬声器的信号参考通道输入的样本，语音模型经过多通道样本集的训练，可以分离出两个子模型。

其中，一个子模型由两个传声器通道、一个扬声器的信号参考通道和神经递归网络模型组成，另一个子模型由三个传声器通道、一个扬声器的信号参考通道和神经递归网络模型组成。

这两个子模型可以分别针对由两个通道输入的语音样本和由三个通道输入的语音样本分别进行针对性训练，且这两个子模型中所包含的神经递归网络模型是共享的神经递归网络模型。

本公开实施例中，多通道语音识别模型不需要额外的多通道回声消除模块和回声消除、降噪、去混响、方位估计和波束形成等前端处理模块，对多个通道的接收信号进行直接识别。通过上述混合训练机制训练出的模型，不仅提升了多通道语音识别的性能，还适用于经过传统前端处理后得到的单通道语音识别，并有性能上的提升。

本公开实施例提供的上述语音识别模型训练方法，利用了大量经过传统前端处理后得到的单通道信号，和未经过前端处理的多通道信号，进行单/多通道语音识别模型的混合训练，在远场、存在回声和多通道数据规模较小的条件下，同时优化了单/多通道语音识别模型。训练一次，能够分离出单通道和多通道两种模型，即1个个单通道语音识别模型和M个多通道语音识别模型。根据不同设备、不同场景、相同通道数的多通道编码器可以有1个或多个，可满足不同设备、不同场景下的部署需求。并且，随着多通道数据的积累，可以迭代训练出性能更优的模型。

基于本公开实施例中上述各实施例提供的语音识别模型训练方法得到的语音识别模型可以进行语音识别。

图9是根据一示例性实施例示出的一种语音识别方法的流程图。如图9所示，语音识别方法包括以下步骤。

在步骤S41中，获取待识别语音数据。

在步骤S42中，调用语音识别模型。

其中，本公开实施例调用的语音识别模型为采用本公开上述任一实施例涉及的语音识别模型训练方法得到的语音识别模型。

在步骤S43中，基于调用的语音识别模型，对待识别语音数据进行语音识别，得到所述待识别语音数据的文字形式自然语言。

本公开实施例中，获取的待识别语音数据可以包含由一个扬声器的信号参考通道和至少一个麦克风的信号通道获得的语音数据。调用语音识别模型，将待识别数据输入到语音识别模型中，由语音识别模型对待识别数据进行语音识别，得到待识别语音数据的文字形式自然语言。

本公开实施例中，待识别的语音数据的通道类型可以是单通道的，也可以是多通道的，故本公开实施例中可以基于待识别语音数据的通道类型，确定匹配带视频语音通道的目标语音识别子模型，以进行语音识别。

图10是根据一示例性实施例示出的一种语音识别方法的流程图。如图10所示，得到待识别语音数据的文字形式自然语言，包括以下步骤。

在步骤S51中，确定待识别语音数据的通道类型。

在步骤S52中，确定匹配待识别语音通道类型的目标语音识别子模型。

本公开实施例中，确定待识别语音数据的通道类型包括单通道或多通道，在语音识别模型中对待识别语音的通道类型进行匹配，匹配到与待识别语音通道类型一致的目标语音识别子模型。

其中，若通道类型为多通道，则目标语音识别子模型包括通道数量与多通道数量一致的第一深度残差网络编码器以及递归神经网络模型；若通道类型为单通道，则目标语音识别子模型包括第二深度残差网络编码器以及递归神经网络模型。

例如，获取由一个扬声器的信号参考通道和三个麦克风的信号通道组成的待测语音，将待测语音输入语音识别模型中，语音识别模型匹配由四个通道组成的子模型，识别待识别语音。识别过程为，待识别语音经过第一深度残差网络编码器以及递归神经网络，得到待识别语音数据的文字形式自然语言的输出，完成待识别语音的语音识别。综上，本公开实施例提供的语音识别方法，是一种能够满足不同设备、不同场景下的语音识别需求，且能够提升语音识别准确率的语音识别方案。

基于相同的构思，本公开实施例还提供一种语音识别训练模型装置。

可以理解的是，本公开实施例提供的语音识别训练装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图11是根据一示例性实施例示出的一种语音识别模型训练装置框图。参照图11，该语音识别训练模型装置100包括获取单元101，处理单元102，选择单元103，递归单元104。

获取单元101，用于获取多通道语音样本集，其中，所述多通道语音样本集包括多个多通道语音样本，每个多通道语音样本包括一段多通道语音数据以及对应的文本数据，所述文本数据为所述多通道语音数据中所包含的文字形式自然语言；每段所述多通道语音数据包含一个扬声器的信号参考通道和至少一个麦克风的信号通道。

处理单元102，用于对所述多通道语音样本集进行转换处理，得到单通道语音样本集。

选择单元103，用于从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集，其中，所述第一样本特征集为将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集；所述第二样本特征集为将所述单通道语音样本集输入到第二深度残差网络编码器中，得到第二样本特征集。

递归单元104，用于将所述目标样本特征集输入至预设的递归神经网络模型，对所述递归神经网络模型进行训练直至收敛，得到语音识别模型。

在一种实施方式中，选择单元103，用于：在第一样本特征集和第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集；目标深度残差网络编码器为第一深度残差网络编码器中的一个，或为第二深度残差网络编码器。

在一种实施方式中，选择单元103采用如下方式进行选择：确定第一深度残差网络编码器中各深度残差网络编码器所输出第一样本特征集在全部样本特征集中的第一占比，并确定第二深度残差网络编码器所输出第二样本特征集在全部样本特征集中的第二占比；基于第一占比和第二占比，为第一深度残差网络编码器中各深度残差网络编码器，以及第二深度残差网络编码器分配概率分布函数；基于概率分布函数分别确定第一深度残差网络编码器中各深度残差网络编码器的概率值，以及第二深度残差网络编码器的概率值；选择概率值最大的深度残差网络编码器作为目标深度残差网络编码器，并将目标深度残差网络编码器输出的样本特征集，作为目标样本特征集。

在一种实施方式中，多通道语音样本集包括多个多通道语音样本集，将多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集：将多个多通道样本集中分别输入至多个第一深度残差网络编码器中，得到多个第一样本特征集，其中，多通道样本集、第一深度残差网络编码器以及第一样本特征集之间具有一一对应关系。

在一种实施方式中，本公开实施例涉及的处理单元102还用于：将语音识别模型分离为一个或多个语音识别子模型；其中，每一语音识别子模型中包括一个深度残差网络编码器以及递归神经网络模型，其中，语音识别子模型中包括的一个深度残差网络编码器为第一深度残差网络编码器中的一个，或为第二深度残差网络编码器，不同语音识别子模型共享递归神经网络模型。

在一种实施方式中，本公开实施例涉及的转换处理包括：回声消除、降噪、去混响、方位估计和波束形成。

基于相同的构思，本公开实施例还提供一种语音识别装置。

图12是根据一示例性实施例示出的一种语音识别装置框图。参照图12，该语音识别装置200包括采集模块201，调用模块202，识别模块203。

采集模块201，用于获取待识别语音数据；

调用模块202，用于调用语音识别模型，语音识别模型为权利要求1至5中任意一项的语音识别模型；

识别模块203，用于对待识别语音数据基于语音识别模型进行语音识别，得到待识别语音数据的文字形式自然语言。

在一种实施方式中，识别模块203采用如下方式对待识别语音数据进行语音识别，得到待识别语音数据的文字形式自然语言：确定待识别语音数据的通道类型，通道类型包括单通道或多通道；在语音识别模型中确定匹配通道类型的目标语音识别子模型；其中，若通道类型为多通道，则目标语音识别子模型包括通道数量与多通道数量一致的第一深度残差网络编码器以及递归神经网络模型；若通道类型为单通道，则目标语音识别子模型包括第二深度残差网络编码器以及递归神经网络模型；将待识别语音数据输入至目标语音识别子模型，基于目标语音识别子模型的输出结果，确定待识别语音数据的文字形式自然语言。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种用于语音识别的装置300的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图13，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电力组件306，多媒体组件308，音频组件310，输入/输出(I/O)接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在装置300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件306为装置300的各种组件提供电力。电力组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当装置300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到装置300的打开/关闭状态，组件的相对定位，例如组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

Claims

1.一种语音识别模型训练方法，其特征在于，所述语音识别模型训练方法包括：

2.根据权利要求1所述的语音识别模型训练方法，其特征在于，所述从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集，包括：

3.根据权利要求2所述的语音识别模型训练方法，其特征在于，所述在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集，包括：

确定所述第一深度残差网络编码器中各深度残差网络编码器所输出第一样本特征集在全部样本特征集中的第一占比，并确定所述第二深度残差网络编码器所输出第二样本特征集在全部样本特征集中的第二占比；

4.根据权利要求1所述的语音识别模型训练方法，其特征在于，所述多通道语音样本集包括多个多通道语音样本集，

所述将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集，包括：

5.根据权利要求1至4中任意一项所述的语音识别模型训练方法，其特征在于，所述方法还包括：

将所述语音识别模型分离为一个或多个语音识别子模型；

6.根据权利要求1所述的语音识别模型训练方法，所述转换处理包括：

回声消除、降噪、去混响、方位估计和波束形成。

7.一种语音识别方法，其特征在于，所述语音识别方法包括：

获取待识别语音数据；

调用语音识别模型，所述语音识别模型为权利要求1至6中任意一项所述的语音识别模型；

8.根据权利要求7所述的语音识别方法，其特征在于，所述基于所述语音识别模型，对所述待识别语音数据进行语音识别，得到所述待识别语音数据的文字形式自然语言，包括：

9.一种语音识别模型训练装置，其特征在于，所述语音识别模型训练装置包括：

递归单元，用于将所述目标样本特征集输入至预设的递归神经网络模型，对所述递归神经网络模型进行训练直至收敛，得到语音识别模型。

10.根据权利要求9所述的语音识别模型训练装置，其特征在于，所述选择单元采用如下方式从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集：

在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集；其中，

所述目标深度残差网络编码器为所述第一深度残差网络编码器中的一个，或为所述第二深度残差网络编码器。

11.根据权利要求10所述的语音识别模型训练装置，其特征在于，所述选择单元采用如下方式在所述第一样本特征集和所述第二样本特征集中选择目标深度残差网络编码器输出的样本特征集，作为目标样本特征集：

12.根据权利要求9所述的语音识别模型训练装置，其特征在于，所述多通道语音样本集包括多个多通道语音样本集，

所述处理单元采用如下方式将所述多通道语音样本集输入到第一深度残差网络编码器中，得到第一样本特征集：

13.根据权利要求9至12中任意一项所述的语音识别模型训练装置，其特征在于，所述处理单元还用于：

将所述语音识别模型分离为一个或多个语音识别子模型；

14.根据权利要求9所述的语音识别模型训练装置，所述转换处理包括：

回声消除、降噪、去混响、方位估计和波束形成。

15.一种语音识别装置，其特征在于，所述语音识别装置包括：

采集模块，用于获取待识别语音数据；

调用模块，用于调用语音识别模型，所述语音识别模型为权利要求1至6中任意一项所述的语音识别模型；

16.根据权利要求15所述的语音识别装置，其特征在于，所述识别模块采用如下方式基于所述语音识别模型，对所述待识别语音数据进行语音识别，得到所述待识别语音数据的文字形式自然语言：

17.一种语音识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至6中任意一项所述的语音识别模型训练方法，或执行权利要求7至8中任意一项所述的语音识别方法。

18.一种存储介质，其特征在于，所述存储介质中存储有指令，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行权利要求1至6中任意一项所述的语音识别模型训练方法，或执行权利要求7至8中任意一项所述的语音识别方法。