CN113192492A

CN113192492A - 语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN113192492A
Application number: CN202110470112.3A
Authority: CN
Inventors: 王瑞璋; 魏韬; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-30
Anticipated expiration: 2041-04-28
Also published as: CN113192492B

Abstract

本申请涉及一种语音识别方法、装置、计算机设备及存储介质，该方法包括：获取训练数据，包括标准普通话训练数据和非标准普通话训练数据；将标准普通话训练数据输入主神经网络进行训练获得普通话声学模型；在普通话声学模型中增加分支神经网络；将标准普通话训练数据和非标准普通话训练数据输入普通话声学模型进行多任务训练；对普通话声学模型进行模型更新,生成初始声学模型；将训练数据输入初始声学模型进行训练，获得目标声学模型；将语音信息输入至目标声学模型中得到语音信息的语义信息，不仅提高了ASR识别效率；并且也避免了由于口音识别错误而影响ASR识别的准确性。本申请还涉及区块链技术，目标声学模型可以存储在区块链节点中。

Description

语音识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术

对于电话客服场景，普通话ASR(Automatic Speech Recognition，自动语音识别技术)受口音影响的情况很普遍。为了解决这一问题，传统方法一般是为不同口音提供专用声学模型，整个ASR系统包含多种口音的专用声学模型，同时前端配置口音识别模块。这种ASR系统复杂度太高，时延高，影响了ASR识别的效率；并且，口音识别错误也会影响ASR识别的准确性。

因此，如何提高ASR识别效率及准确性成为亟待解决的问题。

发明内容

本申请提供了一种语音识别方法、装置、计算机设备及存储介质，能够实现提高ASR识别效率及准确性。

第一方面，本申请提供了一种语音识别方法，所述方法包括：

获取训练数据，所述训练数据包括标准普通话训练数据和非标准普通话训练数据；

将所述标准普通话训练数据输入主神经网络进行训练，获得普通话声学模型；

在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致；

将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型；

对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型；

将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型；

获取待识别的语音信息，将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息，其中，所述语音信息包含标准普通话和/或非标准普通话。

第二方面，本申请还提供了一种语音识别装置，所述装置包括：

数据获取模块，用于获取训练数据，所述训练数据包括标准普通话训练数据和非标准普通话训练数据；

第一模型训练模块，用于将所述标准普通话训练数据输入主神经网络进行训练，获得普通话声学模型；

第一模型处理模块，用于在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致；

第二模型训练模块，用于将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型；

第二模型处理模块，用于对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型；

第三模型训练模块，用于将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型；

语音识别模块，用于获取待识别的语音信息，将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息，其中，所述语音信息包含标准普通话和/或非标准普通话。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现上述的语音识别方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的语音识别方法。

本申请公开了一种语音识别方法、装置、计算机设备及存储介质，通过获取训练数据，包括标准普通话训练数据和非标准普通话训练数据，将标准普通话训练数据输入主神经网络进行训练，获得普通话声学模型，在普通话声学模型中增加分支神经网络,将标准普通话训练数据和非标准普通话训练数据分别输入包含分支神经网络的普通话声学模型进行多任务训练,对多任务训练后的普通话声学模型进行模型更新,生成初始声学模型，将训练数据输入初始声学模型进行训练，获得对应的目标声学模型，将待识别的语音信息(包含标准普通话和/或非标准普通话)输入至该目标声学模型中得到语音信息的语义信息。与传统的为不同口音提供专用声学模型，同时在前端增加口音识别模块的方法相比，不需要训练多个专用声学模型，目标声学模型的训练复杂度低，基于该目标声学模型进行语音识别不仅提高了ASR识别效率；并且，也避免了由于口音识别错误而影响ASR识别的准确性，也即提高了ASR识别的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种语音识别方法的示意流程图；

图2是本申请一实施例提供的一种获取训练数据的示意流程图；

图3是本申请一实施例提供的一种单个tdnnf层的网络结构示意图；

图4是本申请一实施例提供的一种增加了分支神经网络的普通话声学模型的网络结构示意图；

图5是本申请一实施例提供的一种进行多任务训练的示意流程图；

图6是本申请一实施例提供的一种初始声学模型的网络结构示意图；

图7是本申请一实施例提供的一种将所述训练数据输入所述初始声学模型进行训练的示意流程图；

图8是本申请一实施例提供的一种语音识别装置的结构示意性框图；

图9是本申请一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种语音识别方法、装置、计算机设备及存储介质。基于该语音识别方法生成目标声学模型，与传统的为不同口音提供专用声学模型，同时在前端增加口音识别模块的方法相比，不需要训练多个专用声学模型，训练复杂度和系统复杂度都大大降低，从而提高了ASR识别效率；并且，也避免了由于口音识别错误而影响ASR识别的准确性。

其中，该语音识别方法可以用于服务器，当然也可以用于终端，其中，终端可以是平板电脑、笔记本电脑、台式电脑等电子设备；服务器例如可以为单独的服务器或服务器集群。但为了便于理解，以下实施例将以应用于服务器的语音识别方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种语音识别方法的示意流程图。

如图1所示，该语音识别方法可以包括以下步骤S101至步骤S107。

步骤S101、获取训练数据，所述训练数据包括标准普通话训练数据和非标准普通话训练数据。

示例性的，非标准普通话训练数据包括多种不同的重口音训练数据。

在一些实施例中，如图2所示，所述步骤S101包括子步骤S1011至子步骤S1013。

S1011、采集标准普通话音频数据和非标准普通话音频数据。

示例性的，以电话客服场景为例，采集电话客服场景中的大量标准普通话音频数据，以及采集电话客服场景中的少量重口音的非标准普通话音频数据。

S1012、将所述标准普通话音频数据和所述非标准普通话音频数据进行标注。

在获得标准普通话音频数据和非标准普通话音频数据后，将标准普通话音频数据和非标准普通话音频数据进行标注。例如，对标准普通话音频数据和非标准普通话音频数据进行文字标注。

S1013、对标注的所述标准普通话音频数据进行特征提取，获得对应的所述标准普通话训练数据，以及对标注的所述非标准普通话音频数据进行特征提取，获得对应的所述非标准普通话训练数据。

示例性的，基于预设帧长以及预设帧移，例如25ms帧长以及10ms帧移，可以理解的是，预设帧长以及预设帧移可根据实际情况进行灵活设置，在此不作具体限制。采用相应的特征提取算法分别对标注的标准普通话音频数据和非标准普通话音频数据进行特征提取，获得对应的标准普通话训练数据和非标准普通话训练数据。示例性的，对标注的标准普通话音频数据和非标准普通话音频数据，分别提取多维的MFCC(MeI-Freguency CeptraICoefficients)语音特征，拼接多维的pitch特征以及多维的ivector向量特征。例如，提取40维的MFCC语音特征，拼接4维的pitch特征以及100维的ivector向量特征。

在一些实施例中，为了提高特征提取的效果，先对获得的标准普通话音频数据和非标准普通话音频数据进行数据预处理。其中，数据预处理包括但不限于分帧处理、预加重处理、加窗处理等。以标准普通话音频数据，依次对标准普通话音频数据进行预加重、分帧和加窗等处理，通过进行数据预处理能够最大化标准普通话音频数据的某些信息，从而达到提高后续特征提取的效果。

之后，将经数据预处理后的标准普通话音频数据进行标注，以及将经数据预处理后的非标准普通话音频数据进行标注，再将标注的标准普通话音频数据进行特征提取，获得对应的标准普通话训练数据，以及对标注的非标准普通话音频数据进行特征提取，获得对应的非标准普通话训练数据。

S102、将所述标准普通话训练数据输入主神经网络进行训练，获得普通话声学模型。

示例性的，仍以电话客服场景为例，调用电话客服场景中标准普通话对应的深度神经网络，为了便于描述，下文将该深度神经网络称为主神经网络。将获得的标准普通话训练数据输入主神经网络进行迭代训练，获得对应的普通话声学模型。

示例性的，主神经网络包括多个网络层，包括但不限于多个tdnnf层、瓶颈层、输出层等。例如，采用16层的tdnnf网络，每个tdnnf层维度设置为1024，瓶颈层维度设置为128。示例性的，如图3所示，每个tdnnf层由线性层(linear)、仿射层(affine)、激活函数层(采用relu函数)、归一化层(batch normalization)、dropout层组合而成。上一个tdnnf层的输出经过一个scale比例，如0.66，与当前tdnnf层的dropout输出相加，得到当前tdnnf层的输出。需要说明的是，scale比例可根据实际情况进行灵活设置，在此不作具体限制。

对主神经网络的训练包括神经网络的前向计算、损失函数计算、主神经网络的参数更新，通过反复迭代多次，例如大约4000-5000次。示例性的，前向计算将MFCC特征输入主神经网络，经过前向计算得到对应的一维矢量；采用lf-mmi计算方法计算损失函数；采用反向传播算法计算主神经网络的梯度，采用mini-batch SGD(小批量随机梯度下降)方法更新主神经网络的参数。

S103、在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致。

基于主神经网络的多个网络层对应的网络层信息，在普通话声学模型中增加相应的分支神经网络，其中，该分支神经网络包括多个网络层,包括但不限于输出层、多个tdnnf层等。分支神经网络的每个网络层的网络层信息与主神经网络中对应网络层的网络层信息一致。

示例性的，分支神经网络包括8个tdnnf层和输出层，分支神经网络的每个tdnnf层的节点数与主神经网络中对应tdnnf层的节点数相同，并且，分支神经网络的输出层的节点数与主神经网络的输出层的节点数相同。并且，分支神经网络和主神经网络共用同一个决策树及输出状态集合。

在一些实施例中，主神经网络的多个tdnnf层中部分为底层共用tdnnf层，部分为上层非共用tdnnf层。例如，主神经网络的16个tdnnf层中前面8个tdnnf层为底层共用tdnnf层，后面8个tdnnf层为上层非共用tdnnf层。在所述普通话声学模型中增加分支神经网络可以包括：在所述主神经网络的多个tdnnf层中最后一个底层共用tdnnf层之后增加所述分支神经网络。

示例性的，如图4所示，在主神经网络的第8个tdnnf层之后增加分支神经网络，其中，分支神经网络包括8个tdnnf层和输出层。

S104、将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型。

其中，Multi-task多任务训练中，采用大量的标准普通话训练数据训练主神经网络，采用少量的非标准普通话训练数据训练分支神经网络。

在一些实施例中，如图5所示，所述步骤S104可以包括子步骤S1041和子步骤S1042。

S1041、将所述标准普通话训练数据输入所述普通话声学模型进行训练，对所述主神经网络的多个网络层的参数进行更新。

S1042、将所述非标准普通话训练数据输入所述普通话声学模型进行训练，对所述分支神经网络的多个网络层的参数进行更新。

基于标准普通话训练数据和非标准普通话训练数据对普通话声学模型进行训练包括神经网络的前向计算、损失函数计算、主神经网络的参数更新。示例性的，主神经网络的多个网络层中部分为共用网络层，部分为非共用网络层，例如，共用网络层包括8个底层共用tdnnf层，非共用网络层包括8个上层非共用tdnnf层、输出层等。前向计算时，将标准普通话训练数据输入普通话声学模型，标准普通话训练数据经过主神经网络的共用网络层、非共用网络层计算得到输出h1。并计算损失函数的损失，比如采用lf-mmi计算方法计算损失。然后将损失经过反向传播对主神经网络的共用网络层、非共用网络层的参数进行更新，比如采用mini-batch SGD方法更新主神经网络的共用网络层、非共用网络层的参数。示例性的，在对主神经网络的共用网络层、非共用网络层的参数进行更新时，采用0.0001学习率需乘以0.2的系数进行微调更新。可以理解的是，学习率以及系数可以根据实际情况进行灵活设置，在此不作具体限制。

将非标准普通话训练数据输入普通话声学模型，非标准普通话训练数据经过主神经网络的共用网络层、分支神经网络的多个网络层计算得到输出h2。并计算损失函数的损失，比如采用lf-mmi计算方法计算损失。然后将损失经过反向传播对主神经网络的共用网络层以及分支神经网络的多个网络层的参数进行更新，比如采用mini-batch SGD方法更新主神经网络的共用网络层、以及分支神经网络的多个网络层的参数。

示例性的，预设主神经网络与分支神经网络的梯度加权比值，例如，预设主神经网络与分支神经网络的梯度加权比值为0.5:0.5，需要说明的是，该梯度加权比值可根据实际情况进行灵活设置，在此不作具体限制。按照预设的主神经网络与分支神经网络的梯度加权比值，对主神经网络的共用网络层的参数进行更新。

S105、对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型。

在一些实施例中，对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型可以包括：将所述主神经网络的输出层以及所述分支神经网络移除；增加attention层和新输出层，获得所述初始声学模型，其中，所述主神经网络的多个tdnnf层中最后一个tdnnf层的输出作为所述attention层的输入，所述attention层的输出作为所述新输出层的输入。

示例性的，普通话声学模型通过上述多任务训练后，将其中主神经网络的输出层以及分支神经网络移除，并增加attention层和新输出层，获得初始声学模型。示例性的，将attention层插入主神经网络的最后一个tdnnf层之后，比如将attention层插入主神经网络的第16个tdnnf层之后；并在attention层之后增加新输出层，主神经网络的最后一个tdnnf层的输出作为attention层的输入，attention层的输出作为所述新输出层的输入。例如，初始声学模型的网络结构如图6所示。其中，新输出层的节点数与主神经网络的输出层的节点数相同。并且，采用主神经网络对应的决策树和输出状态集合。示例性的，attention层通过多头自attention(multi-head self-attention)实现。例如，attention层采用15头(heads)，键(key)的维度设置为40，值(value)的维度设置为80，同时，仅考虑从左边5帧到右边2帧的8个帧窗口。

S106、将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型。

示例性的，将标准普通话训练数据和非标准普通话训练数据混合，对初始声学模型进行迭代训练。

在一些实施例中，如图7所示，所述S106可以包括子步骤S1061至子步骤S1063。

S1061、将所述标准普通话训练数据和所述非标准普通话训练数据混合，获得混合数据。

例如，将电话客服场景中对应的大量标准普通话训练数据与少量标准普通话训练数据进行混合，获得用于进行初始声学模型训练的混合数据。

S1062、对所述初始声学模型的各网络层的参数进行初始化，其中，所述初始声学模型的各网络层包括多个tdnnf层、所述attention层和所述新输出层。

如图6所示，初始声学模型包括多个tdnnf层、以及新增的attention层、新输出层等各网络层。对初始声学模型进行迭代训练时，首先对初始声学模型的各网络层的参数进行初始化。示例性的，对attention层和新输出层的参数进行随机初始化，多个tdnnf层等除attention层和新输出层以外的其他网络层由多任务训练完成得到的参数进行初始化。

S1063、将所述混合数据输入所述初始声学模型进行迭代训练，对所述初始声学模型的所述各网络层的参数进行更新，直至所述初始声学模型收敛，获得所述目标声学模型。

基于混合数据对初始声学模型进行迭代训练包括神经网络的前向计算、损失函数计算、各网络层的参数更新。将混合数据输入初始声学模型对应的各网络层进行前向计算，获得前向计算的输出，并计算损失函数的损失，比如采用lf-mmi计算方法计算损失。然后将损失经过反向传播对各网络层的参数进行更新，比如采用mini-batch SGD方法更新各网络层的参数。

示例性的，对增加的attention层和新输出层的参数，采用0.0001的学习率进行参数更新；对多个tdnnf层等除attention层和新输出层以外的其他网络层的参数，采用0.0001学习率乘以0.2的系数进行微调更新。可以理解的是，各个网络层对应的学习率可以根据实际情况进行灵活设置，在此不作具体限制。

通过前向计算、损失计算、参数更新反复迭代多次，比如4000-5000次，直至初始声学模型收敛，训练完成，获得对应的目标声学模型。

S107、获取待识别的语音信息，将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息，其中，所述语音信息包含标准普通话和/或非标准普通话。

训练获得目标声学模型后，获得待识别的语音信息，其中，该语音信息包含标准普通话和/或非标准普通话。比如，获得电话客服场景中待识别的标准普通话音频数据、方言音频数据等。然后，将该待识别的语音信息输入至目标声学模型中处理得到该语音信息的语义信息。不管是对于标准普通话的语音信息，还是对于非标准普通话的语音信息，都可以精准快捷得获得其对应的语义信息。

上述实施例提供的语音识别方法，通过获取训练数据，包括标准普通话训练数据和非标准普通话训练数据，将标准普通话训练数据输入主神经网络进行训练，获得普通话声学模型，在普通话声学模型中增加分支神经网络,将标准普通话训练数据和非标准普通话训练数据分别输入包含分支神经网络的普通话声学模型进行多任务训练,对多任务训练后的普通话声学模型进行模型更新,生成初始声学模型，将训练数据输入初始声学模型进行训练，获得对应的目标声学模型，将待识别的语音信息(包含标准普通话和/或非标准普通话)输入至该目标声学模型中得到语音信息的语义信息。与传统的为不同口音提供专用声学模型，同时在前端增加口音识别模块的方法相比，不需要训练多个专用声学模型，目标声学模型的训练复杂度低，基于该目标声学模型进行语音识别不仅提高了ASR识别效率；并且，也避免了由于口音识别错误而影响ASR识别的准确性，也即提高了ASR识别的准确性。

请参阅图8，图8本申请一实施例提供的一种语音识别装置1000的示意性框图，该语音识别装置1000可以配置于服务器或终端中，用于执行前述的语音识别方法。

如图8所示，该语音识别装置1000，包括：数据获取模块1001、第一模型训练模块1002、第一模型处理模块1003、第二模型训练模块1004、第二模型处理模块1005、第三模型训练模块1006、语音识别模块1007。

数据获取模块1001，用于获取训练数据，所述训练数据包括标准普通话训练数据和非标准普通话训练数据；

第一模型训练模块1002，用于将所述标准普通话训练数据输入主神经网络进行训练，获得普通话声学模型；

第一模型处理模块1003，用于在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致；

第二模型训练模块1004，用于将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型；

第二模型处理模块1005，用于对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型；

第三模型训练模块1006，用于将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型；

语音识别模块1007，用于获取待识别的语音信息，将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息，其中，所述语音信息包含标准普通话和/或非标准普通话。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器或终端。

如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音识别方法。

该网络接口用于进行网络通信，如获取训练数据等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型。

在一些实施例中，所述处理器在实现获取训练数据时，用于实现：

采集标准普通话音频数据和非标准普通话音频数据；

将所述标准普通话音频数据和所述非标准普通话音频数据进行标注；

对标注的所述标准普通话音频数据进行特征提取，获得对应的所述标准普通话训练数据，以及对标注的所述非标准普通话音频数据进行特征提取，获得对应的所述非标准普通话训练数据。

在一些实施例中，所述主神经网络包括多个tdnnf层，所述多个tdnnf层中部分为底层共用tdnnf层，部分为上层非共用tdnnf层；

所述处理器在实现所述在所述普通话声学模型中增加分支神经网络时，用于实现：

在所述主神经网络的多个tdnnf层中最后一个底层共用tdnnf层之后增加所述分支神经网络。

在一些实施例中，所述主神经网络还包括输出层，所述分支神经网络包括输出层多个tdnnf层，所述分支神经网络的每个tdnnf层的节点数与所述主神经网络中对应tdnnf层的节点数相同，所述分支神经网络的输出层的节点数与所述主神经网络的输出层的节点数相同。

在一些实施例中，所述处理器在实现将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练时，用于实现：

将所述标准普通话训练数据输入所述普通话声学模型进行训练，对所述主神经网络的多个网络层的参数进行更新；

将所述非标准普通话训练数据输入所述普通话声学模型进行训练，对所述分支神经网络的多个网络层的参数进行更新。

在一些实施例中，所述处理器在实现对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型时，用于实现：

将所述主神经网络的输出层以及所述分支神经网络移除；

增加attention层和新输出层，获得所述初始声学模型，其中，所述主神经网络的多个tdnnf层中最后一个tdnnf层的输出作为所述attention层的输入，所述attention层的输出作为所述新输出层的输入。

在一些实施例中，所述处理器在实现将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型时，用于实现：

将所述标准普通话训练数据和所述非标准普通话训练数据混合，获得混合数据；

对所述初始声学模型的各网络层的参数进行初始化，其中，所述初始声学模型的各网络层包括多个tdnnf层、所述attention层和所述新输出层；

将所述混合数据输入所述初始声学模型进行迭代训练，对所述初始声学模型的所述各网络层的参数进行更新，直至所述初始声学模型收敛，获得所述目标声学模型。

本申请的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语音识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述获取训练数据，包括：

采集标准普通话音频数据和非标准普通话音频数据；

3.根据权利要求1所述的语音识别方法，其特征在于，所述主神经网络包括多个tdnnf层，所述多个tdnnf层中部分为底层共用tdnnf层，部分为上层非共用tdnnf层；

所述在所述普通话声学模型中增加分支神经网络，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述主神经网络还包括输出层，所述分支神经网络包括输出层多个tdnnf层，所述分支神经网络的每个tdnnf层的节点数与所述主神经网络中对应tdnnf层的节点数相同，所述分支神经网络的输出层的节点数与所述主神经网络的输出层的节点数相同。

5.根据权利要求1至4任一项所述的语音识别方法，其特征在于，所述将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练，包括：

6.根据权利要求4所述的语音识别方法，其特征在于，所述对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型，包括：

将所述主神经网络的输出层以及所述分支神经网络移除；

7.根据权利要求6所述的语音识别方法，其特征在于，所述将所述训练数据输入所述初始声学模型进行训练，获得对应的目标声学模型，包括：

8.一种语音识别装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7任一项所述的语音识别方法。

10.一种计算机可读存储介质，所述计算机的可读存储介质存储有计算机程序，其特征在于，若所述计算机程序被处理器执行，实现如权利要求1至7任一项所述的语音识别方法。