CN116013256B

CN116013256B - 一种语音识别模型构建及语音识别方法、装置及存储介质

Info

Publication number: CN116013256B
Application number: CN202211632489.5A
Authority: CN
Inventors: 赵晴
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2024-01-30
Anticipated expiration: 2042-12-19
Also published as: CN116013256A

Abstract

本发明提供了一种语音识别模型构建及语音识别方法、装置及存储介质，其中，语音识别模型构建方法包括：获取音频数据集；对音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；利用目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出为发音识别模型输入，发音识别模型的输出为语言识别模型输入。本发明可实现在有限训练数据量条件下，提高语音识别准确率的目的。

Description

一种语音识别模型构建及语音识别方法、装置及存储介质

技术领域

本发明实施例涉及深度学习技术领域，尤其涉及一种语音识别模型构建及语音识别方法、装置及存储介质。

背景技术

目前混合语音识别方案，如高斯混合模型(Gaussian mixture model,GMM)+隐马尔可夫模型(Hidden Markov Model，HMM)和深度神经网络(Deep Neural Networks，DNN)+HMM，在训练中的过程中依赖于HMM的对齐结果，训练过程比较复杂，而且受限于HMM的模型效果，语音识别准确率不高；作为一种对混合语音识别方案的改进，端到端语音识别方案，则是一步到位，避开输入与输出手动对齐的一种方式，不依赖于其他额外信息，可以基于CTC(Connectionist Temporal Classification)直接进行训练，准确率高，但训练难度高，对于数据量方面需求也比较高。所以亟待提出一种新的语音识别模型构建方法对语音识别模型进行构建以降低训练数据量需求的同时提高语音识别准确率。

发明内容

本申请提供了一种语音识别模型构建及语音识别方法、装置及存储介质，来实现在有限训练数据量条件下，提高语音识别准确率的目的。

本发明第一方面提供了一种语音识别模型构建方法，包括：获取音频数据集；对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入。

本发明实施例提供的语音识别模型构建方法，一方面相对于传统语音识别模型GMM+HMM，在训练中的过程中依赖于HMM的对齐结果，训练过程比较复杂，而且受限于HMM的模型效果，语音识别准确率不高。本方案通过对目标识别模型中各组成模型进行联合训练的端到端的训练方式，不需要依赖HMM的对齐结果，简化训练过程，提高语音识别准确率；同时联合训练的方式可以实现目标识别模型中各层级识别模型参数的共享，使得训练得到的参数与目标识别模型适配性更高，有助于提高目标识别模型的识别精度和准确率。另一方面相对于传统端到端的语音识别模型训练方式，采用简单Encoder-Decoder模型构架，即语音模型Encoder-语音模型Decoder，由于对音频训练数据中信息提取不充分，在训练时对训练数据量需要较大。本实施例提出一种新的模型训练方法，利用多级分层的方式来进行语音识别模型的训练，即目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出为发音识别模型输入，发音识别模型的输出为语言识别模型输入。对同一音频训练数据可以通过提取其中音素信息来训练音素模型，音素可以包括单因素和三音素，三音素信息中包含有单因素间相互作用而产生的新的信息，通过提取音调信息来训练发音识别模型，通过提取语义信息来训练语言模型。所以本发明方案通过分层构建语音识别模型，进行联合训练，每层提取同一音频数据不同特征信息，逐步缩小识别范围，从而提高识别率。同时相对于传统端到端的语音识别模型训练方式，本发明方案可以从相同的音频训练数据中提取到更多的音频信息作为训练数据用于对目标识别模型进行训练，故而降低对音频训练数据量的需求。

可选地，所述利用所述目标音频特征数据集对目标识别模型进行训练直至训练结果满足预设条件，包括：利用所述目标音频特征数据集对目标识别模型进行迭代训练；计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值，直到联合加权损失值满足预设条件。

可选地，所述计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值步骤之后，还包括：将所述联合加权损失值进行梯度回传；基于回传的联合加权损失值，调整目标识别模型中参数。

可选地，所述音素识别模型包括级联的单因素识别模型和三音素识别模型，所述单因素识别模型的输出用于对所述三音素识别模型的训练。

本发明第二方面提供了一种语音识别方法，包括：获取待识别音频数据；将所述待识别音频数据输入利用第一方面中任一项所述的语音识别模型构建方法构建得到的目标识别模型；根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。

可选地，所述根据所述目标识别模型的输出结果确定所述待识别音频数据的内容，包括：获取所述目标识别模型的输出结果中对应每一种音频内容的概率；将最大概率对应的音频内容作为最终输出结果。

本发明第三方面提供了一种语音识别模型构建装置，包括：第一获取模块，用于获取音频数据集；第一提取模块，用于对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；第一训练模块，利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入。

本发明提供的语音识别模型构建装置中各部件所执行的功能均已在上述第一方面任一方法实施例中得以应用，因此这里不再赘述。

本发明第四方面提供了一种语音识别装置，包括：第二获取模块，用于获取待识别音频数据；第一输入模块，用于将所述待识别音频数据输入利用如第二方面中任一项所述的语音识别模型构建方法构建得到的目标识别模型；第一确定模块，用于根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。

本发明提供的语音识别装置中各部件所执行的功能均已在上述第二方面任一方法实施例中得以应用，因此这里不再赘述。

本发明第五方面提供了一种计算机设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述第一方面的语音识别模型构建方法的步骤，或者实现上述第二方面的语音识别方法的步骤。

本发明第六方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如本发明第一方面提供的语音识别模型构建方法，或者执行如本发明第二方面提供的语音识别方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音识别模型构建方法流程示意图；

图2为本发明一实施例提供的语音识别模型结构示意图；

图3为本发明一实施例提供的语音识别模型结构示意图；

图4为本发明一实施例提供的语音识别方法流程示意图；

图5为本发明一实施例提供的语音识别模型构建装置结构示意图；

图6为本发明实施例提供的语音识别装置结构示意图；

图7为本发明实施例提供的一种计算机设备结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

针对背景技术中所提及的技术问题，本发明实施例提供了一种语音识别模型构建方法，如图1所示，该方法的步骤包括：

步骤S110，获取音频数据集。

示例性地，音频数据集中可以包括有多种音频数据类型，需要说明的是，在未做额外说明的情况下，本公开所涉及到的音频数据的类型包括但不限于是某一国家的语言(如：中文、英文、法文等)，也可以是某一地区的方言(如：四川话、广东话等)等。具体的音频数据类型可以根据所构建的目标识别模型应用场景进行选择。

音频数据集可以包括但不限于来自于开源音频数据库的数据，或者也可以通过对收集到的数据进行数据增强来获取足够数据用于对目标识别模型进行训练。

步骤S120，对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集。

示例性地，音频数据进行特征提取的方式较多，也相对成熟，具体的步骤如：预加重、分帧加窗、离散傅里叶变换(Discrete Fourier Transform，DFT)、梅尔滤波器组、对数运算、离散余弦变换(Discrete Cosine Transform，DCT)及梅尔倒谱系数(Mel-scaleFrequencyCepstral Coefficients，MFCC)，此处不再赘述。

时域音频特征包括但不限于音色、音量、噪音、语速、发音(或声学)特征等，部分音频特征并非目标识别模型训练所需，所以在对音频数据进行特征提取时，将时域音频数据变换到频域后，会对音频特征进行提纯处理，提取出反映音频数据的关键特征作为目标音频特征，构成目标音频特征数据集，用于对目标识别模型进行训练，使得训练所得目标识别模型更具有针对性，提高目标识别模型识别的准确性。

步骤S130，利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入。

示例性地，本实施例采用端到端的语音识别模型，如CTC，对目标识别模型中各组成模型进行联合训练。预设条件的设置可选方式较多，相对成熟，如可以但不限于根据基于预设标签计算得到的目标识别模型的损失值来判定所训练模型是否满足条件，或者根据训练迭代次数是否满足条件等，此处不做限制，不再赘述。

具体地，如图2所示，本实施例采用Encoder-Decoder模型构架，目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出用于对发音识别模型的训练，发音识别模型的输出用于对语言识别模型的训练。具体地，将目标音频特征数据集中的音频特征数据输入到音素识别模型Encoder中，通过音素识别模型Decoder对音素识别模型的输出结果进行解码操作，同时将音素识别模型Encoder的输出作为发音识别模型Encoder的输入，输入到发音识别模型Encoder中，并通过发音识别模型Decoder对发音识别模型的输出结果进行解码操作，同时将发音识别模型Encoder的输出作为语言识别模型Decoder输入，输入到语言识别模型Decoder，最终将得到语言识别模型Decoder的输出结果作为目标识别模型的输出结果。本领域技术人员可根据实际需要对具体组成目标识别模型的层级进行设置，此处不做限制。

本发明实施例提供的语音识别模型构建方法，一方面相对于传统语音识别模型GMM+HMM，在训练中的过程中依赖于HMM的对齐结果，训练过程比较复杂，而且受限于HMM的模型效果，语音识别准确率不高。本方案通过对目标识别模型中各组成模型进行联合训练的端到端的训练方式，不需要依赖HMM的对齐结果，简化训练过程，提高语音识别准确率；同时联合训练的方式可以实现目标识别模型中各层级识别模型参数的共享，使得训练得到的参数与目标识别模型适配性更高，有助于提高目标识别模型的识别精度和准确率。另一方面相对于传统端到端的语音识别模型训练方式，采用简单Encoder-Decoder模型构架，即语音模型Encoder-语音模型Decoder，由于对音频训练数据中信息提取不充分，在训练时对训练数据量需要较大。本实施例提出一种新的模型训练方法，利用多级分层的方式来进行语音识别模型的训练，即目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出为发音识别模型输入，发音识别模型的输出为语言识别模型输入。对同一音频训练数据可以通过提取其中音素信息来训练音素模型，音素可以包括单因素和三音素，三音素信息中包含有单因素间相互作用而产生的新的信息，通过提取音调信息来训练发音识别模型，通过提取语义信息来训练语言模型。所有本发明方案通过分层构建语音识别模型，进行联合训练，每层提取同一音频数据不同特征信息，逐步缩小识别范围，从而提高识别率。同时相对于传统端到端的语音识别模型训练方式，本发明方案可以从相同的音频训练数据中提取到更多的音频信息作为训练数据用于对目标识别模型进行训练，故而降低对音频训练数据量的需求。

作为本发明一可选实施方式，步骤S130，包括：

步骤S210，利用所述目标音频特征数据集对目标识别模型进行迭代训练。

示例性地，在训练目标识别模型中传递完整的数据集一次是不够的，而且需要将完整的数据集在同样的目标识别模型中传递多次，来进行对模型训练。epoch被定义为向前和向后传播中所有批次的单次训练迭代，这意味着1个周期是整个输入数据的单次向前和向后传递。简单说，epoch的次数指的就是训练过程中全部样本数据将被使用多少次。在训练中使用的是有限的数据集，因此仅仅使用一个epoch是不够的。每次epoch之后，需要对总样本随机打乱或者随机选取，再进入下一轮训练。

步骤S220，计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值，直到联合加权损失值满足预设条件。

示例性地，重复执行上述对应部分对语音识别模型训练的步骤，对目标识别模型进行训练，基于预设标签计算目标识别模型中各层级识别模型每次迭代的损失值。

联合加权损失值是通过给目标识别模型中各层级识别模型每次迭代的损失值赋予不同的权重，求得各层级识别模型每次迭代的损失值加权平均数即为联合加权损失值，作为目标识别模型当前训练深度下的损失值。各层级识别模型每次迭代的损失值的权重会随着训练深度的变化进行相应调整。训练更偏向权重大的层级对应的识别模型，该层识别模型的参数也越先收敛。同理参数越先收敛的层，下次赋予的权重越小，从而实现目标识别模型参数逐层收敛。具体地，本实施例可以通过赋予各识别模型层不同的权重，实现目标识别模型中音素识别模型、发音识别模型及语言识别模型的参数逐次收敛。需要说明的是权重赋予的方式可根据具体实际需要进行适应性调整，此处不做限制。

预设条件可以但不限于为直到连续预设次数的迭代周期内的联合加权损失值不下降。

本发明实施例提供的语音识别模型构建方法，一方面通过迭代训练以及计算联合加权损失值，使得目标识别模型得到充分训练；另一方面通过计算目标识别模型中各组成模型的联合加权损失值，使得各模型参数得以共享，训练得到的参数与目标识别模型适配性更高，有助于提高目标识别模型的识别精度和准确率。同时设定评估指标对所训练模型进行筛选，具有客观性，科学性，使得所选训练模型更能满足实际需要。

作为本发明一可选实施方式，还包括：

步骤S310，将所述联合加权损失值进行梯度回传。

示例性地，分别计算音素识别模型Decoder的输出、发音识别模型Decoder的输出及语言识别模型Decoder的输出与预设标签进行对比，计算音素识别模型、发音识别模型及语言识别模型的损失值，将得到的3个损失值的联合加权损失值用于梯度回传，用于更新模型参数。具体地，可以计算音素识别模型、发音识别模型的CTC损失值和语言识别模型的attention损失值，然后求解目标识别模型的联合加权损失值。

步骤S320，基于回传的联合加权损失值，调整目标识别模型中参数。

示例性地，各识别模型基于联合加权损失值对相应参数进行调整，直到满足预设条件，如连续预设次数的迭代周期内的损失值不再下降。具体地，如以预设次数为3次为例，即对目标识别模型进行迭代训练，直到联合加权损失值连续三个epoch不下降。

本发明实施例提供的语音识别模型构建方法，通过计算目标识别模型中各组成模型的联合加权损失值，并将联合加权损失值进行梯度回传，基于回传的联合加权损失值，调整目标识别模型中参数，使得各模型参数得以共享，训练得到的参数与目标识别模型适配性更高，有助于提高目标识别模型的识别精度和准确率。

作为本发明一可选实施方式，所述音素识别模型包括级联的单因素识别模型和三音素识别模型，所述单因素识别模型的输出用于对所述三音素识别模型的训练。

示例性地，如图3所示，本实施例采用Encoder-Decoder模型构架，目标识别模型由单音素识别模型、三音素识别模型、发音识别模型及语言识别模型级联构成，单音素识别模型的输出用于对三音素识别模型进行训练，三音素识别模型的输出用于对发音识别模型进行训练，发音识别模型的输出用于对语言识别模型的训练。具体地，将目标音频特征数据集中的音频特征数据输入到单音素识别模型Encoder中，通过单音素识别模型Decoder对单音素识别模型的输出结果进行解码操作，同时将单音素识别模型Encoder的输出作为三音素识别模型Encoder的输入，输入到三音素识别模型Encoder中，通过三音素识别模型Decoder对三音素识别模型的输出结果进行解码操作，同时将三音素识别模型Encoder的输出作为发音识别模型Encoder的输入，输入到发音识别模型Encoder中，并通过发音识别模型Decoder对发音识别模型的输出结果进行解码操作，同时将发音识别模型Encoder的输出作为语言识别模型Decoder输入，输入到语言识别模型Decoder，最终将得到语言识别模型Decoder的输出结果作为目标识别模型的输出结果。本领域技术人员可根据实际需要对具体组成目标识别模型的层级进行设置，此处不做限制。

本实施例具体训练过程可参考上述相应部分的描述，此处不再赘述。

本发明实施例提供了一种语音识别方法，如图4所示，该方法的步骤包括：

步骤S510，获取待识别音频数据。该待识别音频数据可以是在任一待进行音频识别的场景采集到的数据，如智能语音通话场景，可以预先集成训练好的语音识别模型，对用户的语音进行识别后自动进行针对性回复。

步骤S520，将所述待识别音频数据输入利用上述任一语音识别模型构建方法构建得到的目标识别模型。

步骤S530，根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。

示例性地，针对输入的待识别音频数据，根据己经训练好的目标识别模型建立一个识别网络，将待识别的音频数据的音频特征同目标识别模型进行匹配，根据搜索算法在该网络中寻找可能的路径，得到待识别音频数据的内容。

本发明实施例提供的语音识别方法，通过语音识别模型将音频数据识别为文本，可应用于多种场景以及领域来提高工作效率。

作为本发明一可选实施方式，步骤S530，包括：

步骤S610，获取所述目标识别模型的输出结果中对应每一种音频内容的概率。

示例性地，针对输入的待识别音频数据，根据己经训练好的目标识别模型建立一个识别网络，将待识别的音频数据的音频特征同目标识别模型进行匹配，根据搜索算法在该网络中寻找可能的路径，不同的路径所对应的概率大小不同。计算每一种音频内容的概率的算法相对成熟，具体不再赘述。作为一可选实施方式，每一种音频内容的概率可以但不限于将音频内容在统计中的使用频率作为一个参考量。具体地，以将普通话音频识别为文本为例。在普通话中有很多同音不同字的现象，但是在使用频率上会有不同，所以在同一音频数据可能对应多种具体内容时，目标识别模块在输出这些内容时，可以将不同内容在统计中的使用频率作为一个参考量。

步骤S620，将最大概率对应的音频内容作为最终输出结果。

示例性地，根据搜索算法在目标识别模型网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该音频数据的内容，选取最大概率对应的音频类型作为最终输出结果。

本发明实施例提供的语音识别方法，通过选取最大概率对应的音频类型作为最终输出结果，使得识别结果可靠性更高。

图5为本发明一实施例提供的一种语音识别模型构建装置，包括：

第一获取模块710，用于获取音频数据集。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一提取模块720，用于对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一训练模块730，用于利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，第一训练模块730，包括：

第一训练子模块，用于利用所述目标音频特征数据集对目标识别模型进行迭代训练。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一计算子模块，用于计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值，直到联合加权损失值满足预设条件。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，还包括：

第一回传子模块，用于将所述联合加权损失值进行梯度回传。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一调整子模块，用于基于回传的联合加权损失值，调整目标识别模型中参数。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，包括：所述音素识别模型包括级联的单因素识别模型和三音素识别模型，所述单因素识别模型的输出用于对所述三音素识别模型的训练。

图6为本发明提供的一种语音识别装置，包括：

第二获取模块810，用于获取待识别音频数据。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一输入模块820，用于将所述待识别音频数据输入利用上述任一所述的语音识别模型构建方法构建得到的目标识别模型。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一确定模块830，用于根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，第一确定模块830，包括：

第一获取子模块，用于获取所述目标识别模型的输出结果中对应每一种音频内容的概率。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一输出子模块，用于将最大概率对应的音频内容作为最终输出结果。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

本发明实施例提供了一种计算机设备，如图7所示，该设备包括一个或多个处理器3010以及存储器3020，存储器3020包括持久内存、易失内存和硬盘，图7中以一个处理器3010为例。该设备还可以包括：输入装置3030和输出装置3040。

处理器3010、存储器3020、输入装置3030和输出装置3040可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器3010可以为中央处理器(Central Processing Unit，CPU)。处理器3010还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器3020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别模型构建装置，或者语音识别装置的使用所创建的数据等。此外，存储器3020可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器3020可选包括相对于处理器3010远程设置的存储器，这些远程存储器可以通过网络连接至语音识别模型构建装置，或者语音识别装置。输入装置3030可接收用户输入的计算请求(或其他数字或字符信息)，以及产生与语音识别模型构建装置，或者语音识别装置有关的键信号输入。输出装置3040可包括显示屏等显示设备，用以输出计算结果。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别模型构建方法，或者语音识别方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read-Only Memory，ROM)，可擦除可编辑只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(Compact Disc Read-Only Memory，CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array，PGA)，现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本公开描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种语音识别模型构建方法，其特征在于，包括：

获取音频数据集；

对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；在对音频数据进行特征提取时，将时域音频数据变换到频域后，对音频特征进行提纯处理，提取出反映音频数据的关键特征作为目标音频特征，构成目标音频特征数据集，用于对目标识别模型进行训练；

利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入；

将目标音频特征数据集中的目标音频特征输入到音素识别模型，对同一目标音频特征通过提取其中音素信息来训练音素模型，通过提取音调信息来训练发音识别模型，通过提取语义信息来训练语言模型。

2.根据权利要求1所述的语音识别模型构建方法，其特征在于，所述利用所述目标音频特征数据集对目标识别模型进行训练直至训练结果满足预设条件，包括：

利用所述目标音频特征数据集对目标识别模型进行迭代训练；

计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值，直到联合加权损失值满足预设条件。

3.根据权利要求2所述的语音识别模型构建方法，其特征在于，所述计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值步骤之后，还包括：

将所述联合加权损失值进行梯度回传；

基于回传的联合加权损失值，调整目标识别模型中参数。

4.根据权利要求1所述的语音识别模型构建方法，其特征在于，所述音素识别模型包括级联的单因素识别模型和三音素识别模型，所述单因素识别模型的输出用于对所述三音素识别模型的训练。

5.一种语音识别方法，其特征在于，包括：

获取待识别音频数据；

将所述待识别音频数据输入利用如权利要求1-4中任一项所述的语音识别模型构建方法构建得到的目标识别模型；

根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。

6.根据权利要求5所述的语音识别方法，其特征在于，所述根据所述目标识别模型的输出结果确定所述待识别音频数据的内容，包括：

获取所述目标识别模型的输出结果中对应每一种音频内容的概率；

将最大概率对应的音频内容作为最终输出结果。

7.一种语音识别模型构建装置，其特征在于，包括：

第一获取模块，用于获取音频数据集；

第一提取模块，用于对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；在对音频数据进行特征提取时，将时域音频数据变换到频域后，对音频特征进行提纯处理，提取出反映音频数据的关键特征作为目标音频特征，构成目标音频特征数据集，用于对目标识别模型进行训练；

第一训练模块，利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入；

8.一种语音识别装置，其特征在于，包括：

第二获取模块，用于获取待识别音频数据；

第一输入模块，用于将所述待识别音频数据输入利用如权利要求1-4中任一项所述的语音识别模型构建方法构建得到的目标识别模型；

第一确定模块，用于根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。

9.一种计算机设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一项所述的语音识别模型构建方法的步骤，或者实现权利要求5-6任一项所述的语音识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的语音识别模型构建方法的步骤，或者实现如权利要求5-6任一项所述的语音识别方法的步骤。