CN112349289A

CN112349289A - 一种语音识别方法、装置、设备以及存储介质

Info

Publication number: CN112349289A
Application number: CN202011054844.6A
Authority: CN
Inventors: 吴帅; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-09
Anticipated expiration: 2040-09-28
Also published as: CN112349289B

Abstract

本申请提供了一种语音识别方法、装置、设备以及存储介质，涉及语音识别技术领域。能够根据语音音频的类别，自适应调整声学模型和语言模型在语音解码过程中的权重系数，得到最适合当前语音音频的解码方式，对当前语音音频进行解码，进而提高语音识别的准确性。将待识别语音音频的声学特征输入解码器；获取解码器生成的候选文本，并计算候选文本的识别分数；根据声学特征、候选文本、识别分数以及待识别语音音频的类别特征，生成特征矩阵；将特征矩阵输入权重调整模型；将权重调整模型输出的最佳权重返回解码器；根据最佳权重更新解码器中声学模型与语言模型的第一结合权重；获取更新第一结合权重后的解码器输出的翻译文本。

Description

一种语音识别方法、装置、设备以及存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法、装置、设备以及存储介质。

背景技术

随着人工智能的发展，语音识别技术(ASR，Automatic Speech Recognition)已被广泛应用于会议转录，实时翻译，语音质检和智能客服等商业领域。

语音识别技术(ASR)，是多学科交叉的领域，与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。简单而言，语音识别技术是一种通过机器或神经网络识别和理解语音信号，并将语音信号转变为相应的文本的技术。

声学模型和语言模型是语音识别技术的重要部分，声学模型用于根据语音音频的声学特征，预测产生该语音音频的发音序列，语言模型用于根据声学特征，预测与产生该语音音频的多个词或多个字。

语音识别的语音解码需要融合声学模型和语言模型的输出结果，现有技术下，语音解码阶段一般按照预先设置的固定权重，对声学模型和语言模型的输出结果进行结合。然而事实上，预先设置的固定权重并不适用于不同的场合、不同的语境或不同的任务。例如，在理解播音员和口音严重的普通人朗读同样文本内容的音频时，基于播音员采集的音频，能够凭读音准确判断内容，基于口音严重的普通人采集的音频，需要进一步结合上下文，或猜测更多可能的字或词，才能准确判断内容。

发明内容

本申请实施例提供一种语音识别方法、装置、设备及存储介质，能够根据语音音频的类别，自适应调整声学模型和语言模型在语音解码过程中的权重系数，得到最适合当前语音音频的解码方式，对当前语音音频进行解码，进而提高语音识别的准确性。

本申请实施例第一方面提供一种语音识别方法，所述方法包括：

获取待识别语音音频的声学特征，并将所述声学特征输入解码器；其中，所述解码器包括声学模型和语言模型；

获取所述解码器生成的候选文本，并计算所述候选文本的识别分数；

根据所述声学特征、所述候选文本、所述识别分数以及所述待识别语音音频的类别特征，生成特征矩阵；

将所述特征矩阵输入所述权重调整模型；

将所述权重调整模型输出的最佳权重返回所述解码器；

根据所述最佳权重更新所述解码器中所述声学模型与所述语言模型的第一结合权重；

获取更新所述第一结合权重后的解码器输出的翻译文本。

可选地，所述方法还包括：获取语音音频样本以及对应所述语音音频样本的文本数据；提取所述语音音频样本的声学特征样本，并将所述声学特征样本输入预设解码器；其中，所述预设解码器包括预设声学模型和预设语言模型；获取所述预设解码器生成的候选文本样本，并计算所述候选文本样本的识别分数样本；根据所述声学特征样本、所述候选文本样本、所述识别分数样本以及所述语音音频样本的类别特征样本，生成特征矩阵样本；将所述特征矩阵样本输入所述预设模型；将所述预设模型输出的最佳权重区间返回所述预设解码器；根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，并获取所述预设解码器基于更新后的第二结合权重输出的预测文本；根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

可选地，在获取更新所述第一结合权重后的解码器输出的翻译文本之前，所述方法还包括：根据所述声学模型、所述语言模型和所述最佳权重，设置文本筛选分数计算公式；获取更新所述第一结合权重后的解码器输出的翻译文本，包括：将所述待识别语音音频的声学特征输入更新所述第一结合权重后的解码器；获取所述解码器生成的多个识别文本；利用所述文本筛选分数计算公式，对所述多个识别文本分别计算得分；将得分最高的识别文本确定为所述翻译文本。

可选地，根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，包括：依次利用所述最佳权重区间的每一个权重取值更新所述第二结合权重；获取所述预设解码器基于更新后的第二结合权重输出的预测文本，包括：在每一次利用所述最佳权重区间的权重取值更新第二结合权重后，获取所述预设解码器输出的预测文本；根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型，包括：依次计算每一次获取的预测文本相较于所述文本数据的错误率；将最小错误率对应的预测文本确定为目标预测文本；将输出所述目标预测文本时所述预设解码器使用的权重取值确定为最佳权重参考值；根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

可选地，在将所述预设模型输出的最佳权重区间返回所述预设解码器之前，所述方法还包括：利用牛顿迭代法根据所述特征矩阵样本，搜索得到所述最佳权重区间；根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型，包括：计算所述最佳权重参考值与所述最佳权重区间的损失值；根据所述损失值，更新所述预设模型中用于执行牛顿迭代法使用的参数。

本申请实施例第二方面提供一种语音识别装置，所述装置包括：

解码模块，用于获取待识别语音音频的声学特征，并将所述声学特征输入解码器；其中，所述解码器包括声学模型和语言模型；候选文本生成模块，用于获取所述解码器生成的候选文本，并计算所述候选文本的识别分数；特征矩阵生成模块，用于根据所述声学特征、所述候选文本、所述识别分数以及所述待识别语音音频的类别特征，生成特征矩阵；第一输入模块，用于将所述特征矩阵输入所述权重调整模型；最佳权重返回模块，用于将所述权重调整模型输出的最佳权重返回所述解码器；第一结合权重更新模块，用于根据所述最佳权重更新所述解码器中所述声学模型与所述语言模型的第一结合权重；翻译文本输出模块，用于获取更新所述第一结合权重后的解码器输出的翻译文本。

可选地，所述装置还包括：样本获取模块，用于获取语音音频样本以及对应所述语音音频样本的文本数据；提取模块，用于提取所述语音音频样本的声学特征样本，并将所述声学特征样本输入预设解码器；其中，所述预设解码器包括预设声学模型和预设语言模型；计算模块，用于获取所述预设解码器生成的候选文本样本，并计算所述候选文本样本的识别分数样本；特征矩阵样本生成模块，用于根据所述声学特征样本、所述候选文本样本、所述识别分数样本以及所述语音音频样本的类别特征样本，生成特征矩阵样本；第二输入模块，用于将所述特征矩阵样本输入所述预设模型；最佳权重区间返回模块，用于将所述预设模型输出的最佳权重区间返回所述预设解码器；第二结合权重更新模块，用于根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，并获取所述预设解码器基于更新后的第二结合权重输出的预测文本；参数更新模块，用于根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

可选地，所述装置还包括：设置模块，用于根据所述声学模型、所述语言模型和所述最佳权重，设置文本筛选分数计算公式；所述翻译文本输出模块包括：解码子模块，用于将所述待识别语音音频的声学特征输入更新所述第一结合权重后的解码器；识别文本生成子模块，用于获取所述解码器生成的多个识别文本；筛选子模块，用于利用所述文本筛选分数计算公式，对所述多个识别文本分别计算得分；翻译文本获得子模块，用于将得分最高的识别文本确定为所述翻译文本。

可选地，所述第二结合权重更新模块包括：第二结合权重更新子模块，用于依次利用所述最佳权重区间的每一个权重取值更新所述第二结合权重；预测文本获取子模块，用于在每一次利用所述最佳权重区间的权重取值更新第二结合权重后，获取所述预设解码器输出的预测文本；所述参数更新模块包括：计算子模块，用于依次计算每一次获取的预测文本相较于所述文本数据的错误率；目标预测文本确定子模块，用于将最小错误率对应的预测文本确定为目标预测文本；最佳权重参考值确定子模块，用于将输出所述目标预测文本时所述预设解码器使用的权重取值确定为最佳权重参考值；参数更新子模块，用于根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

可选地，所述装置还包括：搜索模块，用于利用牛顿迭代法根据所述特征矩阵样本，搜索得到所述最佳权重区间；所述参数更新子模块包括：计算子单元，用于计算所述最佳权重参考值与所述最佳权重区间的损失值；参数更新子单元，用于根据所述损失值，更新所述预设模型中用于执行牛顿迭代法使用的参数。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例提出的语音识别方法分为预识别阶段和语音识别阶段。具体地，在用户输入语音时获取对应用户输入的语音的类别特征，先按照解码器中语言模型和声学模型原本的结合权重，对用户输入的语音进行预识别；再根据预识别的结果，即基于解码器中语言模型原本的权重系数和声学模型原本的权重系数，对用户输入的语音翻译得到的文本，以及文本的概率得分。进一步利用权重调整模型，利用预识别的结果、用户输入语音的声学特征和用户输入的语音的类别特征，计算得到匹配当用户输入语音时所处客观场景的语言模型和声学模型的最佳结合权重，再按照语言模型和声学模型的最佳结合权重对户输入的语音进行识别，得到匹配用户输入语音时所处客观场景的翻译文本。

本申请根据对应语音音频样本的标准的文本数据，在预设模型输出的最佳权重区间中选择得到最佳权重取值，再将最佳权重取值返回预设模型，作为训练预设模型搜索最佳权重区间的监督条件。其中，每一次训练的参数调整都能使预设模型采用牛顿迭代法，搜索得到的最佳权重区间进一步贴近声学模型和语言模型结合的最优权重系数。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例语音识别中声学模型和语言模型的结合示意图；

图2是本申请实施例提出的语音识别方法的步骤流程图；

图3是本申请实施例训练权重调整模型的步骤流程图；

图4是本申请实施例训练权重调整模型的流程图；

图5是本申请实施例提出的语音识别装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例语音识别中声学模型和语言模型的结合示意图。如图1所示：

第一步、利用特征提取模型，根据语音音频的音频信号提取声学特征，声学特征包括但不限于梅尔倒谱系数MFCC、基频F0等。第二步、将声学特征分别输入声学模型和语言模型，声学模型预测得到发音特征，例如对应语音音频的音素特征向量PPGs，或者拼音，并且给出预测的发音特征的概率得分，例如隐马尔可夫模型(HMM，Hidden Markov Model)；语言模型预测得到多个词或者多个字，并且给出预测的多个词或者多个字的得分。第三步、将声学模型预测的发音特征和对应各个发音特征的概率得分，以及语言模型预测的语言特征和语言特征对应的概率得分输入解码搜索模型，语言特征可以是多个词或者多个字。第四步、解码搜索模型根据声学模型的输出、语言模型的输出和发音词典，预测语音音频表达的文本内容。

现有的语音识别系统中，在解码搜索阶段，声学模型的权重系数和语言模型的权重系数已经预先设置完成。一般地，声学模型的权重系数指的是声学模型(H)在加权有限状态转换器(HCLG)中的权重系数，语言模型的权重系数指的是语言模型(G)在HCLG中的权重系数。

HCLG由语言模型(G)、发音词典(L)、上下文相关分析模型(C)和声学模型(H)叠加而成。

然而，语音识别系统的设计者并未意识到，语音识别系统的使用场景并不是单一的，可能在人声嘈杂的大厅，也可能在静谧的房间，可能输入语音音频的用户是发音标准的播音员，也可能输入语音音频的用户使用的是方言，此时，解码搜索过程中预先为声学模型和语言模型分配的权重系数，或者预先设置的声学模型和语言模型对解码搜索的影响比例并不能适用每个场合。

鉴于上述问题，本申请实施例提出一种语音识别方法，结合语音音频的类别特征、语音音频的声学特征和对语音音频预识别得到的文本特征，调整解码搜索过程中声学模型和语言模型的权重系数，使语音识别的解码阶段更加契合语音音频的实际情况，进而增加语音识别的准确性。

本申请提出的语音识别方法可以由终端设备或服务器执行。

图2是本申请实施例提出的语音识别方法的步骤流程图。如图2所示，语音识别方法包括：

步骤S21：获取待识别语音音频的声学特征，并将所述声学特征输入解码器；其中，所述解码器包括声学模型和语言模型；

待识别音频可以是客服系统中，客服人员或者用户输入的语音；导航系统接收到的语音；办事大厅舆情监控系统采集的音频信号等。

解码器包括声学模型、语言模型、解码搜索模型(例如HCLG加权有限状态转换器)、发音词典等。本申请实施例可以直接采用训练完成的声学模型和训练完成的语言模型。

本申请声学模型可以由高斯混合模型(Gaussian Mixture Model)-隐马尔可夫神经网络即(GMM-HMM)、深度神经网络(Deep Neural Networks)-隐马尔可夫神经网络(DNN-HMM)构建而成，用于对语音音频的声学特征分析和计算，得到语音音频对应的发音特征。

获得语音音频的声学特征的方法包括但不限于，对语音音频的声谱图进行倒谱分析、梅谱分析等，得到的声学特征包括但不限于梅尔倒谱系数MFCC、基频F0等。

对于从待识别语音音频的声音谱中提取的声学特征，可以做进一步处理，使声学特征更适应机器学习或神经网络的计算。例如，可以将MFCC特征归一化到60帧，再结合提取MFCC时的采样率，原始格式，码率等，将其转化为至少(60+3)维特征向量。

本申请可以对神经概率语言模型(N-gram)进行训练，将训练完成得到的语言模型与声学模型、解码搜索模型、发音词典共同组成解码器。N-gram是基于马尔科夫假设的语言模型。马尔科夫假设：随意一个词出现的概率只与它前面出现的有限的n个词有关。

步骤S22：获取所述解码器生成的候选文本，并计算所述候选文本的识别分数；

示例地，假设导航系统接收的待识别语音音频1对应的文字内容是“到晋元路”。

将基于语音音频1提取得到的声学特征输入解码器后，声学模型对声学特征计算得到发音特征可以表示为：[dao-82de-10tao 30；jin-60jing-56ji-13、yuan-80yan-60xuan 50、lu-60lv-45nu-5]。

语言模型对声学特征计算得到的语言特征可以表示为：[到-72淘-20道30；金-20晋-60经-20、源-24元-60远-16、路-60绿-25怒-15]。

进一步将发音特征和语言特征输入解码搜索模型，结合发音词典，对发音特征和语言特征进行解码，得到候选文本。解码搜索模型在发音特征和语言特征的基础上进一步解码得到候选文本的方法，可以使用在HCLG加权有限状态转换器中搜索路径的方式进行，搜索路径的具体执行过程本申请不作限制。

得到的候选文本可以是多个候选文本，继续以上述示例，得到的候选文本可以是：[到金源路]；[到晋元路]；[道晋源怒]。

由于发音特征和语言特征中都有相应的概率得分，因此解码器在输出候选文本的同时，还可以输出计算得到的对应候选文本的识别分数。

由于在HCLG中是按照语言模型和声学模型的权重系数进行路径搜索，得到的候选文本，因此解码器计算识别分数同样结合了语言模型和声学模型的权重系数。

以计算候选文本[到金源路]的识别分数为例，语言模型的权重系数是λ，识别分数为：λ×语言模型的概率得分+(1-λ)声学模型的概率得分＝λ×[72,20,24,60]+(1-λ)[82,60,60,60]。

步骤S23：根据所述声学特征、所述候选文本、所述识别分数以及所述待识别语音音频的类别特征，生成特征矩阵；

继续以导航系统为例，用户在输入语音时，可以选择现在处于车内驾驶中，并选择普通话，系统跟用户输入的信息，确定类别特征。

步骤S24：将所述特征矩阵输入所述权重调整模型；

步骤S25：将所述权重调整模型输出的最佳权重返回所述解码器；

权重调整模型根据待识别语音的类别特征、声学特征、多个候选文本和多个候选文本对应的识别分数，计算得到最佳权重；

步骤S26：根据所述最佳权重更新所述解码器中所述声学模型与所述语言模型的第一结合权重；

步骤S27：获取更新所述第一结合权重后的解码器输出的翻译文本。

第一结合权重是指在HCLG中，结合语言模型和声学模型的输出计算候选文本的过程中，语言模型的权重系数。第一结合权重是λ，语言模型的权重系数是λ，并且可以进一步确定声学模型的权重系数是1-λ。

假设权重调整模型根据特征矩阵确定的最佳权重是λ₁，以λ₁替换λ，在解码器的语言模型的权重系数更新为λ₁，声学模型的权重系数更新为1-λ₁后，再重新对输入的声学特征进行计算，得到最终的翻译文本。

翻译文本是对语音进行机器识别后，翻译得到的能够准确表示语音内容的文本。

本申请实施例提出的语音识别方法分为预识别阶段和语音识别阶段。具体地，在用户输入语音时获取对应用户输入的语音的类别特征，先按照解码器中语言模型和声学模型原本的结合权重，对户输入的语音进行预识别；再根据预识别的结果，即基于解码器中语言模型原本的权重系数和声学模型原本的权重系数，对用户输入的语音翻译得到的文本，以及文本的概率得分。进一步利用权重调整模型，利用预识别的结果、用户输入语音的声学特征和用户输入的语音的类别特征，计算得到匹配当用户输入语音时所处客观场景的语言模型和声学模型的最佳结合权重，再按照语言模型和声学模型的最佳结合权重对户输入的语音进行识别，得到匹配用户输入语音时所处客观场景的翻译文本。

继续以导航系统为例，说明本申请实施例的效果，假设驾驶员可以普通话输入待识别语音，副驾驶只能以方言输入待识别语音，在车未启动时，驾驶员以普通话输入待识别语音，系统确定了声学模型的权重系数和语言模型的结合权重，而在行驶过程中需要变道时，只能由副驾驶输入待识别语音，此时系统可以根据类别特征“方言”，调整语音识别过程中声学模型和语言模型的结合权重，减少声学模型的权重系数，再对副驾驶输入的语音进行语音识别，动态调整语音识别中声学模型和语言模型的权重系数，使得语音识别更加智能化，识别得到的文本更加准确。

在获取更新所述第一结合权重后的解码器输出的翻译文本时，也可以预先输出多个识别文本，再选择得分最高的翻译文本为最终的翻译文本。

根据所述声学模型、所述语言模型和所述最佳权重，设置文本筛选分数计算公式；

语言模型可以是：P_lm(w_i|w₁,w₂,…,w_i-1)；其中，P_lm表示语言模型，w_i表示字向量，i的取值由语言模型根据声学特征计算得到。以内容是“到晋元路”的语音音频1为例，语言模型确定的i的取值是4。

声学模型可以是：P_am(v_j,|v₁,v₂,…,v_j-1)；其中，P_am表示声学模型，v_j表示音素向量，j的取值由声学模型根据声学特征计算得到。以内容是“到晋元路”的语音音频1为例，声学模型确定的j的取值可以是4或9。

进一步的语言模型的概率得分可以表示为：S_lm＝∑_iln{P_lm[w_i]}，其中S_lm表示语言模型的概率得分。声学模型的概率得分可以表示为：S_am＝∑_jln{P_am[v_j(w₁,w₂,…,w_n)]}，其中，S_am表示声学模型的概率得分，n的取值与i相同。将发音词典v(w)代入声学模型可以得到上述声学模型的概率得分公式。

发音词典v(w)是汉语发音词典，一般是音素或者拼音，与汉字的映射关系。

因此，本申请根据声学模型、语言模型和最佳权重，设置的文本筛选分数计算公式是：P＝λ∑_jln{P_am[v_j(w₁,w₂,…,w_n)]}+(1-λ)ln{∑_iP_lm[w_i]}。其中，P是识别分数。

文本筛选分数计算公式用于计算候选文本的识别分数，也可以进一步地根据识别分数，对候选文本进行筛选得到分数最高的候选文本，作为翻译文本。

因此在步骤S22中，解码器生成的候选文本可以是多个文本，解码器输出候选文本之前，利用上述文本筛选分数计算公式分别计算多个文本的识别分数，输出多个文本和各自对应的识别分数。

在步骤S26以最佳权重更新解码器中声学模型与所述语言模型的第一结合权重后，文本筛选分数计算公式中的λ也要对应更新。

本申请在更新结合权重后预先输出多个识别文本，再选择得分最高的翻译文本为最终的翻译文本的具体执行步骤如下：

步骤S27-1：将所述待识别语音音频的声学特征输入更新所述第一结合权重后的解码器；

步骤S27-2：获取所述解码器生成的多个识别文本；

步骤S27-3：利用所述文本筛选分数计算公式，对所述多个识别文本分别计算得分；

步骤S27-4：将得分最高的识别文本确定为所述翻译文本。

本申请实施例中解码器根据声学模型和语言模型的结合权重设置了文本筛选分数计算公式，并分别在对语音的预识别阶段和语音识别阶段，生成多个文本，利用文本筛选分数计算公式对每个生成的文本计算得分。在预识别阶段，解码器生成的候选文本可以包括多个文本，根据文本筛选分数计算公式计算得到对应每个文本的识别分数，即概率得分，再进一步对每个文本生成特征矩阵，输入权重调整模型根据识别分数输出最佳权重，以根据权重计算得出的识别分数对权重进行调整；通过上述过程使声学模型和语言模型的结合权重自适应调整达到最优值。

本申请另一个实施例提供了训练权重调整模型的方法。图3是本申请实施例训练权重调整模型的步骤流程图，图4是本申请实施例训练权重调整模型的流程图，如图3和图4所示，训练权重调整模型的方法是：

语音音频样本的条件是指，输入的语音音频样本的场景(质检、会议、导航)、领域(银行、保险、地图)等。

步骤S31：获取语音音频样本以及对应所述语音音频样本的文本数据；

文本数据是语音音频样本的文字内容。通常可以采集人朗读文本数据的音频作为语音音频样本，也可以人工听语音音频样本，标注获得文本数据，或者通过其他方式获得语音音频样本和对应语音音频样本的文本数据，本申请对此不作限制。

步骤S32：提取所述语音音频样本的声学特征样本，并将所述声学特征样本输入预设解码器；其中，所述预设解码器包括预设声学模型和预设语言模型；

对语音音频样本提取声学特征样本的方法可以参照对待识别语音音频提取声学特征的方法。

同时输入语音音频样本的类别特征样本，类别特征样本可以根据语音音频样本的语音内容得到，还可以根据获取语音音频样本的渠道获得。例如，在以会议内容的语音音频样本训练权重调整模型时，可以输入类别特征样本是会议，在以从银行音源库中采集的语音音频样本训练权重调整模型时，可以输入类别特征样本是银行。

预设解码器是指训练权重调整模型时使用的解码器，训练权重调整模型时使用的预设解码器，和在语音识别中应用权重调整模型对声学模型和语言模型的结合权重进行自适应调整使用的解码器，可以是相同的。

预设声学模型是指训练权重调整模型时，解码器中的声学模型。预设语言模型是指训练权重调整模型时，解码器中的语言模型。同样，预设声学模型和声学模型可以相同，预设语言模型和语言模型也可以相同。

步骤S33：获取所述预设解码器生成的候选文本样本，并计算所述候选文本样本的识别分数样本；

候选文本样本可以包括多个文本样本，每个文本样本对应各自的识别分数样本。

对候选文本样本计算识别分数样本，同样利用设置的文本筛选分数计算公式：P＝λ∑_jln{P_am[v_j(w₁,w₂,…,w_n)]}+(1-λ)∑_iln{P_lm[w_i]}进行计算。

步骤S34：根据所述声学特征样本、所述候选文本样本、所述识别分数样本以及所述语音音频样本的类别特征样本，生成特征矩阵样本；

将类别特征样本进行内嵌拼接转换为至少3维的类别特征向量，对类别特征向量乘以查询矩阵，减小类别特征向量的维度，再将维度减小的各类别特征向量进行拼接，得到类别矩阵。

获得候选文本样本中文本样本的数量，用文本样本数量乘以识别分数样本，由于识别分数样本是概率向量的形式，拼接各分数样本，得到分数矩阵。

候选文本通过词向量或字向量转换，得到至少是(10*(30+30+1)+1)维的语言特征向量，再对语言特征向量进行压缩拼接，即对语言特征向量乘以压缩矩阵以减小语言特征向量的维度，再将维度减小的各语言特征向量进行拼接，得到语言矩阵。

对声学特征进行压缩拼接，包括归一化和向量转换，得到至少(60+3)维声学特征向量。

合并上述声学特征向量、语言特征向量、分数矩阵和类别特征向量输入特征矩阵，得到特征矩阵样本。

步骤S35：将所述特征矩阵样本输入所述预设模型；

预设模型是预先搭建的多层全连接网络结构，可以执行牛顿迭代算法。

步骤S36：将所述预设模型输出的最佳权重区间返回所述预设解码器；

预设模型是利用牛顿迭代法根据所述特征矩阵样本，搜索得到所述最佳权重区间；

步骤S37：根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，并获取所述预设解码器基于更新后的第二结合权重输出的预测文本；

第二结合权重是指在训练权重调整模型中，预设声学模型和预设语言模型的结合权重。

预测文本也可以包括多个文本。

步骤S38：根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

本申请另一个实施例提出了根据最佳权重区间更新预设声学模型和预设语言模型在预设解码器中的权重系数的方法。

根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，包括：依次利用所述最佳权重区间的每一个权重取值更新所述第二结合权重；

权重区间是指，根据设置的计算精确度，在最佳权重区间提取的离散数。

首先以最佳权重区间中的每一个权重取值更新声学模型和语言模型的权重系数。假设最佳权重区间是[1.5—2.6]，计算精确度是小数点后1位，分别将1.5、1.6……2.6作为声学模型和语言模型的结合权重。

获取所述预设解码器基于更新后的第二结合权重输出的预测文本，包括：在每一次利用所述最佳权重区间的权重取值更新第二结合权重后，获取所述预设解码器输出的预测文本；

继续上述示例，假设最佳权重区间是[1.5—2.6]，计算精确度是小数点后1位，得到10权重取值，将每个权重取值代入HCLG加权有限状态转换器中，使预设声学模型和预设语言模型依次以上述11个权重取值，解码得到对应的文本，获得11个预测文本。

根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型，包括：依次计算每一次获取的预测文本相较于所述文本数据的错误率；将最小错误率对应的预测文本确定为目标预测文本；将输出所述目标预测文本时所述预设解码器使用的权重取值确定为最佳权重参考值；根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

本申请实施例通过将预测文本与文本数据比较，得到最佳权重区间中的最佳权重取值，并将该最佳权重取值返回预设模型，反向训练预设模型搜索最佳权重区间的能力。

进一步地，将该最佳权重取值返回预设模型，反向训练预设模型搜索最佳权重区间的能力的方法如下：

计算所述最佳权重参考值与所述最佳权重区间的损失值；

获取步骤S36中预设模型输出的最佳权重区间是(λ_a,λ_b)，计算最佳权重参考值和最佳权重区间(λ_a,λ_b)的损失值。其中，

以λ_c表示最佳权重参考值，计算损失值的损失函数是：min[λ_c-(λ_a-λ_b)/2]²。

根据所述损失值，更新所述预设模型中用于执行牛顿迭代法使用的参数。

预设模型搜索最佳权重区间可以基于公式mincer(λ)进行搜索，以保证得到的最佳权重区间中存在使更新权重后的解码器输出的文本相比文本数据的字错误率最小。

本申请根据对应语音音频样本的标准的文本数据，在预设模型输出的最佳权重区间中选择得到最佳权重取值，再将最佳权重取值返回预设模型，作为训练预设模型搜索最佳权重区间的监督条件。其中，每一次训练的参数调整都能使预设模型采用牛顿迭代法，搜索得到的最佳权重区间进一步贴近声学模型和语言模型结合的最优权重系数。经过多次训练后的预设模型，具有在当前类别下输出在最佳权重的计算能力。将其搜索得到的最佳权重区间的值返回解码器，并以最佳权重区间的权重更新声学模型和语言模型的结合权重，可以得到相较标准文本错误率最小的预测文本。

基于同一发明构思，本申请实施例提供一种语音识别装置。图5是本申请实施例提出的语音识别装置的示意图。如图5所示，该装置可以包括：

解码模块51，用于获取待识别语音音频的声学特征，并将所述声学特征输入解码器；其中，所述解码器包括声学模型和语言模型；

候选文本生成模块52，用于获取所述解码器生成的候选文本，并计算所述候选文本的识别分数；

特征矩阵生成模块53，用于根据所述声学特征、所述候选文本、所述识别分数以及所述待识别语音音频的类别特征，生成特征矩阵；

第一输入模块54，用于将所述特征矩阵输入所述权重调整模型；

最佳权重返回模块55，用于将所述权重调整模型输出的最佳权重返回所述解码器；

第一结合权重更新模块56，用于根据所述最佳权重更新所述解码器中所述声学模型与所述语言模型的第一结合权重；

翻译文本输出模块57，用于获取更新所述第一结合权重后的解码器输出的翻译文本。

可选地，所述装置还包括：

设置模块，用于根据所述声学模型、所述语言模型和所述最佳权重，设置文本筛选分数计算公式；所述翻译文本输出模块包括：解码子模块，用于将所述待识别语音音频的声学特征输入更新所述第一结合权重后的解码器；识别文本生成子模块，用于获取所述解码器生成的多个识别文本；筛选子模块，用于利用所述文本筛选分数计算公式，对所述多个识别文本分别计算得分；翻译文本获得子模块，用于将得分最高的识别文本确定为所述翻译文本。

可选地，所述第二结合权重更新模块包括：

第二结合权重更新子模块，用于依次利用所述最佳权重区间的每一个权重取值更新所述第二结合权重；预测文本获取子模块，用于在每一次利用所述最佳权重区间的权重取值更新第二结合权重后，获取所述预设解码器输出的预测文本；所述参数更新模块包括：计算子模块，用于依次计算每一次获取的预测文本相较于所述文本数据的错误率；目标预测文本确定子模块，用于将最小错误率对应的预测文本确定为目标预测文本；最佳权重参考值确定子模块，用于将输出所述目标预测文本时所述预设解码器使用的权重取值确定为最佳权重参考值；参数更新子模块，用于根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的语音识别方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的语音识别方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音识别方法、装置、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

将所述特征矩阵输入权重调整模型；

将所述权重调整模型输出的最佳权重返回所述解码器；

获取更新所述第一结合权重后的解码器输出的翻译文本。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取语音音频样本以及对应所述语音音频样本的文本数据；

提取所述语音音频样本的声学特征样本，并将所述声学特征样本输入预设解码器；其中，所述预设解码器包括预设声学模型和预设语言模型；

获取所述预设解码器生成的候选文本样本，并计算所述候选文本样本的识别分数样本；

根据所述声学特征样本、所述候选文本样本、所述识别分数样本以及所述语音音频样本的类别特征样本，生成特征矩阵样本；

将所述特征矩阵样本输入所述预设模型；

将所述预设模型输出的最佳权重区间返回所述预设解码器；

根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，并获取所述预设解码器基于更新后的第二结合权重输出的预测文本；

根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

3.根据权利要求1所述的方法，其特征在于，在获取更新所述第一结合权重后的解码器输出的翻译文本之前，所述方法还包括：

获取更新所述第一结合权重后的解码器输出的翻译文本，包括：

将所述待识别语音音频的声学特征输入更新所述第一结合权重后的解码器；

获取所述解码器生成的多个识别文本；

利用所述文本筛选分数计算公式，对所述多个识别文本分别计算得分；

将得分最高的识别文本确定为所述翻译文本。

4.根据权利要求2所述的方法，其特征在于，根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，包括：

依次利用所述最佳权重区间的每一个权重取值更新所述第二结合权重；

获取所述预设解码器基于更新后的第二结合权重输出的预测文本，包括：

在每一次利用所述最佳权重区间的权重取值更新第二结合权重后，获取所述预设解码器输出的预测文本；

根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型，包括：

依次计算每一次获取的预测文本相较于所述文本数据的错误率；

将最小错误率对应的预测文本确定为目标预测文本；

将输出所述目标预测文本时所述预设解码器使用的权重取值确定为最佳权重参考值；

根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

5.根据权利要求4所述的方法，其特征在于，在将所述预设模型输出的最佳权重区间返回所述预设解码器之前，所述方法还包括：

利用牛顿迭代法根据所述特征矩阵样本，搜索得到所述最佳权重区间；

根据所述最佳权重参考值，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型，包括：

计算所述最佳权重参考值与所述最佳权重区间的损失值；

6.一种语音识别装置，其特征在于，所述装置包括：

解码模块，用于获取待识别语音音频的声学特征，并将所述声学特征输入解码器；其中，所述解码器包括声学模型和语言模型；

候选文本生成模块，用于获取所述解码器生成的候选文本，并计算所述候选文本的识别分数；

特征矩阵生成模块，用于根据所述声学特征、所述候选文本、所述识别分数以及所述待识别语音音频的类别特征，生成特征矩阵；

第一输入模块，用于将所述特征矩阵输入所述权重调整模型；

最佳权重返回模块，用于将所述权重调整模型输出的最佳权重返回所述解码器；

第一结合权重更新模块，用于根据所述最佳权重更新所述解码器中所述声学模型与所述语言模型的第一结合权重；

翻译文本输出模块，用于获取更新所述第一结合权重后的解码器输出的翻译文本。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

样本获取模块，用于获取语音音频样本以及对应所述语音音频样本的文本数据；

提取模块，用于提取所述语音音频样本的声学特征样本，并将所述声学特征样本输入预设解码器；其中，所述预设解码器包括预设声学模型和预设语言模型；

计算模块，用于获取所述预设解码器生成的候选文本样本，并计算所述候选文本样本的识别分数样本；

特征矩阵样本生成模块，用于根据所述声学特征样本、所述候选文本样本、所述识别分数样本以及所述语音音频样本的类别特征样本，生成特征矩阵样本；

第二输入模块，用于将所述特征矩阵样本输入所述预设模型；

最佳权重区间返回模块，用于将所述预设模型输出的最佳权重区间返回所述预设解码器；

第二结合权重更新模块，用于根据所述最佳权重区间更新所述预设解码器中所述预设声学模型与所述预设语言模型的第二结合权重，并获取所述预设解码器基于更新后的第二结合权重输出的预测文本；

参数更新模块，用于根据所述预测文本相较于所述文本数据的相差程度，对所述预设模型的参数进行至少一次更新，得到所述权重调整模型。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

设置模块，用于根据所述声学模型、所述语言模型和所述最佳权重，设置文本筛选分数计算公式；

所述翻译文本输出模块包括：

解码子模块，用于将所述待识别语音音频的声学特征输入更新所述第一结合权重后的解码器；

识别文本生成子模块，用于获取所述解码器生成的多个识别文本；

筛选子模块，用于利用所述文本筛选分数计算公式，对所述多个识别文本分别计算得分；

翻译文本获得子模块，用于将得分最高的识别文本确定为所述翻译文本。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。