CN112489651A

CN112489651A - 语音识别方法和电子设备、存储装置

Info

Publication number: CN112489651A
Application number: CN202011378944.4A
Authority: CN
Inventors: 吴重亮; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-12
Anticipated expiration: 2040-11-30
Also published as: CN112489651B

Abstract

本申请公开了一种语音识别方法和电子设备、存储装置，其中，语音识别方法包括：获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表；对原始音频进行初始识别，得到初始识别文本；从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表；利用第二参考列表，对原始音频进行最终识别，得到最终识别文本。上述方案，能够提高语音识别准确性。

Description

语音识别方法和电子设备、存储装置

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法和电子设备、存储装置。

背景技术

在语音识别场景中，往往会遇到与语音识别场景相关的词语。例如，在人工智能领域会议中，通常会涉及诸如池化、端到端等词语，此外，还可能涉及该领域相关的人名、与会人员名字等等。受此影响，语音识别准确性往往较差。有鉴于此，如何提高语音识别准确性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法和电子设备、存储装置，能够确提高语音识别准确性。

为了解决上述问题，本申请第一方面提供了一种语音识别方法，包括：获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表；对原始音频进行初始识别，得到初始识别文本；从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表；利用第二参考列表，对原始音频进行最终识别，得到最终识别文本。

为了解决上述问题，本申请第二方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音识别方法。

为了解决上述问题，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音识别方法。

上述方案，通过获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表，从而对原始音频进行初始识别，得到初始识别文本，并从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表，进而利用第二参考列表，对原始音频进行最终识别，得到最终识别文本，故此能够在语音识别过程中，对原始音频进行二次识别，并在初始识别之后，利用初始识别文本进一步缩减第一参考列表，从而能够排除与原始音频无关的参考词语对语音识别的干扰，有利于提高第二参考列表的精准性，进而在最终识别时，利用第二参考列表识别原始音频，有利于提高语音识别准确性。

附图说明

图1是本申请语音识别方法一实施例的流程示意图；

图2是语音识别模型一实施例的框架示意图；

图3是图1中步骤S14一实施例的流程示意图；

图4是图3中步骤S32一实施例的流程示意图；

图5是利用第二参考列表进行最终识别一实施例的状态示意图；

图6是语音识别模型训练方法一实施例的流程示意图；

图7是预设缩放系数设置方式一实施例的流程示意图；

图8是本申请电子设备一实施例的框架示意图；

图9是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表。

本公开实施例中，语音识别场景具体可以根据实际应用情况进行设置。例如，语音识别场景可以包括但不限于：人工智能会议、股东大会、医学研讨会等等，在此不做限定。

在一个实施场景中，语音识别场景相关的第一参考列表可以包括若干参考词语。以语音识别场景为人工智能会议为例，第一参考列表可以包括但不限于如下参考词语：池化、卷积、全连接、感受野、端到端等等，其他语音识别场景可以以此类推，在此不再一一举例。需要说明的是，第一参考列表中的参考词语可以不限于一种语种，例如，中文语音识别场景下，第一参考列表中还可以包括英文的参考词语，仍以人工智能会议为例，第一参考列表还可以包括如下参考词语：pooling、fully-connected、end-to-end、CNN(即卷积神经网络convolutional neural network的英文缩写)等等，能够进一步提高第一参考列表的完整性，有利于提高后续语音识别的准确性。

在另一个实施场景中，语音识别场景相关的第一参考列表可以预先从语音识别场景相关的文本中获取得到。相关的文本具体可以包括：新闻、期刊、论文、专利文献等等，在此不做限定。仍以语音识别场景为人工智能会议为例，可以从与人工智能相关的新闻、期刊、论文以及专利文献中提取得到诸如池化、卷积等参考词语，并将提取到的参考词语的组合，作为第一参考列表。其他语音识别场景可以以此类推，在此不再一一举例。

步骤S12：对原始音频进行初始识别，得到初始识别文本。

在一个实施场景中，可以采用诸如DTW(Dynamic Time Warping，动态时间规整)、HMM(Hidden Markov Model，隐马尔科夫模型)、GMM(Gaussian Mixture Model，高斯混合模型)等对原始音频进行初始识别，得到初始识别文本。

在另一个实施场景中，为了提高语音识别的效率，可以采用语音识别模型对原始音频进行初始识别，得到初始识别文本。语音识别模型具体可以包括但不限于：CLAS(Contextual Listen,Attend and Spell)等，在此不做限定。

步骤S13：从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表。

在一个实施场景中，提高筛选参考词语的精准度，可以获取初始识别文本中与第一参考列表中的参考词语匹配的对照词语，并获取对照词语和参考词语之间的发音相似度，从而在发音相似度满足第一预设条件的情况下，将对应的参考词语添加至第二参考列表。上述方式，通过获取初始识别文本与第一参考列表中的参考词语匹配的对照词语，并获取对照词语和参考词语之间的发音相似度，能够有利于从第一参考列表中筛选出与对照词语发音相似的参考词语，从而能够有利于排除发音与对照词语相似度不高的参考词语对后续最终识别的干扰，进而能够有利于提高后续最终识别的准确性。

在一个具体的实施场景中，与参考词语匹配的对照词语满足以下至少一个条件：两者中相同的字的个数超过预设数量、两者中相同的字的个数在总字数中的占比超过预设比例，在此不做限定。仍以人工智能会议为例，第一参考列表包括如下参考词语：池化、全连接、端到端，初始识别文本为“该神经网络是一个端到端网络，其包括卷积层、赤化层、权连接层等等”，通过匹配发现初始识别文本中“赤化”一词与参考词语“池化”存在相同的字，初始识别文本中“权连接”一词与参考词语“全连接”存在相同的字，故可以将“赤化”参考词语“池化”的对照词语、将“权连接”作为参考词语“全连接”的对照词语。其他语音识别场景可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，具体可以将参考词语中的第一文字和与参考词语匹配的对照词语中的第二文字进行对齐处理，并分别获取第一文字的特征表示和第二文字的特征表示，从而可以利用第一文字的特征表示和与第一文字对齐的第二文字的特征表示，获取对照词语和匹配的参考词语之间的发音相似度。上述方式，通过将参考词语中的第一文字和与参考词语匹配的对照词语中的第二文字进行对齐处理，在此基础上，再利用第一文字的特征表示和与第一文字对齐的第二文字的特征表示，获取对照词语和匹配的参考词语之间的发音相似度，能够有利于提高发音相似度的准确性。

具体地，在对齐处理过程中，可以将参考词语中的第一文字和对照词语中的第二文字逐字对齐，例如，对照词语“权连接”和参考词语“全连接”对齐处理后，第一文字“全”与第二文字“权”对齐，第一文字“连”与第二文字“连”对齐，第一文字“接”与第二文字“接”对齐；此外，对于参考词语和对照词语字数不同的情况，可以对参考词语和对照词语进行编辑距离对齐，例如，对照词语“端到端到”和参考词语“端到端”进行编辑距离对齐后，第一文字“端”和第二文字“端”对齐，第一文字“到”和第二文字“到”对齐，第一文字“端”和第二文字“端”对齐，第一文字“”(代表无)与第二文字“到”对齐，或者，也可以将对照词语“端到端到”第二个“到”删除，在此不做限定。其他情况可以以此类推，在此不再一一举例。

此外，文字的特征表示可以是训练得到的，例如，预先设置一个大小为L的词典，若语音识别模型(如CLAS)输出层向量维度为M，则在训练过程中，会生成一个大小为M*L的特征表示矩阵，每一个文字均对应有一个M维的特征表示。在此基础上，可以计算第一文字的特征表示和与第一文字对齐的第二文字的特征表示之间的余弦距离，从而得到对照词语和匹配的参考词语之间的发音相似度。例如，对照词语“权连接”中第二文字的特征表示可以表示为[y₁,y₂,y₃]，参考词语“全连接”中第一文字的特征表示可以表示为[y₄,y₅,y₆]，则对照词语“权连接”和参考词语“全连接”之间的发音距离可以通过如下式子计算得到：

上述公式(1)中，cos(y_i,y_j)表示特征表示y_i,y_j之间的余弦距离。3表示对照词语“权连接”和参考词语“全连接”存在3组对应的文字，在其他情况下，3也可以替换数值，在此不做限定。需要说明的是，在存在诸如对照词语“端到端到”和参考词语“端到端”等参考词语和对照词语字数不同的情况时，对于进行编辑距离对齐之后，插入或删除文字对应的余弦距离可以设置为1。上述发音距离越大，表示发音相似度越低，反之，发音距离越小，表示发音相似度越高。

在又一个具体的实施场景中，上述第一预设条件具体可以包括以下任一者：发音相似度大于预设相似度阈值，发音相似度按照由大到小排序后位于第一预设序位之前。具体的，预设相似度阈值可以根据实际应用情况进行设置，例如，在筛选参考词语的精度要求较高时，预设相似度阈值可以设置地较大，而在筛选参考词语的精度要求相对宽松时，预设相似度阈值可以设置地相对稍小，在此不做限定。此外，类似地，第一预设序位也可以根据实际应用需要进行设置，例如，在筛选参考词语的精度要求较高时，第一预设序位可以设置地较小，而在筛选参考词语的精度要求相对宽松时，第一预设序位也可以设置地稍大，在此不做限定。上述方式，通过将第一预设条件设置为具体包括发音相似度大于预设相似度阈值，能够有利于筛选到具有较高发音相似度的参考词语，而将第一预设条件设置为包括发音相似度按照由大到小排序后位于第一预设序位之前，能够有利于在第二参考列表不为空的前提下，确保筛选得到的参考词语整体上具有较高的发音相似度。

此外，需要说明的是，在第一预设条件设置为发音相似度大于预设相似度阈值的情况下，若不存在满足第一预设条件的发音相似度，即对照词语与参考词语之间的发音相似度均不大于预设相似度阈值，此时可以认为原始音频中较大可能不存在任何参考词语，故可以直接将第二参考列表设置为不包含任何参考词语的空列表，从而能够有利于排除参考词语对后续最终识别的干扰，有利于提高最终识别的准确性。

在另一个实施场景中，为了提高语音识别速度，也可以获取初始识别文本中与第一参考列表中的参考词语匹配的对照词语，并将第一参考列表中存在匹配的对照词语的参考词语，添加至第二参考列表。对照词语的具体确定方式可以参阅前述描述，在此不再赘述。上述方式，可以仅需将初始识别文本与第一参考列表匹配即可得到第二参考列表，而无需计算发音相似度，故能够在缩减第一参考列表的同时，减少计算量，有利于提高语音识别速度。

步骤S14：利用第二参考列表，对原始音频进行最终识别，得到最终识别文本。

如前所述，为了提高语音识别的效率，可以采用语音识别模型对原始音频进行最终识别，得到最终识别文本。以语音识别模型为CLAS为例，请结合参阅图2，图2是语音识别模型一实施例的框架示意图。如图2所示，语音编码器、解码器可以由RNN(RecurrentNeural Network，循环神经网络)构成，词语编码器可以由多层LSTM(Long Short TermMemory，长短期记忆网络)构成，语音编码器的输入可以为原始音频的若干个子帧的声学特征(如，梅尔频率倒谱系数MFCC)，为了便于描述，可以将语音编码器的输入数据记为x＝(x₁,…,x_K)，与此同时，词语编码器的输入可以为第二参考列表中的参考词语，为了便于描述，可以将词语编码器的速输入数据记为z＝(z₁,…,z_N)，如图2所示，利用语音识别模型经过若干次识别，每次识别均可以输出文字预测概率P(y_ty_t-1,…,y₀；x,z)，从而得到本次识别的文字，进而可以将若干次识别的文字组合，作为最终识别文本。具体地，在每次识别过程中，可以利用语音编码器对输入数据x＝(x₁,…,x_K)进行编码，可以得到原始音频的音频编码表示

利用词语编码器对输入数据z＝(z₁,…,z_N)进行编码，可以得到参考词语的第一编码表示

需要说明的是，在实际使用中，有可能存在第二参考列表中的参考词语与原始音频并不相关，故可以获取用于表示无参考词语的第二编码表示

为了便于描述，可以将第一编码表示和第二编码表示记为词语编码表示

从而能够有利于提高语音识别的鲁棒性。在此基础上，可以基于词语注意力，利用解码器在上一次识别解码器的隐层状态d_t-1和词语编码表示

得到参考词语的词语上下文表示

具体如下：

上述公式(2)中，v^z、

均为语音识别模型的网络参数，可以在训练过程中进行调整。

与此同时，采用与上述公式(2)和公式(3)相似的处理方式，能够得到原始音频的音频上下文表示

从而可以将上述词语上下文表示

音频上下文表示

和上次识别到的文字y_t-1的嵌入表示

一同送入解码器，并利用softmax输出文字预测概率，得到本次识别的文字y_t，并获取本次识别解码器的隐层状态d_t，以供下次识别使用。具体地，隐层状态d_t可以表示为：

需要说明的是，在上述识别过程中，由于解码器的隐层状态d_t既包含了可表示音频信息的音频上下文表示

又包含了可表示参考词语筛选结果的词语上下文表示

故通过隐层状态d_t能够实现对原始音频的准确识别。例如，原始音频为“欢迎来到科大讯飞”，第二参考列表中参考词语包括但不限于：“科大讯飞”、“科达”、“iflytek”，若词语上下文表示

表示对参考词语的注意力都较低，则会触发上述“无参考词语”，从而不会从第二参考列表中选择任何参考词语，反之若词语上下文表示表示对某一参考词语(如“科大讯飞”)的注意力较高，则可以从第二参考列表中选择对应的参考词语(如“科大讯飞”)作为本次识别的文字。其他情况可以以此类推，在此不再一一举例。

请参阅图3，图3是图1中步骤S14一实施例的流程示意图。本公开实施例中，最终识别文本是经过若干次识别得到的，具体可以包括如下步骤：

步骤S31：每次识别时获取第二参考列表中每一参考词语的重要度，并选择重要度满足第二预设条件的参考词语。

具体可以对第二参考列表中的参考词语进行编码，得到对应参考词语的第一编码表示，并基于第一注意力机制，利用第一编码表示，得到参考词语的第一注意力权重，作为对应参考词语的重要度。

在一个实施场景中，可以基于第一注意力机制，利用参考词语的第一编码表示和用于表示无参考词语的第二编码表示，得到参考词语和无参考词语的第一注意力权重，分别作为对应参考词语的重要度和无参考词语的重要度。具体可以参阅前述公开实施例中的相关描述，在此不再赘述。此外，利用第一编码表示和第二编码表示得到第一注意力权重具体可以参阅前述公开实施例中的相关描述，如前述公开实施例中的公式(2)和公式(3)中，词语编码表示

即包括第一编码表示和第二编码表示，经过公式(2)和公式(3)所得到的

即可视为第一注意力权重，并作为参考词语的重要度，在此不再赘述。

在另一个实施场景中，可以按照重要度由大到小的顺序将参考词语进行排序，第二预设条件可以包括：位于第二预设序位之前，第二预设序位可以根据实际应用需要进行设置，具体可以参考前述公开实施例中，关于第一预设序位的设置方式，在此不再赘述。

步骤S32：利用选择的参考词语，对原始音频进行识别，得到本次识别对应的词语，并将若干次识别得到的词语的组合，作为最终识别文本。

具体请结合参阅图4，图4是图3中步骤S32一实施例的流程示意图，包括如下步骤：

步骤S321：基于第二注意力机制，利用选择的参考词语的第一编码表示，得到选择的参考词语的第二注意力权重。

在一个实施场景中，第二注意力权重具体可以参阅前述公开实施例中的公式(2)和公式(3)得到。例如，可以通过下式所示的第二注意力机制，得到第二注意力权重：

上述公式(5)中，ω^z、

和

表示语音识别模型的网络参数，可以在训练过程中进行调整，

表示选择的参考词语的第一编码表示，d_t-1表示上次识别解码器的隐层状态，公式(6)中，

表示第二注意力权重。此外，第二注意力机制也可以和第一注意力机制共享网络参数。

在另一个实施场景中，如前述公开实施例所述，为了提高语音识别的鲁棒性，还设有无参考词语的第二编码表示

在此基础上，在无参考词语对应的重要度也满足上述第二预设条件的情况下，可以基于上述第二注意力机制，利用选择的参考词语的第一编码表示和无参考词语的第二编码表示，得到选择的参考词语和无参考词语的第三注意力权重，具体可以参阅上述公式(5)和公式(6)，在此情形下，上述公式(5)中

表示选择的参考词语的第一编码表示和无参考词语的第二编码表示。在此之后，可以将选择的参考词语的第三注意力权重作为对应参考词语的第二注意力权重，并将无参考词语的第三注意力权重和预设缩放系数的乘积，作为无参考词语的第二注意力权重。上述方式，能够在无参考词语的重要度也满足第二预设条件的情况下，在最终识别过程中，充分考虑无参考词语这一可能，并将无参考词语的第三注意力权重和预设缩放系数的乘积，作为无参考词语的第二注意力权重，从而能够有利于通过预设缩放系数进一步控制无参考词语的第二注意力权重的大小，进而能够有利于在后续解码过程中，降低对参考词语的误触发概率和漏触发概率，有利于提高最终识别的准确性。

在一个具体的实施场景中，预设缩放系数可以根据语音识别模型在训练过程中，对参考词语的误触发率和漏触发率进行设置。具体可以参阅下述关于语音识别模型的训练方法实施例中的相关描述，在此暂不赘述。

步骤S322：利用选择的参考词语的第二注意力权重对对应参考词语的第一编码表示进行加权处理，得到选择的参考词语的第一上下文表示。

在一个实施场景中，第一上下文表示具体可以参阅前述公开实施例中的公式(6)得到。例如，可以通过下式，得到第一上下文表示：

上述公式(7)中，

表示第一上下文表示，

表示选择的参考词语中的第j个参考词语的第一编码表示，

选择的参考词语中的第j个参考词语第二注意力权重，M表示选择的参考词语的个数。

在另一个实施场景中，在无参考词语对应的重要度也满足上述第二预设条件的情况下，可以利用选择的参考词语和无参考词语的第二注意力权重，分别对对应参考词语的第一编码表示和无参考词语的第二编码表示进行加权处理，得到第一上下文表示。具体可以参阅上述公式(7)，在此情形下，上述公式(7)中，

表示选择的参考词语和无参考词语中的第j个第一编码表示，

选择的参考词语和无参考词语中的第j个第二注意力权重，M表示选择的参考词语和无参考词语的总个数。

步骤S323：利用第一上下文表示和原始音频的第二上下文表示进行解码，得到本次识别对应的词语。

本公开实施例中，第二上下文表示是利用原始音频的音频编码表示得到的，具体可以参阅前述公开实施例中关于音频上下文表示的相关描述，在此不再赘述。

此外，利用第一上下文表示和原始音频的第二上下文表示进行解码，得到本次识别对应的词语具体也可以参阅前述公开实施例中的相关描述，在此不再赘述。

在一个具体的实施场景中，请结合参阅图5，图5是利用第二参考列表进行最终识别一实施例的状态示意图。如图5所示，第二参考列表中参考词语包括：“科达”、“科大讯飞”、“iflytek”，利用词语编码器进行编码，分别得到第一编码表示，其中，斜线填充矩形表示参考词语“科达”的第一编码表示，点填充矩形表示参考词语“科大讯飞”的第一编码表示，网格填充矩形表示参考词语“iflytek”的第一编码表示，无填充矩形表示无参考词语的第二编码表示，将上述编码表示送入第一注意力机制，得到对应的第一注意力权重，作为重要度，并选择重要度满足第二预设条件的参考词语，如图5所示，选择到参考词语“科大讯飞”和无参考词语，在此之后，再将参考词语“科大讯飞”的第一编码表示和无参考词语的第二编码表示送入第二注意力机制，得到两者的第二注意力权重，并利用第二注意力权重对参考词语“科大讯飞”的第一编码表示进行加权，利用第二注意力权重对无参考词语的第二编码表示进行加权，得到第一上下文表示，在基础上，将第一上下文表示和原始音频的第二上下文表示送入解码器进行解码，得到本次识别的文字(如，“科大讯飞”)，最终将若干次识别的文字的组合，作为最终识别文本。

区别于前述实施例，每次识别时获取第二参考列表中每一参考词语的重要度，并选择重要度满足第二预设条件的参考词语，从而利用选择的参考词语，对原始音频进行识别，得到本次识别对应的词语，并将若干次识别得到的词语的组合，作为最终识别文本，能够在最终识别过程中，利用参考词语的重要度进一步缩减第二参考列表，从而能够进一步排除与原始音频无关的参考词语对最终识别的干扰，有利于进一步提高第二参考列表的精准性，提高语音识别的准确性。

请参阅图6，图6是语音识别模型训练方法一实施例的流程示意图。本公开实施例中，对原始音频的识别可以是由语音识别模型执行的，语音识别模型是由训练样本训练得到的，且训练样本包括与语音识别场景相关的样本参考列表，且样本参考列表中包含若干样本参考词语，样本参考列表具体可以参考前述公开实施例中，关于第一参考列表的相关描述，在此不再赘述。训练过程具体可以包括如下步骤：

步骤S61：获取语音识别场景下采集到的样本音频；其中，样本音频标注有对应的样本文本。

关于语音识别场景具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

在一个实施场景中，可以从语音识别场景相关的音频数据中，随机抽取一定长度(如，包含2至4个词语)的片段，作为一个样本音频，并将由该样本音频转写得到的文本，标注为该样本音频的样本文本。仍以人工智能会议为例，可以从音频数据“这个端到端的神经网络是由XXX博士设计的，这个神经网络包含：卷积层、池化层、全连接层”中，抽取“这个端到端的神经网络是由XXX博士设计的”作为一个样本音频，并抽取“这个神经网络包含：卷积层、池化层、全连接层”作为一个样本音频，其他情况可以以此类推，在此不再一一举例。

在一个具体的实施场景中，每个样本音频中可以包含预设数量个与语音识别场景相关的词语，以便后续抽取样本参考词语。具体地，预设数量可以为0个、1个、2个、3个、4个等等，在此不做限定。

步骤S62：对样本文本进行分词分析，并选取样本文本中与语音识别场景相关的词语，作为样本参考列表中的样本参考词语。

具体的，可以对样本文本进行分词处理，得到若干词语，并对若干词语进行词性分析，得到若干词语的词性，选取词性与语音识别场景相关的词语，作为样本参考词语。上述方式，通过对样本文本进行分词处理，得到若干词语，并对若干词语进行词性分析，得到若干词语的词性，从而选取词性与语音识别场景相关的词语，作为样本参考词语，能够有利于提高样本参考词语与语音识别场景的关联度。

在一个实施场景中，可以采用中文LTP(Language Technology Platform，语言技术平台)工具、英文NLTK(Natural Language Tool Kit，自然语言工具)工具等NLP(NaturalLanguage Processing，自然语言处理)工具对样本文本进行分词、词性标注等处理。

在另一个实施场景中，以人工智能会议为例，“这个端到端的神经网络是由XXX博士设计的”经过分词、词性标注之后，可以得到实体名“端到端”、“神经网络”和人名“XXX博士”，根据人工智能会议中的参考词语的词性等特点，可以选取“端到端”、“神经网络”作为样本参考词语；或者，“这个神经网络包含：卷积层、池化层、全连接层”经过分词、词性标注之后，可以得到实体名“神经网络”、“卷积层”、“池化层”、“全连接层”，根据人工智能会议中的参考词语的词性等特点，可以选取“神经网络”、“卷积层”、“池化层”、“全连接层”作为样本参考词语。其他情况可以以此类推，在此不再一一举例。

步骤S63：基于语音识别模型，利用样本音频和样本参考列表进行若干次识别，得到样本预测词语。

如前述公开实施例所述，语音识别模型具体可以包括但不限于CLAS，在此不做限定。在语音识别模型为CLAS的情况下，利用样本音频和样本参考列表进行若干次识别的具体过程，可以参阅前述公开实施例中，关于最终识别的相关描述，在此不再赘述。在语音识别模型为其他模型的情况下，可以根据实际情况进行识别处理，在此不再一一举例。

在一个实施场景中，为了提高语音识别模型的鲁棒性，还可以在样本参考列表中添加反例参考词语，其中，反例参考词语与样本参考词语不同，但与样本参考词语存在一定的相似性，故会对样本参考词语产生干扰。例如，样本参考词语“全连接层”，其反例参考词语可以是“连接层”，其他情况可以以此类推，在此不再一一举例。

在一个具体的实施场景中，可以将样本参考列表中的样本参考词语进行增广处理，作为对应样本参考词语的反例参考词语，并添加至样本参考列表中。上述方式，可以基于样本参考词语快速增广得到反例参考词语。

此外，增广处理可以包括乱序处理，例如，对于样本参考词语“科大讯飞”，可以将其乱序处理为“大讯科飞”、“讯大科飞”、“飞科大讯”等等；或者，增广处理还可以包括逆序处理，例如，对于样本参考词语“科大讯飞”，可以将其逆序处理为“飞讯大科”；或者，增广处理还可以包括截取前缀处理，例如，对于样本参考词语“科大讯飞”，可以将其截取前缀处理为“科”、“科大”、“科大讯”；或者，增广处理还可以包括随机屏蔽字处理，例如，对于样本参考词语“科大讯飞”，可以将其随机屏蔽字处理为“科大_飞”，其中‘_’表示屏蔽字，如前述公开实施例所述，语音识别模型在识别过程中，可以对样本参考词语进行编码，在此情形下，屏蔽字的编码表示可以由全为0的向量代替。

在另一个具体的实施场景中，语音识别模型通常需要经过多次训练才能收敛，在此情形下，本次训练时，可以将上一次训练过程中，语音识别模型识别得到的样本预测词语对应的样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语，并添加至样本参考列表中。上述方式，在本次训练时，将上一次训练过程中，语音识别模型识别得到的样本预测词语对应的样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语，能够有利于使语音识别模型在本次训练时提高对上次训练过程中满足第三预设条件的样本预测词语的抗干扰能力，据此迭代，能够有利于在多次训练过程中，逐渐提高语音识别模型的鲁棒性。

此外，上述第三预设条件具体可以包括：样本预测词语与任一样本参考词语不同，且样本预测概率按照由大到小排序后位于第三预设序位之前。第三预设序位可以根据实际应用需要进行设置，具体可以参阅前述公开实施例中，关于第一预设序位的相关描述，在此不再赘述。例如，对于样本音频“欢迎来到科大讯飞”，在上一次预测过程中，语音识别模型识别得到的样本预测词语对应的样本预测概率在前5位的分别是“科达讯飞”、“科达迅飞”、“柯达讯飞”、“柯达迅飞”、“可达讯飞”，在此情形下，可以将上述样本预测词语，作为反例参考词语，并添加至样本参考列表中。其他情况可以以此类推，在此不再一一举例。

此外，在将上一次训练过程中，语音识别模型识别得到的样本预测词语对应的样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语之前，若本次训练时的样本参考列表中已经包含了反例参考词语，则可以先将样本参考列表中已有的反例参考词语剔除。例如，本次训练时的样本参考列表中已经包含了上上次训练过程中样本预测概率满足第三预设条件的样本预测词语，在此情形下，可以先将其剔除。上述方式，通过将样本参考列表中已有的反例参考词语剔除，能够在多次训练过程中，逐渐提高语音识别模型的鲁棒性。

步骤S64：基于若干次识别得到的样本预测词语对应的样本预测概率，调整语音识别模型的网络参数。

在一个实施场景中，可以基于若干次识别得到的样本预测词语对应的样本预测概率，得到损失值，并在若干次训练过程中，最小化损失值，从而不断调整语音识别模型的网络参数。

在一个具体的实施场景中，在语音识别模型为CLAS的情况下，损失值可以表示为：

L_CLAS＝-logP(y|x,z)……(8)

上述公式(8)中，P(y|x,z)表示利用样本参考列表z对样本音频x，在某次识别到的样本预测词语y的样本预测概率，L_CLAS表示损失值。

区别于前述实施例，通过获取语音识别场景下采集到的样本音频，且样本音频标注有对应的样本文本，从而对样本文本进行分词分析，并选取样本文本中与语音识别场景相关的词语，作为样本参考列表中的样本参考词语，并基于语音识别模型，利用样本音频和样本参考列表进行若干次识别，得到样本预测词语，进而基于若干次识别得到的样本预测词语对应的样本预测概率，调整语音识别模型的网络参数，故此能够在训练过程中，选取与语音识别场景相关的词语，作为样本参考列表中的样本参考词语，从而能够使训练过程中所使用的参考列表与语音识别场景相关，且应用过程所使用的参考列表也与语音识别场景相关，进而能够有利于提升参考列表在训练过程中和在应用过程中的匹配性，有利于提升语音识别模型的鲁棒性。

请参阅图7，图7是预设缩放系数设置方式一实施例的流程示意图。本公开实施例中，预设缩放系数用于缩放无参考词语在识别过程中的重要度，具体用于对无参考词语的第三注意力权重进行缩放调整，具体可以参阅前述公开实施例中的相关描述，在此不再赘述。具体可以包括如下步骤：

步骤S71：统计之前若干次训练过程中，样本参考词语的误识别率、漏识别率中的至少一者。

本公开实施例中，误识别率表示发生如下事件的统计概率：样本预测词语为样本参考词语，且样本预测词语对应于样本文本中的词语并非样本参考词语。例如，某次训练过程中，样本音频为“将神经元通过如下方式全都连接从而得到期望的神经网络”，样本参考列表中的参考词语为“神经网络”、“神经元”、“全连接层”，且“全都连接”被错误地识别为“全连接层”，即样本预测词语“全连接层”确为样本参考词语，但样本预测词语“全连接层”对应于样本文本中的词语“全都连接”本身并非样本参考词语，此外其他均识别正确，则在本次训练过程中，样本参考词语的触发次数为3次，误识别为1次，之后每次训练结束之后，都可以执行上述统计，从而可以将若干次训练过程中，总的误识别次数除以总的触发次数，得到误识别率。

本公开实施例中，漏识别率表示发生如下事件的统计概率：样本预测词语并非样本参考词语，且样本预测词语对应于样本文本中的词语为样本参考词语；预设缩放系数用于缩放无参考词语在识别过程中的重要度。例如，在某次训练过程中，样本音频为“这个神经网络包含：卷积层、池化层、全连接层”，样本参考列表中的参考词语为“神经网络”、“卷积层”、“池化层”、“全连接层”，且“全连接层”未被识别出来，而被识别为“权连接层”，即样本预测词语“权连接层”并非样本参考词语“权连接层”，且样本预测词语“权连接层”对应于样本文本中的词语“全连接层”确为样本参考词语，此外其他均识别正确，则在本次训练过程中，样本参考词语的触发次数为4次，漏识别为1次，之后每次训练结束之后，都可以执行上述统计，从而可以将若干次训练过程中，总的漏识别次数除以总的触发次数，得到漏识别率。

在一个实施场景中，可以每隔预设数值的训练次数，进行一次统计。预设数值具体可以为5、10、15等等，在此不做限定。

步骤S72：基于样本参考词语的误识别率、漏识别率中的至少一者，调整用于表示无参考词语的预设缩放系数。

在一个实施场景中，可以在误识别率高于第一识别率阈值的情况下，调高预设缩放系数。具体地，第一识别率阈值可以根据实际情况进行设置，例如，可以设置为5％、10％、15％等等，在此不做限定。上述方式，在误识别率高于第一识别率阈值的情况下，调高预设缩放系数，从而可以调高无参考词语的重要度，进而能够有利于提高语音识别过程中，触发无参考词语的可能性，有利于降低误识别率。

在另一个实施场景中，可以在漏识别率高于第二识别率阈值的情况下，调低预设缩放系数。具体地，第二识别率阈值可以根据实际应用情况进行设置，例如，可以设置为5％、10％、15％等等，在此不做限定。上述方式，在漏识别率高于第二识别率阈值的情况下，调低预设缩放系数，从而可以调低无参考词语的重要度，进而能够有利于降低语音识别过程中，触发无参考词语的可能性，即能够有利于提高触发参考词语的可能性，有利于降低漏识别率。

区别于前述实施例，通过统计之前若干次训练过程中，样本参考词语的误识别率、漏识别率中的至少一者，从而基于样本参考词语的误识别率、漏识别率中的至少一者，调整用于表示无参考词语的预设缩放系数，故此能够有利于使预设缩放系数根据在训练过程中的实际情况进行调整，从而能够有利于提高预设缩放系数的准确性。

请参阅图8，图8是本申请电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，存储器81中存储有程序指令，处理器82用于执行程序指令以实现上述任一实施例中的步骤。具体地，电子设备80包括但不限于：手机、笔记本电脑、平板电脑等等，在此不做限定。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

本公开实施例中，处理器82用于获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表；处理器82用于对原始音频进行初始识别，得到初始识别文本；处理器82用于从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表；处理器82用于利用第二参考列表，对原始音频进行最终识别，得到最终识别文本。

通过获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表，从而对原始音频进行初始识别，得到初始识别文本，并从第一参考列表中，筛选与初始识别文本满足第一预设条件的参考词语，得到第二参考列表，进而利用第二参考列表，对原始音频进行最终识别，得到最终识别文本，故此能够在语音识别过程中，对原始音频进行二次识别，并在初始识别之后，利用初始识别文本进一步缩减第一参考列表，从而能够排除与原始音频无关的参考词语对语音识别的干扰，有利于提高第二参考列表的精准性，进而在最终识别时，利用第二参考列表识别原始音频，有利于提高语音识别准确性。

在一些实施例中，处理器82用于获取初始识别文本中与参考词语匹配的对照词语；处理器82用于获取对照词语和匹配的参考词语之间的发音相似度；处理器82用于在发音相似度满足第一预设条件的情况下，将对应的参考词语添加至第二参考列表。

区别于前述实施例，通过获取初始识别文本与第一参考列表中的参考词语匹配的对照词语，并获取对照词语和参考词语之间的发音相似度，能够有利于从第一参考列表中筛选出与对照词语发音相似的参考词语，从而能够有利于排除发音与对照词语相似度不高的参考词语对后续最终识别的干扰，进而能够有利于提高后续最终识别的准确性。

在一些实施例中，处理器82用于将参考词语中的第一文字和与参考词语匹配的对照词语中的第二文字进行对齐处理；处理器82用于分别获取第一文字的特征表示和第二文字的特征表示；处理器82用于利用第一文字的特征表示和与第一文字对齐的第二文字的特征表示，获取对照词语和匹配的参考词语之间的发音相似度。

区别于前述实施例，通过将参考词语中的第一文字和与参考词语匹配的对照词语中的第二文字进行对齐处理，在此基础上，再利用第一文字的特征表示和与第一文字对齐的第二文字的特征表示，获取对照词语和匹配的参考词语之间的发音相似度，能够有利于提高发音相似度的准确性。

在一些实施例中，第一预设条件包括以下任一者：发音相似度大于预设相似度阈值，发音相似度按照由大到小排序后位于第一预设序位之前。

区别于前述实施例，通过将第一预设条件设置为具体包括发音相似度大于预设相似度阈值，能够有利于筛选到具有较高发音相似度的参考词语，而将第一预设条件设置为包括发音相似度按照由大到小排序后位于第一预设序位之前，能够有利于在第二参考列表不为空的前提下，确保筛选得到的参考词语整体上具有较高的发音相似度。

在一些实施例中，在第一预设条件为发音相似度大于预设相似度阈值的情况下，处理器82用于在不存在满足第一预设条件的发音相似度情况下，将第二参考列表设置为不包含任何参考词语的空列表。

区别于前述实施例，若不存在满足第一预设条件的发音相似度，即对照词语与参考词语之间的发音相似度均不大于预设相似度阈值，此时可以认为原始音频中较大可能不存在任何参考词语，故可以直接将第二参考列表设置为不包含任何参考词语的空列表，从而能够有利于排除参考词语对后续最终识别的干扰，有利于提高最终识别的准确性。

在一些实施例中，最终识别文本是经过若干次识别得到的，处理器82用于每次识别时获取第二参考列表中每一参考词语的重要度，并选择重要度满足第二预设条件的参考词语；处理器82用于利用选择的参考词语，对原始音频进行识别，得到本次识别对应的词语，并将若干次识别得到的词语的组合，作为最终识别文本。

在一些实施例中，处理器82用于对第二参考列表中的参考词语进行编码，得到对应参考词语的第一编码表示；处理器82用于基于第一注意力机制，利用第一编码表示，得到参考词语的第一注意力权重，作为对应参考词语的重要度，处理器82用于基于第二注意力机制，利用选择的参考词语的第一编码表示，得到选择的参考词语的第二注意力权重；处理器82用于利用选择的参考词语的第二注意力权重对对应参考词语的第一编码表示进行加权处理，得到选择的参考词语的第一上下文表示；处理器82用于利用第一上下文表示和原始音频的第二上下文表示进行解码，得到本次识别对应的词语；其中，第二上下文表示是利用原始音频的音频编码表示得到的。

区别于前述实施例，通过对第二参考列表中的参考词语进行编码，得到对应参考词语的第一编码表示，并基于第一注意力机制，利用第一编码表示，得到参考词语的第一注意力权重，作为对应参考词语的重要度，以及基于第二注意力机制，利用选择的参考词语的第一编码表示，得到选择的参考词语的第二注意力权重，从而利用选择的参考词语的第二注意力权重对对应参考词语的第一编码表示进行加权处理，得到选择的参考词语的第一上下文表示，进而利用第一上下文表示和原始音频的第二上下文表示进行解码，得到本次识别对应的词语，故此能够通过两次注意力机制来缩减参考列表，降低其他无关参考词语的干扰，有利于提高语音识别的准确性。

在一些实施例中，处理器82用于基于第一注意力机制，利用参考词语的第一编码表示和用于表示无参考词语的第二编码表示，得到参考词语和无参考词语的第一注意力权重，分别作为对应参考词语的重要度和无参考词语的重要度，处理器82用于在无参考词语的重要度满足第二预设条件的情况下，基于第二注意力机制，利用选择的参考词语的第一编码表示和无参考词语的第二编码表示，得到选择的参考词语和无参考词语的第三注意力权重；处理器82用于将选择的参考词语的第三注意力权重作为对应参考词语的第二注意力权重，并将无参考词语的第三注意力权重和预设缩放系数的乘积，作为无参考词语的第二注意力权重；处理器82用于利用选择的参考词语和无参考词语的第二注意力权重，分别对对应参考词语的第一编码表示和无参考词语的第二编码表示进行加权处理，得到第一上下文表示。

区别于前述实施例，能够在无参考词语的重要度也满足第二预设条件的情况下，在最终识别过程中，充分考虑无参考词语这一可能，并将无参考词语的第三注意力权重和预设缩放系数的乘积，作为无参考词语的第二注意力权重，从而能够有利于通过预设缩放系数进一步控制无参考词语的第二注意力权重的大小，进而能够有利于在后续解码过程中，降低对参考词语的误触发概率和漏触发概率，有利于提高最终识别的准确性。

在一些实施例中，对原始音频的识别是利用语音识别模型执行的，语音识别模型是利用训练样本训练得到的；其中，训练样本包括与语音识别场景相关的样本参考列表，样本参考列表中包含若干样本参考词语。

区别于前述实施例，利用语音识别模型对原始音频进行识别，能够有利于提高语音识别的效率，此外训练样本设置为包括与语音识别场景相关的样本参考列表，有利于提高训练过程和识别过程的匹配性，提高语音识别模型的准确性。

在一些实施例中，处理器82用于获取语音识别场景下采集到的样本音频；其中，样本音频标注有对应的样本文本；处理器82用于对样本文本进行分词分析，并选取样本文本中与语音识别场景相关的词语，作为样本参考列表中的样本参考词语；处理器82用于基于语音识别模型，利用样本音频和样本参考列表进行若干次识别，得到样本预测词语；处理器82用于基于若干次识别得到的样本预测词语对应的样本预测概率，调整语音识别模型的网络参数。

在一些实施例中，处理器82用于对样本文本进行分词处理，得到若干词语，并对若干词语进行词性分析，得到若干词语的词性；处理器82用于选取词性与语音识别场景相关的词语，作为样本参考词语。

区别于前述实施例，通过对样本文本进行分词处理，得到若干词语，并对若干词语进行词性分析，得到若干词语的词性，从而选取词性与语音识别场景相关的词语，作为样本参考词语，能够有利于提高样本参考词语与语音识别场景的关联度。

在一些实施例中，处理器82用于将样本参考列表中的样本参考词语进行增广处理，作为对应样本参考词语的反例参考词语，并添加至样本参考列表中；处理器82用于将上一次训练过程中，样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语，并添加至样本参考列表中。

区别于前述实施例，在本次训练时，将上一次训练过程中，语音识别模型识别得到的样本预测词语对应的样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语，能够有利于使语音识别模型在本次训练时提高对上次训练过程中满足第三预设条件的样本预测词语的抗干扰能力，据此迭代，能够有利于在多次训练过程中，逐渐提高语音识别模型的鲁棒性。

在一些实施例中，处理器82用于将样本参考列表中已有的反例参考词语剔除。

区别于前述实施例，通过将样本参考列表中已有的反例参考词语剔除，能够在多次训练过程中，逐渐提高语音识别模型的鲁棒性。

在一些实施例中，处理器82用于统计之前若干次训练过程中，样本参考词语的误识别率、漏识别率中的至少一者；处理器82用于基于样本参考词语的误识别率、漏识别率中的至少一者，调整用于表示无参考词语的预设缩放系数；其中，误识别率表示发生如下事件的统计概率：样本预测词语为样本参考词语，且样本预测词语对应于样本文本中的词语并非样本参考词语；漏识别率表示发生如下事件的统计概率：样本预测词语并非样本参考词语，且样本预测词语对应于样本文本中的词语为样本参考词语；预设缩放系数用于缩放无参考词语在识别过程中的重要度。

请参阅图9，图9是本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一实施例中的步骤。

上述方案，能够提高语音识别的准确性。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音识别场景下采集到的原始音频和与所述语音识别场景相关的第一参考列表；

对所述原始音频进行初始识别，得到初始识别文本；

从所述第一参考列表中，筛选与所述初始识别文本满足第一预设条件的参考词语，得到第二参考列表；

利用所述第二参考列表，对所述原始音频进行最终识别，得到最终识别文本。

2.根据权利要求1所述的方法，其特征在于，所述从所述第一参考列表中，筛选与所述初始识别文本满足第一预设条件的参考词语，得到第二参考列表，包括：

获取所述初始识别文本中与所述参考词语匹配的对照词语；

获取所述对照词语和匹配的参考词语之间的发音相似度；

在所述发音相似度满足所述第一预设条件的情况下，将对应的参考词语添加至所述第二参考列表。

3.根据权利要求2所述的方法，其特征在于，所述获取所述对照词语和匹配的参考词语之间的发音相似度，包括：

将所述参考词语中的第一文字和与所述参考词语匹配的对照词语中的第二文字进行对齐处理；

分别获取所述第一文字的特征表示和所述第二文字的特征表示；

利用所述第一文字的特征表示和与所述第一文字对齐的第二文字的特征表示，获取所述对照词语和匹配的参考词语之间的发音相似度。

4.根据权利要求2所述的方法，其特征在于，所述第一预设条件包括以下任一者：所述发音相似度大于预设相似度阈值，所述发音相似度按照由大到小排序后位于第一预设序位之前。

5.根据权利要求4所述的方法，其特征在于，在所述第一预设条件为所述发音相似度大于所述预设相似度阈值的情况下，所述方法还包括：

在不存在满足所述第一预设条件的发音相似度情况下，将所述第二参考列表设置为不包含任何参考词语的空列表。

6.根据权利要求1所述的方法，其特征在于，所述最终识别文本是经过若干次识别得到的；所述利用所述第二参考列表，对所述原始音频进行最终识别，得到最终识别文本，包括：

每次识别时获取所述第二参考列表中每一参考词语的重要度，并选择所述重要度满足第二预设条件的参考词语；

利用选择的参考词语，对所述原始音频进行识别，得到本次识别对应的词语，并将若干次识别得到的词语的组合，作为所述最终识别文本。

7.根据权利要求6所述的方法，其特征在于，所述获取所述第二参考列表中每一参考词语的重要度，包括：

对所述第二参考列表中的参考词语进行编码，得到对应所述参考词语的第一编码表示；

基于第一注意力机制，利用所述第一编码表示，得到所述参考词语的第一注意力权重，作为对应所述参考词语的重要度；

所述利用选择的参考词语，对所述原始音频进行识别，得到本次识别对应的词语，包括：

基于第二注意力机制，利用选择的参考词语的第一编码表示，得到选择的参考词语的第二注意力权重；

利用选择的参考词语的第二注意力权重对对应所述参考词语的第一编码表示进行加权处理，得到选择的参考词语的第一上下文表示；

利用所述第一上下文表示和所述原始音频的第二上下文表示进行解码，得到本次识别对应的词语；其中，所述第二上下文表示是利用所述原始音频的音频编码表示得到的。

8.根据权利要求7所述的方法，其特征在于，所述基于第一注意力机制，利用所述第一编码表示，得到所述参考词语的第一注意力权重，作为对应所述参考词语的重要度，包括：

基于所述第一注意力机制，利用所述参考词语的第一编码表示和用于表示无参考词语的第二编码表示，得到所述参考词语和所述无参考词语的第一注意力权重，分别作为对应所述参考词语的重要度和所述无参考词语的重要度；

所述基于第二注意力机制，利用选择的参考词语的第一编码表示，得到选择的参考词语的第二注意力权重，包括：

在所述无参考词语的重要度满足所述第二预设条件的情况下，基于所述第二注意力机制，利用选择的参考词语的第一编码表示和所述无参考词语的第二编码表示，得到选择的参考词语和所述无参考词语的第三注意力权重；

将选择的参考词语的第三注意力权重作为对应所述参考词语的第二注意力权重，并将所述无参考词语的第三注意力权重和预设缩放系数的乘积，作为所述无参考词语的第二注意力权重；

所述利用选择的参考词语的第二注意力权重对对应所述参考词语的第一编码表示进行加权处理，得到选择的参考词语的第一上下文表示，包括：

利用选择的参考词语和所述无参考词语的第二注意力权重，分别对对应所述参考词语的第一编码表示和所述无参考词语的第二编码表示进行加权处理，得到所述第一上下文表示。

9.根据权利要求1所述的方法，其特征在于，对所述原始音频的识别是利用语音识别模型执行的，所述语音识别模型是利用训练样本训练得到的；

其中，所述训练样本包括与所述语音识别场景相关的样本参考列表，所述样本参考列表中包含若干样本参考词语。

10.根据权利要求9所述的方法，其特征在于，训练所述语音识别模型的步骤包括：

获取所述语音识别场景下采集到的样本音频；其中，所述样本音频标注有对应的样本文本；

对所述样本文本进行分词分析，并选取所述样本文本中与所述语音识别场景相关的词语，作为所述样本参考列表中的样本参考词语；

基于所述语音识别模型，利用所述样本音频和所述样本参考列表进行若干次识别，得到样本预测词语；

基于所述若干次识别得到的样本预测词语对应的样本预测概率，调整所述语音识别模型的网络参数。

11.根据权利要求10所述的方法，其特征在于，所述对所述样本文本进行分词分析，并选取所述样本文本中与所述语音识别场景相关的词语，作为所述样本参考列表中的样本参考词语，包括：

对所述样本文本进行分词处理，得到若干词语，并对所述若干词语进行词性分析，得到所述若干词语的词性；

选取所述词性与所述语音识别场景相关的词语，作为所述样本参考词语。

12.根据权利要求10所述的方法，其特征在于，所述基于所述语音识别模型，利用所述样本音频和所述样本参考列表进行若干次识别，得到样本预测词语之前，所述方法还包括以下至少一者：

将所述样本参考列表中的样本参考词语进行增广处理，作为对应所述样本参考词语的反例参考词语，并添加至所述样本参考列表中；

将上一次训练过程中，所述样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语，并添加至所述样本参考列表中。

13.根据权利要求12所述的方法，其特征在于，在所述将上一次训练过程中，所述样本预测概率满足第三预设条件的样本预测词语，作为反例参考词语，并添加至所述样本参考列表之前，所述方法还包括：

将所述样本参考列表中已有的反例参考词语剔除。

14.根据权利要求10所述的方法，其特征在于，所述方法还包括：

统计之前若干次训练过程中，所述样本参考词语的误识别率、漏识别率中的至少一者；

基于样本参考词语的误识别率、漏识别率中的至少一者，调整用于表示无参考词语的预设缩放系数；

其中，所述误识别率表示发生如下事件的统计概率：所述样本预测词语为所述样本参考词语，且所述样本预测词语对应于所述样本文本中的词语并非所述样本参考词语；所述漏识别率表示发生如下事件的统计概率：所述样本预测词语并非所述样本参考词语，且所述样本预测词语对应于所述样本文本中的词语为所述样本参考词语；所述预设缩放系数用于缩放所述无参考词语在识别过程中的重要度。

15.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至14任一项所述的语音识别方法。

16.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至14任一项所述的语音识别方法。