CN115050371A

CN115050371A - 语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN115050371A
Application number: CN202210814534.2A
Authority: CN
Inventors: 马夺; 张智超
Original assignee: Shenzhen Pudu Technology Co Ltd
Current assignee: Shenzhen Pudu Technology Co Ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-09-13

Abstract

本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取目标领域的音频样本和对应所述音频样本的第一文本样本，以及未对应所述音频样本的目标领域的第二文本样本；基于所述第二文本样本对训练前的语音识别网络中的解码器进行训练；当所述语音识别网络的收敛程度达到第一收敛条件时，基于所述音频样本和所述第一文本样本对所述语音识别网络中的编码器和解码器进行训练，直至所述语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络；通过所述训练后的语音识别网络对待识别语音进行识别，得到识别文本。采用本方法能够提高语音识别的准确性。

Description

语音识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，语音识别技术得到广泛应用。语音识别技术是将人类语音中的内容转换为计算机可读的输入，从而实现人机交互。传统技术中，由于特定领域(例如，餐饮领域、旅游业领域)的待识别语音包含特殊的文法结构和专有名词，且语音中可能包含较大噪声，导致语音识别的准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别准确性的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音识别方法。所述方法包括：

获取目标领域的音频样本和对应所述音频样本的第一文本样本，以及未对应所述音频样本的目标领域的第二文本样本；

基于所述第二文本样本对训练前的语音识别网络中的解码器进行训练；

当所述语音识别网络的收敛程度达到第一收敛条件时，基于所述音频样本和所述第一文本样本对所述语音识别网络中的编码器和解码器进行训练，直至所述语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络；

通过所述训练后的语音识别网络对待识别语音进行识别，得到识别文本。

第二方面，本申请还提供了一种语音识别装置。所述装置包括：

获取模块，用于获取目标领域的音频样本和对应所述音频样本的第一文本样本，以及未对应所述音频样本的目标领域的第二文本样本；

训练模块，用于基于所述第二文本样本对训练前的语音识别网络中的解码器进行训练；

所述训练模块，还用于当所述语音识别网络的收敛程度达到第一收敛条件时，基于所述音频样本和所述第一文本样本对所述语音识别网络中的编码器和解码器进行训练，直至所述语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络；

识别模块，用于通过所述训练后的语音识别网络对待识别语音进行识别，得到识别文本。

在一个实施例中，所述训练模块，还用于：

将所述第二文本样本输入训练前的语音识别网络中的解码器，以通过所述解码器对所述第二文本样本进行处理，得到解码文本；

基于所述第二文本样本以及所述解码文本计算得到第一损失值；

根据所述第一损失值对所述解码器的网络参数进行调整。

在一个实施例中，所述训练模块，还用于：

在所述解码器的网络参数中，确定目标网络参数；所述目标网络参数为所述解码器中除交叉注意力层之外的其他网络参数；

根据所述第一损失值，对所述目标网络参数进行调整，并且在对所述目标网络参数进行调整的过程中使所述交叉注意力层的网络参数保持固定。

在一个实施例中，所述训练模块，还用于：

通过所述语音识别网络中编码器对所述音频样本进行编码，得到所述音频样本对应的字符序列；

通过所述语音识别网络中解码器对所述字符序列进行解码，得到预测文本；

根据所述字符序列、所述预测文本以及所述第一文本样本进行计算，得到第二损失值；

根据所述第二损失值对所述语音识别网络的网络参数进行调整。

在一个实施例中，所述训练模块，还用于：

打开所述语音识别网络中解码器的交叉注意力层；

根据所述第二损失值，对所述语音识别网络的网络参数进行调整；调整的网络参数包括所述语音识别网络中编码器的网络参数，以及打开所述交叉注意力层后的解码器的网络参数。

在一个实施例中，所述训练模块，还用于：

根据所述字符序列计算得到时序分类损失值；

基于所述预测文本以及所述第一文本样本进行计算，得到平滑交叉熵损失值；

基于所述预测文本计算得到文本交叉熵损失值；

对所述时序分类损失值、所述交叉熵损失值以及所述文本交叉熵损失值进行加权求和，得到第二损失值。

在一个实施例中，所述获取模块，还用于：

获取对所述目标领域的场景进行采集所得的音频样本；

对所述音频样本进行标注，得到所述音频样本对应的文本标签，并将所述文本标签作为对应所述音频样本的第一文本样本。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品，获取目标领域的音频样本和对应音频样本的第一文本样本，以及未对应音频样本的目标领域的第二文本样本。基于第二文本样本对训练前的语音识别网络中的解码器进行训练。从而可以在模型训练层面利用目标领域的文本内容，通过第二文本样本训练提高语音识别网络中解码器对目标领域的文法结构以及专有名词的理解能力。当语音识别网络的收敛程度达到第一收敛条件时，再对语音识别网络整体的语音识别能力进行训练。基于音频样本和第一文本样本对语音识别网络中的编码器和解码器进行训练，直至语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络。通过训练后的语音识别网络对待识别语音进行识别，得到识别文本。语音识别网络的训练过程包括目标领域文本理解训练与语音识别训练的双重训练过程，提高了训练后的语音识别网络对目标领域中待识别语音的识别能力，语音识别的准确率高。

附图说明

图1为一个实施例中语音识别方法的应用环境图；

图2为一个实施例中语音识别方法的流程示意图；

图3为一个实施例中调整解码器网络参数方法的流程示意图；

图4为一个实施例中调整语音识别网络的网络参数方法的流程示意图；

图5为另一个实施例中语音识别方法的流程示意图；

图6为一个实施例中语音识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音识别方法，可以应用于如图1所示的应用环境中。计算机设备102获取目标领域的音频样本和对应音频样本的第一文本样本，以及未对应音频样本的目标领域的第二文本样本；基于第二文本样本对训练前的语音识别网络中的解码器进行训练；当语音识别网络的收敛程度达到第一收敛条件时，基于音频样本和第一文本样本对语音识别网络中的编码器和解码器进行训练，直至语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络；通过训练后的语音识别网络对待识别语音进行识别，得到识别文本。其中，计算机设备102可以为终端或者服务器，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑或者机器人等。机器人可以是各种具有语音交互功能的机器人，包括送餐机器人、扫地机器人、服务机器人或者导航机器人等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音识别方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S202，获取目标领域的音频样本和对应音频样本的第一文本样本，以及未对应音频样本的目标领域的第二文本样本。

其中，目标领域可以为任意领域，例如餐饮领域、旅游业领域、医疗领域、娱乐领域或者购物领域等。目标领域的语言包含特定的文法结构与专有名词。例如，餐饮领域中语言包含特有的菜单名称、顾客与服务员进行对话的特定文法等。音频样本为对目标领域场景中的声音进行采集所得的音频形式样本。例如，音频样本为对餐饮领域场景中顾客与服务员的对话进行采集所得的样本；又例如，音频样本为在旅游业场景中，采集导游的讲解音频所得的样本；又例如，音频样本为医疗领域中，采集医生的诊断音频所得的样本。文本样本为包含目标领域中语言内容的文本形式样本，可以包括文字、单词、语句或者段落等。文本样本中包含目标领域中具有特定文法结构的语句以及专有名词，能够反映目标领域的语言特点。第一文本样本为对音频样本中内容进行标注所得的文本样本。第二文本样本为对目标领域中语言内容进行采集所得的样本。

在一个实施例中，S202具体包括：获取对目标领域的场景进行采集所得的音频样本；对音频样本进行标注，得到音频样本对应的文本标签，并将文本标签作为对应音频样本的第一文本样本。

在一个实施例中，计算机设备可以通过爬虫软件从网络中爬取文本，或者也可以从数据库中获取历史累积的文本，并将爬取的文本与从数据库中获取的文本作为第二文本样本。

S204，基于第二文本样本对训练前的语音识别网络中的解码器进行训练。

其中，语音识别网络为用于进行语音识别的深度学习网络，可以是卷积神经网络(CNN，Convolutional Neural Network)、递归神经网络(RNN，Recurrent NeuralNetwork)、长短时间记忆网络(LSTM，Long Short-Term Memory)或者Transformer网络等。解码器为语音识别网络中的子网络，用于对语音进行语义层面的理解。通过对训练前的语音识别网络中的解码器进行训练，提高解码器对目标领域的文法结构以及专有名词的理解能力。

S206，当语音识别网络的收敛程度达到第一收敛条件时，基于音频样本和第一文本样本对语音识别网络中的编码器和解码器进行训练，直至语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络。

其中，第一收敛条件为判断语音识别网络中解码器性能的条件。例如，第一收敛条件可以为解码器的损失值小于预设阈值；或者，第一收敛条件可以为对解码器的训练迭代次数大于预设次数；或者，第一收敛条件可以为两次训练迭代间损失值的差值小于预设差值。编码器为语音识别网络中的子网络，用于对输入的音频进行编码处理。第二收敛条件为判断语音识别网络性能的条件。例如，第二收敛条件可以为语音识别网络的损失值小于预设阈值；或者，第二收敛条件可以为对语音识别网络的训练迭代次数大于预设次数；或者，第二收敛条件可以为语音识别网络的识别准确率达到预设数值等。

其中，用于对语音识别网络中的编码器和解码器进行整体训练的语音样本与第一文本样本在内容上相互匹配，可以组成相互匹配的音频-文本对。基于音频样本和第一文本样本对语音识别网络中的编码器和解码器进行有监督训练，提高语音识别网络的语音识别能力。

S208，通过训练后的语音识别网络对待识别语音进行识别，得到识别文本。

其中，待识别语音为目标领域的语音。例如，当目标领域为餐饮领域时，待识别语音可以为在餐饮领域的场景中采集的语音。又例如，当目标领域为医疗领域时，待识别语音可以采集患者病情陈述时的语音。识别文本为包括待识别语音对应的文本内容的文本，与待识别语音在内容上相匹配。

在一个实施例中，S208之后还包括：计算机设备根据识别文本生成响应指令，根据响应指令对待识别语音进行响应。例如，待识别语音为餐饮领域的场景中顾客点餐的语音，计算机设备从识别文本中提取出顾客所点的菜单列表，并根据菜单列表生成下单的响应指令。

上述实施例中，获取目标领域的音频样本和对应音频样本的第一文本样本，以及未对应音频样本的目标领域的第二文本样本。基于第二文本样本对训练前的语音识别网络中的解码器进行训练。从而可以在模型训练层面利用目标领域的文本内容，通过文本样本训练提高语音识别网络中解码器对目标领域的文法结构以及专有名词的理解能力。当语音识别网络的收敛程度达到第一收敛条件时，再对语音识别网络整体的语音识别能力进行训练。基于音频样本和第一文本样本对语音识别网络中的编码器和解码器进行训练，直至语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络。通过训练后的语音识别网络对待识别语音进行识别，得到识别文本。语音识别网络的训练过程包括目标领域文本理解训练与语音识别训练的双重训练过程，提高了训练后的语音识别网络对目标领域中待识别语音的识别能力，语音识别的准确率高。

在一个实施例中，如图3所示，S204具体包括如下步骤：

S302，将第二文本样本输入训练前的语音识别网络中的解码器，以通过解码器对第二文本样本进行处理，得到解码文本。

其中，解码文本是解码器对第二文本样本进行解码所得的文本，是解码器基于对第二文本样本的语义理解所得的。解码器对目标领域的文法结构以及专有名词的语义理解能力越强，所得的解码文本越接近第二文本样本。

S304，基于第二文本样本以及解码文本计算得到第一损失值。

其中，第一损失值为用于判断解码器收敛程度的数值，可以通过损失函数计算得到。损失函数例如可以是交叉熵损失函数，计算所得的第一损失值可以为交叉熵损失值。

S306，根据第一损失值对解码器的网络参数进行调整。

计算机设备基于第二文本样本以及解码文本，在纯文本层面计算得到第一损失值，并根据第一损失值对解码器的网络参数进行调整，通过调整解码器的网络参数使计算所得的第一损失值趋于减小。

上述实施例中，通过解码器对第二文本样本进行处理，得到解码文本，并根据基于第二文本样本以及解码文本计算得到的第一损失值对解码器的网络参数进行调整，从而可以在模型训练层面利用目标领域的文本内容，通过第二文本样本训练提高语音识别网络中解码器对目标领域的文法结构以及专有名词的理解能力，进一步的，提高了训练后的语音识别网络的识别准确性。

在一个实施例中，S304具体包括：在解码器的网络参数中，确定目标网络参数；目标网络参数为解码器中除交叉注意力层之外的其他网络参数；根据第一损失值，对目标网络参数进行调整，并且在对目标网络参数进行调整的过程中使交叉注意力层的网络参数保持固定。

其中，交叉注意力(Cross-Attention)层为解码器中的网络层。计算机设备根据第一损失值对解码器中交叉注意力层之外的目标网络参数进行调整。也即将解码器中交叉注意力层的网络参数固定，对解码器进行训练，此时的解码器相当于语言模型，通过训练使第一损失值趋于下降，提高了训练后的解码器在判断编码器输出的字符序列是否符合句子的语法结构时的准确性，也即提高了解码器对目标领域上下文句法结构的语义理解能力。

上述实施例中，固定交叉注意力层的网络参数，根据第一损失值，对解码器中除交叉注意力层之外的目标网络参数进行调整，提高了训练后的解码器对目标领域上下文句法结构的语义理解能力，进一步的提高了识别网络语音识别的准确性。

在一个实施例中，如图4所示，S206具体包括如下步骤：

S402，通过语音识别网络中编码器对音频样本进行编码，得到音频样本对应的字符序列。

其中，字符序列是由音频样本对应的文本字符组成的序列，可以包括各种语言中字符、标点符号、数字符号或者特殊符号等。例如，音频样本对应的字符序列为{sym1，sym2，…，symn}。

在一个实施例中，S402之前还包括：对音频样本进行分帧处理，得到音频帧；对音频帧进行特征提取，得到音频帧特征；S402具体包括：通过语音识别网络中编码器，根据音频帧特征预测得到各音频帧对应的文本字符的概率；基于概率确定音频帧对应的文本字符，并由所确定的文本字符组成字符序列。

S404，通过语音识别网络中解码器对字符序列进行解码，得到预测文本。

针对一个音频样本，编码器可以编码得到多个字符序列，解码器根据上下文句法结构判断各字符序列是否符合句子语法，得到各字符序列符合句子语法的概率，然后根据概率从各字符序列中选取目标字符序列，得到预测文本。解码器可以选取概率最高的字符序列组成预测文本，或者解码器也可以选取概率大于预设阈值的字符序列组成预测文本。

S406，根据字符序列、预测文本以及第一文本样本进行计算，得到第二损失值。

其中，第二损失值可以包括语音识别网络在纯文本层面的语义理解能力的交叉熵损失值、用于强化编码器对齐的CTC(Connectionist temporal classification，连接时序分类)损失值以及表示语音识别网络整体语音识别能力的平滑交叉熵损失值。

在一个实施例中，S406具体包括：根据字符序列计算得到时序分类损失值(例如，CTC损失值)；基于预测文本以及文本样本进行计算，得到平滑交叉熵损失值；基于预测文本计算得到文本交叉熵损失值；对时序分类损失值、交叉熵损失值以及文本交叉熵损失值进行加权求和，得到第二损失值。

计算机设备对各损失值进行加权求和，使所得的第二损失值可以反映语音识别网络在编码器对齐层面、纯文本理解层面以及网络整体的语音识别层面的能力，并通过第二损失值对语音识别网络进行训练。

在一个实施例中，计算机设备可以在训练过程中，根据语音识别网络的识别结果对各损失值对应的权重进行调整。例如，当进行了N次迭代训练时，可以通过测试样本对训练所得的语音识别网络进行识别测试，如果根据识别结果确定语音识别网络对测试样本在纯文本层面的理解能力较差，可以提高文本交叉熵损失值的权重，并继续对语音识别网络进行训练。

S408，根据第二损失值对语音识别网络的网络参数进行调整。

计算机设备将各损失值的加权和确定为第二损失值，并根据第二损失值对语音识别网络进行训练，通过调整语音识别网络的网络参数使第二损失值趋于减小。

在一个实施例中，S408具体包括：打开语音识别网络中解码器的交叉注意力层；根据第二损失值，对语音识别网络的网络参数进行调整；调整的网络参数包括语音识别网络中编码器的网络参数，以及打开交叉注意力层后的解码器的网络参数。

在对语音识别网络的解码器在纯文本层面的语义理解能力进行训练后，根据第二损失值对语音识别网络整体的语音识别能力进行训练。首先打开语音识别网络中解码器的交叉注意力层，使语音识别网络中编码器与解码器的全部网络参数都可以学习更新。

上述实施例中，计算机设备根据时序分类损失值、交叉熵损失值以及文本交叉熵损失值的加权和对语音识别网络进行训练，提高了训练后的语音识别网络在编码器对齐层面、纯文本理解层面以及网络整体的语音识别层面的综合能力，提高了语音识别网络的识别准确性。

在一个实施例中，S208之前还包括：通过目标领域的文本样本训练得到语言模型；S208具体包括：通过语音识别网络的编码器对待识别语音进行编码，得到编码词序列；通过语音识别网络的解码器对编码词序列进行解码，得到各编码词序列符合句子语法的第一概率；通过语言模型对编码词序列进行处理，得到各编码词序列符合句子语法的第二概率；根据第一概率以及第二概率从编码词序列中选取目标词序列，得到识别文本。其中，语言模型例如可以是n-gram神经网络模型。

在一个实施例中，S208之前还包括：获取目标领域的热词图；S208具体包括：通过训练后的语音识别网络对待识别语音进行识别，得到第一识别文本；通过热词图对第一识别文本进行纠正，得到识别文本。

在一个实施例中，对目标领域的场景进行采集，得到音频样本。然后对音频样本进行标注，得到音频样本对应的第一文本样本。音频样本与第一文本样本组成音频文本对。获取目标领域的第二文本样本，将第二文本样本输入训练前的语音识别网络中的解码器，固定网络中交叉注意力层的网络参数，将解码器作为语言模型进行交叉熵训练，调整解码器中除交叉注意力层之外的其他网络参数，直到语音识别网络的收敛程度达到第一收敛条件。打开语音识别网络中交叉注意力层，对语音识别网络增加输入音频文本对进行训练。计算语音识别网络的文本交叉熵损失值、平滑交叉熵损失值以及时序分类损失值的加权和，并根据计算所得的加权和，对语音识别网络的全部网络参数进行调整，使编码器与解码器中的全部网络参数进行学习更新，直到语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络。用训练后的语音识别网络对目标领域的待识别语音进行识别，得到识别文本。

在一个实施例中，如图5所示，语音识别方法包括如下步骤：

S502，获取目标领域的音频样本和对应音频样本的第一文本样本，以及未对应音频样本的目标领域的第二文本样本。

S504，将第二文本样本输入训练前的语音识别网络中的解码器，以通过解码器对第二文本样本进行处理，得到解码文本。

S506，基于第二文本样本以及解码文本计算得到第一损失值。

S508，在解码器的网络参数中，确定目标网络参数；目标网络参数为解码器中除交叉注意力层之外的其他网络参数。

S510，根据第一损失值，对目标网络参数进行调整，并且在对目标网络参数进行调整的过程中使交叉注意力层的网络参数保持固定。

S512，当调整后的语音识别网络的收敛程度达到第一收敛条件时，通过语音识别网络中编码器对音频样本进行编码，得到音频样本对应的字符序列；通过语音识别网络中解码器对字符序列进行解码，得到预测文本。

S514，根据字符序列计算得到时序分类损失值；基于预测文本以及第一文本样本进行计算，得到平滑交叉熵损失值；基于预测文本计算得到文本交叉熵损失值。

S516，对时序分类损失值、交叉熵损失值以及文本交叉熵损失值进行加权求和，得到第二损失值。

S518，打开语音识别网络中解码器的交叉注意力层；根据第二损失值，对语音识别网络的全部网络参数进行调整，直至语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络。

S520，通过训练后的语音识别网络对待识别语音进行识别，得到识别文本。

上述S502至S520的具体内容可以参考上文的具体实现过程。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种语音识别装置，包括：获取模块602、训练模块604和识别模块606，其中：

获取模块602，用于获取目标领域的音频样本和对应音频样本的第一文本样本，以及未对应音频样本的目标领域的第二文本样本；

训练模块604，用于基于第二文本样本对训练前的语音识别网络中的解码器进行训练；

训练模块604，还用于当语音识别网络的收敛程度达到第一收敛条件时，基于音频样本和第一文本样本对语音识别网络中的编码器和解码器进行训练，直至语音识别网络的收敛程度达到第二收敛条件，得到训练后的语音识别网络；

识别模块606，用于通过训练后的语音识别网络对待识别语音进行识别，得到识别文本。

在一个实施例中，训练模块604，还用于：

将述第二文本样本输入训练前的语音识别网络中的解码器，以通过解码器对述第二文本样本进行处理，得到解码文本；

基于述第二文本样本以及解码文本计算得到第一损失值；

根据第一损失值对解码器的网络参数进行调整。

在一个实施例中，训练模块604，还用于：

在解码器的网络参数中，确定目标网络参数；目标网络参数为解码器中除交叉注意力层之外的其他网络参数；

根据第一损失值，对目标网络参数进行调整，并且在对目标网络参数进行调整的过程中使交叉注意力层的网络参数保持固定。

在一个实施例中，训练模块604，还用于：

通过语音识别网络中编码器对音频样本进行编码，得到音频样本对应的字符序列；

通过语音识别网络中解码器对字符序列进行解码，得到预测文本；

根据字符序列、预测文本以及第一文本样本进行计算，得到第二损失值；

根据第二损失值对语音识别网络的网络参数进行调整。

在一个实施例中，训练模块604，还用于：

打开语音识别网络中解码器的交叉注意力层；

根据第二损失值，对语音识别网络的网络参数进行调整；调整的网络参数包括语音识别网络中编码器的网络参数，以及打开交叉注意力层后的解码器的网络参数。

在一个实施例中，训练模块604，还用于：

根据字符序列计算得到时序分类损失值；

基于预测文本以及第一文本样本进行计算，得到平滑交叉熵损失值；

基于预测文本计算得到文本交叉熵损失值；

对时序分类损失值、交叉熵损失值以及文本交叉熵损失值进行加权求和，得到第二损失值。

在一个实施例中，获取模块602，还用于：

获取对目标领域的场景进行采集所得的音频样本；

对音频样本进行标注，得到音频样本对应的文本标签，并将所述文本标签作为对应所述音频样本的第一文本样本。

上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音识别方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7、8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二文本样本对训练前的语音识别网络中的解码器进行训练包括：

根据所述第一损失值对所述解码器的网络参数进行调整。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一损失值对所述解码器的网络参数进行调整包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述音频样本和所述第一文本样本对所述语音识别网络中的编码器和解码器进行训练包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二损失值对所述语音识别网络的网络参数进行调整包括：

打开所述语音识别网络中解码器的交叉注意力层；

6.根据权利要求4所述的方法，其特征在于，所述根据所述字符序列、所述预测文本以及所述第一文本样本进行计算，得到第二损失值包括：

根据所述字符序列计算得到时序分类损失值；

基于所述预测文本计算得到文本交叉熵损失值；

7.根据权利要求1所述的方法，其特征在于，所述获取目标领域的音频样本和对应所述音频样本的第一文本样本包括：

获取对所述目标领域的场景进行采集所得的音频样本；

8.一种语音识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。