CN116631383A

CN116631383A - 基于自监督预训练和交互式融合网络的语音识别方法

Info

Publication number: CN116631383A
Application number: CN202310852643.8A
Authority: CN
Inventors: 谢涛; 曹静; 钱兆鹏; 于重重
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-08-22

Abstract

本发明公布了一种基于自监督预训练和交互式融合网络的语音识别方法，构建语音识别模型，将自监督预训练模型作为语音增强模块后的特征提取部分，将语音增强模块与自监督预训练方法进行有效组合并，缓解因语音增强所带来的语音失真；利用交互式特征融合方法将增强特征和原始音频特征进行融合，以弥补在语音增强过程中的信息缺失。采用本发明方法，能够使低资源语音识别结果更加准确，提高低资源在复杂环境下的识别精度。

Description

基于自监督预训练和交互式融合网络的语音识别方法

技术领域

本发明属于语音识别技术领域，具体涉及到一种基于自监督预训练和交互式融合网络的噪声鲁棒的低资源语音识别方法。

背景技术

语音识别是指将语音信号转换成文字。一个性能优秀的语音识别系统需要大量的语音数据才可以实现。但是对于许多语言而言，其只有很少的注释数据可用。由于没有充足的数据，系统的性能会变差。而且语音信号还会被真实环境中的噪音所破坏，该问题也会导致系统识别结果得准确率降低。所以如何在复杂环境下提高低资源语音识别的精度仍然是一个挑战。

语音增强技术旨在提高语音信号的质量和可懂度。传统的语音增强方法主要有谱减法、维纳滤波法等，这类方法通常需要特定的条件假设，在非平稳条件下的增强效果差，且难以适应多变的语音场景。近几年，基于深度学习的语音增强算法被广泛采用。有学者中提出采用双向长短期记忆结构(BiLSTM，Bi-Directional Long Short-Time Memory)进行噪声抑制。又有学者提出了门控残差网络(GRN，Gate Residual Network)，其引入残差连接和门控机制。但是在语音增强的过程中可能会导致部分重要信息和噪声一起被消除掉，导致识别精度降低。而且由于低资源语音的数据量较小，可能会导致模型过拟合或者欠拟合。所以现有工作提出了自监督预训练的方法，该方法可以有效解决因数量少而产生的过拟合或者欠拟合的问题。自监督架构可以分为两种：一种是生成学习，该方式是试图通过有限的数据生成或重构输入数据；另一种是对比学习，该方法通过使用对比学习让模型学习到更加高级的表示。但是自监督预训练的方法存在鲁棒性差，泛化能力不足的问题。

语音增强可以有效解决噪声的问题，自监督预训练的方法可以在小数据量下获得良好的识别结果，但是，现有技术难以将两种方法进行有效结合，难以处理在两种方法结合的过程中如何补充部分在语音增强的过程中伴随噪声一起被处理掉的重要信息的问题。

发明内容

为了克服上述现有技术的不足，本发明提出了一种基于自监督预训练和交互式融合网络的语音识别方法，构建语音识别模型，将自监督预训练模型作为语音增强模块后的特征提取部分，将语音增强模块与自监督预训练方法进行有效组合并可以缓解因语音增强所带来的语音失真的问题；利用交互式特征融合方法将增强特征和原始音频特征进行融合，以弥补在语音增强过程中信息缺失的问题。本发明方法利用基于对比学习的自监督预训练模型(即wav2vec 2.0)作为特征提取模块，使低资源语音识别结果更加准确，并进一步利用交互式特征融合模块再次提高低资源在复杂环境下的识别精度。本发明提供的技术方案是：

一种基于自监督预训练和交互式融合网络的语音识别方法，构建语音识别模型，可用于低资源语音的识别，具有噪声鲁棒的效果；本发明构建的语音识别模型包括语音增强模块、特征提取模块(将wav2vec 2.0模型作为语音识别模型中的特征提取模块)、交互式特征融合模块和语音识别模块；所述语音识别方法包括如下步骤：

1)将带噪声的原始语音波形经语音增强模块进行语音增强，得到增强波形；

2)将增强波形和原始语音波形分别经过特征提取模块进行特征提取，得到声学特征，分别为增强特征和原始特征；

3)将增强特征和原始特征通过交互式融合模块进行特征融合后作为语音识别模块的原始输入，输入到语音识别模块，输出语音识别结果；利用交互式特征融合模块对原始音频特征和语音增强特征进行融合，以减少因语音增强过程中因信息缺失所导致语音识别精度降低的问题。

本发明构建的语音识别模型中：

所述语音增强模块，用于进行语音增强，以提高语音信号的质量和可懂度；

所述wav2vec 2.0模块作为整体结构中的特征提取模块，用于提取语音信号中的特征表示；

所述交互式特征融合模块，用于弥补音频特征在语音增强过程中部分缺失的重要信息；

所述语音识别模块，用于得到待识别语音相对应的说话内容(即预测标签)。

具体实施时，所述语音增强模块包括依次连接的双向长短期记忆网络，dropout层和前馈层。

进一步地，本发明构建的语音识别模型将wav2vec 2.0模块作为整体架构中的特征提取模块，wav2vec 2.0模块包括特征提取模块，上下文表示模块和量化模块。其中特征提取模块是由7层卷积组成，卷积步长为(5,2,2,2,2,2,2)，卷积核宽度为(10,3,3,3,3,2,2)；上下文表示模块是由12层transformer模块构成，其中每层的transformer模块的模型维度为768，其内部维度为3072，并有12个注意力头。Wav2vec 2.0模块在训练的过程中的损失由对比损失L_m和多样性损失L_d两者共同组成，损失定义L为：

L＝L_m+αL_d

其中，α是控制多样性损失的超参数。

对比学习过程需要从音频特征中生成正确样本和错误样本，并计算两者之间的相似度。然后计算对比损失，在wav2vec 2.0模块中，使用对比损失函数来计算wav2vec 2.0模块的输出与正确的音频特征之间的差异。将对比损失定义为：

其中，sim(c_t,q_t)表示的是模型输出的音频特征和正确的音频特征之间的余弦相似度，k表示干扰项的个数。c_t为模型输出的音频特征；q_t为正确的音频特征；

模型为了有效的监督量化过程中的聚类过程，采用了多样性损失。多样性损失的目的是监督量化过程中不同音频样本之间的差异，从而使得模型更加鲁棒。多样性损失定义为：

其中，G表示的是音频特征编码的数量，V表示的是音频特征编码的种类数量，表示平均Gumbel softmax概率的熵，其中p_g,v指的是Gumbel softmax，Gumbel softmax是一种重参数化技巧，用于解决离散随机变量采样时梯度消失问题。Gumbel softmax的计算公式定义为：

其中，u是0到1之间的均匀采样；l_g,v是g中第v个特征向量的长度；τ是非负温度，其目的是为了避免模型在计算输出时出现梯度爆炸或消失现象。

其中，所述基于自监督预训练的特征提取模块用于分别提取增强音频和原始音频的特征；

其中，所述交互式特征融合模块(融合网络)由两条分支组成(增强音频分支和原始音频分支)，网络包括依次连接的上采样卷积，剩余注意力模块，交互模块，下采样卷积和合并模块；其中：

所述上采样卷积，用于对增强特征E和原始特征X进行特征提取；

所述剩余注意力模块用于捕捉音频特征中局部特征和全局特征，该模块是由残差块，时间自注意力块，频率自注意力块和卷积层组成。其中，每个残差块中含有二维卷积，用来提取深度局部特征X^Res。然后将通过残差块的深度局部特征X^Res分别送入到时间注意力模块和频率注意力模块中，获得沿时间维度的深度全局特征X^Temp和沿频率维度的深度全局特征X^Freq。其中，时间注意力和频率注意力机制类似，所以以下只列出关于频率注意力的公式，公式如下所示：

其中，为张量重塑后的特征；SA^f为频率注意力的值；Softmax为激活函数，其可以将一个数值向量归一化为一个概率分布向量；C是滤波器编号，T是帧编号，F是频率编号。Reshaoe^f是指从R^C×T×F到R^F×(C×T)的张量沿F维度进行张量重塑，Reshape^f_inv是Reshape^f的逆运算。最后将通过时间注意力机制和频率注意力机制分别得到的沿时间维度的深度全局特征X^Temp和沿频率维度的深度全局特征X^Freq与X^Res进行连接后送入到二维卷积层，获得该模块的最终输出X^RA。

其中，交互式特征融合网络的交互模块是为了让增强特征和原始音频特征进行交互学习，以学习到彼此之间的重要信息。增强特征和原始音频特征之间的交互(互补)学习是由两个方向构成，分别是增强特征学习原始音频特征中的信息(e2n)和原始音频特征学习增强特征中的信息(n2e)。这两个方向的计算过程是相似的。以n2e的流程为例，首先现将增强音频特征(E^RA)和原始音频特征(X^RA)进行拼接，并将其送入到二维卷积层中并得到生成掩码M_N，该生成掩码M_N的作用是判断X^RA的信息是被删除还是保留。然后将X^RA和M_N进行相乘操作，得到残差特征R_N2E。最后将R_N2E和E^RA进行连接，获得加强版本的原始音频特征X^IM。

其中交互式特征融合网络的下采样卷积是为了将得到的新增强特征E^IM和新原始特征X^IM进行下采样，使其与原始输入保持拥有相同的通道数；

其中交互式特征融合网络的合并模块进行的合并操作是将模型初始输入的原始音频特征X和增强特征E，与进行交互操作并进行下采样操作后得到的加强版本的增强特征E_in和原始音频特征X_in进行简单拼接后输入到合并模块，在经过合并模块中的二维卷积和时间注意力模块后得到一个可控制交互特征去留的掩码M。最后得到融合特征Z，表示如下：

Z＝E_in*M+X_in*(1-M)

其中，所述方法还包括语音识别模型的训练步骤；包括：

将融合特征Z输入语音识别模型，获取融合特征的编码输出，得到输入语音对应的预测标签。语音识别模型训练是通过采用频谱幅度均方误差的语音增强损失函数loss_se、连接时序分类损失函数loss_ctc和基于注意力的交叉熵损失函数loss_att联合训练的，联合损失函数公式为：

其中，α为语音增强损失函数的权重系数；β是连接时序分类损失函数的权重系数，设置为0.3；|x|带噪音频波形的谱幅度，为语音增强模块输出波形的谱幅度；y为语音识别模块输出的预测标签，/>为音频所对应的真实标签。训练的过程中采用Adam对模型的参数进行更新，反复迭代，直至训练得到处最优参数组合。

与现有技术相比，本发明的有益技术效果：

本发明针对在复杂环境下的低资源语音识别提出了一种基于自监督预训练和交互式特征融合的端到端语音识别模型，它能够有效弥补增强特征中部分缺失的重要特征。因为低资源语言的数据量十分有限，通过自监督预训练策略可以帮助模型在极少的数据下学习到更加健壮的音频特征。通过实验结果表明在复杂环境下可以有效提高模型的识别精度。

附图说明

图1是本发明提供的语音识别模型的网络结构图。

图2是本发明的语音增强模块的网络架构图。

图3是本发明的特征提取模块的网络结构图，即wav2vec 2.0网络架构图。

图4是本发明的交互式特征融合的内部模块网络结构图。

具体实施方法

下面结合附图，通过实施例对本发明作进一步说明，但不以任何方式限制本发明的范围。

被识别语音片段输入到模型中通过语音增强模块、wav2vec 2.0模块、交互式特征融合模块、语音识别模块的计算，可以得到该语音片段的文字内容。图2为本发明提供的一种基于自监督预训练和交互式融合网络的语音识别方法结构示意图。如图所示，本发明提出的语音识别方法有四个模块组成。该模型的数据处理过程具体包括：

1)数据预处理，将MUSAN噪声数据集加入到低资源数据集中得到带噪语料；

2)训练基于低资源的wav2vec 2.0的预训练模型作为特征提取模块；图3所示为特征提取模块的网络结构；

3)通过语音增强模块来提高带噪语音的清晰度；

4)通过wav2vec 2.0模块分别提取输入的增强音频和原始音频的特征；

5)通过交互式特征融合模块采用上采样卷积、剩余注意力机制、交互模块、下采样卷积和合并模块对增强特征和原始特征进行交互融合的计算，由此得到含有更多重要信息的新增强特征；

6)最后通过语音识别模块，获取融合特征的编码输出，得到输入语音对应的预测标签；

7)根据预测标签与真实标签进行语音识别部分的损失计算，并与语音增强部分的损失计算进行相加。其中语音增强损失与语音识别损失的占比为3:7。训练的过程中采用Adam对模型的参数进行更新，反复迭代，直至训练处最优参数组合；

8)根据最优参数模型，对待被测试的语音进行语音识别。其中，所述被测试的音频不属于训练集中所包含的音频。

根据本发明的实施例，上述如图1所示，本发明提出的基于自监督预训练和交互式融合网络的语音识别模型由语音增强模块、wav2vec 2.0模块、交互式特征融合模块和语音识别模块构成。

所述步骤2)中的wav2vec 2.0包含卷积特征编码器，上下文网络和量化块，如图4所示；所述步骤2)具体包括：

步骤2-1)所述卷积特征编码器有7层，卷积步长为(5,2,2,2,2,2,2)，卷积核宽度为(10,3,3,3,3,2,2)；将原始音频信号X通过卷积神经网络(CNN)进行编码得到潜在语音表示Z；

步骤2-2)将上述得到的潜在语音表示Z进行随机掩码后输入给上下文网络得到上下文特征表示用于下游任务。上下文网络由12层transformer构成，模型维度768，内部维度3072和12个注意力头；与此同时潜在语音表示Z会通过量化模块变成离散向量Q；

步骤2-3)在上下文特征表示和量化嵌入上计算对比损失，以便上下文网络可以在有干扰的情况下识别出准确的量化表示。模型训练的总损失可以表示为：

其中sim(c_t,q_t)表示的是上下文表示c_t,和量化潜在表示q_t之间的余弦相似度，k表示干扰项的个数，G表示的是音频特征编码的数量，V表示的是音频特征编码的种类数量。表示平均Gumbel softmax概率的熵，其中p_g,v是Gumbel softmax的计算公式，定义为：

所述步骤3)中的语音增强模块是由3层双向长短期记忆网络，dropout层和前馈层所构成。结构如图2所示，图中代表的乘积代表着乘积计算，具体操作包括：

步骤3-1)将带噪音频输入到模块中进行傅里叶变换得到X，即X＝R+iL，将从中提取到的谱幅度|X|作为增强网络的输入；

步骤3-2)将网络输出的预测掩码M与噪声输入X进行逐个相乘；

步骤3-3)进行傅里叶逆变换从相应特征转换成增强波形，即其中ISTFT为傅里叶逆变换，/>代表的乘积。所述步骤5)的内部结构如图4所示，具体操作包括：

步骤5-1)采用上采样卷积对增强特征E和原始音频特征X进行特征提取；

步骤5-2)利用剩余注意力模块学习特征中局部特征和全局特征，得到特征X^RA；

步骤5-3)让通过步骤5-2)得到的增强特征E^RA和原始特征X^RA进行交互学习，以学习到对方中的重要信息，并得到新的增强特征E^IM和原始特征X^IM；

步骤5-4)将步骤5-3)中得到的新增强特征E^IM和原始特征X^IM进行下采样，使其与原始输入保持拥有相同的通道数；

步骤5-5)将步骤5-4)通过下采样操作后的新的增强E_in和原始特征X_in进行合并,得到新的增强特征Z。

其中，所述步骤5-2)中的剩余注意力模块是由残差块，时间自注意力块，频率自注意力块和卷积层组成。其中每个残差块中含有二维卷积用来提取深度局部特征X^Res。然后会将通过残差块的特征X^Res分别送入到时间注意力模块和频率注意力模块中，已获得关于时间和频率的全局依赖性。其中时间注意力和频率注意力机制类似，所以将只列出关于频率注意力的公式，公式如下所示：

X^Freq＝X^Res+Reshape^f_inv(SA^f)

其中，为张量重塑后的特征；SA^f为频率注意力的值；Sofmtax为激活函数，其可以将一个数值向量归一化为一个概率分布向量；C是滤波器编号，T是帧编号，F是频率编号。Reshape^f是指从R^C×T×F到R^F×(C×T)的张量沿F维度进行张量重塑，Reshape^f_inv是Reshape^f的逆运算。最后将通过时间注意力机制和频率注意力机制生成的深度全局特征X^Temp和X^Freq与X^Res进行连接后送入到二维卷积层，获得剩余注意力模块的最终输出X^RA。

其中，所述步骤5-3)中的交互模块是为了让增强特征和原始音频特征进行交互学习，已学习到彼此之间的重要信息。增强特征和原始音频特征之间的互补学习是由两个方向构成，分别是增强特征学习原始音频特征中的信息(e2n)和原始音频特征学习增强特征中的信息(n2e)。这两个方向的计算过程是相似的。以n2e的流程为例，首先现将增强(E^RA)和原始音频特征(X^RA)进行拼接，并将其送入到二维卷积层中。然后在通过生成掩码M_N判断X^RA的信息是被删除还是保留。接着合成X^RA和M_N得到残差特征R_N2E。最后将R_N2E和E^RA进行连接，获得加强版本的增强特征E^IM。

其中所述步骤5-5)中的合并模块是将模型初始输入X和E和与进行交互操作后进行下采样操作得到的加强版本的增强特征E_in和原始音频特征X_in进行简单拼接后输入到合并模块，在经过二维卷积和时间注意力模块后得到一个可控制交互特征去留的掩码M。最后的融合特征Z表示如下：

Z＝E_in*M+X_in*(1-M)

所述步骤6)具体为将上述得到的融合特征Z输入到语音识别模块中，语音识别模块为编码-解码结构，输出预测标签。编码端由12层conformer组成，每一层conformer分别由自注意层和前馈神经网络层组成；解码端由6层transformer层组成，每一层均由自注意层和前馈神经网络层组成；所述步骤7具体包括：

步骤7-1)模型训练是通过采用频谱幅度均方误差的语音增强损失函数loss_se、连接时序分类损失函数loss_ctc和基于注意力的交叉熵损失函数loss_att联合训练的，联合损失函数公式为：

其中，α为语音增强损失函数的权重系数，设置为0.3；β是连接时序分类损失函数的权重系数，设置为0.3；|X|为步骤3-1)中对带噪音频进行计算得到的谱幅度，为语音增强模块输出/>的谱幅度；y为语音识别模块输出的预测标签，/>为音频所对应的真实标签。

步骤7-2)采用步骤7-1)得到的参数作为本次迭代的权重值；从剩余的语音中随机选取一组语音，经步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1)，得到新的参数组合；反复迭代，每次迭代的学习率为2e-3。模型训练时使用Adam优化器,迭代训练到模型收敛或达到预设的训练步数。

本发明以下具体实施证明了本发明的有效性。

首先，本发明使用的原始语料是土家语和水语两种低资源语言，其中土家语包括300个核心词口语语料、2000个主要词的口语语料和27篇口语短语语料，总时长共计7小时8分59秒；水语中包含2474个句子，7514个词汇以及1171个例字，总时长共计8小时40分23秒。噪声数据集是MUSAN数据集，该数据包含3个类别的噪声：1)音乐数据，包括爵士、说唱等多种类型的数据；2)噪声数据，包括汽笛声、雷声等噪声；3)说话人声音，包括听证会、辩论等录音。带噪语料通过将原始语料音频与MUSAN数据集中的任一噪声进行混合得到。然后利用wav2vec 2.0模型在原始语料和带噪语料上进行无监督预训练，训练好的wav2vec2.0作为整体架构中的特征提取器。

最后将原始语料和带噪语料对模型整体进行训练，在训练的过程中通过交互式特征融合网络弥补在语音增强过程中缺失的部分重要信息。采用多任务的联合训练对模型进行微调，这其中包括语音增强和语音识别两种损失。

将本发明(表中的Iff-wav2vec)提出的针对低资源在复杂环境下的语音识别方法与级联SE模块和Conformer模块的端到端语音识别系统，通过交互式融合增强语音和噪声语音的IFF-NET模型，以及基于对比学习的wav2vec 2.0模型这三种方法进行对比，评价指标选择字符错误率(Character Error Rate，CER)。CER是衡量语音识别效果的一个重要指标，其通过计算两个序列之间的编辑距离，数值越低，识别效果越好。本发明评测了在不同噪声环境下的ASR性能，该性能是通过让原始的测试集与不同信噪比(SNR)多类型噪声音频片段进行混合，然后对模型进行评估。评估结果如表1和表2所示：

表1不同SNR下的所有模型的性能比较

表2不同噪声环境下各种模型的性能比较

从表1和表2实验结果中发现，对于IFF-NET网络引入交互式特征融合架构将增强语音和原始语料进行融合可以有效提高模型的识别性能。对于wav2vec 2.0模型能够在带噪数据集上极大的提高识别精度，提升了在不同噪声环境下的模型的噪声鲁棒性。本发明提出的方法将IFF-NET和wav2vec 2.0进行了有效拼接，在上述两种方法的基础上识别精度再次有所提升。表明本发明提出的方法可以有效解决噪声对模型的影响，具有更好的识别效果。

本发明提出一种结合自监督学习和交互式特征融合的噪声鲁棒低资源语音识别模型。旨在通过自监督预训练方法获得更加稳健的特征表示，再通过交互式特征融合模块弥补语音增强过程中缺失的部分重要信息。本发明能够有效提高各种噪声设置下的低资源ASR性能，从而产生更强的噪声鲁棒性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于自监督预训练和交互式融合网络的语音识别方法，其特征是，包括如下步骤：

1)预先构建语音识别模型；

所述的语音识别模型包括语音增强模块、特征提取模块、交互式特征融合模块和语音识别模块；其中，

1a)所述语音增强模块用于提高语音信号的质量和可懂度；

语音增强模块包括依次连接的双向长短期记忆网络，dropout层和前馈层；

1b)所述特征提取模块用于提取语音信号中的特征表示；

特征提取模块采用wav2vec 2.0模块；wav2vec 2.0模块包含特征提取模块，上下文表示模块和量化模块；

特征提取模块训练过程中的损失包括对比损失L_m和多样性损失L_d；

1c)所述交互式特征融合模块用于弥补音频特征在语音增强过程中部分缺失的信息；

交互式特征融合模块由两条分支组成，分别为增强音频分支和原始音频分支；交互式特征融合模块包括依次连接的上采样卷积，剩余注意力模块，交互模块，下采样卷积和合并模块；其中：

所述上采样卷积，用于对增强特征和原始特征进行特征提取；

所述剩余注意力模块用于捕捉音频特征中局部特征和全局特征，该模块由残差块，时间自注意力块，频率自注意力块和卷积层组成；其中，每个残差块中含有二维卷积，用来提取深度局部特征X^Res；然后将通过残差块的深度局部特征X^Res分别送入到时间注意力模块和频率注意力模块中，获得沿时间维度的深度全局特征X^Temp和沿频率维度的深度全局特征X^Freq；最后将关于时间和频率的全局特征与X^Res进行连接后送入到二维卷积层，获得最终输出X^RA；

交互模块用于增强特征和原始音频特征进行交互学习，包括：增强特征学习原始音频特征中的信息e2n和原始音频特征学习增强特征中的信息n2e；分别获得加强版本的增强特征即新增强特征和加强版本的原始音频特征即新原始特征；

下采样卷积用于将得到的新增强特征和新原始特征进行下采样，使其与原始输入保持拥有相同的通道数；

合并模块用于进行合并操作，将模型初始输入的原始音频特征和增强特征，与进行交互操作并进行下采样操作后得到的增强特征和原始音频特征进行简单拼接后，输入到合并模块，在经过合并模块中的二维卷积和时间注意力模块后，得到可控制交互特征去留的掩码M；最后得到融合特征Z；

1d)所述语音识别模块用于得到待识别语音相对应的说话内容即预测标签；

对语音识别模块进行训练，具体是将融合特征Z输入语音识别模块，获取融合特征的编码输出，得到输入语音对应的预测标签；

2)将带噪声的原始语音波形经语音增强模块进行语音增强，得到增强波形；

3)将增强波形和原始语音波形分别经特征提取模块得到声学特征，分别为增强特征和原始特征；

4)将增强特征和原始特征经交互式特征融合模块进行融合后，输入语音识别模块，输出语音识别结果；

5)根据预测标签与语音对应的真实标签进行语音识别损失的计算，并与计算得到的语音增强损失进行加权相加；训练过程中对模型的参数进行更新，反复迭代，直至训练得到最优参数组合；即得到训练好的语音识别模型；

6)利用训练好的语音识别模型，实现基于自监督预训练和交互式融合网络的语音识别。

2.如权利要求1所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，特征提取模块采用wav2vec 2.0模块。

3.如权利要求1所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，训练过程中的总损失L定义为：

L＝L_m+αL_d

其中，L_m为对比损失；L_d为多样性损失；α是控制多样性损失的超参数；

将对比损失定义为：

其中，sim(a,b)表示上下文表示和量化潜在表示之间的余弦相似度；k表示干扰项的个数；

多样性损失用于最大化每个码本组的满本条目的平均softmax概率的熵；多样性损失表示为：

其中，G表示音频特征编码的数量，V表示音频特征编码的种类数量；p_g,v表示为：

其中，u是0到1之间的均匀采样；l_g,v是g中第v个特征向量的长度；τ是非负温度。

4.如权利要求3所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，特征提取模块具体是包含7层卷积，卷积步长为(5,2,2,2,2,2,2)，卷积核宽度为(10,3,3,3,3,2,2)；12层transformer模块，模型维度768，内部维度3072和12个注意力头。

5.如权利要求4所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，频率注意力表示为：

X^Freq＝X^Res+Reshape^f_inv(SA^f)

其中，C是滤波器编号，T是帧编号，F是频率编号；Reshape^f表示从R^C×T×F到R^F×(C×T)的张量沿F维度进行张量重塑；Reshape^f_inv是逆运算。

6.如权利要求5所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，交互模块中，噪声到增强方向的计算过程具体是：

首先将增强特征和原始音频特征进行拼接，并将其送入到二维卷积层中；

然后通过生成掩码判断原始音频特征的信息是被删除还是保留；

接着合成原始音频特征和生成掩码，得到残差特征；

最后将残差特征和增强音频特征进行连接，获得加强版本的增强特征。

7.如权利要求6所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，融合特征Z表示如下：

Z＝E_in*M+X_in*(1-M)

其中，具体是将模型初始输入的原始音频特征X和增强特征E，与进行交互操作并进行下采样操作后得到的加强版本的增强特征E_in和原始音频特征X_in进行简单拼接后输入到合并模块，在经过合并模块中的二维卷积和时间注意力模块后得到一个可控制交互特征去留的掩码M，最后得到融合特征Z。

8.如权利要求7所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，训练语音识别模型具体是通过采用频谱幅度均方误差的语音增强损失函数、连接时序分类损失函数和基于注意力的交叉熵损失函数进行联合训练，得到训练好的模型。

9.如权利要求8所述基于自监督预训练和交互式融合网络的语音识别方法，其特征是，语音识别模型的训练中，语音增强损失与语音识别损失在训练过程中的比例为3:7；训练的过程中具体是采用Adam对模型的参数进行更新迭代，得到最优参数组合。