CN116564330A

CN116564330A - 弱监督语音预训练方法、电子设备和存储介质

Info

Publication number: CN116564330A
Application number: CN202310590505.7A
Authority: CN
Inventors: 俞凯; 钱彦旻; 张王优
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-08

Abstract

本发明公开弱监督语音预训练方法、电子设备和存储介质，其中，一种弱监督语音预训练方法，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句，所述方法包括：在预训练过程中引入目标说话人的注册语音作为辅助的说话人身份信息；在所述主输入语句中随机混合干扰说话人语音，以所述主输入语句的离散标签作为训练目标，采用掩蔽语音预测作为训练准则训练所述预训练模型，其中，所述主输入语句与所述注册语音属于同一目标说话人。本申请实施例由于使用说话人注册语音，而不是使用说话人嵌入表示，可以避免预训练模型产生对特定说话人领域的偏置，避免对特定外部说话人模型的依赖，减少对预训练模型的泛化性和鲁棒性的影响。

Description

弱监督语音预训练方法、电子设备和存储介质

技术领域

本申请实施例涉及语音识别技术领域，特别是涉及一种弱监督语音预训练方法、电子设备和存储介质。

背景技术

近年来，基于自监督学习(Self-supervised learning，SSL)的预训练大大推动了语音处理的研究进展，在广泛的下游语音任务中显示出巨大的潜力。现有的SSL模型可以根据其预训练目标大致分为三类，即生成性、对比性和预测性方法。这些SSL模型通常以应用无关的方式在大量无标签数据上进行预训练，然后通过更新整个网络或只更新少量的参数在下游语音任务上进行微调。所学到的表征被发现可用于一系列的语音任务，如自动语音识别(Automatic Speech Recognition，ASR)、文本到语音(Text-to-Speech，TTS)、说话人验证(Speaker Verification，SV)、语音增强(Speech Enhancement，SE)等。

虽然现有的SSL模型在从单人话语中提取丰富的表征方面非常有效，但消除重叠语音的干扰的能力仍然有限。然而，在处理众所周知的鸡尾酒会问题时，这种能力尤其重要，在这个问题上，多个说话人在嘈杂的环境中同时说话。因此，很自然地要问，是否可以改进目前的语音预训练范式，将上述问题考虑进去。最近，有一些研究致力于这个方向。Chen等人提出通过与另一音频重叠来增强输入语音，迫使SSL模型同时学习掩蔽语音去噪和预测。Wang等人提出明确预测与输入重叠语音中所有语料相对应的多个标签，使SSL模型在学习去噪和分离的同时学习掩蔽语音预测。这些努力仍然属于自我监督的语音预训练框架，除了语音本身，没有其他信息被利用。

发明内容

本发明实施例提供了一种弱监督语音预训练方法、电子设备和存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供了一种弱监督语音预训练方法，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句，所述方法包括：在预训练过程中引入目标说话人的注册语音作为辅助的说话人身份信息；在所述主输入语句中随机混合干扰说话人语音，以所述主输入语句的离散标签作为训练目标，采用掩蔽语音预测作为训练准则训练所述预训练模型，其中，所述主输入语句与所述注册语音属于同一目标说话人。

第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项弱监督语音预训练方法。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项弱监督语音预训练方法。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项弱监督语音预训练方法。

本申请实施例的方案由于在预训练过程中显式考虑了对额外的说话人信息的利用，并且在训练过程中直接对多说话人混叠语音中的特定说话人信号进行分离与标签预测，因此更适用于鸡尾酒会问题相关的下游任务。进一步的，由于使用说话人注册语音，而不是使用说话人嵌入表示，可以避免预训练模型产生对特定说话人领域的偏置，避免对特定外部说话人模型的依赖，减少对预训练模型的泛化性和鲁棒性的影响。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种弱监督语音预训练方法的流程图；

图2为本发明一实施例提供的基于具有说话人标注的语音数据的弱监督语音预训练模型示意图；

图3为本发明一实施例提供的说话人感知话语混合策略：

图4为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明一实施例提供的一种弱监督语音预训练方法的流程图，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句。

如图1所示，在步骤101中，在预训练过程中引入目标说话人的注册语音作为辅助的说话人身份信息；

在步骤102中，在所述主输入语句中随机混合干扰说话人语音，以所述主输入语句的离散标签作为训练目标，采用掩蔽语音预测作为训练准则训练所述预训练模型，其中，所述主输入语句与所述注册语音属于同一目标说话人。

在本申请实施例中，通过在预训练过程中显式引入目标说话人的注册语音，可以利用说话人信息更好地应对后续的多说话人语音处理任务，在主输入语句中随机混合例如重叠率在0％-100％之间的干扰说话人语音，可以迫使模型利用额外提供的目标说话人注册语音信息来排除干扰。

在一些可选的实施例中，所述预训练模型包括底层的两个卷积神经网络编码器和顶层的Transformer编码器，其中，所述方法还包括：利用所述两个卷积神经网络编码器分别对所述注册语音和所述主输入语句进行编码，分别得到对应的注册语音特征序列和主语句特征序列；对所述主语句特征序列的部分帧向量进行掩蔽操作；将所述注册语音特征序列和进行掩蔽操作后的主语句特征序列在时间维度进行拼接得到拼接序列；将所述拼接序列输入至所述Transformer编码器进行建模；获取所述Transformer编码器输出的逐帧分类结果；对所述逐帧分类结果中对应于被掩蔽操作的帧的部分与所述主输入语句的离散标签进行逐一比较，计算基于交叉熵的损失函数，用于反向传播来更新所述预训练模型的模型参数。通过在大量仅带有说话人标注的语音数据上重复上述训练过程，可以得到具有建模目标说话人信息和抗干扰的语音预训练模型。

在一些可选的实施例中，将所述注册语音特征序列和进行掩蔽操作后的主语句特征序列在时间维度进行拼接得到拼接序列包括：分别对所述注册语音特征序列和所述进行掩蔽操作后的主语句特征序列进行额外的相对位置编码；对所述注册语音特征序列的相对位置编码施加注册语音偏置，对所述进行掩蔽操作后的主语句特征序列的相对位置编码施加主语句偏置，其中，所述注册语音偏置和所述主语句偏置是随着所述预训练模型一同训练的两个向量，在使用时与相应的特征序列进行逐帧相加，从而完成偏置的过程。从而通过额外的相对位置编码和分别施加的注册语音偏置和主语句偏置，可以增大两个特征序列之间的差别，使得Transformer编码器更好地区分两个不同的特征序列。

在一些可选的实施例中，所述两个卷积神经网络编码器为相同的编码器且所述两个卷积神经网络编码器的输入共享。从而可以减少在说话人信息的编码过程中引入可变性，使得预训练模型更加稳定。

在另一些可选的实施例中，所述两个卷积神经网络编码器为各自独立的卷积神经网络编码器。从而可以允许模型更自由地对两个输入进行不同维度的建模，从而得到更具有鉴别性的目标说话人信息。

在一些可选的实施例中，所述训练后的预训练模型用于目标语音识别任务，所述方法还包括：在所述预训练模型的基础上使用线性投影层，将特征映射到输出维度，并在端到端语音识别训练的过程中使用连接时序分类作为损失函数。从而预训练模型通过增加线性投影层的微调方式就可以用于目标语音识别任务，得到具有较好性能的目标说话人语音识别模型。

在另一些可选的实施例中，所述训练后的预训练模型用于目标语音识别任务，所述方法还包括：将轻量级的说话人适应层插入到所述预训练模型中进行联合微调，其中，所述说话人适应层将预先提取的说话人嵌入向量作为输入，以引导所述预训练模型中的中间表征走向目标说话人。

相关技术中，目前相似的语音预训练技术包括HuBERT(Hidden-Unit BERT)和WavLM。

HuBERT技术提出利用基于CNN编码器和Transformer编码器串联结构的大模型，对无标注的语音数据进行自监督预训练。训练准则为掩蔽语音预测，即对经过CNN编码器处理的语音特征序列进行部分掩蔽，然后通过Transformer编码器预测被掩蔽部分的语音特征所对应的离散标签。其中离散标签来自于一个外部声学单元发现系统，一般是通过对语音特征(如梅尔频率倒谱系数MFCC、Transformer编码器的某一层输出特征等)进行固定聚类数量的K-Means聚类得到的。通过在大量语音数据上进行这种自监督预训练，HuBERT模型能够学习到具有丰富声学及语义信息的表征，从而使得它仅需少量有标注数据即可在下游任务完成微调，并实现很好的性能。

WavLM技术是对HuBERT的改进，主要包括三点。其一，它在HuBERT所采用的模型结构中的Transformer编码器的注意力机制中引入了门控相对位置偏置，在只增加少量参数的情况下，提升模型的性能。其二，WavLM对预训练阶段的输入语音数据进行了数据增强，对于每个训练批次的每个样本，它采用了动态语句混合策略，即随机从当前批次的其他样本中选取一个语句作为干扰信号，按照一定信噪比叠加到当前样本上，并保证有混叠的部分不超过当前样本长度的50％，以此来使得模型具有更好的抗干扰能力。其三，WavLM将预训练数据量从最多60k小时拓展到了94k小时，并观察到数据量增加对最终性能带来的增益。

上述技术都属于自监督学习(SSL)的方法，在设计上天然缺少对额外信息的利用，然而实际采集到的预训练数据往往都具有部分数据标注，如相对说话人身份等。由于缺少对这些元信息的显式利用，这些技术在下游任务中进行微调时也难以利用好额外引入的相关信息，限制了在不同下游任务中的性能。另一方面，上述技术都没有在预训练阶段显式建模多说话人同时说话的场景，即鸡尾酒会问题。尽管WavLM对预训练数据进行了叠加干扰的数据增强，它本质上仍是对原有训练样本的加噪版本，并没有指导模型对输入信号中的不同语音进行分离。因此，这些技术在应用到多说话人语音处理的相关下游任务(如语音分离、目标说话人语音识别等)时，相对于不采用预训练模型的传统方法的性能提升往往很少。

由于上述技术在预训练过程中没有显式考虑多说话人语音处理任务以及利用额外的目标说话人信息，在下游任务中进行微调时也难以获得针对鸡尾酒会场景下的多说话人语音处理任务的较好性能。

为了缓解这些缺陷，本领域其他从业人员一般会在下游任务的微调阶段上引入目标说话人等额外信息，如通过在预训练模型中插入新的说话人自适应层来引入说话人信息，或者直接将预训练模型的参数固定住，将其当作特征提取器，而把目标说话人建模的任务集中在下游任务模型上。他们往往不会从预训练模型的角度针对目标说话人任务进行改进，因为相应的尝试成本可能较高，并且一般都会以现成的说话人表征作为说话人信息输入，不会直接对注册语音进行建模。

本申请实施例提出的弱监督语音预训练方法在预训练过程中显式引入目标说话人的注册语音作为辅助的说话人身份信息，利用Transformer编码器实现隐式的说话人信息利用；并在输入主语句中随机混合重叠率在0％-100％之间的干扰说话人语音，仍以主语句的离散标签作为训练目标，相比于WavLM大幅增加了预训练的难度，迫使模型利用额外提供的目标说话人注册语音信息来排除干扰。以上两个改动在预训练过程中显式考虑了对额外的说话人信息的利用，并且在训练过程中直接对多说话人混叠语音中的特定说话人信号进行分离与标签预测，因此更适用于鸡尾酒会问题相关的下游任务。

请参考图2，其示出了本申请一实施例的基于具有说话人标注的语音数据的弱监督语音预训练模型示意图。

图2展示了我们提出的基于具有说话人标注的语音数据的弱监督语音预训练模型的示意图，以下简称为TS-HuBERT。它的输入分为两部分，即主输入语句y和目标说话人注册语音e，其中主输入语句在预训练过程中会随机混合来自其他说话人的干扰语音，重叠比例在0％-100％之间，而目标说话人注册语音与主输入语句都来自相同的说话人，用于提供目标说话人辅助信息。我们提出的方法采用与WavLM模型类似的结构，即主要由底层的CNN编码器和顶层的Transformer编码器组成，并且以主输入语句对应的离散标签作为预训练目标，采用掩蔽语音预测作为训练准则。

在TS-HuBERT模型设计时，我们没有采用常见的说话人嵌入表示作为输入的说话人信息，而是直接让模型对原始注册语音进行建模，这是为了避免在预训练模型中引入对外部说话人嵌入表示模型的依赖，从而影响模型的泛化性能。

TS-HuBERT模型采用相同的CNN编码器对两个输入语音序列进行特征编码，得到两个特征序列：注册语音特征序列[X₁',X₂',…,X_L']和主语句特征序列[X₁,X₂,…,X_T]。发明人会对主语句特征序列的部分帧向量进行掩蔽操作，即将它们替换为零向量，从而增加预训练难度，使得模型学习的表征更具鲁棒性和泛化性。为了能让Transformer编码器区分这两个不同序列，从而专注于处理主语句的掩蔽语音预测任务，我们在将两个特征序列拼接并输入给Transformer编码器之前，会对两个序列各自进行额外的相对位置编码(通过卷积神经网络实现)，并分别施加相应的注册语音偏置和主语句偏置，进一步增大两个序列之间的差别。注册语音偏置和主语句偏置是随着模型一同训练的两个向量，在使用时与相应的特征序列进行逐帧相加，从而完成偏置的过程。最后，我们会将两个处理后的特征序列在时间维度拼接在一起，组成一个更长的序列，并输入给Transformer编码器进行建模。Transformer编码器最终的输出是对其输入序列的逐帧分类结果，其中我们认为最开始的若干帧对应于目标说话人注册语音的部分，不会进行使用，而剩余的预测结果则对应主输入语句，我们会对其中对应被掩蔽帧的部分与离散标签进行逐一比较，计算基于交叉熵的损失函数，用于反向传播来更新模型参数。

通过在大量仅带有说话人标注的语音数据上重复这一过程，我们便可以得到具有建模目标说话人信息和抗干扰的语音预训练模型。在下游的目标说话人语音识别任务中，我们直接将预训练好的TS-HuBERT模型顶部插入一个线性层进行CTC训练，以多人混合的主语句和目标说话人注册语音作为输入，即可得到具有较好性能的目标说话人语音识别模型。

发明人在实现本申请的过程中还尝试过一些备选方案。其中一个备选方案是将输入的目标说话人信息从注册语音替换为预先提取好的说话人嵌入表示，它通常只是一个向量，因此更加紧凑。在预训练过程中，我们可以将该向量用类似的方式拼接到主输入语句特征序列的前端，当作一种提示信息(prompt)，来指导模型排除主输入语句中的干扰说话人信息，专注于对应目标说话人的语音部分。

这种方案的优点是比目标说话人注册语音更加紧凑，长度固定(仅为1)，因此在用Transformer编码器进行建模时对显存/内存以及计算量的增加可以忽略不计。缺点是说话人嵌入表示需要依赖在特定语音数据上训练好的说话人模型来提取，如果使用它进行大规模预训练，很有可能导致预训练模型产生对特定说话人领域的偏置，即对特定外部说话人模型的依赖，从而影响预训练模型的泛化性和鲁棒性。

在设计本申请实施例的TS-HuBERT模型的过程中，发明人还考虑过将模型结构中由两个输入共享的CNN编码器改为两个独立的CNN编码器，分别处理两个输入。这种方式的优点是允许模型更自由地对两个输入进行不同维度的建模，从而得到更具鉴别性的目标说话人信息；但缺点是在说话人信息的编码过程中引入了更多可变性，由于在预训练过程中没有监督信号来显式约束对应说话人注册语音的特征信息，这种独立CNN编码器的设计可能会导致模型预训练过程的不稳定性，进而影响最终的性能。

在本申请实施例中，旨在探索一个新的语音预训练方向，即弱监督的语音预训练，它允许使用关于数据的额外信息(弱标签)来促进更好的语音预训练。虽然类似的想法已经在计算机视觉和自然语言处理中得到了探索，但它在语音处理领域还没有得到很好的较少被研究。本申请实施例的动机是，收集到的用于预训练的语音数据可能带有元信息的注释，如相对的说话人身份。虽然SSL方法在预训练期间通常会省略这些信息，但如果在预训练期间适当地利用这些信息，对相关的下游任务会有帮助。

本申请实施例所提出的TS-HuBERT方法不仅提供了一种针对鸡尾酒会多人同时说话场景的目标说话人语音预训练模型，能够有效提升预训练模型在目标说话人语音处理任务中的性能，也提供了一种新的弱监督语音预训练范式，不同于传统的自监督语音预训练，它强调对语音数据中存在的相对说话人标签等元信息的有效利用，相比传统预训练方法具有更大潜力，可能启发更多基于弱监督方法的语音预训练研究和应用。

因此，在本申请实施例中，首次尝试使用说话人注册语音进行弱监督的语音预训练。唯一的假设是，所有的语音样本可以被分为S组，每组对应一个不同的说话人。说话人的划分可以从聚类或数据注释中获得。基于这个假设，本申请实施例提出了一个新的语音预训练模型--目标说话人HuBERT，简称TS-HuBERT。它采用了与HuBERT中提出的相同的掩蔽语音预测目标，这是一个广泛使用的SSL模型。在预训练期间，主输入语音与来自不同说话人的语音随机混合，并提供来自同一主说话人的辅助语音样本，以指导对主说话人的语音建模。以这两种波形为输入，本申请实施例提议的预训练模型学习预测被掩盖的帧的离散目标，同时消除重叠语音中的干扰。此外，发明人还研究了所提出的TS-HuBERT模型在下游目标语音识别任务中的有效性，该任务旨在识别重叠语音中的目标说话人的语音。我们的实验表明，与具有去噪能力的最先进的SSL模型WavLM相比，拟议提出的模型取得了明显更好的ASR性能。

弱监督下的语音预训练：模型设计

图2展示了拟议提出的TS-HuBERT模型的概况。整个模型是建立在成熟的架构之上的，它由一个卷积神经网络(CNN)编码器和一个Transformer编码器组成。此外，门控相对位置偏置也被用于Transformer编码器层的自我注意机制中，以提高性能。本申请实施例提出的模型的输入包括一个用于掩蔽语音预测的主输入语句y用于掩蔽语音预测和一个包含目标说话人信息的辅助输入e。预训练数据的细节将在后续内容介绍。

现在，本申请实施例考虑将目标说话人的信息与上述骨干整合起来。其中，有两种类型的数据经常被用来提供这种信息，即来自目标说话人的注册音频和说话人嵌入向量。虽然后者可以直接提供一个紧凑而有效的目标说话人表示，但它使预训练模型与特定的外部说话人嵌入模型纠缠在一起。这不可避免地降低了语音预训练模型的通用性和灵活性。因此，发明人选择原始注册音频作为辅助输入，并依靠预训练模型隐含地提取目标说话人的信息。受基于时间维度串联的跨模式建模的成功启发，本申请实施例建议通过时间维度串联来融合这两个输入流。更具体地说，首先使用同一个CNN编码器来提取注册语音e和主输入语句y的特征：

其中，X和X′分别是主语句特征和注册语音特征。T和L是相应的特征帧的数量，D是特征维度。稍后，我们将沿着时间维度串联这两个特征，并利用Transformer编码器来学习它们之间的隐性关联。然而，两个数据流的简单串联使得在自注意力机制中难以区分它们。为了缓解这个问题，本申请实施例应用了两个独立的基于卷积的相对位置编码(rPE)层，将时间顺序信息注入到两个数据流。此外，通过在每个序列中添加一个可学习的偏向量来进一步扩大两个序列之间的差异：

X_in＝Conv_{rel_pos}(X)+B_main， (3)

X′_in＝Conv′_{rel_pos}(X′)+B_enroll, (4)

其中，和/>分别表示主语料的偏置向量和注册偏置向量。更新后的特征X_in和X′_in最后被串联起来，并被送入Transformer编码器，以预测与主语句相对应的帧级标签。对应于注册帧的输出标签通过切片被丢弃。

说话人已知到的掩蔽语音预测

在本部分内容中，将介绍所提出的预训练方法的训练目标，它遵循HuBERT模型中的设计。HuBERT中掩蔽语音预测目标的基本思想是基于被掩蔽的CNN编码器生成的部分特征帧，预测输入语音的逐帧离散标签。掩蔽预测损失(实际为交叉熵损失)只针对被掩蔽的帧计算，而标签是由输入语音的特征上的一个或多个迭代的Kmeans聚类产生的。

由于本申请实施例的主要目标是通过弱监督来提高语音预训练模型的干扰消除能力，发明人扩展了HuBERT中的原始目标以适应这一目标。给定一个主输入语句y和一个目标说话人的注册语音e，发明人只对公式(1)中得到的主输入语音特征X进行掩蔽，而对注册语音特征X′则保持不变。在预训练期间，也只计算主输入语句的交叉熵损失，其标签是事先准备好的，类似HuBERT训练过程。这是为了迫使模型在具有完整的注册的情况下专注于目标说话人的提取。此外，为了显式考虑鸡尾酒会问题，发明人将主输入语句y与另一个说话人的随机抽样语料混合在一起，以实现在线数据增强。详细过程在后续内容中描述。

在我们的实施中，掩蔽的长度固定为10帧，掩蔽的数量与主话语的长度成正比。掩蔽帧的最大比例是80％，由于选取的不同掩蔽之间可能存在重叠，最大掩蔽比例通常不会达到。被掩蔽的特征帧被简单地替换成零。

预训练数据的准备

本申请实施例提出了一种说话人感知的语料混合策略，以模拟在线混叠预训练数据。其核心算法见算法1。与WavLM相比，主要区别在于：(1)我们从整个数据库而不是当前的批次中抽取干扰语音。(2)我们将重叠率的范围设置为[0,100％]，而不是[0,50％]。(3)添加一个来自同一主讲人的额外注册语音e，以提供目标说话人的信息。

应用：目标语音识别

在本部分内容中，介绍了几种微调方法，将提出的TS-HuBERT模型应用于下游的目标语音识别任务。它的目的是在重叠的语音中识别目标说话人的语音，这是鸡尾酒会问题中的一个典型任务。一种直接的微调方法是在预训练模型的基础上使用线性投影层，将特征映射到输出维度(词表大小)。而连接时序分类(Connectionist TemporalClassification，CTC)损失被用于端到端训练。在微调过程中，整个预训练模型(除了CNN编码器)的参数将被更新以适应下游的任务。由于TS-HuBERT可以从注册语音中提取目标说话人的信息，它自然适合这种微调方法。

图3为本发明一实施例提供的说话人感知话语混合策略。

对于不能直接利用注册的SSL模型，可以使用另一种基于适应的微调方法，将轻量级的说话人适应层插入到预训练模型中进行联合微调。新插入的层将预先提取的说话人嵌入向量e_emb作为输入，以引导预训练模型的中间表征逼近目标说话人。在这里，发明人用TS-HuBERT评估了以下三个适应层：

1.相加：e_emb通过线性投影直接添加到CNN编码器输出X中，以匹配隐藏维度。

2.FiLM：e_emb被用来估计CNN输出X的特征线性调制(Feature-wise LinearModulation，FiLM)：

其中w(·)和b(·)是两个线性投影层。

3.cLN：e_emb用于估计第一个Transformer编码器层中的层归一化(LayerNormalizations，LNs)的FiLM变换，将其转换为条件LNs(conditional LNs，cLNs)：

其中γ和β分别是标准LN中的可学习比例和偏置参数。μ和σ分别是输入X的平均值和标准偏差。

发明人对所有的适应层应用近似相等初始化，这在初步实验中发现是至关重要的。

以下通过实验来验证本申请实施例相对于现有技术的有益效果。

实验设置

本申请实施例的实验是使用fairseq工具进行的。TS-HuBERT模型遵循与WavLM基础模型相同的结构，它通过在自注意力机制中采用门控相对位置偏置来增强HuBERT变换器编码器。由于篇幅有限，详细参数请参考WavLM论文。如前所述，本申请实施例在Transformer编码器之前还插入了两个基于卷积的rPE层和两个768维的可学习偏置向量。每个rPE层由一个16组卷积层组成，核大小为128，高斯误差线性单元(GELU)激活。这些新添加的层占了1千万个新的参数，因此总共有1.0437亿个参数。TS-HuBERT模型在960小时的Librispeech数据上预训练了一次迭代(400k步)，使用由HuBERT基础模型的第9个Transformer层输出的500类K-means聚类产生的标签。每个GPU的批量大小最多为312秒的音频。其他超参数与HuBERT基础模型中的参数相同。注册语音e被随机截断为48000个样本，以避免在预训练期间的大量内存消耗。

至于下游任务的微调，发明人在所有的实验中使用字符级的CTC损失。发明人在两个常用的数据集上评估了目标说话人语音识别的性能：带噪声的Libri2Mix和WSJ0-2mix。所有语音数据的采样率为16kHz。在带噪声的Libri2Mix中，训练、验证和评估集中分别有13900、3000和3000个样本。在WSJ0-2mix中，这三种数据集的样本数量分别为20000、5000和3000。在Libri2Mix和WSJ0-2mix的验证集和评估集中，发明人分别采用前人工作中提供的现有样本注册名单。对于训练集，发明人为每个样本在线随机选择同一个说话人的另一句语音作为注册语音，以增加多样性。用于微调的批次大小为每个GPU 125秒的音频。峰值学习率为2e-5，并在训练初期采用8000个预热步骤。在微调期间，发明人总是将预训练模型中的CNN编码器参数冻结。对于基于适应性的微调，发明人使用在VoxCeleb语料库上预训练好的ResNet-34模型提取256维的说话人嵌入向量。在评估过程中，发明人采用Viterbi算法进行解码，并计算词错误率(WER)作为衡量标准。除非特别提到，下述实验结果中均不使用语言模型。发明人在所有实验中使用了8个RTX 2080Ti GPU。

对标准语音识别的评估

在将本申请实施例提议的预训练模型应用于目标说话人语音识别之前，发明人首先评估所述模型在标准ASR任务中的性能。为此，发明人在Librispeech的三个不同子集上对TS-HuBERT模型进行了微调，并在test-clean和test-other子集上对其进行了评估。发明人基本采用前人工作HuBERT中的微调配置，并使用每个GPU 200s的批处理量。由于在标准ASR任务中没有注册语音，发明人去除了与注册语音相关的处理，只将主主输入语句特征送入Transformer编码器(表示为"无说话人嵌入向量")。发明人在表1中比较了三种语音预训练模型，所有模型都在960小时的Librispeech数据上进行了400k步的预训练。有趣的是，尽管本申请实施例提出的模型在预训练时总是有一个额外的注册输入，但与两个SSL模型相比，它仍然可以在没有注册语音的情况下进行微调并达到相当的性能。这揭示了本申请实施例拟议的TS-HuBERT模型在适应不同任务方面的潜力。

表1：在Librispeech测试集上对标准语音识别的语音预训练模型的WER(％)评估。请注意，所列模型均没有使用语言模型。

对目标语音识别的评估

接下来，评估语音预训练模型在目标语音识别任务上的表现。首先对WSJ0-2mix数据集进行了实验。结果显示在表2中。首先与WSJ0-2mix上的两种最先进的多说话人ASR方法进行比较，即联合训练的语音分离和ASR模型(表示为"DPRNN-ASR")，以及多说话人ASR单个模型(表示为"PIT-ASR")。对于基于SSL的方法，发明人与WavLM基础模型进行了比较，因为它是最先进的具有去噪能力的SSL模型，并且具有与本申请实施例相似的预训练设置。前述内容中描述的基于适应性的微调方法也被应用于WavLM基础模型，以实现目标语音识别。

从表2中，可以看到，直接对TS-HuBERT进行微调而不使用适应层，很容易取得非常有希望的结果(WER<7％)。基于适应性的微调方法在WavLM Base和TS-HuBERT中也都能很好地工作，增加微调步骤的数量可以稍微提高性能。预训练模型中的Transformer编码器通常在前10k个微调步骤中被冻结。在这里，发明人根据实验发现这个技巧对目标语音识别性能是有害的，因此在下述实验中禁用它。值得注意的是，本申请实施例提出的TS-HuBERT模型在WSJ0-2mix上获得了新的最先进的性能(WER＝6.1％)，这明显优于WavLM Base模型。

此外，发明人在带噪声的Libri2Mix数据集上评估了这些模型，由于存在噪声，该数据集的难度更大。由于篇幅有限，只介绍了基于适应性的微调方法的最佳结果。此外，发明人与ESPnet的多说话人ASR方法(表示为"PIT-ASR")进行了比较，并通过增加更多的训练数据(表示为"+train-360")和进一步应用速度扰动(SP)和Transformer语言模型(LM)来增强它。虽然基于预训练的模型只使用train-100子集进行训练，但它们比PIT-ASR方法获得了实质性的性能改进，即使后者使用了更多的训练数据("+train-360")。本申请实施例提出的TS-HuBERT再次超过了WavLM基础模型，相对词错误率降低了10％。然而，他们的性能仍然落后于双重增强的PIT-ASR方法("+速度扰动&语言模型")，这意味着在噪声情况下还有进一步改进的余地。

表2：在WSJ0-2mix测试集上对目标语音识别的不同语音预训练模型的评估。"参数量"表示可训练参数的数量。"前10k步冻结参数"表示是否在前10k步冻结预训练模型。"50k"和"100k"表示微调步骤。

表3：在带噪声的Libri2mix测试集上对目标语音识别的不同语音预训练模型的评估。"参数量"表示可训练参数的数量。"100k"和"250k"表示微调步骤。

在本申请实施例中，提出了一种新型的弱监督语音预训练模型--TS-HuBERT，它利用额外的注册信息来利用目标说话人的信息。通过在重叠语音数据上采用掩蔽语音预测目标进行预训练，TS-HuBERT可以有效利用注册语音信息来学习消除干扰人声。实验表明，TS-HuBERT在标准ASR和目标说话人语音识别任务中都能很好地工作。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的弱监督语音预训练方法，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

在预训练过程中引入目标说话人的注册语音作为辅助的说话人身份信息；

在所述主输入语句中随机混合干扰说话人语音，以所述主输入语句的离散标签作为训练目标，采用掩蔽语音预测作为训练准则训练所述预训练模型，其中，所述主输入语句与所述注册语音属于同一目标说话人。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音编辑装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音编辑装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项弱监督语音预训练方法。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器410以及存储器420，图4中以一个处理器410为例。弱监督语音预训练方法的设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例弱监督语音预训练方法。输入装置430可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于弱监督语音预训练装置中，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种弱监督语音预训练方法，用于预训练模型，其中，所述预训练模型的输入包括注册语音和主输入语句，所述方法包括：

2.根据权利要求1所述的方法，其中，所述预训练模型包括底层的两个卷积神经网络编码器和顶层的Transformer编码器，其中，所述方法还包括：

利用所述两个卷积神经网络编码器分别对所述注册语音和所述主输入语句进行编码，分别得到对应的注册语音特征序列和主语句特征序列；

对所述主语句特征序列的部分帧向量进行掩蔽操作；

将所述注册语音特征序列和进行掩蔽操作后的主语句特征序列在时间维度进行拼接得到拼接序列；

将所述拼接序列输入至所述Transformer编码器进行建模；

获取所述Transformer编码器输出的逐帧分类结果；

对所述逐帧分类结果中对应于被掩蔽操作的帧的部分与所述主输入语句的离散标签进行逐一比较，计算基于交叉熵的损失函数，用于反向传播来更新所述预训练模型的模型参数。

3.根据权利要求2所述的方法，其中，将所述注册语音特征序列和进行掩蔽操作后的主语句特征序列在时间维度进行拼接得到拼接序列包括：

分别对所述注册语音特征序列和所述进行掩蔽操作后的主语句特征序列进行额外的相对位置编码；

对所述注册语音特征序列的相对位置编码施加注册语音偏置，对所述进行掩蔽操作后的主语句特征序列的相对位置编码施加主语句偏置，其中，所述注册语音偏置和所述主语句偏置是随着所述预训练模型一同训练的两个向量，在使用时与相应的特征序列进行逐帧相加，从而完成偏置的过程。

4.根据权利要求2所述的方法，其中，所述两个卷积神经网络编码器为相同的编码器且所述两个卷积神经网络编码器的输入共享。

5.根据权利要求2所述的方法，其中，所述两个卷积神经网络编码器为相同的编码器且所述两个卷积神经网络编码器各自独立。

6.根据权利要求1-5中任一项所述的方法，其中，所述训练后的预训练模型用于目标语音识别任务，所述方法还包括：

在所述预训练模型的基础上使用线性投影层，将特征映射到输出维度，并在端到端语音识别训练的过程中使用连接时序分类作为损失函数。

7.根据权利要求1-5中任一项所述的方法，其中，所述训练后的预训练模型用于目标语音识别任务，所述方法还包括：

将轻量级的说话人适应层插入到所述预训练模型中进行联合微调，其中，所述说话人适应层将预先提取的说话人嵌入向量作为输入，以引导所述预训练模型中的中间表征走向目标说话人。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。