CN115662441A

CN115662441A - 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Info

Publication number: CN115662441A
Application number: CN202211701458.0A
Authority: CN
Inventors: 郑榕; 孟凡芹
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-01-31
Anticipated expiration: 2042-12-29
Also published as: CN115662441B

Abstract

本申请提供了一种基于自监督学习的语音鉴伪方法、装置及存储介质，语音鉴伪方法包括：将待鉴伪语音输入至语音鉴伪模型的波形增强网络层之中，对待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；将波形增强后的待鉴伪语音输入至语音鉴伪模型的自监督学习前端网络层之中，确定出波形增强后的待鉴伪语音的每一语音片段的语音特征向量；将该语音片段的多个语音特征向量输入至语音鉴伪模型的自监督学习处理网络层之中，确定出该语音片段的目标特征向量；将多个目标特征向量输入至语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出待鉴伪语音是否为虚假语音。实现了为鉴伪网络层提供了有效语音表征信息，从而提高了语音鉴伪的准确率。

Description

一种基于自监督学习的语音鉴伪方法、装置及存储介质

技术领域

本申请涉及语音检测技术领域，尤其是涉及一种基于自监督学习的语音鉴伪方法、装置及存储介质。

背景技术

深度学习从大量数据中自动学习的能力使其在各种领域广泛应用，但是传统的监督学习模型极度依赖于大量的有标签数据。所以自监督学习的到了广泛关注，因为它可以从数据自己本身中寻找伪标签来监督模型的训练。监督学习不仅需要大量的标注数据，它还面临着下面的各种问题，包括模型的泛化性能问题、监督训练数据相关性不高、对抗攻击等。当面对语音鉴伪的复杂多样的实际应用环境时会导致语音鉴伪的准确率低。所以，如何提高语音鉴伪的准确率成为了不容小觑的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于自监督学习的语音鉴伪方法、装置及存储介质，通过对鉴伪语音的波形进行增强处理以及对自监督学习前端网络层之中各层变形器编码单元的语音特征向量进行叠加处理，得到叠加后的语音特征向量，为鉴伪网络层提供了有效语音表征信息，从而提高了语音鉴伪的准确率。

本申请实施例提供了一种基于自监督学习的语音鉴伪方法，所述语音鉴伪方法包括：

获取待鉴伪语音；

将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；

将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量；

针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量；

将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。

在一种可能的实施方式中，所述将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音，包括：

对所述待鉴伪语音进行语音格式的转换，确定出所述波形增强后的待鉴伪语音；或者，

基于高档码率、中档码率以及低档码率中的任意一种码率对所述待鉴伪语音进行波形增强处理，确定出所述波形增强后的待鉴伪语音；或者，

基于宽带编码译码器或窄带编码译码器对所述待鉴伪语音进行波形增强处理，确定出所述波形增强后的待鉴伪语音。

在一种可能的实施方式中，所述自监督学习前端网络层还包括多层卷积编码单元，所述将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量，包括：

对所述波形增强后的待鉴伪语音进行语音分段处理，确定出多个所述语音片段；

将每个所述语音片段输入至第一层所述卷积编码单元之中，对每个所述语音片段进行卷积处理，确定出每个所述语音片段对应的第一语音特征向量；

将每个所述第一语音特征向量输入至第二层所述卷积编码单元之中，直至所述卷积编码单元为最后一层所述卷积编码单元时，确定出每个所述语音片段对应的第二语音特征向量；

将每个所述语音片段对应的第二语音特征向量输入至第一层所述变形器编码单元之中，对每个所述第二语音特征向量进行注意力计算，确定出每个所述语音片段的第三语音特征向量；

将每个所述第三语音特征向量输入至第二层所述变形器编码单元之中，直至所述变形器编码单元为最后一层所述变形器编码单元时，抽取出各个所述变形器编码单元相对应语音片段的多个语音特征向量。

在一种可能的实施方式中，所述对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，包括：

将多个所述语音特征向量输入至所述自监督学习处理网络层的多层抽取叠加单元之中，将每个所述语音特征向量与相对应的变形器编码单元的权重进行相乘，确定出多个第四语音特征向量；

将多个所述第四语音特征向量进行加和，确定出所述叠加后的语音特征向量。

在一种可能的实施方式中，所述对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量，包括：

将所述叠加后的语音特征向量输入至所述自监督学习处理网络层的表征向量降维单元，对所述叠加后的语音特征向量进行降维处理，确定出降维语音特征向量；

将所述降维语音特征向量输入至所述自监督学习处理网络层的时间循环神经单元，对所述降维语音特征向量进行声音特征提取，确定出声音特征向量；

将所述声音特征向量输入至所述自监督学习处理网络层的池化聚合单元之中，对所述声音特征向量进行池化处理，确定出池化后的声音特征向量；

将所述池化后的声音特征向量输入至所述自监督学习处理网络层的全连接单元，对所述池化后的声音特征向量进行维度转换，确定出与预设维度相符合的语音片段的所述目标特征向量。

在一种可能的实施方式中，将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音，包括：

对多个所述目标特征向量进行鉴伪处理，确定出鉴伪分数；

检测所述鉴伪分数是否大于预设鉴伪分数阈值；

若是，则确定出所述待鉴伪语音为虚假语音。

本申请实施例还提供了一种基于自监督学习的语音鉴伪装置，所述语音鉴伪装置包括：

获取模块，用于获取待鉴伪语音；

波形增强模块，用于将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；

前端学习模块，用于将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量；

处理模块，用于针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量；

确定模块，用于将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。

在一种可能的实施方式中，所述波形增强模块在用于所述将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音时，所述波形增强模块具体用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的基于自监督学习的语音鉴伪方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的基于自监督学习的语音鉴伪方法的步骤。

本申请实施例提供的一种基于自监督学习的语音鉴伪方法、装置及存储介质，所述语音鉴伪方法包括：获取待鉴伪语音；将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量；针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量；将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。通过对鉴伪语音的波形进行增强处理以及对自监督学习前端网络层之中各层变形器编码单元的语音特征向量进行叠加处理，得到叠加后的语音特征向量，为鉴伪网络层提供了有效语音表征信息，从而提高了语音鉴伪的准确率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种基于自监督学习的语音鉴伪方法的流程图；

图2为本申请实施例所提供的一种基于自监督学习的语音鉴伪方法的流程示意图；

图3为本申请实施例所提供的一种基于自监督学习的语音鉴伪装置的结构示意图；

图4为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“对语音进行鉴伪”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要对语音进行鉴伪的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供了种语音的鉴伪方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音检测技术领域。

经研究发现，深度学习从大量数据中自动学习的能力使其在各种领域广泛应用，但是传统的监督学习模型极度依赖于大量的有标签数据。所以自监督学习的到了广泛关注，因为它可以从数据自己本身中寻找伪标签来监督模型的训练。监督学习不仅需要大量的标注数据，它还面临着下面的各种问题，包括模型的泛化性能问题、监督训练数据相关性不高、对抗攻击等。当面对语音鉴伪的复杂多样的实际应用环境时会导致语音鉴伪的准确率低。所以，如何提高语音鉴伪的准确率成为了不容小觑的技术问题。

基于此，本申请实施例提供了一种基于自监督学习的语音鉴伪方法，通过对鉴伪语音的波形进行增强处理以及对自监督学习前端网络层之中各层变形器编码单元的语音特征向量进行叠加处理，得到叠加后的语音特征向量，为鉴伪网络层提供了有效语音表征信息，从而提高了语音鉴伪的准确率。

请参阅图1，图1为本申请实施例所提供的一种基于自监督学习的语音鉴伪方法的流程图。如图1中所示，本申请实施例提供的语音鉴伪方法，包括：

S101：获取待鉴伪语音。

该步骤中，可以在会议记录中获取到待鉴伪语音。

这里，不限定待鉴伪语音的来源，任何一种需要进行鉴伪的语音均可获取。

S102：将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音。

该步骤中，将待鉴伪语音输入到语音鉴伪模型的波形增强网络层之中，对待鉴伪语音进行波形增强处理，确定出波形增强处理后的待鉴伪语音。

这里，对波形进行增强是语音鉴伪模型过拟合过程，进而可以提升语音鉴伪模型泛化能力的有效措施。在实际场景中，语音受到各种话音传输、网络特性、编码译码器的干扰影响，自监督学习的海量无标签数据中没有刻意使用如此复杂多样的语音数据进行训练，因此在下游任务中，即精调（fine-tuning）过程中，需要采用模拟器（simulator）方式对干扰因素进行模拟增强，由此验证自监督学习与下游任务中数据增强的互补性。在本方案中不同于通常的语速抖动、增加背景噪声和背景音乐的数据增强方法，针对实际场景中复杂的话音传输干扰、网络特性干扰及设备干扰，直接作用于语音波形的增强方式。

语音受到各种话音传输（telephonic）干扰、编码译码器（codec）干扰和设备干扰，传输干扰包括VoIP、PSTN等影响；编码译码器干扰包括编解码、网络丢包丢帧、码率变化；设备干扰包括非线性失真、语谱缺失等。需要进一步考虑实际场景中实际干扰因素，上述自监督学习前端已经利用了大量无标签数据特性，单独的数据增强是应对这一问题的方法，但当前离线增强主要是针对速度扰动、加噪加混响，在线增强主要是针对已经提取特征的谱增强、特征变换等。前者不能很好地应对传输干扰和编码译码器干扰，后者不能很好地与端到端系统进行结合。因此，需要针对上述干扰因素，需要采用直接应用于原始语音波形的数据增强方法。

A：对所述待鉴伪语音进行语音格式的转换，确定出所述波形增强后的待鉴伪语音。

这里，对待鉴伪语音进行语音格式的转换，确定出波形增强后的待鉴伪语音。

其中，由于话音传输干扰，话音传输干扰主要是影响信道响应，是针对VoIP、PSTN、卫星通话等信道的话音数据，所以可以采用G.722、G.729、amr等语音格式对待鉴伪语音的语音格式进行转换。

B：基于高档码率、中档码率以及低档码率中的任意一种码率对所述待鉴伪语音进行波形增强处理，确定出所述波形增强后的待鉴伪语音。

这里，待鉴伪语音可以根据高档码率、中档码率以及低档码率中的任意一种码率进行波形增强处理，确定出波形增强后的待鉴伪语音。

其中，由于网络特性干扰中主要考虑压缩编解码的影响，针对网络特性的有损编解码，采用ffmpeg或sox软件工具，实现多种网络音频格式的互相转换，例如mp3、aac、silk、opus等。由于每种格式存在不同码率的影响，所以需要随机选取高中低三种档位的码率进行波形增强。

C：基于宽带编码译码器或窄带编码译码器对所述待鉴伪语音进行波形增强处理，确定出所述波形增强后的待鉴伪语音。

这里，待鉴伪语音根据宽带编码译码器或窄带编码译码器进行波形增强处理，确定出波形增强后的待鉴伪语音。

其中，编码译码器干扰主要体现在宽带编码译码器（wide-band codec）或窄带编码译码器（narrow-band codec）的使用。带通滤波的影响会造成高频信息的丢失，因此，需要对语音进行宽带或窄带编码译码器的模拟增强。

S103：将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量。

该步骤中，将波形增强后的待鉴伪语音输入至语音鉴伪模型的自监督学习前端网络层之中，确定出波形增强后的待鉴伪语音的每一语音片段在各层变形器编码单元的语音特征向量。

这里，面对语音鉴伪的复杂多样实际应用环境，会衍生出模型的泛化性能问题、监督训练数据相关性不高、对抗攻击等问题，基于深度学习的鉴伪系统从操作层面或者代价方面均无法获取大量实际场景的标注数据，因此，基于预训练的自监督学习方法的语音鉴伪模型用做鉴伪系统的前端，然后基于下游任务中少量有监督的鉴伪数据训练鉴伪分类模型，很好地利用了海量无监督训练数据的丰富数据学习语音表征特性（speechrepresentation），提升泛化性，也实现了前置任务和下游任务解耦，下游任务中仍可采用当前最为有效的端到端鉴伪分类网络，自监督学习前端取代当前基于正弦卷积层（sincconvolutional layer）前端。

（1）：对所述波形增强后的待鉴伪语音进行语音分段处理，确定出多个所述语音片段。

这里，对波形增强后的待鉴伪语音进行语音分段处理，确定出多个语音片段。

这里，可以对波形增强后的待鉴伪语音以每5s为一个语音片段进行语音分段，这里，不限定语音分段的处理方式。

（2）：将每个所述语音片段输入至第一层所述卷积编码单元之中，对每个所述语音片段进行卷积处理，确定出每个所述语音片段对应的第一语音特征向量。

这里，将每个语音片段输入至第一层卷积编码单元之中，对每个语音片段进行卷积处理，确定出每个语音片段对应的第一语音特征向量。

其中，卷积编码单元可为7层，将每个语音片段先输入至第一层卷积编码单元之中，对每个语音片段进行卷积处理，确定出每个语音片段对应的第一语音特征向量。

（3）：将每个所述第一语音特征向量输入至第二层所述卷积编码单元之中，直至所述卷积编码单元为最后一层所述卷积编码单元时，确定出每个所述语音片段对应的第二语音特征向量。

这里，将每个第一语音特征向量输入至第二层卷积编码单元之中，直至卷积编码单元为最后一层所述卷积编码单元时，确定出每个语音片段对应的第二语音特征向量。

这里，举例来讲，卷积编码单元可为3层，将每个语音片段输入至第一层卷积编码单元之中，对每个语音片段进行卷积处理，确定出每个语音片段对应的第一语音特征向量。然后，再将每个语音片段对应的第一语音特征向量输入至第二层卷积编码单元之中，得到每个语音片段对应的第一参考语音特征向量，将每个语音片段对应的参考语音特征向量输入至第三层卷积编码单元之中，得到每个语音片段对应的第二语音特征向量。

（4）：将每个所述语音片段对应的第二语音特征向量输入至第一所述变形器编码单元之中，对每个所述第二语音特征向量进行注意力计算，确定出每个所述语音片段的第三语音特征向量。

这里，将每个语音片段对应的第二语音特征向量输入至第一层变形器编码单元之中，对每个第二语音特征向量进行注意力计算，确定出每个语音片段的第三语音特征向量。

其中，变形器编码单元可为7层，将每个语音片段对应的第二语音特征向量先输入至第一层变形器编码单元之中，确定出每个语音片段的第三语音特征向量。

（5）：将每个所述第三语音特征向量输入至第二层所述变形器编码单元之中，直至所述变形器编码单元为最后一层所述变形器编码单元时，抽取出各个所述变形器编码单元相对应语音片段的多个语音特征向量。

这里，将每个第三语音特征向量输入至第二层变形器编码单元之中，直至所述变形器编码单元为最后一层所述变形器编码单元时，抽取出各个所变形器编码单元相对应语音片段的多个语音特征向量。

这里，举例来讲，若变形器编码单元为3层，则将每个语音片段对应的第二语音特征向量输入至第一层变形器编码单元，确定出每个语音片段的第三语音特征向量，将每个语音片段的第三语音特征向量输入至第二层变形器编码单元，确定出每个语音片段的第二参考语音特征向量，将每个语音片段的第二参考语音特征向量输入至第三层变形器编码单元，确定出每个语音片段的第三参考语音特征向量，针对于每个语音片段，将三层变形器编码单元关于语音片段的第三语音特征向量、第二参考语音特征向量以及第三参考语音特征向量进行抽取作为语音片段的多个语音特征向量。

S104：针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量。

该步骤中，对于每个语音片段的多个语音特征向量，将该语音片段的多个语音特征向量输入至自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，然后对叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量。

这里，基于海量无标签语音数据，自监督学习前端网络层之中各层变形器编码单元学习到了一些结构化的语音信息，低层网络学习到了帧（frame）级别的信息表征，中层网络学习到了丰富的语音学特征，而高层网络则学到了较为丰富的语义信息特征。所以，针对于每个语音片段需要对各层变形器编码单元的语音特征向量叠加起来。

这里，若要发挥自监督学习的效果，需要考虑自监督学习与具体下游任务的结合。基于自监督学习前端提取的语音表征，需要结合鉴伪任务做针对性的改进，即对自监督预训练的特征进行后处理，再送入下游鉴伪任务。主要体现在，如何抽取丰富的自监督表征信息、表征信息如何有效聚合、如何与已有的鉴伪任务无缝结合等。

a：将多个所述语音特征向量输入至所述自监督学习处理网络层的多层抽取叠加单元之中，将每个所述语音特征向量与相对应的变形器编码单元的权重进行相乘，确定出多个第四语音特征向量。

这里，将多个语音特征向量输入至自监督学习处理网络层的多层抽取叠加单元之中，将每个语音特征向量与自身相对应的变形器编码单元的权重进行相乘，确定出多个第四语音特征向量。其中，每一层变形器编码单元的权重之间是不相同的，且，每一层变形器编码单元的权重是固定不变的。

b：将多个所述第四语音特征向量进行加和，确定出所述叠加后的语音特征向量。

这里，通过以下公式确定出叠加后的语音特征向量：

其中，

表示第n层变形器编码单元的语音片段t的语音特征向量，

，

。N表示变形器编码单元总层数，T表示语音片段的总数量。

表示第n层变形器编码单元的权重，与时刻t无关。

S1041：将所述叠加后的语音特征向量输入至所述自监督学习处理网络层的表征向量降维单元，对所述叠加后的语音特征向量进行降维处理，确定出降维语音特征向量。

这里，将叠加后的语音特征向量输入至表征向量降维单元，对所叠加后的语音特征向量进行降维处理，确定出降维语音特征向量，以实现降低后续单元处理的复杂度。

S1042：将所述降维语音特征向量输入至所述自监督学习处理网络层的时间循环神经单元，对所述降维语音特征向量进行声音特征提取，确定出声音特征向量。

这里，将降维语音特征向量输入至时间循环神经单元，对降维语音特征向量进行声音特征提取，确定出声音特征向量。

其中，采用了跳跃连接结构的时间循环神经单元（LSTM），使得有效信息能够进一步往后传递。同时，时间循环神经单元能够发挥连续上下文时序关系带来的有效作用。

S1043：将所述声音特征向量输入至所述自监督学习处理网络层的池化聚合单元之中，对所述声音特征向量进行池化处理，确定出池化后的声音特征向量。

这里，将声音特征向量输入至池化聚合单元之中，对声音特征向量进行池化处理，确定出池化后的声音特征向量。

其中，声音特征向量通过池化聚合模块实现对信息的抓取。为了实现通过不同的池化方式抓取到不同的信息，这里池化聚合单元分别采用了针对向量整体特征和向量局部特征的多池化组合，再将结果输送到下一个单元。向量整体特征抓取方面，采用了GAP（Global Average Pooling）的池化结果。向量局部特征抓取方面，采用了SAP（Self-attentive Pooling）的池化结果。

S1044：将所述池化后的声音特征向量输入至所述自监督学习处理网络层的全连接单元，对所述池化后的声音特征向量进行维度转换，确定出与预设维度相符合的语音片段的所述目标特征向量。

这里，将池化后的声音特征向量输入至全连接单元，对池化后的声音特征向量进行维度转换，确定出与预设维度相符合的语音片段的目标特征向量。

S105：将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。

该步骤中，将多个目标特征向量输入至语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出待鉴伪语音是否为虚假语音。

在一种可能的实施方式中，将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音，包括：对多个所述目标特征向量进行鉴伪处理，确定出鉴伪分数。

这里，对多个目标特征向量进行鉴伪处理，确定出鉴伪分数。

：检测所述鉴伪分数是否大于预设鉴伪分数阈值。

这里，检测鉴伪分数是否大于预设鉴伪分数阈值。

：若是，则确定出所述待鉴伪语音为虚假语音。

这里，若鉴伪分数大于预设鉴伪分数阈值，则确定出待鉴伪语音为虚假语音。

进一步的，请参阅图2，图2为本申请实施例所提供的一种基于自监督学习的语音鉴伪方法的流程示意图。如图2所示，获取待鉴伪语音，将待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，确定出波形增强后的待鉴伪语音，将波形增强后的待鉴伪语音输入到多层卷积编码单元，输出每个语音片段对应的第二语音特征向量，将每个语音片段对应的第二语音特征向量输入至多层变形器编码单元，抽取出各个变形器编码单元相对应语音片段的多个语音特征向量。将每个语音片段的多个语音特征向量输入至多层抽取叠加单元之中确定出每个语音片段的叠加后的语音特征向量，将叠加后的语音特征向量输入至表征向量降维单元，确定出降维语音特征向量，将降维语音特征向量输入至时间循环神经单元，确定出声音特征向量；将声音特征向量输入至池化聚合单元之中，确定出池化后的声音特征向量；将池化后的声音特征向量输入至全连接单元，确定出多个目标特征向量。将多个目标特征向量输入至鉴伪网络层之中确定出待鉴伪语音是否为虚假语音。

本申请实施例提供的一种基于自监督学习的语音鉴伪方法，所述语音鉴伪方法包括：获取待鉴伪语音；将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量；针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量；将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。通过对鉴伪语音的波形进行增强处理以及对自监督学习前端网络层之中各层变形器编码单元的语音特征向量进行叠加处理，得到叠加后的语音特征向量，为鉴伪网络层提供了有效语音表征信息，从而提高了语音鉴伪的准确率。

请参阅图3，图3为本申请实施例所提供的一种基于自监督学习的语音鉴伪装置的结构示意图。如图3中所示，所述基于自监督学习的语音鉴伪装置300包括：

获取模块310，用于获取待鉴伪语音；

波形增强模块320，用于将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；

前端学习模块330，用于将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量；

处理模块340，用于针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量；

确定模块350，用于将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。

进一步的，所述波形增强模块320在用于所述将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音时，所述波形增强模块320具体用于：

进一步的，前端学习模块330在用于所述自监督学习前端网络层还包括多层卷积编码单元，所述将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量时，前端学习模块330具体用于：

进一步的，处理模块340在用于所述对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量时，处理模块340具体用于：

进一步的，处理模块340在用于所述对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量时，处理模块340具体用于：

进一步的，确定模块350在用于将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音时，确定模块350具体用于：

对多个所述目标特征向量进行鉴伪处理，确定出鉴伪分数；

检测所述鉴伪分数是否大于预设鉴伪分数阈值；

若是，则确定出所述待鉴伪语音为虚假语音。

本申请实施例提供的一种基于自监督学习的语音鉴伪装置，所述语音鉴伪装置包括：获取模块，用于获取待鉴伪语音；波形增强模块，用于将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音；前端学习模块，用于将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量；处理模块，用于针对于每个语音片段的多个语音特征向量，将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中，对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量；确定模块，用于将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音。通过对鉴伪语音的波形进行增强处理以及对自监督学习前端网络层之中各层变形器编码单元的语音特征向量进行叠加处理，得到叠加后的语音特征向量，为鉴伪网络层提供了有效语音表征信息，从而提高了语音鉴伪的准确率。

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1所示方法实施例中的基于自监督学习的语音鉴伪方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的基于自监督学习的语音鉴伪方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自监督学习的语音鉴伪方法，其特征在于，所述语音鉴伪方法包括：

获取待鉴伪语音；

2.根据权利要求1所述的语音鉴伪方法，其特征在于，所述将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音，包括：

3.根据权利要求1所述的语音鉴伪方法，其特征在于，所述自监督学习前端网络层还包括多层卷积编码单元，所述将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中，确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量，包括：

4.根据权利要求1所述的语音鉴伪方法，其特征在于，所述对多个语音特征向量进行叠加处理，得到叠加后的语音特征向量，包括：

5.根据权利要求1所述的语音鉴伪方法，其特征在于，所述对所述叠加后的语音特征向量进行特征处理，确定出该语音片段的目标特征向量，包括：

6.根据权利要求1所述的语音鉴伪方法，其特征在于，将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中，进行鉴伪处理，确定出所述待鉴伪语音是否为虚假语音，包括：

对多个所述目标特征向量进行鉴伪处理，确定出鉴伪分数；

检测所述鉴伪分数是否大于预设鉴伪分数阈值；

若是，则确定出所述待鉴伪语音为虚假语音。

7.一种基于自监督学习的语音鉴伪装置，其特征在于，所述语音鉴伪装置包括：

获取模块，用于获取待鉴伪语音；

8.根据权利要求7所述的语音鉴伪装置，其特征在于，所述波形增强模块在用于所述将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中，对所述待鉴伪语音进行波形增强处理，确定出波形增强后的待鉴伪语音时，所述波形增强模块具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的基于自监督学习的语音鉴伪方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的基于自监督学习的语音鉴伪方法的步骤。