CN115497481B

CN115497481B - 一种虚假语音的识别方法、装置、电子设备及存储介质

Info

Publication number: CN115497481B
Application number: CN202211437338.4A
Authority: CN
Inventors: 郑榕; 孟凡芹
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-03
Anticipated expiration: 2042-11-17
Also published as: CN115497481A

Abstract

本申请提供了一种虚假语音的识别方法、装置、电子设备及存储介质，包括：将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；将待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；基于第一隐藏噪声嵌入向量、第二隐藏噪声嵌入向量、声纹嵌入向量以及鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；将目标声纹增强向量以及目标鉴伪增强向量输入至检测模型之中，输出待识别语音是否为虚假语音。通过重构变分自动编码器对噪声嵌入分布进行估计，可以增强语音检测的准确率和效率。

Description

一种虚假语音的识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其是涉及一种虚假语音的识别方法、装置、电子设备及存储介质。

背景技术

自动声纹识别技术的发展正在深刻地影响和改变着当前的人机交互系统，接受说话人的语音并识别出该说话人的身份。然而，随着人工神经网络和深度学习技术的发展，越来越多的研究者开始研究如何攻击声纹识别系统。语音欺骗攻击包括声音转换、语音合成和语音重放等。在语音欺骗攻击中，攻击者通常会利用各种算法生成和目标说话人尽可能相似的语音。

现阶段，在声纹识别系统走向实际应用的过程中，需要鉴别各种来源音频的真伪，从大量音频数据或视频的音轨数据中筛选出与特定/重要人员相似的音频，得到相似音频是否伪造音频的结论。但是在实际声纹识别过程中会出现语音检测识别性能下降的问题，所以准确地识别出语音的真伪成为了不容小觑的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种虚假语音的识别方法、装置、电子设备及存储介质，实现了针对复杂的噪声嵌入分布，利用重构变分自动编码器对噪声嵌入分布进行估计得到隐藏噪声嵌入向量，将隐藏噪声嵌入向量应用到语音鉴伪任务之中，从而实现了增强了语音的同一性和真实性检测的准确率和效率。

本申请实施例提供了一种虚假语音的识别方法，所述识别方法包括：

获取待识别语音；

将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；其中，所述声纹噪声嵌入生成器以及所述鉴伪噪声嵌入生成器均为重构变分自动编码器；

将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；

基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；

将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。

在一种可能的实施方式中，所述基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量，包括：

将所述声纹嵌入向量与所述第一隐藏噪声嵌入向量进行向量相加处理，确定出所述目标声纹增强向量；

将所述鉴伪嵌入向量与所述第二隐藏噪声嵌入向量进行向量相加处理，确定出所述目标鉴伪增强向量。

在一种可能的实施方式中，所述检测模型包括声纹分类器网络层以及鉴伪分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音，包括：

将所述目标声纹增强向量输入至所述声纹分类器网络层之中，输出声纹分数；

将所述目标鉴伪增强向量输入至所述鉴伪分类器网络层之中，输出鉴伪分数；

基于所述声纹分数以及所述鉴伪分数，输出所述待识别语音是否为虚假语音。

在一种可能的实施方式中，所述检测模型包括融合分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音，包括：

将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至所述融合分类器网络层之中，输出融合分数；

基于所述融合分数，输出所述待识别语音是否为虚假语音。

在一种可能的实施方式中，通过以下方式确定出所述重构变分自动编码器：

获取样本噪声嵌入向量；

将所述样本噪声嵌入向量输入至变分自动编码器之中，生成均值向量以及标准差向量；

将所述标准差向量与预设的正态分布随机向量进行相乘处理，生成目标向量，将所述目标向量与所述均值向量进行相加处理，生成样本隐藏噪声嵌入向量；

对所述样本隐藏噪声嵌入向量进行解码处理，输出重构噪声嵌入向量，并确定出所述样本噪声嵌入向量与所述重构噪声嵌入向量之间的损失值；

检测所述损失值是否小于预设阈值，若是，则停止对所述变分自动编码器的训练，确定出所述重构变分自动编码器。

在一种可能的实施方式中，针对所述样本噪声嵌入向量为样本声纹噪声向量，通过以下步骤获取确定出样本噪声嵌入向量：

获取样本含噪语音以及样本无噪语音；

将所述样本含噪语音输入至所述声纹编码器模型之中输出声纹含噪嵌入向量，将所述样本无噪语音输入至所述声纹编码器模型之中输出声纹无噪嵌入向量；

将所述声纹含噪嵌入向量以及所述声纹无噪嵌入向量进行相减处理，生成所述样本声纹噪声向量。

在一种可能的实施方式中，针对所述样本噪声嵌入向量为样本鉴伪噪声向量，通过以下步骤获取确定出样本噪声嵌入向量：

获取样本含噪语音以及样本无噪语音；

将所述样本含噪语音输入至所述鉴伪编码器模型之中输出鉴伪含噪嵌入向量，将所述样本无噪语音输入至所述鉴伪编码器模型之中输出鉴伪无噪嵌入向量；

将所述鉴伪含噪嵌入向量以及所述鉴伪无噪嵌入向量进行相减处理，生成所述样本鉴伪噪声向量。

本申请实施例还提供了一种虚假语音的识别装置，所述识别装置包括：

获取模块，用于获取待识别语音；

隐藏噪声嵌入向量生成模块，用于将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；其中，所述声纹噪声嵌入生成器以及所述鉴伪噪声嵌入生成器均为重构变分自动编码器；

第一向量生成模块，用于将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；

第二向量生成模块，用于基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；

检测模块，用于将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的虚假语音的识别方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的虚假语音的识别方法的步骤。

本申请实施例提供的一种虚假语音的识别方法、装置、电子设备及存储介质，所述识别方法包括：获取待识别语音；将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；其中，所述声纹噪声嵌入生成器以及所述鉴伪噪声嵌入生成器均为重构变分自动编码器；将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。实现了针对复杂的噪声嵌入分布，利用重构变分自动编码器对噪声嵌入分布进行估计得到隐藏噪声嵌入向量，将隐藏噪声嵌入向量应用到语音鉴伪任务之中，从而增强了语音的同一性和真实性检测的准确率和效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种虚假语音的识别方法的流程图；

图2为本申请实施例所提供的重构变分自动编码器的流程示意图；

图3为本申请实施例所提供的虚假语音的识别方法的流程示意图；

图4为本申请实施例所提供的一种虚假语音的识别装置的结构示意图之一；

图5为本申请实施例所提供的一种虚假语音的识别装置的结构示意图之二；

图6为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“对虚假语音进行识别”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行对虚假语音进行是被的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的一种虚假语音的识别方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音识别技术领域。

经验发现，现阶段，在声纹识别系统走向实际应用的过程中，需要鉴别各种来源音频的真伪，从大量音频数据或视频的音轨数据中筛选出与特定/重要人员相似的音频，得到相似音频是否伪造音频的结论。但是在实际声纹识别过程中会出现语音检测识别性能下降的问题，所以准确地识别出语音的真伪成为了不容小觑的技术问题。

为了应对实际环境中检测识别性能下降问题，提升系统的鲁棒性，通常采用数据增强的方法。但当前数据增强方法均由一定的局限性，例如，离线数据增强需要先对语音和噪声/混响数据进行加噪，生成大量数据存储并在训练过程中读取，对存储和磁盘I/O要求高。在线方式的数据增强，虽然节省了磁盘空间，但需要在每个训练batch中对数据重复加噪/加混响，极大地增加了训练时间。

基于此，本申请实施例提供了种虚假语音的识别方法，实现了针对复杂的噪声嵌入分布，利用重构变分自动编码器对噪声嵌入分布进行估计得到隐藏噪声嵌入向量，将隐藏噪声嵌入向量应用到语音鉴伪任务之中，从而实现了增强了语音的同一性和真实性检测的准确率和效率。

请参阅图1，图1为本申请实施例所提供的一种虚假语音的识别方法的流程图。如图1中所示，本申请实施例提供的识别方法，包括：

S101：获取待识别语音。

该步骤中，可以在会议记录的音频数据中获取到待识别语音，这里，不限定待识别语音的来源方式。

S102：将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量。

该步骤中，将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量。

这里，声纹噪声嵌入生成器以及鉴伪噪声嵌入生成器均为重构变分自动编码器（β-VAE）。

这里，声纹噪声向量是通过将含噪语音和干净语音分别输入至声纹编码器模型之中，分别提取出含噪语音对应的声纹含噪嵌入向量和干净语音对应的声纹干净嵌入向量，将声纹含噪嵌入向量和干净语音对应的声纹干净嵌入向量进行相减处理得到的。

其中，鉴伪噪声向量是通过将含噪语音和干净语音分别输入至鉴伪编码器模型之中，分别提取出含噪语音对应的鉴伪含噪嵌入向量和干净语音对应的鉴伪干净嵌入向量，将鉴伪含噪嵌入向量和干净语音对应的鉴伪干净嵌入向量进行相减处理得到的。

A：获取样本噪声嵌入向量。

这里，获取到样本噪声嵌入向量。

其中，样本噪声嵌入向量可为样本声纹噪声向量或者是样本鉴伪噪声向量中的任意一种。

（1）：获取样本含噪语音以及样本无噪语音。

这里，获取样本含噪语音以及样本无噪语音。

（2）：将所述样本含噪语音输入至所述声纹编码器模型之中输出声纹含噪嵌入向量，将所述样本无噪语音输入至所述声纹编码器模型之中输出声纹无噪嵌入向量。

这里，将样本含噪语音输入至声纹编码器模型之中输出声纹含噪嵌入向量，将样本无噪语音输入至声纹编码器模型之中输出声纹无噪嵌入向量。

（3）：将所述声纹含噪嵌入向量以及所述声纹无噪嵌入向量进行相减处理，生成所述样本声纹噪声向量。

这里，将声纹含噪嵌入向量以及声纹无噪嵌入向量进行相减处理，生成样本声纹噪声向量。

1）：获取样本含噪语音以及样本无噪语音。

这里，获取样本含噪语音和样本无噪语音。

2）：将所述样本含噪语音输入至所述鉴伪编码器模型之中输出鉴伪含噪嵌入向量，将所述样本无噪语音输入至所述鉴伪编码器模型之中输出鉴伪无噪嵌入向量。

这里，将样本含噪语音输入至鉴伪编码器模型之中输出鉴伪含噪嵌入向量，将样本无噪语音输入至鉴伪编码器模型之中输出鉴伪无噪嵌入向量。

3）：将所述鉴伪含噪嵌入向量以及所述鉴伪无噪嵌入向量进行相减处理，生成所述样本鉴伪噪声向量。

这里，将鉴伪含噪嵌入向量和鉴伪无噪嵌入向量进行相减处理，生成样本鉴伪噪声向量。

B：将所述样本噪声嵌入向量输入至变分自动编码器之中，生成均值向量以及标准差向量。

这里，将样本噪声嵌入向量输入至变分自动编码器之中，生成均值向量以及标准差向量。

其中，变分自动编码器是基于变量贝叶斯和图形模型的方法，不是把输入映射成一个固定的向量，而是把它映射成一个分布。把这个分布记为

，参数为

。输入嵌入（input embedding）向量x和潜在编码向量z（这里z是嵌入向量x的压缩低维表示）之间的关系可以定义为：先验概率

，似然概率

，后验概率

。在多变量高斯的情况下，潜在编码向量z通过学习分布的均值向量

、标准差向量

和随机变量

实现，其中随机性体现在随机变量

中。

C：将所述标准差向量与预设的正态分布随机向量进行相乘处理，生成目标向量，将所述目标向量与所述均值向量进行相加处理，生成样本隐藏噪声嵌入向量。

这里，将标准差向量与预设的正态分布随机向量进行相乘处理，生成目标向量，将目标向量与均值向量进行相加处理，生成样本隐藏噪声嵌入向量。

其中，通过以下公式确定出样本隐藏噪声嵌入向量：

其中，z表示样本隐藏噪声嵌入向量，

表示均值向量，

表示标准差向量，

表示随机变量，

满足标准正态分布N。

D：对所述样本隐藏噪声嵌入向量进行解码处理，输出重构噪声嵌入向量，并确定出所述样本噪声嵌入向量与所述重构噪声嵌入向量之间的损失值。

这里，利用以下公式确定出样本噪声嵌入向量与所述重构噪声嵌入向量之间的损失值：

其中，L为损失值，D为向量为顺序，M为待估计分布的样本噪声嵌入向量的数量，β为拉格朗日乘子，

为第d个样本噪声嵌入向量，

为第d个重构噪声嵌入向量，K为变量维度，

表示均值向量，

表示标准差向量。

这里，通过

个样本噪声嵌入向量的输入和重构，基于β-VAE的迭代训练实现噪声嵌入向量分布估计。

E：检测所述损失值是否小于预设阈值，若是，则停止对所述变分自动编码器的训练，确定出所述重构变分自动编码器。

这里，检测阈值是否小于预设阈值，若小于，则停止对变分自动编码器的训练，生成重构变分自动编码器。

在传统VAE的基础上，对VAE的损失函数进行了改进，在损失函数的第二项KL散度项加上一个超参数，即拉格朗日乘子β,称为β-VAE。这里β用于调整重构损失（reconstruction loss）和基于KL散度的规整损失（regularization loss）两者的占比。随着增加β，传统的VAE有了解耦的特性。当β=1时，它与VAE相同。当β>1时，它对潜在瓶颈的约束更强，并限制了潜在编码向量z的表示能力。β-VAE侧重发现分解的潜在因素，使得最大化生成真实数据的概率，同时保持真实分布和估计后验分布之间的距离足够小。

这里，嵌入表征空间（embedding space），特别是针对噪声嵌入表征而言，通常不是单一分布，无法用单一的均匀分布、拉普拉斯分布或者高斯分布模型进行描述。是多个分布的叠加，会受到潜在编码变量的影响。针对复杂分布，采用基于β-VAE的变分自编码器对噪声嵌入分布进行估计，并应用于噪声分布匹配。相较于通常的面向数据的离线或在线数据增强方法，面向嵌入表征空间的增强方法，在磁盘存储、I/O资源和训练时间等方面均有节省。

进一步的，请参阅图2，如图2所示，图2为本申请实施例所提供的重构变分自动编码器的流程示意图。如图2所示，将多对样本含噪语音和样本干净语音输入到声纹编码器模型/鉴伪编码器模型，在声纹编码器模型/鉴伪编码器模型之中输出样本含噪嵌入向量和样本干净嵌入向量。这里，在声纹编码器模型输出的样本含噪嵌入向量为声纹含噪嵌入向量，样本干净嵌入向量为声纹无噪嵌入向量。在鉴伪编码器模型输出的样本含噪嵌入向量为鉴伪含噪嵌入向量，样本干净嵌入向量为鉴伪无噪嵌入向量。然后，针对于声纹含噪嵌入向量以及声纹无噪嵌入向量进行相减处理，生成样本声纹噪声向量，针对于鉴伪含噪嵌入向量以及鉴伪无噪嵌入向量进行相减处理，生成样本鉴伪噪声向量。这里，样本噪声嵌入向量有两种类型分别为样本声纹噪声向量/样本鉴伪噪声向量。将样本噪声嵌入向量输入至变分自动编码器之中，生成均值向量以及标准差向量，将标准差向量与预设的正态分布随机向量进行相乘处理，生成目标向量，将目标向量与均值向量进行相加处理，生成样本隐藏噪声嵌入向量，对样本隐藏噪声嵌入向量进行解码处理生成重构噪声嵌入向量，利用损失函数计算出样本噪声嵌入向量与所述重构噪声嵌入向量之间的损失值，当阈值小于预设阈值时，则停止对变分自动编码器的训练，生成重构变分自动编码器。这里，若样本噪声嵌入向量为样本声纹噪声向量，则训练完成后的重构变分自动编码器为声纹噪声嵌入生成器。若样本噪声嵌入向量为样本鉴伪噪声向量，则训练完成后的重构变分自动编码器为鉴伪噪声嵌入生成器。

S103：将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量。

该步骤中，将待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量。

S104：基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量。

该步骤中，根据第一隐藏噪声嵌入向量、第二隐藏噪声嵌入向量、声纹嵌入向量以及鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量。

：将所述声纹嵌入向量与所述第一隐藏噪声嵌入向量进行向量相加处理，确定出所述目标声纹增强向量。

这里，将声纹嵌入向量与第一隐藏噪声嵌入向量进行向量相加处理，确定出目标声纹增强向量。

：将所述鉴伪嵌入向量与所述第二隐藏噪声嵌入向量进行向量相加处理，确定出所述目标鉴伪增强向量。

这里，将鉴伪嵌入向量与第二隐藏噪声嵌入向量进行向量相加处理，确定出目标鉴伪增强向量。

S105：将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。

该步骤中，将目标声纹增强向量以及目标鉴伪增强向量输入至检测模型之中，输出待识别语音是否为虚假语音。

这里，对待识别语音的检测为判断该待识别语音的说话人是否为同一人和该待识别语音是否为伪造的。

a：将所述目标声纹增强向量输入至所述声纹分类器网络层之中，输出声纹分数。

这里，将目标声纹增强向量输入至所述声纹分类器网络层之中，输出声纹分数。

：将所述目标鉴伪增强向量输入至所述鉴伪分类器网络层之中，输出鉴伪分数。

这里，将目标鉴伪增强向量输入至鉴伪分类器网络层之中，输出鉴伪分数。

：基于所述声纹分数以及所述鉴伪分数，输出所述待识别语音是否为虚假语音。

这里，对纹分数以及鉴伪分数进行分数加权处理，确定出综合分数，检测综合分数是否大于预设分数，若是，则该待识别语音为虚假语音。

进一步的，请参阅图3，图3为本申请实施例所提供的虚假语音的识别方法的流程示意图。如图3所示，将待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量。在声纹噪声嵌入生成器中获取到第一隐藏噪声嵌入向量，在鉴伪噪声嵌入生成器中获取到第二隐藏噪声嵌入向量，将声纹嵌入向量与第一隐藏噪声嵌入向量进行向量相加处理，确定出目标声纹增强向量；将鉴伪嵌入向量与第二隐藏噪声嵌入向量进行向量相加处理，确定出目标鉴伪增强向量。将目标声纹增强向量输入至声纹分类器网络层之中，输出声纹分数，将目标鉴伪增强向量输入至鉴伪分类器网络层之中，输出鉴伪分数。对声纹分数以及鉴伪分数进行加权处理，确定出待识别语音是否为虚假语音。

在一种可能的实施，所述检测模型包括融合分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音，包括：

：将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至所述融合分类器网络层之中，输出融合分数。

这里，将目标声纹增强向量以及目标鉴伪增强向量输入至融合分类器网络层之中，输出融合分数。

二：基于所述融合分数，输出所述待识别语音是否为虚假语音。

这里，检测融合分数是否大于预设分数，若是，则该待识别语音为虚假语音。

在具体实施例中，将待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量。在声纹噪声嵌入生成器中获取到第一隐藏噪声嵌入向量，在鉴伪噪声嵌入生成器中获取到第二隐藏噪声嵌入向量，将声纹嵌入向量与第一隐藏噪声嵌入向量进行向量相加处理，确定出目标声纹增强向量；将鉴伪嵌入向量与第二隐藏噪声嵌入向量进行向量相加处理，确定出目标鉴伪增强向量。将目标声纹增强向量以及目标鉴伪增强向量输入至融合分类器网络层之中，输出融合分数，检测融合分数是否大于预设分数，若是，则该待识别语音为虚假语音。

本申请实施例提供的一种虚假语音的识别方法，所述识别方法包括：获取待识别语音；将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；其中，所述声纹噪声嵌入生成器以及所述鉴伪噪声嵌入生成器均为重构变分自动编码器；将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。实现了针对复杂的噪声嵌入分布，利用重构变分自动编码器对噪声嵌入分布进行估计得到隐藏噪声嵌入向量，将隐藏噪声嵌入向量应用到语音鉴伪任务之中，从而实现了增强了语音的同一性和真实性检测的准确率和效率。

请参阅图4、图5，图4为本申请实施例所提供的一种虚假语音的识别装置的结构示意图之一；图5为本申请实施例所提供的一种虚假语音的识别装置的结构示意图之二。如图4中所示，所述虚假语音的识别装置400包括：

获取模块410，用于获取待识别语音；

隐藏噪声嵌入向量生成模块420，用于将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；其中，所述声纹噪声嵌入生成器以及所述鉴伪噪声嵌入生成器均为重构变分自动编码器；

第一向量生成模块430，用于将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；

第二向量生成模块440，用于基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；

检测模块450，用于将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。

进一步的，第二向量生成模块440在用于所述基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量时，第二向量生成模块440具体用于：

进一步的，检测模块450在用于所述检测模型包括声纹分类器网络层以及鉴伪分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音时，检测模块450具体用于：

基于所述声纹分数以及所述鉴伪分数，确定出所述待识别语音是否为虚假语音。

进一步的，检测模块450在用于所述检测模型包括融合分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音时，检测模块450具体用于：

基于所述融合分数，输出所述待识别语音是否为虚假语音。

进一步的，如图5所示，虚假语音的识别装置400还包括模型训练模块460，所述模型训练模块460用于：

获取样本噪声嵌入向量；

进一步的，所述模型训练模块460在用于针对所述样本噪声嵌入向量为样本声纹噪声向量，通过以下步骤获取确定出样本噪声嵌入向量：

获取样本含噪语音以及样本无噪语音；

进一步的，所述模型训练模块460在用于针对所述样本噪声嵌入向量为样本鉴伪噪声向量，通过以下步骤获取确定出样本噪声嵌入向量：

获取样本含噪语音以及样本无噪语音；

本申请实施例提供的一种虚假语音的识别装置，所述识别装置包括：获取模块，用于获取待识别语音；隐藏噪声嵌入向量生成模块，用于将声纹噪声向量输入至声纹噪声嵌入生成器中输出第一隐藏噪声嵌入向量，将鉴伪噪声向量输入至鉴伪噪声嵌入生成器中输出第二隐藏噪声嵌入向量；其中，所述声纹噪声嵌入生成器以及所述鉴伪噪声嵌入生成器均为重构变分自动编码器；第一向量生成模块，用于将所述待识别语音输入至声纹编码器模型之中输出声纹嵌入向量，将所述待识别语音输入至鉴伪编码器模型之中输出鉴伪嵌入向量；第二向量生成模块，用于基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量；检测模块，用于将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音。实现了针对复杂的噪声嵌入分布，利用重构变分自动编码器对噪声嵌入分布进行估计得到隐藏噪声嵌入向量，将隐藏噪声嵌入向量应用到语音鉴伪任务之中，从而实现了增强了语音的同一性和真实性检测的准确率和效率。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1所示方法实施例中的虚假语音的识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的虚假语音的识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚假语音的识别方法，其特征在于，所述识别方法包括：

获取待识别语音；

将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音；

所述基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量，包括：

2.根据权利要求1所述的识别方法，其特征在于，所述检测模型包括声纹分类器网络层以及鉴伪分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音，包括：

3.根据权利要求1所述的识别方法，其特征在于，所述检测模型包括融合分类器网络层，所述将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音，包括：

基于所述融合分数，输出所述待识别语音是否为虚假语音。

4.根据权利要求1所述的识别方法，其特征在于，通过以下方式确定出所述重构变分自动编码器：

获取样本噪声嵌入向量；

5.根据权利要求4所述的识别方法，其特征在于，针对所述样本噪声嵌入向量为样本声纹噪声向量，通过以下步骤获取确定出样本噪声嵌入向量：

获取样本含噪语音以及样本无噪语音；

6.根据权利要求4所述的识别方法，其特征在于，针对所述样本噪声嵌入向量为样本鉴伪噪声向量，通过以下步骤获取确定出样本噪声嵌入向量：

获取样本含噪语音以及样本无噪语音；

7.一种虚假语音的识别装置，其特征在于，所述识别装置包括：

获取模块，用于获取待识别语音；

检测模块，用于将所述目标声纹增强向量以及所述目标鉴伪增强向量输入至检测模型之中，输出所述待识别语音是否为虚假语音；

所述第二向量生成模块在用于所述基于所述第一隐藏噪声嵌入向量、所述第二隐藏噪声嵌入向量、所述声纹嵌入向量以及所述鉴伪嵌入向量，确定出目标声纹增强向量以及目标鉴伪增强向量时，所述第二向量生成模块具体用于：

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的虚假语音的识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的虚假语音的识别方法的步骤。