CN114596879A

CN114596879A - 一种虚假语音的检测方法、装置、电子设备及存储介质

Info

Publication number: CN114596879A
Application number: CN202210297859.8A
Authority: CN
Inventors: 孟凡芹; 郑榕
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-07
Anticipated expiration: 2042-03-25
Also published as: CN114596879B

Abstract

本申请提供了一种虚假语音的检测方法、装置、电子设备及存储介质，方法包括：获取待检测语音；将待检测语音输入语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；将全频带语音特征和多个子频带语音特征输入组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，全频带局部特征和子频带局部特征均是在至少一个注意力维度上进行特征提取确定的；将全频带局部特征和多个子频带局部特征输入融合注意力网络层，确定出目标语音融合特征；基于目标语音融合特征，确定出待检测语音是否为虚假语音。通过直接将待检测语音输入语音检测模型中在不同注意力维度上进行全频带和子频带的语音特征提取，从而可以提高对虚假语音识别的准确率。

Description

一种虚假语音的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及语音检测的技术领域，尤其是涉及一种虚假语音的检测方法、装置、电子设备及存储介质。

背景技术

因为目前虚假语音的生成方式有很多种，比如录音回放、语音合成、语音转换和拼接等。并且由于不同的录音设备存在很多差异，语音合成和转换方法繁多，不同的生成方式对频谱的影响分布在不同频域，因此对虚假语音和真实语音的鉴别造成了很大的障碍，从而导致目前的虚假语音检测的准确性较低。

现阶段，一般采用对虚假语音和真实语音分别提取声纹特征数据，常见的方式比如梅尔倒谱系数特征，把虚假语音和真实语音的特征输入网络，进行迭代训练网络，最后得到虚假语音和真实语音的二分类识别模型。但是，这种方法往往只关注某一个子频带的信息或者毫无测重点的关注语音的所有信息，导致最终真假语音确定的准确率降低。所以，如何快速准确的确定出虚假语音成为了亟需解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种虚假语音的检测方法、装置、电子设备及存储介质，从而提高对虚假语音识别的准确率。

本申请实施例提供了一种虚假语音的检测方法，所述检测方法包括：

获取待检测语音；

将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；

将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，所述全频带局部特征和所述子频带局部特征均是在至少一个注意力维度上进行特征提取确定的；

将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征；

基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

在一种可能的实施方式中，所述嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元；所述将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征，包括：

将所述待检测语音输入至所述全频带嵌入特征提取单元，确定出所述全频带语音特征；

将所述待检测语音输入至所述子频带嵌入特征提取单元，将所述待检测语音按照频率划分成多个子频带区域，分别确定出每一所述子频带区域所对应的子频带语音特征。

在一种可能的实施方式中，通过以下方式确定出所述全频带局部特征：

将所述全频带语音特征输入至时间注意力单元，对所述全频带语音特征在时间注意力维度上进行特征学习，确定出全频带第一语音特征；

将所述全频带语音特征输入至频谱注意力单元，对所述全频带语音特征在频谱注意力维度上进行特征学习，确定出全频带第二语音特征；

将所述全频带语音特征输入至通道注意力单元，对所述全频带语音特征在通道注意力维度上进行特征学习，确定出全频带第三语音特征；

根据所述全频带第一语音特征、所述全频带第二语音特征以及所述全频带第三语音特征，确定出所述全频带局部特征；

其中，所述组合注意力网络层包含所述时间注意力单元、所述频谱注意力单元以及所述通道注意力单元。

在一种可能的实施方式中，所述将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合，确定出目标语音融合特征，包括：

将多个所述子频带局部特征进行特征融合，确定出组合子频带局部特征；

将所述组合子频带局部特征与所述全频带局部特征进行特征融合，确定出目标语音融合特征。

在一种可能的实施方式中，所述在将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征之前，所述检测方法还包括：

将所述全频带语音特征和多个所述子频带语音特征输入至所述的语音检测模型的编码网络层，对所述全频带语音特征和多个所述子频带语音特征进行编码处理，得到编码后的所述全频带语音特征和编码后的多个所述子频带语音特征；

所述将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征，包括：

将编码后的所述全频带语音特征和编码后的多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征。

在一种可能的实施方式中，所述基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音，包括：

对所述目标语音融合特征进行全连接处理，确定出所述待检测语音的虚假语音分值；

判断所述待检测语音的虚假语音分值是否大于或等于预设虚假语音分值；

若是，则确定出所述待检测语音为虚假语音；

若否，则确定出所述待检测语音为真实语音。

本申请实施例还提供了一种虚假语音的检测装置，所述检测装置包括：

获取模块，用于获取待检测语音；

特征提取模块，用于将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；

局部特征确定模块，用于将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，所述全频带局部特征和所述子频带局部特征均是在至少一个注意力维度上进行特征提取确定的；

特征融合模块，用于将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征；

判定模块，用于基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

在一种可能的实施方式中，所述特征提取模块在用于所述嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元；所述将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征，所述特征提取模块具体用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的虚假语音的检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的虚假语音的检测方法的步骤。

本申请提供了一种虚假语音的检测方法、装置、电子设备及存储介质，方法包括：通过将待检测语音直接输入到嵌入特征提取网络层进行特征提取，避免了语音特征的丢失提高了语音特征的有效性，然后将得到的全频带语音特征和多个子频带语音特征输入至组合注意力网络层，在不同注意力维度上进行全频带和子频带的语音特征提取，从而可以提高对虚假语音识别的准确率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种虚假语音的检测方法的流程图；

图2为本申请实施例所提供的语音检测模型的网络结构示意图；

图3为本申请实施例所提供的另一种虚假语音的检测方法的流程图；

图4为本申请实施例所提供的一种虚假语音的检测装置的结构示意图之一；

图5为本申请实施例所提供的一种虚假语音的检测装置的结构示意图之二；

图6为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“对虚假语音进行确定”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行对虚假语音进行确定的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的一种虚假语音的检测方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于虚假语音检测的技术领域。

经研究发现，现阶段，一般采用对虚假语音和真实语音分别提取声纹特征数据，常见的方式比如梅尔倒谱系数特征，把虚假语音和真实语音的特征输入网络，进行迭代训练网络，最后得到虚假语音和真实语音的二分类识别模型。但是，这种方法往往只关注某一个子频带的信息或者毫无测重点的关注语音的所有信息，导致最终真假语音确定的准确率降低。所以，如何快速准确的确定出虚假语音成为了亟需解决的问题。

基于此，本申请实施例提供了一种虚假语音的检测方法、装置、电子设备及存储介质，通过直接将待检测语音输入语音检测模型中在不同注意力维度上进行全频带和子频带的语音特征提取，从而可以提高对虚假语音识别的准确率。

请参阅图1，图1为本申请实施例所提供的一种虚假语音的检测方法的流程图。如图1中所示，本申请实施例提供的检测方法，包括：

S101：获取待检测语音。

该步骤中，可以在录音设备中获取到一段待检测语音，这里不限制获取待检测语音的方式。

这里，待检测语音是经过编码格式处理后所得到的，如，原始的语音可能有多种编码格式，比如mp3、wav、flac等，一般使用的语音是pcm格式的，这部分需要将原始语音进行转换为pcm格式的语音，以使为将待检测语音输入到语音检测模型做准备。

S102：将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征。

该步骤中，将待检测语音输入到预先训练好的语音检测模型的嵌入特征提取网络层进行特征提取，确定出全频带语音特征和多个子频带语音特征。

其中，全频带语音特征为在待检测语音的全频率范围内进行特征提取；子频带语音特征为将待检测语音在频率范围内划分为多个子频带区域，根据子频带区域进行特征提取。

其中，将待检测语音直接输入到嵌入特征调取网络层进行特征提取，而不是提取特征后再输入语音检测模型，这样，可以避免待检测语音在特征提取的过程中部分特征缺失的问题，从而影响检测的性能。

这里，语音检测模型是用于对待检测语音进行虚假语音检测。其中，语音检测模型包括嵌入特征提取网络层、全频带嵌入特征提取单元、子频带嵌入特征提取单元、组合注意力网络层、时间注意力单元、频谱注意力单元、通道注意力单元以及融合注意力网络层，将待检测语音输入到语音检测模型，快速准确地输出虚假语音检测结果。

这样，采用端到端的架构，不需要单独的提取待检测语音的特征，避免特征的意外丢失等风险，从而提高特征的有效性。

进一步的，所述嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元；所述将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征，包括：

A：将所述待检测语音输入至所述全频带嵌入特征提取单元，确定出所述全频带语音特征。

这里，嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元，全频带嵌入特征提取单元只对待检测语音的序列信息在全频率范围内进行语音特征提取，确定出全频带语音特征。

其中，全频带语音特征表征着待检测语音的全频率范围下的语音特征信息。

B：将所述待检测语音输入至所述子频带嵌入特征提取单元，将所述待检测语音按照频率划分成多个子频带区域，分别确定出每一所述子频带区域所对应的子频带语音特征。

这里，子频带嵌入特征提取单元将待检测语音按照频率划分成多个子频带区域，对各个子频带区域所述对应的语音序列信息进行特征提取，确定出每一个子频带区域所对应的子频带语音特征。

这里，可以根据专家经验或者是预设时间段对频率进行划分，得到多个子频带区域。

其中，子频带嵌入特征提取单元和全频带嵌入特征提取单元均由两个一维卷积神经网络，卷积核大小为32，一个2维BatchNorm，激活函数为ReLu组成。

在具体实施例中，将有效音频为8000Hz的待检测语音复制两份，分别输入到全频带嵌入特征提取单元和子频带嵌入特征提取单元，全频带嵌入特征提取单元直接对待检测语音的序列信息在8000Hz内进行语音特征提取，确定出全频带语音特征。子频带嵌入特征提取单元将8000Hz的频率范围平均划分成五个子频带区域，分别为[0，1600]，[1600，3200]，[3200，4800] ，[4800，6400]以及[6400，8000]，然后在这五个子频带区域进行特征提取，确定出每一子频带区域所对应的子频带语音特征。

这样，利用子频带嵌入特征提取单元进行特征提取的方法能够让待检测语音在不同频率处的语音特征都有机会得到进一步的训练和学习，使得待检测语音的不同频率处的局部特征属性得到关注，从而提高语音检测模型检测的准确率。

S103：将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，所述全频带局部特征和所述子频带局部特征均是在至少一个注意力维度上进行特征提取确定的。

该步骤中，将全频带语音特征和多个子频带语音特征输入到组合注意力网络层，对全频带语音特征和多个子频带语音特征在注意力维度上进行特征提取，分别确定出全频带局部特征以及多个子频带局部特征。

这里，注意力维度包括时间注意力维度、频率注意力维度以及通道注意力维度等。

进一步的，通过以下方式确定出所述全频带局部特征：

（1）：将所述全频带语音特征输入至时间注意力单元，对所述全频带语音特征在时间注意力维度上进行特征学习，确定出全频带第一语音特征。

其中，将全频带语音特征输入到时间注意力单元，对全频带音特征在时间注意力维度上进行特征学习，确定出全频带第一语音特征。

其中，全频带第一语音特征只包含全频带语音特征在时间注意力上的特征信息，不包含其他注意力维度的特征信息。

（2）：将所述全频带语音特征输入至频谱注意力单元，对所述全频带语音特征在频谱注意力维度上进行特征学习，确定出全频带第二语音特征。

其中，将全频带语音特征输入到频率注意力单元，对全频带音特征在频率注意力维度上进行特征学习，确定出全频带第二语音特征。

其中，全频带第二语音特征只包含全频带语音特征在频率注意力上的特征信息，不包含其他注意力维度的特征信息。

（3）：将所述全频带语音特征输入至通道注意力单元，对所述全频带语音特征在通道注意力维度上进行特征学习，确定出全频带第三语音特征。

其中，将全频带语音特征输入到通道注意力单元，对全频带音特征在通道注意力维度上进行特征学习，确定出全频带第三语音特征。

其中，全频带第三语音特征只包含全频带语音特征在通道注意力上的特征信息，不包含其他注意力维度的特征信息。

（4）：根据所述全频带第一语音特征、所述全频带第二语音特征以及所述全频带第三语音特征，确定出所述全频带局部特征。

其中，将全频带第一语音特征、所述全频带第二语音特征以及所述全频带第三语音特征进行特征融合，确定出全频带局部特征。

其中，全频带局部特征携带着全频带语音特征在时间注意力维度、频率注意力维度以及通道注意力维度上的特征信息。

这里，时间注意力单元、频谱注意力单元以及通道注意力单元分别从不同的注意力维度上对语音的高级特征进行学习。其中注意力单元的网络结构均可以采用门控注意力网络（GAAN），GAAN不同于传统的多头注意机制，它没有给每个头部分配相等的权重，而是引入了一种自注意机制，该机制为每个头计算不同的权重，并且该自注意力机制是一个卷积子网络，卷积网络具有中心节点的特征，并且与之相邻以生成门值。

这样，通过时间注意力单元、频谱注意力单元以及通道注意力单元对全频带语音特征和多个子频带语音特征分别在时间、频率以及通道进行特征学习，在不同的注意力维度学习的时候，屏蔽了其他注意力维度的影响，从而实现了更加准确的对全频带语音特征和多个子频带语音特征的高级特征进行提取，从不同的注意力维度关注待检测语音的局部特征。

进一步的，针对于每一个子频带局部特征，通过以下方式确定出所述子频带局部特征：

将所述子频带语音特征输入至时间注意力单元，对所述子频带语音特征在时间注意力维度上进行特征学习，确定出子频带第一语音特征；

将所述子频带语音特征输入至频谱注意力单元，对所述子频带语音特征在频谱注意力维度上进行特征学习，确定出子频带第二语音特征；

将所述子频带语音特征输入至通道注意力单元，对所述子频带语音特征在通道注意力维度上进行特征学习，确定出子频带第三语音特征；

根据所述子频带第一语音特征、所述子频带第二语音特征以及所述子频带第三语音特征，确定出所述子频带局部特征。

举例来讲，针对于每一个子频带语音特征，将子频带语音特征输入至时间注意力单元得到子频带第一语音特征a，将子频带语音特征输入至频率注意力单元得到子频带第二语音特征b，将子频带语音特征输入至通道注意力单元得到子频带第三语音特征c，将子频带第一语音特征a、所述子频带第二语音特征b以及子频带第三语音特征c通过特征相乘的方式确定出子频带局部特征A。

举例来讲，输入组合注意力网络层的语音特征为

，其中C代表通道维度，T代表时间维度，F代表频率维度，在输入到时间注意力单元、频谱注意力单元以及通道注意力单元时分别对

经过最大池化层进行压缩变形重新分配权重。对于子频带语音特征，从组合注意力网络层中的时间注意力单元输入的特征为

压缩变形后的

，输出

，频谱注意力单元输入的子频带语音特征为

压缩变形后的

，输出

，通道注意力单元输入的子频带语音特征为特征

压缩变形后的

，输出

，其中

，

为子频带的数量，m和n为特征维度，t代表时间注意力单元，f代表频谱注意力单元，c代表通道注意力单元，i代表输入，o代表输出。对于全频带语音特征，从组合注意力网络层中的时间注意力单元输入的全频带语音特征为特征x压缩变形后的

，输出

，频谱注意力单元输入的全频带语音特征为x压缩变形后的

，输出

，通道注意力单元输入的全频带语音特征为特征x压缩变形后的

，输出

，gf代表全频带语音特征。

在具体实施例中，将全频带语音特征和多个子频带语音特征输入组合注意力网络层的时间注意力单元、频率注意力单元以及通道注意力单元，分别在全频带语音特征和子频带语音特征的时间域、频谱域、通道域，从不同的注意力维度上关注语音的局部特征。

S104：将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征。

该步骤中，将全频带局部特征和多个子频带局部特征输入至融合注意力网络层，对全频带局部特征和多个子频带局部特征进行特征融合，确定出目标语音融合特征。

这里，融合注意力网络层用于把从组合注意力网络层筛选得到的各个子频带局部特征和全频带局部特征进行特征融合，这样，不仅关注到了待检测语音在时间、频率、通道不同注意力维度下的局部特征，更将这几个注意力维度的特征进行了融合的特征训练，使得待检测语音特有的信息得到了更加全面的学习，从而能够更好的区分虚假语音和真实语音。

进一步的，所述将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合，确定出目标语音融合特征，包括：

a：将多个所述子频带局部特征进行特征融合，确定出组合子频带局部特征。

其中，将多个子频带局部特征以特征相加的方式进行特征融合，确定出组合子频带局部特征，此部分不限定特征融合的方式。

其中，多个子频带局部特征对应着多个特征。

b：将所述组合子频带局部特征与所述全频带局部特征进行特征融合，确定出目标语音融合特征。

其中，将组合子频带局部特征与全频带局部特征以特征相加的方式进行特征融合，确定出目标语音融合特征，此部分不限定特征融合的方式。

举例子来讲，将10条子频带局部特征A通过特征相加的方式进行特征融合，得到组合子频带局部特征B，将组合子频带局部特征B和全频带局部特征C通过特征相加的方式进行特征融合，得到目标语音融合特征D。

S105：基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

该步骤中，利用目标语音融合特征，确定出待检测语音是否为虚假语音。

：对所述目标语音融合特征进行全连接处理，确定出所述待检测语音的虚假语音分值。

其中，对目标语音融合特征进行全连接计算处理，确定出待检测语音的虚假语音分值。

：判断所述待检测语音的虚假语音分值是否大于或等于预设虚假语音分值。

其中，预设虚假语音分值可通过专家经验进行设定。

：若是，则确定出所述待检测语音为虚假语音；若否，则确定出所述待检测语音为真实语音。

其中，虚假语音可以为人工合成语音，真实语音为未经过加工的说话人语音。

在具体实施例中，将确定出来的待检测语音的虚假语音分值和预设虚假语音分值进行比较，当待检测语音的虚假语音分值大于或等于设虚假语音分值，则该待检测语音为虚假语音，当待检测语音的虚假语音分值小于预设虚假语音分值，则该待检测语音为真实语音。

本申请提供了一种虚假语音的检测方法，包括：获取待检测语音；将待检测语音输入语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；将全频带语音特征和多个子频带语音特征输入组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，全频带局部特征和子频带局部特征均是在至少一个注意力维度上进行特征提取确定的；将全频带局部特征和多个子频带局部特征输入融合注意力网络层，确定出目标语音融合特征；基于目标语音融合特征，确定出待检测语音是否为虚假语音。

这样，通过将待检测语音直接输入到嵌入特征提取网络层进行特征提取，避免了语音特征的丢失提高了语音特征的有效性，将全频带语音特征和多个所述子频带语音特征输入至组合注意力网络层，从不同注意力维度上关注语音的局部特征，从而提高更好的区分虚假语音的准确率。

请参阅图2，图2为本申请实施例所提供的一种语音检测模型的网络结构示意图的详细流程图。如图2中所示，将待检测语音输入到语音检测模型的全频带嵌入特征提取单元和子频带嵌入特征提取单元进行特征提取分别得到全频带语音特征和多个子频带语音特征，将全频带语音特征和多个子频带语音特征输入到编码网络层，进行编码处理，将编码处理后的全频带语音特征和多个子频带语音特征输入至组合注意力网络层，组合注意力网络层之中的时间注意力单元、频谱注意力单元以及通道注意力单元，分别确定出全频带局部特征和多个子频带局部特征，并输入至融合注意力网络层，将多个子频带局部特征进行特征融合得到组合子频带局部特征，将组合子频带局部特征与全频带局部特征进行特征融合，确定出目标语音融合特征。然后对目标语音融合特征进行全连接处理，输出待检测语音是否为虚假语音。

如图2中所示，语音检测模型的各个网络层的说明如下：

全频带嵌入特征提取单元用于对待检测语音直接进行全频带语音特征提取，子频带嵌入特征提取单元用于对待检测语音直接进行多个子频带区域的语音特征提取，编码网络层用于对输入的特征进行降维变形处理，时间注意力单元用于对输入的特征进行时间注意力维度上的特征学习，频率注意力单元用于对输入的特征进行频率注意力维度上的特征学习，通道注意力单元用于对输入的特征进行通道注意力维度上的特征学习，融合注意力网络层用于对输入的特征进行特征融合。

请参阅图3，图3为本申请实施例所提供的另一种虚假语音的检测方法的流程图。如图3中所示，本申请实施例提供的检测方法，包括：

S301：获取待检测语音。

S302：将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征。

其中，S301至S302的描述可以参照S101至S102的描述，并且能达到相同的技术效果，对此不做赘述。

S303：将所述全频带语音特征和多个所述子频带语音特征输入至所述的语音检测模型的编码网络层，对所述全频带语音特征和多个所述子频带语音特征进行编码处理，得到编码后的所述全频带语音特征和编码后的多个所述子频带语音特征。

该步骤中，将全频带语音特征和多个子频带语音特征输入至的语音检测模型的编码网络层，对全频带语音特征和多个子频带语音特征进行编码处理，以使在将编码后的全频带语音特征和多个子频带语音特征输入到各个注意力单元时分别对全频带语音特征和多个子频带语音特征经过最大池化层进行压缩变形重新分配权重，使得注意力单元只关注对应区域的信息。

其中，编码网络层主要用来对输入的特征进行降维度变形，为下一步的输入组合注意力网络层做准备，这一部分主要包含四个子模块，每个子模块组成部分为：一个一维卷积层，卷积核大小为32，一个2维BatchNorm，一个二维卷积，卷积核大小为64，一个激活函数为Selu，一个二维最大池化层。

S304：将编码后的所述全频带语音特征和编码后的多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征。

S305：将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征。

S306：基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

其中，S304至S306的描述可以参照S103至S105的描述，并且能达到相同的技术效果，对此不做赘述。

本申请实施例提供的一种虚假语音的检测方法，所述检测方法包括：获取待检测语音；将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；将所述全频带语音特征和多个所述子频带语音特征输入至所述的语音检测模型的编码网络层，对所述全频带语音特征和多个所述子频带语音特征进行编码处理，得到编码后的所述全频带语音特征和编码后的多个所述子频带语音特征；将编码后的所述全频带语音特征和编码后的多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征。将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征；基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

请参阅图4、图5，图4为本申请实施例所提供的一种虚假语音的检测装置的结构示意图之一，图5为本申请实施例所提供的一种虚假语音的检测装置的结构示意图之二。如图4中所示，所述检测装置400包括：

获取模块410，用于获取待检测语音；

特征提取模块420，用于将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；

局部特征确定模块430，用于将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，所述全频带局部特征和所述子频带局部特征均是在至少一个注意力维度上进行特征提取确定的；

特征融合模块440，用于将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征；

判定模块450，用于基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

进一步的，所述特征提取模块420在用于所述嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元；所述将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征，所述特征提取模块420具体用于：

进一步的，局部特征确定模块430用于通过以下方式确定出所述全频带局部特征：

进一步的，特征融合模块440在用于所述将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合，确定出目标语音融合特征时，特征融合模块440具体用于：

进一步的，在图5中所示，检测装置400还包括编码模块460，编码模块460用于：

将所述全频带语音特征和多个所述子频带语音特征输入至所述的语音检测模型的编码网络层，对所述全频带语音特征和多个所述子频带语音特征进行编码处理，得到编码后的所述全频带语音特征和编码后的多个所述子频带语音特征。

进一步的，局部特征确定模块430还用于：

进一步的，判定模块450在用于所述基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音时，判定模块450具体用于：

若是，则确定出所述待检测语音为虚假语音；

若否，则确定出所述待检测语音为真实语音。

本申请实施例提供的一种虚假语音的检测装置，所述检测装置包括：获取模块，用于获取待检测语音；特征提取模块，用于将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征；局部特征确定模块，用于将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征；其中，所述全频带局部特征和所述子频带局部特征均是在至少一个注意力维度上进行特征提取确定的；特征融合模块，用于将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合注意力网络层，确定出目标语音融合特征；判定模块，用于基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1以及图3所示方法实施例中的一种虚假语音的检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图3所示方法实施例中的一种虚假语音的检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚假语音的检测方法，其特征在于，所述检测方法包括：

获取待检测语音；

2.根据权利要求1所述的检测方法，其特征在于，所述嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元；所述将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征，包括：

3.根据权利要求1所述的检测方法，其特征在于，通过以下方式确定出所述全频带局部特征：

4.根据权利要求1所述的检测方法，其特征在于，所述将所述全频带局部特征和多个所述子频带局部特征输入至语音检测模型的融合，确定出目标语音融合特征，包括：

5.根据权利要求1所述的检测方法，其特征在于，所述在将所述全频带语音特征和多个所述子频带语音特征输入至所述语音检测模型的组合注意力网络层，确定出全频带局部特征以及多个子频带局部特征之前，所述检测方法还包括：

6.根据权利要求1所述的检测方法，其特征在于，所述基于所述目标语音融合特征，确定出所述待检测语音是否为虚假语音，包括：

若是，则确定出所述待检测语音为虚假语音；

若否，则确定出所述待检测语音为真实语音。

7.一种虚假语音的检测装置，其特征在于，所述检测装置包括：

获取模块，用于获取待检测语音；

8.根据权利要求7所述的检测装置，其特征在于，所述特征提取模块在用于所述嵌入特征提取网络层包含全频带嵌入特征提取单元和子频带嵌入特征提取单元；所述将所述待检测语音输入至预先训练好的语音检测模型的嵌入特征提取网络层，确定出全频带语音特征和多个子频带语音特征，所述特征提取模块具体用于：

将所述待检测语音输入至所述子频带嵌入特征提取单元，将所述待检测语音按照频率划分成多个子频带区域，从各个所述子频带区域分别确定出每一所述子频带区域所对应的子频带语音特征。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的虚假语音的检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的虚假语音的检测方法的步骤。